Docsity
Docsity

Prepara i tuoi esami
Prepara i tuoi esami

Studia grazie alle numerose risorse presenti su Docsity


Ottieni i punti per scaricare
Ottieni i punti per scaricare

Guadagna punti aiutando altri studenti oppure acquistali con un piano Premium


Guide e consigli
Guide e consigli


documento di matematica, Sintesi del corso di Complementi di matematica

esercizi di matematica da svolgere

Tipologia: Sintesi del corso

2022/2023

Caricato il 25/03/2026

649qrpcgmk
649qrpcgmk 🇮🇹

1 documento

1 / 61

Toggle sidebar

Questa pagina non è visibile nell’anteprima

Non perderti parti importanti!

bg1
1
Corso di Statistica per Scienze Biologiche. Simona Iacobelli
Esercizi Risolti
Con la collaborazione della dott.ssa Giulia Sbianchi
I seguenti esercizi sono raggruppati per Argomento per facilitare gli Studenti ad esercitarsi durante
l’apprendimento. E’ tuttavia fortemente consigliato analizzare ogni problema proposto come se non fosse già
catalogato per tipo, in modo da esercitarsi nel riconoscere le diverse situazioni e nell’individuare il metodo
adatto per rispondere.
Gli esercizi non sono disposti (strettamente) in ordine di dificoltà, e sono simili a quelli d’esame (o
leggermente più complicati). Alcuni presentano delle annotazioni concettuali o altri piccoli approfondimenti o
elementi di discussione. Agli esami comunque non ci saranno quesiti con risposte non oggettive o da
discutere.
Si raccomanda di focalizzarsi sui procedimenti e di leggere le spiegazioni fornite; al contrario è bene evitare
di focalizzarsi sui calcoli o imparare mnemonicamente le risoluzioni.
Si raccomanda infine di utilizzare (solo) gli stessi strumenti che si utilizzeranno all’esame: calcolatrice e
formulario distribuito e ammesso all’esame.
I calcoli sono svolti tenendo in memoria ad ogni passaggio un alto numero di decimali, ma sono riportati con
arrotondamento: questo può generare piccole discrepanze.
A proposito dell’arrotondamento: in preparazione e all’esame si raccomanda di non arrotondare ad ogni
passaggio ma solo alla fine, oppure, se è necessario arrotondare, di mantenere sempre almeno 4 o 5 cifre
decimali.
Sommario
Statistica descrittiva .......................................................................................................................................... 2
Stima e test su un parametro .......................................................................................................................... 14
Propagazione dell’errore di misura ................................................................................................................. 22
Confronti fra gruppi ......................................................................................................................................... 24
Numerosità campionaria minima .................................................................................................................... 38
Modelli lineari .................................................................................................................................................. 40
Calcolo delle Probabilità .................................................................................................................................. 47
pf3
pf4
pf5
pf8
pf9
pfa
pfd
pfe
pff
pf12
pf13
pf14
pf15
pf16
pf17
pf18
pf19
pf1a
pf1b
pf1c
pf1d
pf1e
pf1f
pf20
pf21
pf22
pf23
pf24
pf25
pf26
pf27
pf28
pf29
pf2a
pf2b
pf2c
pf2d
pf2e
pf2f
pf30
pf31
pf32
pf33
pf34
pf35
pf36
pf37
pf38
pf39
pf3a
pf3b
pf3c
pf3d

Anteprima parziale del testo

Scarica documento di matematica e più Sintesi del corso in PDF di Complementi di matematica solo su Docsity!

Esercizi Risolti

Con la collaborazione della dott.ssa Giulia Sbianchi

I seguenti esercizi sono raggruppati per Argomento per facilitare gli Studenti ad esercitarsi durante

l’apprendimento. E’ tuttavia fortemente consigliato analizzare ogni problema proposto come se non fosse già

catalogato per tipo, in modo da esercitarsi nel riconoscere le diverse situazioni e nell’individuare il metodo

adatto per rispondere.

Gli esercizi non sono disposti (strettamente) in ordine di dificoltà, e sono simili a quelli d’esame (o

leggermente più complicati). Alcuni presentano delle annotazioni concettuali o altri piccoli approfondimenti o

elementi di discussione. Agli esami comunque non ci saranno quesiti con risposte non oggettive o da

discutere.

Si raccomanda di focalizzarsi sui procedimenti e di leggere le spiegazioni fornite; al contrario è bene evitare

di focalizzarsi sui calcoli o imparare mnemonicamente le risoluzioni.

Si raccomanda infine di utilizzare (solo) gli stessi strumenti che si utilizzeranno all’esame: calcolatrice e

formulario distribuito e ammesso all’esame.

I calcoli sono svolti tenendo in memoria ad ogni passaggio un alto numero di decimali, ma sono riportati con

arrotondamento: questo può generare piccole discrepanze.

A proposito dell’arrotondamento: in preparazione e all’esame si raccomanda di non arrotondare ad ogni

passaggio ma solo alla fine, oppure, se è necessario arrotondare, di mantenere sempre almeno 4 o 5 cifre

decimali.

Sommario

Statistica descrittiva .......................................................................................................................................... 2

Stima e test su un parametro .......................................................................................................................... 14

Propagazione dell’errore di misura ................................................................................................................. 22

Confronti fra gruppi ......................................................................................................................................... 24

Numerosità campionaria minima .................................................................................................................... 38

Modelli lineari.................................................................................................................................................. 40

Calcolo delle Probabilità .................................................................................................................................. 47

Statistica descrittiva

(inclusi alcuni esercizi sull’utilizzo della Normale; altri es. nella sezione del Calcolo delle Probabilità)

ES 1

Data la seguente serie di dati su Lunghezza e Genere di 8 lucertole muraiole, per ciascuna delle due

variabili costruire la tabella di frequenza (per la variabile lunghezza prendere 140-|160, 160-|170, 170-|

come classi). Rappresentare, inoltre, le due distribuzioni con un opportuno grafico.

id Lunghezza, mm Sesso: 1=M, 2=F

1 165 M

2 157 F

3 168 F

4 178 M

5 171 F

6 182 M

7 182 M

8 153 F

Variabile: Sesso

Modalità Frequenza Percentuali

M 4 50%

F 4 50%

Totale 8 100%

Essendo Sesso una variabile qualitativa sconnessa, non vanno calcolare le frequenze percentuali cumulate.

La distribuzione può essere rappresentata, ad esempio, attraverso un grafico a barre (in basso a sinistra),

costituito da una colonna per ciascuna delle due modalità M e F, di altezza pari alla frequenza percentuale

corrispondente. È buona norma lasciare che l’asse verticale delle percentuali vada da 0 a 100 per evitare

distorsioni nella percezione delle frequenze.

N.B. I rettangoli devono essere separati.

Variabile: Lunghezza (mm)

Modalità Freq

assoluta

Freq

percentuale

Freq

cumulata

Freq

cumulata

percentuale

Ampiezza

classe

Densità di

frequenza

Tot 8 100%

Le ultime due colonne sono state aggiunte alla tabella di frequenza per poter costruire l’istogramma (in

basso a destra). Infatti, la distribuzione può essere rappresentata attraverso un istogramma delle frequenze,

costituito da tre rettangoli contigui, ciascuno disegnato in corrispondenza degli estremi della relativa classe,

ES 4

Calcolare la deviazione standard della lunghezza delle 8 lucertole dell’esercizio 1. Utilizzare prima la serie di

dati individuale e, successivamente, ripetere i calcoli partendo dalla tabella di frequenza.

La seguente tabella contiene i calcoli necessari per ottenere la deviazione standard nel caso dei dati

individuali

Numeratore della varianza = 230680 – 8∙ (169.5^2) = 838

Varianza = 838 /7 = 119.

Deviazione standard = sqrt(119.7143) = 10.

Utilizziamo ora la tabella di frequenza:

Lunghezza Freq. assoluta nj Freq. relativa fj Valore central xj xj^2 · nj

Tot 8 1.00 236350

Tot / n 29543.

Ripetiamo I calcoli visti in precedenza per la serie dei dati individuali. In questo caso la media è pari a

171.25, che è il valore della media ottenuto partendo dalla tabella di frequenza:

Numeratore della varianza = 236350 – 8∙ (171.25^2) = 1737.

Varianza = 1737.5 /7 = 248.

Deviazione standard = sqrt(248.2143) = 15.

ES 5

Calcolare il campo di variazione (range) e l’intervallo interquartilico Q3-Q1 della lunghezza delle 8 lucertole

dell’esercizio 1. (Utilizzare la serie dei dati individuali)

id

Lunghezza,

mm

x^

Tot 1356 230680

Tot/n 169.5 28835

Il campo di variazione (range) è ottenuto come differenza tra il valore massimo e il valore minimo della

distribuzione. Dunque, nel nostro caso è pari a 182 – 153 = 29.

Per poter calcolare l’intervallo interquartilico è necessario prima individuare Q1 e Q3, che sono dati dalle

modalità che occupano la posizione 8/4 = 2 e 8*3/4 = 6, rispettivamente. Quindi Q1 = 157 e Q3 = 178.

IQR = 178 – 157 = 21.

ES 6

Una dieta sperimentale per elefanti in età adulta viene utilizzata in due diversi centri A e B; gli elefanti del

centro A sono 25 e hanno un’età media pari a 54 anni mentre quelli trattati nel centro B sono 62 e hanno

un’età media di 58 anni. Qual è l’età media generale degli elefanti che hanno ricevuto la nuova dieta?

L’età media generale degli elefanti che hanno ricevuto la dieta sperimentale è ottenuta come media

ponderata delle due medie (54 e 58) con pesi pari alle numerosità dei due gruppi (25 e 62).

Media generale = (5425 + 5862) / (25+62) = 4946 / 87 = 56.

ES 7

In riferimento ai due centri A e B dell’esercizio precedente, sappiamo anche che la varianza dell’età era la

stessa per entrambi i centri e pari a 64. Possiamo dire che la variabilità dell’età degli elefanti sia la stessa

per entrambi i centri?

La risposta corretta è no perché il valore della media è diversa tra i due centri. Per valutare meglio la

variabilità dell’età tra i due centri possiamo utilizzare il coefficiente di variazione:

Deviazione standard: sqrt(64) = 8 in entrambi i gruppi;

CV nel gruppo A = 8/54 = 14.8%;

CV nel gruppo B = 8/58 = 13.8%.

C’è, dunque, una piccola differenza e la distribuzione dell’età degli elefanti del centro B risulta essere più

omogenea.

ES 8

Calcolare la media e la classe mediana della distribuzione del numero di Capsule di Petri in 31 laboratori

differenti riportata nella tabella seguente:

Capsule n

La variabile “Numero di Capsule di Petri” è una variabile quantitativa discreta, che in questo caso viene

trattata come se fosse una continua poiché assume molte modalità (varia da 1 a 60); infatti la distribuzione è

rappresentata attraverso una tabella di frequenza per un carattere in classi.

Per calcolare la media è necessario prima individuare il valore centrale per ogni classe, ottenuto come

(estremo inf + estremo sup)/2. Successivamente si calcola l’ammontare complessivo di capsule in ciascuna

classe come prodotto tra il valore centrale e la rispettiva frequenza. La media è data dal rapporto tra

l’ammontare complessivo di capsulein tutte le classi e la numerosità del campione, che è pari a 31.

ES 10

8 donne entro il 4° mese in gravidanza sono state seguite da un dietologo, che ha riportato per ciascuna il

seguente peso (in Kg): 64.3; 65.2; 70.0; 54.5; 58.8; 81.5; 61.0; 62.0. Calcolare la media e la mediana. I dati

suggeriscono una forte asimmetria della distribuzione del peso?

Per calcolare la mediana ordiniamo le osservazioni e individuiamo le modalità di posto 4 e 5 (9/2 = 4.5).

Un altro metodo per illustrare questa procedura di calcolo consiste nel disporre le osservazione in una

tabella e attribuire a ciascuna modalità il rispettivo rango:

Somma dei valori = 517.3  Media = 517.3 / 8 = 64.

Valore centrale (rango 4 e 5): 62 e 64.3  Mediana = (62 + 64.3) / 2 = 63.

Per valutare l’asimmetria della distribuzione possiamo confrontare la media e la mediana: in una

distribuzione simmetrica queste due misure sono molto vicine. In questo caso la distanza tra la media e la

mediana è pari a 1.51. Per valutare se e quanto questa distanza sia grande, dobbiamo confrontarla con la

deviazione standard, che è una sorta di “unità di misura relativa” della variabile.

Calcoliamo la deviazione standard:

Somma dei quadrati (SS) = 33,920.

Numeratore della varianza = 33,920.47 – 8 ∙64.

2

Varianza = 470.5588 / 7 = 67.

Dev. St. = 8.

Confrontandola con la deviazione standard, possiamo affermare che la differenza media – mediana è

piccola, dunque i dati non suggeriscono un’asimmetria della distribuzione.

Valore x 1 rango ri

Valore xi Valori al quadrato xi

ES 11

Si riportano l’età, il FEV1 (Forced Espiratory volume in 1 second) e la pressione diastolica per 10 maschi

adulti. Calcolare la mediana e la deviazione standard per queste tre variabili. Utilizzare un opportuno indice

per confrontare la variabilità di questi tre caratteri.

Età FEV1 Pressione

Le tre variabili sono tutti caratteri quantitativi. La media aritmetica è ottenuta come somma dei valori divisi

per la numerosità del collettivo, 10. Per la deviazione standard possiamo utilizzare la formula “rapida”. I

calcoli vengono illustrati nella tabella seguente.

Per confrontare la variabilità dei tre caratteri NON è sufficiente far riferimento alle sole deviazioni standard

perché le variabili misurano fenomeni diversi e sono espresse in unità di misura diverse. È, perciò,

necessario esprimere le deviazioni standard in termini relativi rispetto alla media, utilizzando il coefficiente di

variazione.

Id Età FEV1 Pressione Età^2 FEV1^2 Pressione^

Somma 297 26.2 842 9141 78.70 71678

Somma/10 29.7 2.62 84.2 914.1 7.87 7167.

Varianza 35.57 1.12 86.

Dev. St. 5.96 1.06 9.

cv 20% 40% 11%

Il carattere con la variabilità più elevata è FEV1, 4 volte più variabile della Pressione e 2 volte dell’Età

(notare che FEV1 ha la deviazione standard più bassa).

quartili osservati, tuttavia, sono 13 e 47, decisamente più distanti dalla media rispetto a quelli che avremmo

osservato se la distribuzione fosse stata una Normale con la stessa media e la stessa varianza.

In conclusione la nostra distribuzione non è approssimativamente Normale, è simmetrica ma non ha una

forma a campana. Potrebbe trattarsi di una distribuzione con code alte e pochi valori al centro,

probabilmente una distribuzione bimodale.

Dato quanto detto, né la media né la mediana sono indici di posizione adeguati per descrivere la

distribuzione; se questa fosse bimodale, dovremmo utilizzare le due mode e se riconoscessimo la presenza

di due sottopopolazioni, dovremmo utilizzare le media e la mediana per le due popolazioni.

ES 15

Il grafico illustra la distribuzione dell’Età di 173 pazienti all’insorgenza della malattia. Costruire la

corrispondente tabella di frequenza e calcolare la media.

Il grafico riportato è un istogramma, dunque ogni classe è rappresentata sull’asse orizzontale e la rispettiva

frequenza è pari all’area del rettangolo corrispondente. L’altezza del rettangolo è uguale alla densità di

frequenza in ogni classe.

Iniziamo mettendo le informazioni in una tabella:

Età

Ampiezza

della

classe

Densità di

frequenza

Per ogni classe otteniamo la frequenza assoluta come prodotto tra la densità di frequenza e l’ampiezza della

classe.

Per la media calcoliamo il prodotto tra la frequenza assoluta e il valore centrale della classe:

Età

Ampiezza

della

classe

Densità di

frequenza

Frequenza

Valore

centrale x

x * freq

Media = 9820/173 = 56.

ES 16

Individuare la/le classe/i contente/i l’età mediana, il primo e il terzo quartile per i pazienti dell’esercizio

precedente.

Per individuare le classi contenenti certi quantili (qui, il primo, il secondo e il terzo quartile) occorre calcolare

le frequenze percentuali cumulate:

Età frequenza % N cum%

La mediana è tra i 40 e i 70 anni, Q1 tra i 30 e i 40 e Q3 tra 70 e 90.

ES 17

È stato verificato che il valore del pH dell’acqua contenuta nelle bottiglie di plastica è distribuito secondo una

Normale con media 6.2 e deviazione standard 1.2.

  1. Qual è la probabilità di osservare un valore per il pH compreso tra 7 e 7.35?

  2. Qual è la probabilità di osservare un valore per il pH inferiore a 6.2?

Pr(7< X <7.35) = Pr(X<7.35) – Pr(X<7).

Z1=(7.35-6.2)/1.2=0.96 phi(Z1)=0.

Z2 = (7-6.2)/1.2 = 0.67 phi(Z2)=0.

Pr(7

o Il Minimo: non può essere 4.500, è troppo piccolo. Il grafico mostra la presenza di un outlier,

evidenziato con un pallino al di fuori del baffo ma il suo valore è intorno a 4.900;

o Il terzo quartile Q3: 6.382 < 6.500 che è la mediana. Per definizione la mediana è inferiore al

tero quartile.

Infatti, la tabella corretta è:

$Setosa

Min. Q1. Mediana Media Q3. Max.

$Virginica

Min. Q1. Mediana Media Q3. Max.

ES 20

La distribuzione del peso (in gr) di un gruppo di colibrì giganti è approssimativamente Normale, con media 18

e deviazione standard 0.8. Individuare un intervallo di valori centrato sulla media tale che:

a) contiene il 95% dei valori osservati

b) contiene praticamente tutti i valori osservati (e quindi coincide con il range)

c) contiene il 50% dei valori osservati

Dobbiamo utilizzare le proprietà della Normale.

Nell’intervallo media ± 2·dev.st. cade all’incirca il 95% dei valori (per un valore teorico più esatto, si dovrebbe

usare 1.96 al posto del fattore 2). Questo risponde al quesito a). Analogamente, per il quesito b) costruiamo

l’intervallo di raggio 3·dev.st., che contiene il 99.7% dei valori:

a) 18 ± 2·0.8 = (16.4,19.6)

b) 18 ± 3·0.8 = (15.6,20.4)

Per l’ultimo punto, osserviamo che l’intervallo centrato sulla media (=mediana) che contiene il 50% delle

osservazioni è, per definizione dei quartili, l’intervallo (Q1,Q3), dunque calcoliamo i due quartili con la nota

formula:

c) 18 ± 0.67·0.8 = (17.464,18.536)

Stima e test su un parametro

(inclusi i test su una distribuzione di frequenze)

ES 21

In un campione di 40 insetti di una certa specie la lunghezza del torace aveva media pari a 2.9 (mm) e

varianza pari a 0.48. Fornire una stima puntuale e una stima intervallare mediante Intervallo di Confidenza al

95% del valore medio atteso della lunghezza di questi insetti.

La stima puntuale della media della popolazione degli insetti è semplicemente la media aritmetica del

campione, qui 2.9; infatti, la media aritmetica campionaria ne è uno stimatore non distorto e con altre

proprietà (efficienza, consistenza e altre).

La stima intervallare con 95%CI si ottiene applicando la formula fornita – infatti, il campione è grande (n=40),

quindi possiamo utilizzare la formula, stimando la varianza della popolazione dal campione, qui s

2

=0.48 (e

quindi s=0.69282).

√௡

, xത + 1.

√௡

଴.଺ଽଷ

√ସ଴

଴.଺ଽଷ

√ସ଴

Altre osservazioni: Se avessimo voluto un IC più piccolo, a spese del livello di fiducia, avremmo scelto

il livello di confidenza 90%, e quindi avremmo utilizzato come quantile il valore 1.64, anzichè 1.96, che

lascia nella coda esterna una probabilità pari a 5%, e quindi nel complesso delle 2 code il 10%; il

risultato sarebbe stato: (2.72,3.08)

Quindi per un insetto questa specie ci aspettiamo in media una lunghezza compresa fra 2.75 e 3.05 (mm).

Attenzione: questo non è il range della lunghezza che ci possiamo attendere per qualsiasi insetto! Si veda

l’esercizio sul BMI – e si riproduca per esso il ragionamento per questo esercizio.

ES 22

Considerare i dati dell’esercizio sulla lunghezza degli insetti, si aveva 𝑥̅ = 2.9. Secondo un precedente studio

la lunghezza media dovrebbe essere 3.1. Ci troviamo di fronte a una specie diversa o mutata, oppure i dati

del nuovo studio sono coerenti con quelli “storici”? (Si può rispondere senza fare calcoli?)

Questo è di fatto un problema di verifica di ipotesi sulla media μ della popolazione che rappresenta “tutti” gli

insetti del tipo osservato, l’ipotesi di riferimento è H0: μ=3.1. La confrontiamo con H1: μ≠3.1. Usiamo come al

solito un test a due code con alpha=5%; non serve fare calcoli avendo già risolto il precedente quesito

poiché abbiamo calcolato un CI95% per μ, ed esso contiene il valore 3.1. Pertanto H0 è accettata al livello

5% (per la nota relazione fra CI e test). Cioè le osservazioni fatte non sono in contrasto con il valore di

riferimento in maniera statisticamente significativa.

Altre osservazioni: cosa cambia se guardiamo il CI al livello 90%, che risultava essere (2.73,3.08)?

Il valore 3.1 non è incluso, quindi H0 è rigettata al livello alpha=10%. Qual è la logica?

Il CI90% predilige la precisione della stime intervallare al livello di fiducia nella capacità dell’intervallo di

contenere il valore vero; gli corrisponde un test con un alpha=10%, piuttosto alto, che ammette cioè un

errore di I tipo, di false finding, in 1 caso su 10. Questo test è quindi meno “conservativo”, cioè permette

più facilmente di rigettare l’ipotesi nulla.

ES 23

In un paesino sardo un gruppo di 60 soggetti viene esaminato per la presenza una certa anomalia genetica,

connessa alla talassemia, ed essa viene individuata in 14 persone. Qual è la stima della prevalenza di

(ovvero la % di soggetti che hanno) questa anomalia genetica? (Fornire un intervallo di stima al livello di

confidenza del 95%)

Essendo la distribuzione del BMI Normale di media (stimata) =24.2 e di deviazione standard =2.2, per le

proprietà della Normale sappiamo che il 95% dei valori del BMI sono compresi fra μ-1.96∙σ e μ+1.96∙σ, ossia

fra 19.89 e 28.51. Quest’ultimo è il range che ci aspettiamo per il 95% dei soggetti provenienti da quella

popolazione.

Un range ancora più ampio, di raggio 3σ attorno alla media, fornisce la quasi totalità (99.7%) dei valori

che possiamo attenderci: (17.6,30.8); in altre parole potremmo dire che il BMI minimo è 17.6 e il BMI

massimo è 30.8.

ES 26

Una docente di Statistica osserva che negli anni la distribuzione dei voti al primo appello d’esame è stata:

Insuff 18-20 21-23 24-26 27-29 30-30 e Lode

Nell’anno corrente, al primo appello si presentano 136 studenti, e i voti sono:

Insuff 18-20 21-23 24-26 27-29 30-30 e Lode

Valutare se c’è una differenza significativa al livello alpha=1%, e interpretare il risultato.

E’ utile prima di valutare la significatività di una differenza farne una valutazione descrittiva: calcoliamo

quindi le % osservate:

Insuff 18-20 21-23 24-26 27-29 30-30 e Lode

Qualche modalità presenta una frequenza abbastanza diversa da quella attesa (in particolare i voti 18-

sono più numerosi nell’anno in corso, e c’è una diminuzione degli insufficienti).

Procediamo ora al calcolo dell’indice Chi-Quadrato. Esso non va calcolato sulle % ma sulle freq. Assolute,

quindi otteniamo la distribuzione di freq. Assolute attesa, applicando le % “teoriche” alla numerosità totale

N=139:

Insuff 18-20 21-23 24-26 27-29 30-30 e Lode

Gli addendi del Chi-Quadro sono:

E la somma fa 16.171.

Il valore soglia per 6-1=5 gradi di libertà e alpha=1% è 15.086, quindi la statistica test cade in zona di rifiuto

(16.171 > 15.086): possiamo rigettare l’ipotesi nulla di assenza di differenze, e affaermare che s’è una forte°

evidenza che nell’anno in corso la distribuzione dei voti sia diversa rispetto al passato.

°Usiamo l’aggettivo “forte” poiché H0 è rigettata al livello 1%.

ES 27

Si somministra a 80 tulipani di una certa specie un prodotto per migliorarne il colore. Si osserva però che

l’altezza dello stelo sembra minore (media pari a 39 cm) del valore di riferimento che per questa specie è di

50 cm. Sapendo che la deviazione standard del campione era pari a 45cm, si vuole verificare se è corretto

desumere che il prodotto usato può indurre una riduzione dell’altezza degli steli. Impostare quindi il test di

ipotesi (a una coda) e svolgerlo sia col metodo del p-value, sia col metodo delle regioni di rifiuto.

Il primo passo è scrivere le ipotesi del test. Tali ipotesi riguardano il parametro di una popolazione, in questo

caso la media μ della variabile altezza dello stelo. L’ipotesi di base H0 è la condizione ‘neutra’, di riferimento,

e quindi che il valore μ della media delle altezze degli steli nella popolazione sia 50 (unità di misura: cm).

L’’ipotesi alternativa esprime l’ipotesi sperimentale, che è una deviazione dal valore di riferimento; di solito

essa è a due code (μ≠50), mentre in questo esercizio il quesito è focalizzato sull’inferiorità e si richiede

esplicitamente di fare un test a una coda H1: μ<50.

Osservazioni generali: impostare il test a una coda è in generale inappropriato a meno che non vi sia

certezza (su base biologica, fisica etc) che la statistica possa assumere valori solo su quel lato del valore

di riferimento (*). Inoltre nel test a una coda è bene fissare un livello di significatività pari alla metà di

quello che useremmo nel corrispondente test a due code – per cui in sostanza si utilizza la stessa soglia

della regione di rifiuto (ad esempio: se nel test a due code si sceglierebbe alpha=5%, nel test a una coda

si sceglie alpha=2.5%, e in entrambi i casi la significatività si ha quando la statistica test è <-1.96).

Procediamo quindi fissando le ipotesi:

H

0

: μ=50 vs H 1

: μ<

(*) Si osservi che nella formulazione delle ipotesi non si utilizzano MAI i valori calcolati nel campione!!

Dobbiamo immaginare di impostare il test prima di aver visto i risultati. Appare allora evidente che

escludere a priori che la statistica campionaria vada in una delle due code è solitamente azzardato.

Il test sulla media si basa sulla distribuzione di probabilità di 𝑋

e sul teorema del limite centrale; possiamo

usare la formula basata sulla Normale poiché abbiamo un campione molto grande (n=80); la statistica test è:

(esso è il valore della media del campione standardizzato sotto l’ipotesi nulla, cioè prendendo come media

della Normale il valore μ0; al denominatore abbiamo lo standard error)

Osserviamo che il valore della statistica test è lontano dal valore di riferimento 5. Tuttavia questa

“lontananza” va valutata in termini di “scarsa probabilità”, la quale dipende non solo dalla distanza

sull’asse fra valore osservato e valore atteso, ma anche dalla massa di probabilità.

Il valore soglia per il rigetto di H0 è -1.96, quindi il test rifiuta l’ipotesi nulla al livello del 2.5% (test unilaterale;

ovvero al livello del 5% per il test bilaterale).

Per il calcolo del p-value, impostando il test come unilaterale, dobbiamo calcolare il valore nella coda

inferiore al di sotto di -3.18. Siccome la tavola non ci permette di leggere le aree per i valori negativi,

calcoliamo l’area che ci interessa come:

p = 1-Φ(2.19) = 1-0.986 = 0.

(Se avessimo impostato il test a due code, questo valore andrebbe moltiplicato per 2: p=0.028)

Dunque secondo i dati raccolti i tulipani trattati col prodotto per migliorarne il colore hanno un’altezza dello

stelo minore del valore di riferimento dei tulipani di quella specie.

ES 28

Fra gli stessi 80 tulipani dell’esercizio precedente, si osserva anche che 25 vengono attaccati da certi

parassiti. Solitamente questo problema si verifica nel 10% dei tulipani. Si deve desumere che il trattamento

per il colore modifica l’incidenza dei parassiti? Effettuare un test di significatività a due code sia col metodo

del p-value, sia col metodo delle regioni di rifiuto, al livello del 5%.

Come ulteriore precisazione: quando n aumenta, diciamo da n=30 in sù, la dp T di Student diventa

molto simile alla Normale. Per questo di solito anche se nell’esercizio non si conosce la varianza della

popolazione ma solo quella del campione, con n grande si procede coi valori soglia della Normale, e

col p-value calcolato usando le tavole della Normale.

Caso ii) Non vale la Normalità. Siccome il campione è piccolo, non vale il Teorema del Limite Centrale,

quindi non si può applicare il solito test basato sulla media campionaria standardizzata.

Si deve utilizzare un metodo alternativo, per esempio il test non parametrico dei segni di Wilcoxon (che

senza software statistico o senza formule e tavole specifiche non possiamo implementare).

Come ulteriore precisazione: quando n aumenta, diciamo da n=30 in sù, anche se la popolazione non

segue una dp Normale, il Teorema del Limite Centrale vale comunque. Per questo di solito anche se

nell’esercizio non si afferma che la popolazione è Normale, con n grande si procede col solito test e

con valori soglia e calcolo del p-value basati sulle tavole della Normale.

ES 30

Considerare i dati dell’esercizio sulla anomalia genetica connessa alla talassemia: sapendo che si stima che

la talassemia è presente in Sardegna nel 7.5% delle persone, è lecito ipotizzare che nel paesino oggetto

dello studio vi sia qualche fattore che aumenta la prevalenza dell’anomalia genetica?

Anche in questo esercizio ci troviamo di fronte a un problema di verifica di ipotesi, che possiamo risolvere

senza nuovi calcoli poiché poiché abbiamo già calcolato un CI95%. L’oggetto di interesse stavolta è una

proporzione π, il test confronta H0: π=0.075 con* H1: π≠0.075. H0 viene rigettata al livello alpha=5%, poiché

l’IC non contiene 0.075, essendo collocato su valori di prevalenza molto più alti (minimo 13%).

*In effetti la nostra ipotesi sperimentale è che π >0.075, considerazioni:

  • I test a una coda sono in generale evitati, poiché prima di fare l’esperimento (l’osservazione dei dati)

non si può escludere di ottenere un grosso scostamento da H0 nella direzione opposta, e in quel

caso si dovrebbe comunque accettare H

  • Comunque se volessimo impostare il test a una coda, allora fisseremmo alpha=2.5%, e dunque

faremmo riferimento allo stesso CI, concludendo sempre per il rifiuto. Sarebbe infatti azzardato fare

il test con il 5% di probabilità di errore di I tipo tutto su una coda (che corrisponderebbe al CI90%).

ES 31

Riprendiamo l’esercizio sulla lunghezza dei tulipani (𝑥̅ =39, s=45; test per H0: μ=50 vs H1: μ<50, al livello

alpha=2.5%): cosa cambia se n=8 anziché 80?

Con n=8 non è corretto utilizzare i quantili della Normale per individuare la zona di rifiuto (ne’ calcolare il p-

value usando la Normale): la media del campione, standardizzata, si distribuisce secondo una curva T di

Student con solo n-1=7 gradi di libertà. Inoltre, lo standard error è molto più grande: 45 ⁄ √ 8 = 15.910 anziché

45 ⁄√ 80 = 5.0311 (questo riflette il fatto che un campione più piccolo fornisce dati con minore affidabilità –

precisione – di un campione grande).

La statistica test è:

Il valore soglia per un test a una coda al livello del 2.5% (= soglia per il test a due code al livello del 5%) è -

2.365: la media osservata non risulta significativamente diversa da quella attesa. (Anche scegliendo un

alpha=5% e quindi prendendo il valore soglia 1.895, non si raggiunge la significatività).

Questo esercizio, comparato col precedente, illustra il principio che la significatività statistica dipende molto

dalla dimensione campionaria: la differenza osservata è sempre di -11 cm, ma qui non risulta significativa, è

attribuibile a variabilità casuale.

ES 32

In un campione di 60 persone che si sono rivolte a un servizio di consulenza psicologica, 17 avevano preso

psicofarmaci senza prescrizione. Fornire una stima puntuale e intervallare (al livello 95%) della percentuale

di soggetti che fanno ricorso a psicofarmaci senza prescrizione. Nel sottogruppo osservato, la percentuale è

inferiore al valore stimato nell’intera popolazione, pari a 30%?

Stima puntuale: p=17/60=28%

Stima intervallare: la varianza stimata è p(1-p)/n =0.0034; quindi dev.st.=radq(0.0034)=0.058  il raggio

dell’intervallo è 0.058*1.96=0.114 

95%CI=(0.169,0.397)

Siccome il valore 0.3 è incluso nell’intervallo, non abbiamo evidenza per rigettare l’ipotesi nulla che π=30%.

Ossia, No, non possiamo concludere che in questo sottogruppo la percentuale è inferiore al valore che si ha

nell’intera popolazione.

ES 33

Al primo test di Statistica dell’anno accademico passano 42 studenti, e la media dei voti è 27.1. Secondo i

dati raccolti negli anni accademici precedenti, la media dei voti è 26.5 e la deviazione standard 3.7. Abbiamo

evidenza per concludere che gli studenti dell’a.a. corrente sono più bravi degli anni precedenti?

Facciamo un T-test per la media μ dei voti nella coorte dell’a.a. corrente. H0: μ=26.5, H1: μ≠26.5. Lo

facciamo a 2 code con alpha=5%. Il campione è grande (n=42) e disponiamo del valore della deviazione

standard nella popolazione (3.7) quindi procediamo con le f.le della Normale.

Statistica test =

Questo valore non è sufficientemente lontano da 0 per poter concludere che gli studenti siano più bravi del

controllo storico, ossia provengano da una popolazione con media μ superiore a 26.5. Per poter trarre quella

conclusione, avremmo voluto un valore della statistica test superiore a 1.96. Il p-value è pari a 0.293.

Quindi concludiamo accettando l’ipotesi nulla. Questo vol dire che lo scostamento della media osservata

27.1 dal valore di riferimento 26.5 è attribuibile al caso (questo è il significato del termine “non significativo”).

ES 34

Ancora sui risultati del primo test di Statistica dell’anno accademico. Sono passati 42 studenti su 53

presentatisi, stimare con un intervallo la probabilità di passare. Dire poi se essa è significativamente

superiore a 70%.

p=42/53=0.79, con 95%CI=(0.68,0.90) (la deviazione standard è 0.0557). Il valore 0.7 è compreso, quindi

No, la probabilità di passare non è significativamente (al livello canonico 5%) diversa da 70%.

Tuttavia, osserviamo che 0.7 è molto vicino al limite inferiore dell’intervallo di confidenza: vuol dire che H0:

π=0.7 è accettata con un p-value non molto piccolo. Calcoliamolo.

La statistica test è 1.6596, p=0.096 =(1-0.952)x

E’ probabile che prendendo un campione un po’ più numeroso si possa riuscire a rigettare l’ipotesi nulla,

dimostrando che la probabilità di passare l’esame è superiore a 70%.

ES 35

Un entomologo dilettante ha osservato durante un periodo di tempo, in un’area circoscritta, farfalle di 4

specie diverse: