





















































Studia grazie alle numerose risorse presenti su Docsity
Guadagna punti aiutando altri studenti oppure acquistali con un piano Premium
Prepara i tuoi esami
Studia grazie alle numerose risorse presenti su Docsity
Prepara i tuoi esami con i documenti condivisi da studenti come te su Docsity
Trova i documenti specifici per gli esami della tua università
Preparati con lezioni e prove svolte basate sui programmi universitari!
Rispondi a reali domande d’esame e scopri la tua preparazione
Riassumi i tuoi documenti, fagli domande, convertili in quiz e mappe concettuali
Studia con prove svolte, tesine e consigli utili
Togliti ogni dubbio leggendo le risposte alle domande fatte da altri studenti come te
Esplora i documenti più scaricati per gli argomenti di studio più popolari
Ottieni i punti per scaricare
Guadagna punti aiutando altri studenti oppure acquistali con un piano Premium
esercizi di matematica da svolgere
Tipologia: Sintesi del corso
1 / 61
Questa pagina non è visibile nell’anteprima
Non perderti parti importanti!






















































Con la collaborazione della dott.ssa Giulia Sbianchi
I seguenti esercizi sono raggruppati per Argomento per facilitare gli Studenti ad esercitarsi durante
l’apprendimento. E’ tuttavia fortemente consigliato analizzare ogni problema proposto come se non fosse già
catalogato per tipo, in modo da esercitarsi nel riconoscere le diverse situazioni e nell’individuare il metodo
adatto per rispondere.
Gli esercizi non sono disposti (strettamente) in ordine di dificoltà, e sono simili a quelli d’esame (o
leggermente più complicati). Alcuni presentano delle annotazioni concettuali o altri piccoli approfondimenti o
elementi di discussione. Agli esami comunque non ci saranno quesiti con risposte non oggettive o da
discutere.
Si raccomanda di focalizzarsi sui procedimenti e di leggere le spiegazioni fornite; al contrario è bene evitare
di focalizzarsi sui calcoli o imparare mnemonicamente le risoluzioni.
Si raccomanda infine di utilizzare (solo) gli stessi strumenti che si utilizzeranno all’esame: calcolatrice e
formulario distribuito e ammesso all’esame.
I calcoli sono svolti tenendo in memoria ad ogni passaggio un alto numero di decimali, ma sono riportati con
arrotondamento: questo può generare piccole discrepanze.
A proposito dell’arrotondamento: in preparazione e all’esame si raccomanda di non arrotondare ad ogni
passaggio ma solo alla fine, oppure, se è necessario arrotondare, di mantenere sempre almeno 4 o 5 cifre
decimali.
Statistica descrittiva
(inclusi alcuni esercizi sull’utilizzo della Normale; altri es. nella sezione del Calcolo delle Probabilità)
Data la seguente serie di dati su Lunghezza e Genere di 8 lucertole muraiole, per ciascuna delle due
variabili costruire la tabella di frequenza (per la variabile lunghezza prendere 140-|160, 160-|170, 170-|
come classi). Rappresentare, inoltre, le due distribuzioni con un opportuno grafico.
id Lunghezza, mm Sesso: 1=M, 2=F
Variabile: Sesso
Modalità Frequenza Percentuali
Totale 8 100%
Essendo Sesso una variabile qualitativa sconnessa, non vanno calcolare le frequenze percentuali cumulate.
La distribuzione può essere rappresentata, ad esempio, attraverso un grafico a barre (in basso a sinistra),
costituito da una colonna per ciascuna delle due modalità M e F, di altezza pari alla frequenza percentuale
corrispondente. È buona norma lasciare che l’asse verticale delle percentuali vada da 0 a 100 per evitare
distorsioni nella percezione delle frequenze.
N.B. I rettangoli devono essere separati.
Variabile: Lunghezza (mm)
Modalità Freq
assoluta
Freq
percentuale
Freq
cumulata
Freq
cumulata
percentuale
Ampiezza
classe
Densità di
frequenza
Tot 8 100%
Le ultime due colonne sono state aggiunte alla tabella di frequenza per poter costruire l’istogramma (in
basso a destra). Infatti, la distribuzione può essere rappresentata attraverso un istogramma delle frequenze,
costituito da tre rettangoli contigui, ciascuno disegnato in corrispondenza degli estremi della relativa classe,
Calcolare la deviazione standard della lunghezza delle 8 lucertole dell’esercizio 1. Utilizzare prima la serie di
dati individuale e, successivamente, ripetere i calcoli partendo dalla tabella di frequenza.
La seguente tabella contiene i calcoli necessari per ottenere la deviazione standard nel caso dei dati
individuali
Numeratore della varianza = 230680 – 8∙ (169.5^2) = 838
Varianza = 838 /7 = 119.
Deviazione standard = sqrt(119.7143) = 10.
Utilizziamo ora la tabella di frequenza:
Lunghezza Freq. assoluta nj Freq. relativa fj Valore central xj xj^2 · nj
Tot 8 1.00 236350
Tot / n 29543.
Ripetiamo I calcoli visti in precedenza per la serie dei dati individuali. In questo caso la media è pari a
171.25, che è il valore della media ottenuto partendo dalla tabella di frequenza:
Numeratore della varianza = 236350 – 8∙ (171.25^2) = 1737.
Varianza = 1737.5 /7 = 248.
Deviazione standard = sqrt(248.2143) = 15.
Calcolare il campo di variazione (range) e l’intervallo interquartilico Q3-Q1 della lunghezza delle 8 lucertole
dell’esercizio 1. (Utilizzare la serie dei dati individuali)
id
Lunghezza,
mm
x^
Tot 1356 230680
Tot/n 169.5 28835
Il campo di variazione (range) è ottenuto come differenza tra il valore massimo e il valore minimo della
distribuzione. Dunque, nel nostro caso è pari a 182 – 153 = 29.
Per poter calcolare l’intervallo interquartilico è necessario prima individuare Q1 e Q3, che sono dati dalle
modalità che occupano la posizione 8/4 = 2 e 8*3/4 = 6, rispettivamente. Quindi Q1 = 157 e Q3 = 178.
Una dieta sperimentale per elefanti in età adulta viene utilizzata in due diversi centri A e B; gli elefanti del
centro A sono 25 e hanno un’età media pari a 54 anni mentre quelli trattati nel centro B sono 62 e hanno
un’età media di 58 anni. Qual è l’età media generale degli elefanti che hanno ricevuto la nuova dieta?
L’età media generale degli elefanti che hanno ricevuto la dieta sperimentale è ottenuta come media
ponderata delle due medie (54 e 58) con pesi pari alle numerosità dei due gruppi (25 e 62).
Media generale = (5425 + 5862) / (25+62) = 4946 / 87 = 56.
In riferimento ai due centri A e B dell’esercizio precedente, sappiamo anche che la varianza dell’età era la
stessa per entrambi i centri e pari a 64. Possiamo dire che la variabilità dell’età degli elefanti sia la stessa
per entrambi i centri?
La risposta corretta è no perché il valore della media è diversa tra i due centri. Per valutare meglio la
variabilità dell’età tra i due centri possiamo utilizzare il coefficiente di variazione:
Deviazione standard: sqrt(64) = 8 in entrambi i gruppi;
CV nel gruppo A = 8/54 = 14.8%;
CV nel gruppo B = 8/58 = 13.8%.
C’è, dunque, una piccola differenza e la distribuzione dell’età degli elefanti del centro B risulta essere più
omogenea.
Calcolare la media e la classe mediana della distribuzione del numero di Capsule di Petri in 31 laboratori
differenti riportata nella tabella seguente:
Capsule n
La variabile “Numero di Capsule di Petri” è una variabile quantitativa discreta, che in questo caso viene
trattata come se fosse una continua poiché assume molte modalità (varia da 1 a 60); infatti la distribuzione è
rappresentata attraverso una tabella di frequenza per un carattere in classi.
Per calcolare la media è necessario prima individuare il valore centrale per ogni classe, ottenuto come
(estremo inf + estremo sup)/2. Successivamente si calcola l’ammontare complessivo di capsule in ciascuna
classe come prodotto tra il valore centrale e la rispettiva frequenza. La media è data dal rapporto tra
l’ammontare complessivo di capsulein tutte le classi e la numerosità del campione, che è pari a 31.
8 donne entro il 4° mese in gravidanza sono state seguite da un dietologo, che ha riportato per ciascuna il
seguente peso (in Kg): 64.3; 65.2; 70.0; 54.5; 58.8; 81.5; 61.0; 62.0. Calcolare la media e la mediana. I dati
suggeriscono una forte asimmetria della distribuzione del peso?
Per calcolare la mediana ordiniamo le osservazioni e individuiamo le modalità di posto 4 e 5 (9/2 = 4.5).
Un altro metodo per illustrare questa procedura di calcolo consiste nel disporre le osservazione in una
tabella e attribuire a ciascuna modalità il rispettivo rango:
Somma dei valori = 517.3 Media = 517.3 / 8 = 64.
Valore centrale (rango 4 e 5): 62 e 64.3 Mediana = (62 + 64.3) / 2 = 63.
Per valutare l’asimmetria della distribuzione possiamo confrontare la media e la mediana: in una
distribuzione simmetrica queste due misure sono molto vicine. In questo caso la distanza tra la media e la
mediana è pari a 1.51. Per valutare se e quanto questa distanza sia grande, dobbiamo confrontarla con la
deviazione standard, che è una sorta di “unità di misura relativa” della variabile.
Calcoliamo la deviazione standard:
Somma dei quadrati (SS) = 33,920.
Numeratore della varianza = 33,920.47 – 8 ∙64.
2
Varianza = 470.5588 / 7 = 67.
Dev. St. = 8.
Confrontandola con la deviazione standard, possiamo affermare che la differenza media – mediana è
piccola, dunque i dati non suggeriscono un’asimmetria della distribuzione.
Valore x 1 rango ri
Valore xi Valori al quadrato xi
Si riportano l’età, il FEV1 (Forced Espiratory volume in 1 second) e la pressione diastolica per 10 maschi
adulti. Calcolare la mediana e la deviazione standard per queste tre variabili. Utilizzare un opportuno indice
per confrontare la variabilità di questi tre caratteri.
Età FEV1 Pressione
Le tre variabili sono tutti caratteri quantitativi. La media aritmetica è ottenuta come somma dei valori divisi
per la numerosità del collettivo, 10. Per la deviazione standard possiamo utilizzare la formula “rapida”. I
calcoli vengono illustrati nella tabella seguente.
Per confrontare la variabilità dei tre caratteri NON è sufficiente far riferimento alle sole deviazioni standard
perché le variabili misurano fenomeni diversi e sono espresse in unità di misura diverse. È, perciò,
necessario esprimere le deviazioni standard in termini relativi rispetto alla media, utilizzando il coefficiente di
variazione.
Id Età FEV1 Pressione Età^2 FEV1^2 Pressione^
Somma 297 26.2 842 9141 78.70 71678
Somma/10 29.7 2.62 84.2 914.1 7.87 7167.
Varianza 35.57 1.12 86.
Dev. St. 5.96 1.06 9.
cv 20% 40% 11%
Il carattere con la variabilità più elevata è FEV1, 4 volte più variabile della Pressione e 2 volte dell’Età
(notare che FEV1 ha la deviazione standard più bassa).
quartili osservati, tuttavia, sono 13 e 47, decisamente più distanti dalla media rispetto a quelli che avremmo
osservato se la distribuzione fosse stata una Normale con la stessa media e la stessa varianza.
In conclusione la nostra distribuzione non è approssimativamente Normale, è simmetrica ma non ha una
forma a campana. Potrebbe trattarsi di una distribuzione con code alte e pochi valori al centro,
probabilmente una distribuzione bimodale.
Dato quanto detto, né la media né la mediana sono indici di posizione adeguati per descrivere la
distribuzione; se questa fosse bimodale, dovremmo utilizzare le due mode e se riconoscessimo la presenza
di due sottopopolazioni, dovremmo utilizzare le media e la mediana per le due popolazioni.
Il grafico illustra la distribuzione dell’Età di 173 pazienti all’insorgenza della malattia. Costruire la
corrispondente tabella di frequenza e calcolare la media.
Il grafico riportato è un istogramma, dunque ogni classe è rappresentata sull’asse orizzontale e la rispettiva
frequenza è pari all’area del rettangolo corrispondente. L’altezza del rettangolo è uguale alla densità di
frequenza in ogni classe.
Iniziamo mettendo le informazioni in una tabella:
Età
Ampiezza
della
classe
Densità di
frequenza
Per ogni classe otteniamo la frequenza assoluta come prodotto tra la densità di frequenza e l’ampiezza della
classe.
Per la media calcoliamo il prodotto tra la frequenza assoluta e il valore centrale della classe:
Età
Ampiezza
della
classe
Densità di
frequenza
Frequenza
Valore
centrale x
x * freq
Media = 9820/173 = 56.
Individuare la/le classe/i contente/i l’età mediana, il primo e il terzo quartile per i pazienti dell’esercizio
precedente.
Per individuare le classi contenenti certi quantili (qui, il primo, il secondo e il terzo quartile) occorre calcolare
le frequenze percentuali cumulate:
Età frequenza % N cum%
La mediana è tra i 40 e i 70 anni, Q1 tra i 30 e i 40 e Q3 tra 70 e 90.
È stato verificato che il valore del pH dell’acqua contenuta nelle bottiglie di plastica è distribuito secondo una
Normale con media 6.2 e deviazione standard 1.2.
Qual è la probabilità di osservare un valore per il pH compreso tra 7 e 7.35?
Qual è la probabilità di osservare un valore per il pH inferiore a 6.2?
Pr(7< X <7.35) = Pr(X<7.35) – Pr(X<7).
Z1=(7.35-6.2)/1.2=0.96 phi(Z1)=0.
Z2 = (7-6.2)/1.2 = 0.67 phi(Z2)=0.
Pr(7
o Il Minimo: non può essere 4.500, è troppo piccolo. Il grafico mostra la presenza di un outlier,
evidenziato con un pallino al di fuori del baffo ma il suo valore è intorno a 4.900;
o Il terzo quartile Q3: 6.382 < 6.500 che è la mediana. Per definizione la mediana è inferiore al
tero quartile.
Infatti, la tabella corretta è:
$Setosa
Min. Q1. Mediana Media Q3. Max.
$Virginica
Min. Q1. Mediana Media Q3. Max.
La distribuzione del peso (in gr) di un gruppo di colibrì giganti è approssimativamente Normale, con media 18
e deviazione standard 0.8. Individuare un intervallo di valori centrato sulla media tale che:
a) contiene il 95% dei valori osservati
b) contiene praticamente tutti i valori osservati (e quindi coincide con il range)
c) contiene il 50% dei valori osservati
Dobbiamo utilizzare le proprietà della Normale.
Nell’intervallo media ± 2·dev.st. cade all’incirca il 95% dei valori (per un valore teorico più esatto, si dovrebbe
usare 1.96 al posto del fattore 2). Questo risponde al quesito a). Analogamente, per il quesito b) costruiamo
l’intervallo di raggio 3·dev.st., che contiene il 99.7% dei valori:
a) 18 ± 2·0.8 = (16.4,19.6)
b) 18 ± 3·0.8 = (15.6,20.4)
Per l’ultimo punto, osserviamo che l’intervallo centrato sulla media (=mediana) che contiene il 50% delle
osservazioni è, per definizione dei quartili, l’intervallo (Q1,Q3), dunque calcoliamo i due quartili con la nota
formula:
c) 18 ± 0.67·0.8 = (17.464,18.536)
Stima e test su un parametro
(inclusi i test su una distribuzione di frequenze)
In un campione di 40 insetti di una certa specie la lunghezza del torace aveva media pari a 2.9 (mm) e
varianza pari a 0.48. Fornire una stima puntuale e una stima intervallare mediante Intervallo di Confidenza al
95% del valore medio atteso della lunghezza di questi insetti.
La stima puntuale della media della popolazione degli insetti è semplicemente la media aritmetica del
campione, qui 2.9; infatti, la media aritmetica campionaria ne è uno stimatore non distorto e con altre
proprietà (efficienza, consistenza e altre).
La stima intervallare con 95%CI si ottiene applicando la formula fornita – infatti, il campione è grande (n=40),
quindi possiamo utilizzare la formula, stimando la varianza della popolazione dal campione, qui s
2
=0.48 (e
quindi s=0.69282).
௦
√
, xത + 1.
௦
√
.ଽଷ
√ସ
.ଽଷ
√ସ
Altre osservazioni: Se avessimo voluto un IC più piccolo, a spese del livello di fiducia, avremmo scelto
il livello di confidenza 90%, e quindi avremmo utilizzato come quantile il valore 1.64, anzichè 1.96, che
lascia nella coda esterna una probabilità pari a 5%, e quindi nel complesso delle 2 code il 10%; il
risultato sarebbe stato: (2.72,3.08)
Quindi per un insetto questa specie ci aspettiamo in media una lunghezza compresa fra 2.75 e 3.05 (mm).
Attenzione: questo non è il range della lunghezza che ci possiamo attendere per qualsiasi insetto! Si veda
l’esercizio sul BMI – e si riproduca per esso il ragionamento per questo esercizio.
Considerare i dati dell’esercizio sulla lunghezza degli insetti, si aveva 𝑥̅ = 2.9. Secondo un precedente studio
la lunghezza media dovrebbe essere 3.1. Ci troviamo di fronte a una specie diversa o mutata, oppure i dati
del nuovo studio sono coerenti con quelli “storici”? (Si può rispondere senza fare calcoli?)
Questo è di fatto un problema di verifica di ipotesi sulla media μ della popolazione che rappresenta “tutti” gli
insetti del tipo osservato, l’ipotesi di riferimento è H0: μ=3.1. La confrontiamo con H1: μ≠3.1. Usiamo come al
solito un test a due code con alpha=5%; non serve fare calcoli avendo già risolto il precedente quesito
poiché abbiamo calcolato un CI95% per μ, ed esso contiene il valore 3.1. Pertanto H0 è accettata al livello
5% (per la nota relazione fra CI e test). Cioè le osservazioni fatte non sono in contrasto con il valore di
riferimento in maniera statisticamente significativa.
Altre osservazioni: cosa cambia se guardiamo il CI al livello 90%, che risultava essere (2.73,3.08)?
Il valore 3.1 non è incluso, quindi H0 è rigettata al livello alpha=10%. Qual è la logica?
Il CI90% predilige la precisione della stime intervallare al livello di fiducia nella capacità dell’intervallo di
contenere il valore vero; gli corrisponde un test con un alpha=10%, piuttosto alto, che ammette cioè un
errore di I tipo, di false finding, in 1 caso su 10. Questo test è quindi meno “conservativo”, cioè permette
più facilmente di rigettare l’ipotesi nulla.
In un paesino sardo un gruppo di 60 soggetti viene esaminato per la presenza una certa anomalia genetica,
connessa alla talassemia, ed essa viene individuata in 14 persone. Qual è la stima della prevalenza di
(ovvero la % di soggetti che hanno) questa anomalia genetica? (Fornire un intervallo di stima al livello di
confidenza del 95%)
Essendo la distribuzione del BMI Normale di media (stimata) =24.2 e di deviazione standard =2.2, per le
proprietà della Normale sappiamo che il 95% dei valori del BMI sono compresi fra μ-1.96∙σ e μ+1.96∙σ, ossia
fra 19.89 e 28.51. Quest’ultimo è il range che ci aspettiamo per il 95% dei soggetti provenienti da quella
popolazione.
Un range ancora più ampio, di raggio 3σ attorno alla media, fornisce la quasi totalità (99.7%) dei valori
che possiamo attenderci: (17.6,30.8); in altre parole potremmo dire che il BMI minimo è 17.6 e il BMI
massimo è 30.8.
Una docente di Statistica osserva che negli anni la distribuzione dei voti al primo appello d’esame è stata:
Insuff 18-20 21-23 24-26 27-29 30-30 e Lode
Nell’anno corrente, al primo appello si presentano 136 studenti, e i voti sono:
Insuff 18-20 21-23 24-26 27-29 30-30 e Lode
Valutare se c’è una differenza significativa al livello alpha=1%, e interpretare il risultato.
E’ utile prima di valutare la significatività di una differenza farne una valutazione descrittiva: calcoliamo
quindi le % osservate:
Insuff 18-20 21-23 24-26 27-29 30-30 e Lode
Qualche modalità presenta una frequenza abbastanza diversa da quella attesa (in particolare i voti 18-
sono più numerosi nell’anno in corso, e c’è una diminuzione degli insufficienti).
Procediamo ora al calcolo dell’indice Chi-Quadrato. Esso non va calcolato sulle % ma sulle freq. Assolute,
quindi otteniamo la distribuzione di freq. Assolute attesa, applicando le % “teoriche” alla numerosità totale
Insuff 18-20 21-23 24-26 27-29 30-30 e Lode
Gli addendi del Chi-Quadro sono:
E la somma fa 16.171.
Il valore soglia per 6-1=5 gradi di libertà e alpha=1% è 15.086, quindi la statistica test cade in zona di rifiuto
(16.171 > 15.086): possiamo rigettare l’ipotesi nulla di assenza di differenze, e affaermare che s’è una forte°
evidenza che nell’anno in corso la distribuzione dei voti sia diversa rispetto al passato.
°Usiamo l’aggettivo “forte” poiché H0 è rigettata al livello 1%.
Si somministra a 80 tulipani di una certa specie un prodotto per migliorarne il colore. Si osserva però che
l’altezza dello stelo sembra minore (media pari a 39 cm) del valore di riferimento che per questa specie è di
50 cm. Sapendo che la deviazione standard del campione era pari a 45cm, si vuole verificare se è corretto
desumere che il prodotto usato può indurre una riduzione dell’altezza degli steli. Impostare quindi il test di
ipotesi (a una coda) e svolgerlo sia col metodo del p-value, sia col metodo delle regioni di rifiuto.
Il primo passo è scrivere le ipotesi del test. Tali ipotesi riguardano il parametro di una popolazione, in questo
caso la media μ della variabile altezza dello stelo. L’ipotesi di base H0 è la condizione ‘neutra’, di riferimento,
e quindi che il valore μ della media delle altezze degli steli nella popolazione sia 50 (unità di misura: cm).
L’’ipotesi alternativa esprime l’ipotesi sperimentale, che è una deviazione dal valore di riferimento; di solito
essa è a due code (μ≠50), mentre in questo esercizio il quesito è focalizzato sull’inferiorità e si richiede
esplicitamente di fare un test a una coda H1: μ<50.
Osservazioni generali: impostare il test a una coda è in generale inappropriato a meno che non vi sia
certezza (su base biologica, fisica etc) che la statistica possa assumere valori solo su quel lato del valore
di riferimento (*). Inoltre nel test a una coda è bene fissare un livello di significatività pari alla metà di
quello che useremmo nel corrispondente test a due code – per cui in sostanza si utilizza la stessa soglia
della regione di rifiuto (ad esempio: se nel test a due code si sceglierebbe alpha=5%, nel test a una coda
si sceglie alpha=2.5%, e in entrambi i casi la significatività si ha quando la statistica test è <-1.96).
Procediamo quindi fissando le ipotesi:
0
: μ=50 vs H 1
: μ<
(*) Si osservi che nella formulazione delle ipotesi non si utilizzano MAI i valori calcolati nel campione!!
Dobbiamo immaginare di impostare il test prima di aver visto i risultati. Appare allora evidente che
escludere a priori che la statistica campionaria vada in una delle due code è solitamente azzardato.
Il test sulla media si basa sulla distribuzione di probabilità di 𝑋
e sul teorema del limite centrale; possiamo
usare la formula basata sulla Normale poiché abbiamo un campione molto grande (n=80); la statistica test è:
(esso è il valore della media del campione standardizzato sotto l’ipotesi nulla, cioè prendendo come media
della Normale il valore μ0; al denominatore abbiamo lo standard error)
Osserviamo che il valore della statistica test è lontano dal valore di riferimento 5. Tuttavia questa
“lontananza” va valutata in termini di “scarsa probabilità”, la quale dipende non solo dalla distanza
sull’asse fra valore osservato e valore atteso, ma anche dalla massa di probabilità.
Il valore soglia per il rigetto di H0 è -1.96, quindi il test rifiuta l’ipotesi nulla al livello del 2.5% (test unilaterale;
ovvero al livello del 5% per il test bilaterale).
Per il calcolo del p-value, impostando il test come unilaterale, dobbiamo calcolare il valore nella coda
inferiore al di sotto di -3.18. Siccome la tavola non ci permette di leggere le aree per i valori negativi,
calcoliamo l’area che ci interessa come:
p = 1-Φ(2.19) = 1-0.986 = 0.
(Se avessimo impostato il test a due code, questo valore andrebbe moltiplicato per 2: p=0.028)
Dunque secondo i dati raccolti i tulipani trattati col prodotto per migliorarne il colore hanno un’altezza dello
stelo minore del valore di riferimento dei tulipani di quella specie.
Fra gli stessi 80 tulipani dell’esercizio precedente, si osserva anche che 25 vengono attaccati da certi
parassiti. Solitamente questo problema si verifica nel 10% dei tulipani. Si deve desumere che il trattamento
per il colore modifica l’incidenza dei parassiti? Effettuare un test di significatività a due code sia col metodo
del p-value, sia col metodo delle regioni di rifiuto, al livello del 5%.
Come ulteriore precisazione: quando n aumenta, diciamo da n=30 in sù, la dp T di Student diventa
molto simile alla Normale. Per questo di solito anche se nell’esercizio non si conosce la varianza della
popolazione ma solo quella del campione, con n grande si procede coi valori soglia della Normale, e
col p-value calcolato usando le tavole della Normale.
Caso ii) Non vale la Normalità. Siccome il campione è piccolo, non vale il Teorema del Limite Centrale,
quindi non si può applicare il solito test basato sulla media campionaria standardizzata.
Si deve utilizzare un metodo alternativo, per esempio il test non parametrico dei segni di Wilcoxon (che
senza software statistico o senza formule e tavole specifiche non possiamo implementare).
Come ulteriore precisazione: quando n aumenta, diciamo da n=30 in sù, anche se la popolazione non
segue una dp Normale, il Teorema del Limite Centrale vale comunque. Per questo di solito anche se
nell’esercizio non si afferma che la popolazione è Normale, con n grande si procede col solito test e
con valori soglia e calcolo del p-value basati sulle tavole della Normale.
Considerare i dati dell’esercizio sulla anomalia genetica connessa alla talassemia: sapendo che si stima che
la talassemia è presente in Sardegna nel 7.5% delle persone, è lecito ipotizzare che nel paesino oggetto
dello studio vi sia qualche fattore che aumenta la prevalenza dell’anomalia genetica?
Anche in questo esercizio ci troviamo di fronte a un problema di verifica di ipotesi, che possiamo risolvere
senza nuovi calcoli poiché poiché abbiamo già calcolato un CI95%. L’oggetto di interesse stavolta è una
proporzione π, il test confronta H0: π=0.075 con* H1: π≠0.075. H0 viene rigettata al livello alpha=5%, poiché
l’IC non contiene 0.075, essendo collocato su valori di prevalenza molto più alti (minimo 13%).
*In effetti la nostra ipotesi sperimentale è che π >0.075, considerazioni:
non si può escludere di ottenere un grosso scostamento da H0 nella direzione opposta, e in quel
caso si dovrebbe comunque accettare H
faremmo riferimento allo stesso CI, concludendo sempre per il rifiuto. Sarebbe infatti azzardato fare
il test con il 5% di probabilità di errore di I tipo tutto su una coda (che corrisponderebbe al CI90%).
Riprendiamo l’esercizio sulla lunghezza dei tulipani (𝑥̅ =39, s=45; test per H0: μ=50 vs H1: μ<50, al livello
alpha=2.5%): cosa cambia se n=8 anziché 80?
Con n=8 non è corretto utilizzare i quantili della Normale per individuare la zona di rifiuto (ne’ calcolare il p-
value usando la Normale): la media del campione, standardizzata, si distribuisce secondo una curva T di
Student con solo n-1=7 gradi di libertà. Inoltre, lo standard error è molto più grande: 45 ⁄ √ 8 = 15.910 anziché
45 ⁄√ 80 = 5.0311 (questo riflette il fatto che un campione più piccolo fornisce dati con minore affidabilità –
precisione – di un campione grande).
La statistica test è:
Il valore soglia per un test a una coda al livello del 2.5% (= soglia per il test a due code al livello del 5%) è -
2.365: la media osservata non risulta significativamente diversa da quella attesa. (Anche scegliendo un
alpha=5% e quindi prendendo il valore soglia 1.895, non si raggiunge la significatività).
Questo esercizio, comparato col precedente, illustra il principio che la significatività statistica dipende molto
dalla dimensione campionaria: la differenza osservata è sempre di -11 cm, ma qui non risulta significativa, è
attribuibile a variabilità casuale.
In un campione di 60 persone che si sono rivolte a un servizio di consulenza psicologica, 17 avevano preso
psicofarmaci senza prescrizione. Fornire una stima puntuale e intervallare (al livello 95%) della percentuale
di soggetti che fanno ricorso a psicofarmaci senza prescrizione. Nel sottogruppo osservato, la percentuale è
inferiore al valore stimato nell’intera popolazione, pari a 30%?
Stima puntuale: p=17/60=28%
Stima intervallare: la varianza stimata è p(1-p)/n =0.0034; quindi dev.st.=radq(0.0034)=0.058 il raggio
dell’intervallo è 0.058*1.96=0.114
Siccome il valore 0.3 è incluso nell’intervallo, non abbiamo evidenza per rigettare l’ipotesi nulla che π=30%.
Ossia, No, non possiamo concludere che in questo sottogruppo la percentuale è inferiore al valore che si ha
nell’intera popolazione.
Al primo test di Statistica dell’anno accademico passano 42 studenti, e la media dei voti è 27.1. Secondo i
dati raccolti negli anni accademici precedenti, la media dei voti è 26.5 e la deviazione standard 3.7. Abbiamo
evidenza per concludere che gli studenti dell’a.a. corrente sono più bravi degli anni precedenti?
Facciamo un T-test per la media μ dei voti nella coorte dell’a.a. corrente. H0: μ=26.5, H1: μ≠26.5. Lo
facciamo a 2 code con alpha=5%. Il campione è grande (n=42) e disponiamo del valore della deviazione
standard nella popolazione (3.7) quindi procediamo con le f.le della Normale.
Statistica test =
Questo valore non è sufficientemente lontano da 0 per poter concludere che gli studenti siano più bravi del
controllo storico, ossia provengano da una popolazione con media μ superiore a 26.5. Per poter trarre quella
conclusione, avremmo voluto un valore della statistica test superiore a 1.96. Il p-value è pari a 0.293.
Quindi concludiamo accettando l’ipotesi nulla. Questo vol dire che lo scostamento della media osservata
27.1 dal valore di riferimento 26.5 è attribuibile al caso (questo è il significato del termine “non significativo”).
Ancora sui risultati del primo test di Statistica dell’anno accademico. Sono passati 42 studenti su 53
presentatisi, stimare con un intervallo la probabilità di passare. Dire poi se essa è significativamente
superiore a 70%.
p=42/53=0.79, con 95%CI=(0.68,0.90) (la deviazione standard è 0.0557). Il valore 0.7 è compreso, quindi
No, la probabilità di passare non è significativamente (al livello canonico 5%) diversa da 70%.
Tuttavia, osserviamo che 0.7 è molto vicino al limite inferiore dell’intervallo di confidenza: vuol dire che H0:
π=0.7 è accettata con un p-value non molto piccolo. Calcoliamolo.
La statistica test è 1.6596, p=0.096 =(1-0.952)x
E’ probabile che prendendo un campione un po’ più numeroso si possa riuscire a rigettare l’ipotesi nulla,
dimostrando che la probabilità di passare l’esame è superiore a 70%.
Un entomologo dilettante ha osservato durante un periodo di tempo, in un’area circoscritta, farfalle di 4
specie diverse: