Docsity
Docsity

Prepara i tuoi esami
Prepara i tuoi esami

Studia grazie alle numerose risorse presenti su Docsity


Ottieni i punti per scaricare
Ottieni i punti per scaricare

Guadagna punti aiutando altri studenti oppure acquistali con un piano Premium


Guide e consigli
Guide e consigli


Appunti sulla verifica d'ipotesi, Appunti di Statistica

Appunti dettagliati con esempi

Tipologia: Appunti

2020/2021

Caricato il 19/05/2021

emmabru
emmabru 🇮🇹

5

(2)

8 documenti

1 / 16

Toggle sidebar

Questa pagina non è visibile nell’anteprima

Non perderti parti importanti!

bg1
5- VERIFICA IPOTESI
Cosa possiamo fare coi dati?
• Guardarli e controllarli
• Sintetizzarli – Misure di centralità – Misure di dispersione
• Rappresentarli graficamente
• Verificare ipotesi
• Fare confronti
• Cercare relazioni tra coppie di variabili
ESEMPIO
: il distributore del caffè
Nella nostra ipotesi il valore medio delle tazzine di caffè è 15cc
Nella nostra ipotesi alternativa questo valore non è 15cc
Che probabilità avevo su un campione di 30 caffè con la media di 19cc?
Per farlo calcoliamo una statistica test
→ essa è il valore che abbiamo osservato (19cc) meno il valore teorico (15cc)
diviso lo STANDARD ERROR*
• La ditta che ha in gestione i distributori automatici di caffè e bevande calde installa una nuova macchina e, dopo le
operazioni di taratura, vuole controllare se la macchina eroga la quantità corretta di caffè
• Per verificarlo, il tecnico per la taratura misura la quantità di caffè erogata in un campione di bicchierini
• Come è possibile verificare se la quantità di caffè differisce da quella nominale, o se le eventuali differenze
dipendono dal caso (ovvero dalle piccole differenze presenti casualmente nel campione di bicchierini selezionato)?
Verifica di ipotesi - campione unico
Innanzitutto impostiamo un SISTEMA DI VERIFICA DI IPOTESI che mi permette di rispondere alla domanda “ se la
media di una certa popolazione è uguale ad un determinato valore oppure no”.
La verifica di ipotesi ci permette di confutare o non confutare l’IPOTESI NULLA, non ci permette di dimostrarla!
Il ragionamento è questo → se fosse stata vera l’ipotesi nulla avrei potuto ottenere i dati che ho ottenuto? Che
probabilità avevo, se fosse stata vera l’ipotesi nulla, di ottenere esattamente i dati che ho ottenuto?
- se questa probabilità è alta ACCETTIAMO H0
- se questa probabilità è piccola RIFIUTIAMO H0 (perchè se fosse stata vera non avrei potuto ottenere i dati
che ho ottenuto)
È un’operazione statistica che ci permette di stabilire se il campione di dati osservati conferma o smentisce una
nostra teoria (o ipotesi)
• Nel caso più semplice, vorremmo stabilire se il valore medio della popolazione è uguale a un certo valore oppure no
noi vorremmo osservare che il valore osservato è diverso dal valore teorico
• In questo caso avremo due ipotesi:
- H0 : µ = valore teorico
- H1 : µ ≠ valore teorico
H0 si chiama “ipotesi nulla”, H1 “ipotesi alternativa”
Noi mettiamo SEMPRE in H0 che il valore è uguale al VALORE TEORICO perchè noi possiamo esclusivamente
dimostrare che una teoria è FALSA. Quindi mettiamo in H0 quello che vogliamo confutare, disconfermare.
Si cercherà di stabilire se, nel caso fosse vera H0
, avremo
una probabilità alta o bassa di ottenere i dati che abbiamo
ottenuto.
**La statistica test:è quella formula che è il valore che
abbiamo osservato meno il valore teorico diviso lo
STANDARD ERROR (ovvero la variabilità della stima).
pf3
pf4
pf5
pf8
pf9
pfa
pfd
pfe
pff

Anteprima parziale del testo

Scarica Appunti sulla verifica d'ipotesi e più Appunti in PDF di Statistica solo su Docsity!

5- VERIFICA IPOTESI

Cosa possiamo fare coi dati?

  • Guardarli e controllarli
  • Sintetizzarli – Misure di centralità – Misure di dispersione
  • Rappresentarli graficamente
  • Verificare ipotesi
  • Fare confronti
  • Cercare relazioni tra coppie di variabili

ESEMPIO : il distributore del caffè Nella nostra ipotesi il valore medio delle tazzine di caffè è 15cc Nella nostra ipotesi alternativa questo valore non è 15cc Che probabilità avevo su un campione di 30 caffè con la media di 19cc? Per farlo calcoliamo una statistica test → essa è il valore che abbiamo osservato (19cc) meno il valore teorico (15cc) diviso lo STANDARD ERROR*

  • La ditta che ha in gestione i distributori automatici di caffè e bevande calde installa una nuova macchina e, dopo le operazioni di taratura, vuole controllare se la macchina eroga la quantità corretta di caffè
  • Per verificarlo, il tecnico per la taratura misura la quantità di caffè erogata in un campione di bicchierini
  • Come è possibile verificare se la quantità di caffè differisce da quella nominale, o se le eventuali differenze dipendono dal caso (ovvero dalle piccole differenze presenti casualmente nel campione di bicchierini selezionato)?

Verifica di ipotesi - campione unico

Innanzitutto impostiamo un SISTEMA DI VERIFICA DI IPOTESI che mi permette di rispondere alla domanda “ se la media di una certa popolazione è uguale ad un determinato valore oppure no”. La verifica di ipotesi ci permette di confutare o non confutare l’IPOTESI NULLA, non ci permette di dimostrarla! Il ragionamento è questo → se fosse stata vera l’ipotesi nulla avrei potuto ottenere i dati che ho ottenuto? Che probabilità avevo, se fosse stata vera l’ipotesi nulla, di ottenere esattamente i dati che ho ottenuto?

  • se questa probabilità è alta ACCETTIAMO H
  • se questa probabilità è piccola RIFIUTIAMO H0 (perchè se fosse stata vera non avrei potuto ottenere i dati che ho ottenuto)
  • È un’operazione statistica che ci permette di stabilire se il campione di dati osservati conferma o smentisce una nostra teoria (o ipotesi)
  • Nel caso più semplice, vorremmo stabilire se il valore medio della popolazione è uguale a un certo valore oppure no → noi vorremmo osservare che il valore osservato è diverso dal valore teorico
  • In questo caso avremo due ipotesi:
  • H0 : μ = valore teorico
  • H1 : μ ≠ valore teorico

H0 si chiama “ipotesi nulla”, H1 “ipotesi alternativa” Noi mettiamo SEMPRE in H0 che il valore è uguale al VALORE TEORICO perchè noi possiamo esclusivamente dimostrare che una teoria è FALSA. Quindi mettiamo in H0 quello che vogliamo confutare, disconfermare.

Si cercherà di stabilire se, nel caso fosse vera H0 , avremo una probabilità alta o bassa di ottenere i dati che abbiamo ottenuto.

**La statistica test:è quella formula che è i l valore che abbiamo osservato meno il valore teorico diviso lo STANDARD ERROR (ovvero la variabilità della stima).

Lo standard error è una misura che mi dice che secondo le caratteristiche del campione che ho ottenuto quanto mi devo aspettare che i campioni possano sballare. Lo standard error è una grandezza che mi esprime quanto sono incerte le stime, cioè quanto le variabilità da campione e campione possono variare. Esso è tanto più grande quanto più grande è la variabilità della popolazione! Se un campione è grande è un campione meno variabile (cioè più stabile), mentre se il sto analizzando un fenomeno variabile le stime sono instabili*.

ESEMPIO : esempio del reddito, se nel campione entra Briatore il reddito risulta altissimo, mentre se nel campione entrano persone in cassa integrazione il valore crolla. Il reddito è una misura MOLTO VARIABILE a seconda del campione che si ottiene!

  • Inoltre lo standard error dipende dalla numerosità del campione → se entra Briatore in un campione di 10 individui la stima sballa, mentre se entra in un campione di 2mila persone la stima ne risente un pò di meno (perchè il valore estremo del reddito di Briatore viene compensato da altri redditi medio-bassi).

E’ chiaro che se lo standard error è alto (cioè mi aspetto che ci sia molta variabilità tra un campione e l’altro) questa differenza che osservo la taro con quello che mi aspetto che sia la variabilità delle stime.

Quindi noi calcoliamo questa statistica test → mi dice quanto sono lontano dall’ipotesi nulla rispetto a quanto ci si aspetta normalmente di andare lontano dall’analisi nulla.

Questo perchè lo standard error mi dice quanto è mediamente lontana la media campionaria dal vero valore!

  • Quanto sono lontano dal vero valore sotto H0? Se fosse vera H0 quanto ci si aspettava di potersi allontanare dal vero valore solo per “colpa” della variabilità campionaria? Se questo valore è grande io sono tanto lontana rispetto a quanto potevo aspettarmi di andare lontana per colpa del caso, mentre se questo valore è piccolo sono esattamente dentro la zona entro cui potersi muovere.

Quindi → se il valore è GRANDE dico che era complicato andare a finire così lontano solo per via del caso (quindi metto in dubbio il valore teorico) Se il valore è PICCOLO dico che la differenza è attribuibile al caso (il valore piccolo mi dice che sono andata vicino al valore teorico)

  • Mettiamo in discussione la teoria : nell’esempio del caffè dirò che se veramente la macchinetta del caffè l’avessimo tarata effettivamente sui 15cc, bisognava essere molto sfortunati a beccare caffè così lontani! Però io ho beccato quei caffè lì, metto in dubbio che la macchinetta fosse tarata correttamente.

La distribuzione t

  • La distribuzione t è simile a quella normale, ma leggermente più dispersa
  • La sua forma dipende da un parametro, detto “numero di gradi di libertà”
  • Una distribuzione t è tanto più dispersa quanti meno gradi di libertà ha
  • Una distribuzione t è tanto più simile a una distribuzione normale quanti più gradi di libertà

LA DISTRIBUZIONE T è molto simile alla normale anche se è un pò più schiacciata.

GRADI DI LIBERTA’ : cosa sono? Sono un parametro che distingue tutte le possibili distribuzioni T.

La distribuzione T di Student rappresenta una famiglia di distribuzioni individuate univocamente da un numero che si chiama “gradi di libertà ” che corrisponde alla numerosità campionaria - A partire da 30 gradi di libertà la T di Student è uguale alla distribuzione normale! Si chiama T di Student perchè fu studiata da un uomo che lavorava per la Guinness ma non poteva far uscire i risultati con il nome dell’azienda, allora non usò neanche il suo vero nome per non farlo accostare all’azienda. Si firmò con uno pseudonimo “Student”.

→ il concetto mi dice che se sto facendo un test di livello 95%, sono disposta ad ammettere che il campione mi porti abbastanza lontano dal valore centrale ma sono disposta ad ammetterlo fino a quel punto lì.

In alcuni casi è possibile fare livelli di test al 90% → se non ho particolari conseguenze l’8% è abbastanza poco, in questo caso potrei rifiutare H0 appena il p-value è più piccolo di 0,10 perchè in ogni caso mi sto solo facendo guidare nella ricerca di alcune ipotesi.

ESEMPIO DEL VACCINO:

In H0 mettiamo che il vaccino ha controindicazioni In H1 il vaccino ha controindicazioni Quindi se il test fosse del 95% avrei un 5% di possibili campioni che mi porterebbero a dire che il vaccino non ha controindicazioni anche quando ne ha.

Esempio: Una compagnia aerea vuole verificare se la media dei ritardi nei voli è diversa da un valore, considerato ragionevole, di 30 minuti. Una volta raccolti ed elaborati i dati, risulta che la statistica test è pari a 2,82, e il p-value è uguale a 0,0048 Cosa possiamo dire?

Per prima cosa dobbiamo scrivere le ipotesi:

  • H0 : il ritardo è di 30 minuti
  • H1: il ritardo non è di 30 minuti

Dalla statistica test possiamo vedere se la media dei ritardi è stata maggiore o minore dei 30 minuti: si vede infatti che è stata più GRANDE! Questo perché la statistica test è data da: ritardo osservato - 30 minuti/ standard error = 2. Questo vuol dire che il ritardo osservato è più grande di 30 !!! Sennò faceva un numero negativo!

Il P-value (0,0048) mi dice che avevamo 5 probabilità su mille di ottenere questi dati questi dati solo per via della scelta casuale dei voli che abbiamo analizzati se fosse stata vera H0!

  • Quindi RIFIUTIAMO H0 perchè se fosse stato vero che i voli avevano un ritardo di 30 minuti noi avevamo pochissime probabilità di osservare questi dati per via del caso. Se fosse stata vera H0 avevo una rarissima possibilità di trovare quei dati, però li ho trovati e quindi non vengono da H0.

→ formula per la variabile dicotomica Qui si dice solo che il Test-T si può fare anche se la P è una proporzione e non un numero vero e proprio

p è la proporzione osservata nel mio campione, meno la proporzione teorica (pi-greco) fratto lo Standard Error (la varianza della stima)

Esempio: Il responsabile delle campagne pubblicitarie di un’azienda sostiene che la pubblicità svolta nell’ultimo mese ha raggiunto l’88% del target dell’azienda. Un’indagine svolta su un campione di 200 potenziali acquirenti ha evidenziato che solo l’82% di questi aveva visto la pubblicità. H0: sotto H0 la proporzione teorica è l’88% Possiamo dire che il dato trovato è compatibile con quanto affermato dal responsabile, o lui ha fatto un po’ lo smargiasso? Dai calcoli risulta una statistica test pari a 2,61 e un pvalue pari a 0,009 = questi dati mi dicono che la probabilità di ottenere questi dati se fosse vero quello che dice il responsabile è MOLTO BASSA (è PIù PICCOLA DEL 9%) → quindi rifiuto H Ma in questi dati c’è un errore → non deve essere 2,61 ma deve essere -2, Mentre il valore 0,009 non è sbagliato! E’ il livello di significatività osservata o p-value.

Esempio : ancora distributori automatici La compagnia che gestisce i distributori automatici di bibite delle mense, riceve dei reclami da alcuni clienti che sostiene che ciascun bicchiere contiene meno dei 24cl dichiarati

Per verificarlo rapidamente, estrae un campione dei suoi distributori, e rileva presso questi la quantità di bibita erogata. In questo caso avremo bisogno di fare un TEST UNILATERALE Come è possibile verificare se la quantità media di bibita erogata è realmente minore rispetto a quella nominale, o se le eventuali differenze dipendono dal caso (ovvero dalle caratteristiche specifiche di alcune singole erogazioni)? Che differenza c’è tra questo problema e il precedente?

Test unilaterali

  • Nei test unilaterali si cambia il sistema con cui si scrivono le ipotesi. Se io voglio dimostrare che il ritardo aereo è MAGGIORE di 30 minuti dovrò scrivere in H0: <= 30 Il sistema di ipotesi è costruito in modo che quello che noi andremo a vedere è quanto era probabile ottenere quello che abbiamo ottenuto se fosse stata vera H → noi proviamo a “confutare” H0: quindi in essa dobbiamo metterci l’ipotesi che vogliamo dimostrare FALSA.
  • il Test UNILATERALE posso scegliere come costruire il sistema di ipotesi

Poiché il test permette solo di falsificare H0, il sistema di ipotesi sarà costruito in modo da mettere in H0 l’ipotesi che vogliamo dimostrare falsa.

  • Per esempio, se vogliamo verificare se il ritardo aereo è significativamente superiore a 30 minuti, scriveremo: - H0 : μ ≤ 30 - H1 : μ > 30 Perchè in questo modo andrò a vedere che probabilità avevo, se fosse stata vera H0, di avere un ritardo così grande come quello che ho osservato.
  • Se il valore osservato è minore di 30 (cioè si trova sul lato di H0), accettiamo H0 senza neppure guardare la significatività
    • Se la media che ho osservato è minore di 30 (es. la media dei minuti di ritardo nel nostro campione è 24 minuti) noi accettiamo H0 senza guardare il p-value.
  • Se il valore osservato è superiore a 30 (cioè si trova sul lato di H1), decidiamo se accettare o rifiutare H0 in base alla metà del p-value : se il valore del p-value dimezzato è inferiore a 0,05 rifiutiamo H0, se è superiore accettiamo H0 (per un test di livello 95%)
    • Del p-value ci interessa solo la metà! Ci interessa solo la probabilità da un lato, dal momento che la curva T è simmetrica (distribuzione T) → un lato positivo e un lato negativo: a noi il lato negativo non ci interessa perché in esso accettiamo sempre H0 e quindi guardiamo la metà del p-value. In questo caso vogliamo vedere che probabilità c’era di andare così lontano dai 30 minuti se fosse stata vera H0, ma se ci andiamo lontani dal lato negativo significherebbe che accettiamo H0 (ci dice che i ritardi sono più piccoli di H0)!

- Quando il p-value, considerando un livello di confidenza del 95%, porta ad accettare H0 noi troveremo che nell’intervallo di confidenza al 95% è compreso il valore 0 (vuol dire che tra i valori compatibili con il mio campione c’è quella per cui la media è uguale al valore teorico).

Ora andiamo a vedere il nostro campione era compatibile anche con un valore teorico uguale a 45.000 = naturalmente la media, la deviazione standard e lo standard error rimangono gli stessi. Questa volta la T è negativa (perchè 41.085-45.00 fà un valore negativo), il p-value questa volta è molto piccolo = questo vuol dire che se fosse stato vero che i redditi erano uguali a 45mila rubli era ESTREMAMENTE IMPROBABILE OTTENERE IL MIO CAMPIONE QUINDI RIFIUTO H.

  • i miei dati non sono compatibili con una media di popolazione pari a 45.000 = se veramente la popolazione avesse avuto un reddito di 45mila rubli era difficile ottenere il campione che ho ottenuto Questo lo vedo anche se guardiamo l’intervallo di confidenza della differenza vediamo che NON contiene lo 0! Quindi non contiene con i valori compatibili la situazione in cui la media è uguale a 45mila rubli.

Verifica di ipotesi – due campioni

Il test a 2 campioni è quello che mi permette di dire se la media di un gruppo è uguale a quella di un altro gruppo → mi permette di vedere se ci sono differenze significative (ovvero non dovute alla variabilità campionaria!). La verifica di ipotesi si può utilizzare anche per capire se due popolazioni (due gruppi sperimentali, due parti del campione, la stessa popolazione prima e dopo un trattamento, etc…) hanno lo stesso valore rispetto a una caratteristica (quantitativa!)

Innanzitutto occorre capire se i due campioni sono:

  • Dipendenti (o appaiati): ad ogni elemento del primo gruppo corrisponde necessariamente un certo elemento dell’altro gruppo (es. marito e moglie, la stessa unità prima e dopo un trattamento, padri e figli, etc…). Le unità di due gruppi si possono collegare in maniera univoca! Ho due gruppi che sono fatti o dalla stessa unità o da coppie di unità che si agganciano in modo univoco (ad unità di un gruppo corrisponde una unità dell’altro gruppo)
  • Indipendenti : i due gruppi non sono in relazione biunivoca, e possono anche avere dimensioni diverse. Esempio: potrei verificare se il reddito dei maschi è uguale a quello delle femmine. Le coppie non hanno nulla in comune.

Campioni dipendenti: un esempio Un fornitore di telefonia mobile effettua una campagna promozionale presso i propri clienti, e vuole verificare se tale promozione ha sortito qualche effetto oppure no (le persone sono le stesse).

In questo caso i due gruppi sono i clienti prima della promozione, e i clienti dopo la promozione, e i due campioni sono certamente non indipendenti Come procedereste? SISTEMA DI IPOTESI: H0: la spesa prima della promozione è uguale alla spesa dopo la promozione H1: la spesa prima della promozione è diversa dalla spesa dopo la promozione Ma possiamo anche costruire per ogni persona la VARIABILE DIFFERENZA : posso vedere quanto ogni persona ha cambiato la sua spesa prima e dopo. Quindi invece di avere un confronto tra due medie e facciamo questa differenza * (lo facciamo per ciascuna coppia) = possiamo costruire questa nuova variabile differenza che diventa una normale variabile.

  • Quindi possiamo scrivere nel sistema di ipotesi che: H0: questa differenza è nulla (uguale a 0) H1: questa differenza è diversa da 0

Abbiamo riportato questo particolare tipo di campione al CAMPIONE UNICO! Se sono dipendenti è sempre possibile costruire la variabile differenza e quindi si possono trattare come un campione unico (SEMPRE).

Campioni dipendenti: ipotesi e test

Vogliamo capire se c’è stata una differenza nella spesa prima e dopo la promozione, e quindi possiamo scrivere:

  • H0 : μ1 = μ
  • H1 : μ1 ≠ μ Oppure, se chiamiamo d la differenza* :
  • H0 : d = 0 → sotto H0 la differenza è nulla
  • H1 : d ≠ 0
  • A questo punto il test riguarda un’unica variabile e un’unica media , e si conduce nel solito modo: avremo un valore della statistica test, e il suo p-value (o livello di significatività)
    • Stavolta accettare H0 significa dire che i due gruppi sono uguali (oppure che non c’è stato effetto del trattamento, se si tratta di osservazioni prima e dopo), mentre rifiutare H0 vuol dire affermare che c’è qualche differenza

Esempio : Nel corso di un’indagine sui prezzi di mercato si vuol verificare se i prezzi di due punti vendita siano equivalenti oppure no ; a tal fine si rileva il prezzo di 25 diversi articoli in entrambi i negozi, e si sottopongono i risultati a un test.

  • Le medie risultano pari, rispettivamente, a 58,87 e 53,70 (ma ci servono?Perchè se abbiamo la statistica test non ci servono molto), la statistica test è 1,99 e il p-value 0, Conclusioni :
  • La statistica test POSITIVA mi dice che in media i prezzi nel primo punto vendita sono maggiori che nel secondo punto vendita
  • il p-value può essere sempre e solo positivo
  • in questo caso NON c’è bisogno di calcolare la variabile differenza perchè i dati mi danno già la statistica test (che avrei ottenuto costruendo la variabile differenza). SISTEMA DI IPOTESI : H0: la differenza tra i prezzi è uguale a 0, quindi i prezzi sono equivalenti H1: i prezzi sono diversi Con un test del 95% e il p-value è minore di 0,05 rifiutiamo H0 = concludiamo che i prezzi nei due punti vendita sono diversi. Il p-value mi dice che se fosse stata vera H0 (prezzi uguali) io avevo il 4,6% di probabilità di ottenere questo campione! Con un test di livello del 95% rifiutiamo H0 perchè,anche se di poco, è sotto la soglia dello 0,05.

In questi esempi (tutti e due con la stessa variabile), qui la variabile viene fatta su 2 livelli:

  • la misurazione della casa in mq oggi (nel 1993)
  • la misurazione della casa 5 anni prima Il campione è fatto i 3224 unità. Abbiamo quindi la metratura della casa in due date diverse ma inerenti alle STESSE PERSONE = quindi i campioni sono appaiati!
  • significa che dobbiamo costruire la variabile differenza.

Ma come al solito avremo un p-value : cioè un valore che ci dice quale era la probabilità di ottenere un campione come il nostro se le medie nella popolazione fossero state uguali.

  • Come al solito questo implica che:
    • se il p-value è grande vuol dire che la differenza che noi abbiamo osservato è attribuibile alla variabilità campionaria
    • se il p-value è piccolo vuol dire che se fosse stata vera H0 (ovvero che la media1 fosse stata uguale alla media2) era estremamente improbabile ottenere dati così diversi come i miei (quindi RIFIUTO H0 ).

Test di Levene

Il test T vero e proprio funziona bene se la variabilità (la varianza) del gruppo1 è uguale alla variabilità del gruppo2. Chiaramente però questo non lo sappiamo, per farlo dobbiamo fare un altro test che è il TEST DI LEVENE

  • Esso presuppone che l’ uguaglianza delle varianze dei gruppi è condizione necessaria per condurre un test per il confronto fra medie

Prima di condurre un test per due campioni indipendenti, occorre quindi verificare che le varianze dei due gruppi siano uguali; SPSS fornisce una tabella coi risultati del test di Levene sull’uguaglianza delle varianze

  • H0 : σ1 = σ
  • – H1 : σ1 ≠ σ → Se il p-value è alto , accetto l’ipotesi nulla quindi posso usare il test t; se il p-value è piccolo devo rifiutare H0 e utilizzare un diverso test più robusto (come il TEST DI LEVENE) COSA SUCCEDE CON IL TEST DI LEVENE: Per prima cosa si va a vedere se il test di Levene indica varianze uguali o differenti.
  • Se il Test di Levene non è significativo (cioè il p-value è grande) accetto H0 e vado a fare il test sulle medie guardando quella versione che va bene per varianze uguali (quindi il test t normale).
  • analogamente se il Test di Levene è significativo (cioè il p-value è piccolo) rifiuto H. Quindi se rifiuto H0 sto dicendo che le varianze sono diverse, quindi faccio lo stesso il test T sulle medie, ma faccio una versione del test sulle medie che è pensata PER LE VARIANZE DIVERSE. Di fatto devo guardare 2 test:
  1. Il primo è il test di Levene che mi dice “continua a guardare il test con varianze uguali” oppure “continua a guardare il test con varianze diverse” → con il Test di Levene non sto ancora dicendo NIENTE sulle medie, è il passaggio successivo che mi permette di dire se le medie sono uguali o diverse.
  2. Il secondo è il test T Altri dettagli Naturalmente, se l’argomento che stiamo analizzando indica che è più adeguato un test a una coda (ipotesi unilaterale), non dobbiamo fare altro che leggere il p-value per un test unilaterale, controllando se i valori osservati si collocano sul lato di H0 (e in questo caso si accetterà H0 senza guardare il p-value), o leggendo il p-value dimezzato se i valori osservati si collocano nel lato di H

In questo esempio sto confrontando il reddito personale di chi vive in zona urbana e chi vive in zona rurale.

Il campione è piccolo: ho 127 persone che vivono in zona urbana e 45 persone che vivono in zona rurale.

Devo fare un TEST T PER CAMPIONI INDIPENDENTI.

Ma per prima cosa devo capire se la deviazione standard di chi vive in zona urbana (che è più di 48mila) e la deviazione standard di chi vive in zona rurale SONO SIGNIFICATIVAMENTE DIVERSE. Per farlo guardo il Test di Levene per l’uguaglianza delle varianze :

  • esso ha un p-value uguale a 0.67 = è superiore a 0,05 quindi mi porta ad ACCETTARE H0 (che in questo caso è l’uguaglianza delle varianze).

Questo quindi è un bivio che mi dice o di continuare nella prima riga (varianze uguali) o nella seconda (varianze uguali non presunte).

  • in questo caso abbiamo accettato che le varianze sono uguali, quindi andiamo a vedere la prima riga.
  • Qui vediamo che il p-value è uguale a 0,01 (nella primissima tab) = quindi mi dice che le medie sono diverse ( RIFIUTO L’UGUAGLIANZA DELLE MEDIE!). Questo perchè abbiamo un P-VALUE PICCOLO, ovvero mi dice che se le medie fossero state uguali avevo 1 probabilità su 100 (0,01) di ottenere i miei dati!
  • Se il P-VALUE è PICCOLO nell’intervallo di confidenza NON sarà compreso il valore 0, mentre se il P-VALUE è GRANDE nell’intervallo di confidenza è compreso il valore 0.

Quindi dico che in zona urbana il reddito è molto più alto nelle zone urbane.

Lo stesso vale nel secondo caso con l’età dei maschi e delle femmine, anche in questo caso il campione non è grande.

  • Anche qui per prima cosa conduciamo un test sulle varianze, il quale ci dice che il p-value è 0,057 → quindi ACCETTIAMO H0 (quindi diciamo che le varianze sono uguali, quindi continuiamo sulla prima riga).
  • La prima riga ci dice che le medie sono UGUALI (p-value: ,110 quindi superiore alla soglia di 0,05) = mi dice che non abbiamo una differenza significativa tra maschi e femmine. ANCHE SE LA DIFFERENZA DELLE ETA’ è DI 4 ANNI (che è abbastanza alta = questo perchè questo è un campione abbastanza piccolo). Pertanto un campione di pochi casi mi sta dicendo che questa è una differenza che POTREBBE essere dovuta al caso, alla variabilità campionaria.

Scomporre la variabilità del fenomeno

La variabilità del fenomeno che analizziamo si può scomporre in due parti:

  1. una parte che è dovuta alle differenze tra i gruppi = questa è la variabilità DENTRO i gruppi
  2. e una parte che è dovuta alla variabilità che esiste anche entro ciascun gruppo = quanto i gruppi sono distanti gli uni dagli altri ( variabilità TRA i gruppi ) Nel nostro esempio, le macchine hanno consumi diversi sia perché appartengono a classi di veicoli diverse (SUV, berline, fuoristrada), sia perché ciascuna macchina, anche all’interno della stessa classe, ha consumi diversi → più i gruppi sono diversi, maggiore è la quota di variabilità che spiego con la differenza tra gruppi

1.La variabilità DENTRO i gruppi: sommiamo la variabilità del gruppo1, la variabilità del gruppo2 e la variabilità del gruppo3 (ecc) → è la somma di tutte le variabilità

2. La variabilita TRA i gruppi → mi dice quanto è distante la media del gruppo1 dalla media generale e questa la peso per quante sono le unità del gruppo1=poi faccio questo per ogni gruppo e ogni distanza dalla media generale.LE SOMMO

VENGONO SCOPOSTE TUTTE LE

VARIABILITA’ SIA DENTRO I GRUPPI CHE

TRA ESSI.

La STATISTICA F è un rapporto tra:

  • la variabilità tra le medie dei gruppi
  • e la variabilità dentro i gruppi (unità che fanno parte dello stesso gruppo)

Questo è un valore sempre positivo (assume valori >= di 0)

La distribuzione della statistica F dipende da 2 parametri:

  1. Uno ha a che fare con il numero di gruppi che stiamo confrontando
  2. Il secondo con il numero di unità totali

CARATTERISTICHE : Va su velocemente poi assume via a via valore sempre più bassi. Qui parliamo di variabilità! Non abbiamo più la distribuzione a campana della normale o del test T → le probabilità le andiamo a guardare nella coda a destra della curva come probabilità di ottenere un valore più grande di quello che ho ottenuto.

Consideriamo la curva più bassa: se io ottengo sui miei valori campionari il numero 1. La distribuzione F mi permette di dire che probabilità avevo solo per via del caso di ottenere un rapporto di variabilità uguale a 1 se in realtà le medie fossero state uguali.

Devo costruire anche in questo caso: H0 all’incontrario: le medie sono tutte uguali H1: non tutte le medie sono uguali

Se le medie dei gruppi sono tutte uguali cosa succede? Se le medie sono tutte uguali abbiamo uno 0 al numeratore (MSG) → quindi l’ipotesi nulla che abbiamo appena scritto la possiamo scrivere anche che sotto H0, F è uguale a 0 (F è dato da MSG diviso MSE).

La distribuzione F

Questa distribuzione mi dice quali probabilità avevo di ottenere quei valori di F se fosse stata vera H0 (ovvero se le medie fossero davvero state uguali). La distribuzione F, detta anche “distribuzione di FisherSnedecor”, prende il nome dal famoso statistico R.A.Fisher

  • È una distribuzione asimmetrica con coda a destra, che assume solo valori positivi, molto simile alla distribuzione χ Si tratta in realtà (anche in questo caso!) di una famiglia di distribuzioni, che assumono forme un po’ diverse al variare di due parametri:
  1. i gradi di libertà a numeratore (che vengono sempre indicati per primi) → ha a che fare con il numero di gruppi che stiamo confrontando
  2. i gradi di libertà a denominatore L →o con il numero di unità totali

Le tavole della F sono un po’ più complicate da consultare, perché occorre cercare contemporaneamente il valore che corrisponde ai gradi di libertà al numeratore ( = è dato dal numero di gruppi MENO 1) , ai gradi di libertà al denominatore ( = dato dal numero di unità MENO numero di gruppi ), e al livello di significatività che ci interessa

  • la statistica F non la possiamo rifiutare ad occhio perchè cosa è grande e cosa è piccolo dipende dal numero di gruppi e dal numero di unità che ci sono!

In generale sono fornite diverse tavole, corrispondenti ad alcune aree notevoli (es. 1%, 5%, etc…), e in ciascuna tavola si individua, all’incrocio dei due valori dei gradi di libertà, il valore critico corrispondente

Anche qui abbiamo un p-value e lo leggiamo come sempre: → se il p-value è grande i dati sono compatibili con H → se il p-value è piccolo significa che era molto raro trovare i dati come i nostri se fosse stata vera H

→ se le varianze sono diverse NON posso andare a guardare l’ANOVA ma vado a vedere i TEST ROBUSTI (che sono i test sull’uguaglianza delle medie).

  1. Innanzitutto faccio il test di Levene sulle varianze
  2. Se sono uguali faccio la classica ANOVA, mentre se sono diverse allora vado a richiedere un test robusto
  3. Poi dovrò verificare se le medie sono tutte uguali oppure no. Sia che abbiamo fatto il test ANOVA che il test robusto il modo di leggere il test è lo stesso: se il p-value è grande accettiamo l’ipotesi nulla mentre se è piccolo la rifiutiamo → se il p-value è grande affermiamo che tutte le medie sono uguali e terminiamo, non c’è più nulla da dire (il fenomeno che stiamo analizzando non dipende da quella variabile che abbiamo utilizzato per definire i gruppi)
  4. Rifiutando l’uguaglianza delle medie sappiamo che NON tutte le medie sono uguali. Dire questo non ci permette però di capire nel dettaglio cosa sta succedendo → allora questo richiede un ulteriore approfondimento per capire IN CHE MODO QUESTE MEDIE NON SONO UGUALI. Questi test → sono test a priori o test a posteriori.

Fino a che età si è studiato → vediamo le varianze: il p-value è più grande di 0,05 (0,78) Qui le varianze a livello 95% sono uguali mentre se vogliamo condurre un test di livello al 90% sono diverse (dal momento che la soglia è dello 0,1)

→ i test ci dicono che le MEDIE SONO DIVERSE: quindi andiamo a vedere in che modo le medie sono diverse

→ quindi poi andiamo a vedere i test con confronti multipli

+++ LEZIONE 20 SPIEGA TUTTO