









Studia grazie alle numerose risorse presenti su Docsity
Guadagna punti aiutando altri studenti oppure acquistali con un piano Premium
Prepara i tuoi esami
Studia grazie alle numerose risorse presenti su Docsity
Prepara i tuoi esami con i documenti condivisi da studenti come te su Docsity
Trova i documenti specifici per gli esami della tua università
Preparati con lezioni e prove svolte basate sui programmi universitari!
Rispondi a reali domande d’esame e scopri la tua preparazione
Riassumi i tuoi documenti, fagli domande, convertili in quiz e mappe concettuali
Studia con prove svolte, tesine e consigli utili
Togliti ogni dubbio leggendo le risposte alle domande fatte da altri studenti come te
Esplora i documenti più scaricati per gli argomenti di studio più popolari
Ottieni i punti per scaricare
Guadagna punti aiutando altri studenti oppure acquistali con un piano Premium
Appunti dettagliati con esempi
Tipologia: Appunti
1 / 16
Questa pagina non è visibile nell’anteprima
Non perderti parti importanti!










Cosa possiamo fare coi dati?
ESEMPIO : il distributore del caffè Nella nostra ipotesi il valore medio delle tazzine di caffè è 15cc Nella nostra ipotesi alternativa questo valore non è 15cc Che probabilità avevo su un campione di 30 caffè con la media di 19cc? Per farlo calcoliamo una statistica test → essa è il valore che abbiamo osservato (19cc) meno il valore teorico (15cc) diviso lo STANDARD ERROR*
Innanzitutto impostiamo un SISTEMA DI VERIFICA DI IPOTESI che mi permette di rispondere alla domanda “ se la media di una certa popolazione è uguale ad un determinato valore oppure no”. La verifica di ipotesi ci permette di confutare o non confutare l’IPOTESI NULLA, non ci permette di dimostrarla! Il ragionamento è questo → se fosse stata vera l’ipotesi nulla avrei potuto ottenere i dati che ho ottenuto? Che probabilità avevo, se fosse stata vera l’ipotesi nulla, di ottenere esattamente i dati che ho ottenuto?
H0 si chiama “ipotesi nulla”, H1 “ipotesi alternativa” Noi mettiamo SEMPRE in H0 che il valore è uguale al VALORE TEORICO perchè noi possiamo esclusivamente dimostrare che una teoria è FALSA. Quindi mettiamo in H0 quello che vogliamo confutare, disconfermare.
Si cercherà di stabilire se, nel caso fosse vera H0 , avremo una probabilità alta o bassa di ottenere i dati che abbiamo ottenuto.
**La statistica test:è quella formula che è i l valore che abbiamo osservato meno il valore teorico diviso lo STANDARD ERROR (ovvero la variabilità della stima).
Lo standard error è una misura che mi dice che secondo le caratteristiche del campione che ho ottenuto quanto mi devo aspettare che i campioni possano sballare. Lo standard error è una grandezza che mi esprime quanto sono incerte le stime, cioè quanto le variabilità da campione e campione possono variare. Esso è tanto più grande quanto più grande è la variabilità della popolazione! Se un campione è grande è un campione meno variabile (cioè più stabile), mentre se il sto analizzando un fenomeno variabile le stime sono instabili*.
ESEMPIO : esempio del reddito, se nel campione entra Briatore il reddito risulta altissimo, mentre se nel campione entrano persone in cassa integrazione il valore crolla. Il reddito è una misura MOLTO VARIABILE a seconda del campione che si ottiene!
E’ chiaro che se lo standard error è alto (cioè mi aspetto che ci sia molta variabilità tra un campione e l’altro) questa differenza che osservo la taro con quello che mi aspetto che sia la variabilità delle stime.
Quindi noi calcoliamo questa statistica test → mi dice quanto sono lontano dall’ipotesi nulla rispetto a quanto ci si aspetta normalmente di andare lontano dall’analisi nulla.
Questo perchè lo standard error mi dice quanto è mediamente lontana la media campionaria dal vero valore!
Quindi → se il valore è GRANDE dico che era complicato andare a finire così lontano solo per via del caso (quindi metto in dubbio il valore teorico) Se il valore è PICCOLO dico che la differenza è attribuibile al caso (il valore piccolo mi dice che sono andata vicino al valore teorico)
La distribuzione t
LA DISTRIBUZIONE T è molto simile alla normale anche se è un pò più schiacciata.
GRADI DI LIBERTA’ : cosa sono? Sono un parametro che distingue tutte le possibili distribuzioni T.
La distribuzione T di Student rappresenta una famiglia di distribuzioni individuate univocamente da un numero che si chiama “gradi di libertà ” che corrisponde alla numerosità campionaria - A partire da 30 gradi di libertà la T di Student è uguale alla distribuzione normale! Si chiama T di Student perchè fu studiata da un uomo che lavorava per la Guinness ma non poteva far uscire i risultati con il nome dell’azienda, allora non usò neanche il suo vero nome per non farlo accostare all’azienda. Si firmò con uno pseudonimo “Student”.
→ il concetto mi dice che se sto facendo un test di livello 95%, sono disposta ad ammettere che il campione mi porti abbastanza lontano dal valore centrale ma sono disposta ad ammetterlo fino a quel punto lì.
In alcuni casi è possibile fare livelli di test al 90% → se non ho particolari conseguenze l’8% è abbastanza poco, in questo caso potrei rifiutare H0 appena il p-value è più piccolo di 0,10 perchè in ogni caso mi sto solo facendo guidare nella ricerca di alcune ipotesi.
In H0 mettiamo che il vaccino ha controindicazioni In H1 il vaccino ha controindicazioni Quindi se il test fosse del 95% avrei un 5% di possibili campioni che mi porterebbero a dire che il vaccino non ha controindicazioni anche quando ne ha.
Esempio: Una compagnia aerea vuole verificare se la media dei ritardi nei voli è diversa da un valore, considerato ragionevole, di 30 minuti. Una volta raccolti ed elaborati i dati, risulta che la statistica test è pari a 2,82, e il p-value è uguale a 0,0048 Cosa possiamo dire?
Per prima cosa dobbiamo scrivere le ipotesi:
Dalla statistica test possiamo vedere se la media dei ritardi è stata maggiore o minore dei 30 minuti: si vede infatti che è stata più GRANDE! Questo perché la statistica test è data da: ritardo osservato - 30 minuti/ standard error = 2. Questo vuol dire che il ritardo osservato è più grande di 30 !!! Sennò faceva un numero negativo!
Il P-value (0,0048) mi dice che avevamo 5 probabilità su mille di ottenere questi dati questi dati solo per via della scelta casuale dei voli che abbiamo analizzati se fosse stata vera H0!
→ formula per la variabile dicotomica Qui si dice solo che il Test-T si può fare anche se la P è una proporzione e non un numero vero e proprio
p è la proporzione osservata nel mio campione, meno la proporzione teorica (pi-greco) fratto lo Standard Error (la varianza della stima)
Esempio: Il responsabile delle campagne pubblicitarie di un’azienda sostiene che la pubblicità svolta nell’ultimo mese ha raggiunto l’88% del target dell’azienda. Un’indagine svolta su un campione di 200 potenziali acquirenti ha evidenziato che solo l’82% di questi aveva visto la pubblicità. H0: sotto H0 la proporzione teorica è l’88% Possiamo dire che il dato trovato è compatibile con quanto affermato dal responsabile, o lui ha fatto un po’ lo smargiasso? Dai calcoli risulta una statistica test pari a 2,61 e un pvalue pari a 0,009 = questi dati mi dicono che la probabilità di ottenere questi dati se fosse vero quello che dice il responsabile è MOLTO BASSA (è PIù PICCOLA DEL 9%) → quindi rifiuto H Ma in questi dati c’è un errore → non deve essere 2,61 ma deve essere -2, Mentre il valore 0,009 non è sbagliato! E’ il livello di significatività osservata o p-value.
Esempio : ancora distributori automatici La compagnia che gestisce i distributori automatici di bibite delle mense, riceve dei reclami da alcuni clienti che sostiene che ciascun bicchiere contiene meno dei 24cl dichiarati
Per verificarlo rapidamente, estrae un campione dei suoi distributori, e rileva presso questi la quantità di bibita erogata. In questo caso avremo bisogno di fare un TEST UNILATERALE Come è possibile verificare se la quantità media di bibita erogata è realmente minore rispetto a quella nominale, o se le eventuali differenze dipendono dal caso (ovvero dalle caratteristiche specifiche di alcune singole erogazioni)? Che differenza c’è tra questo problema e il precedente?
Poiché il test permette solo di falsificare H0, il sistema di ipotesi sarà costruito in modo da mettere in H0 l’ipotesi che vogliamo dimostrare falsa.
- Quando il p-value, considerando un livello di confidenza del 95%, porta ad accettare H0 noi troveremo che nell’intervallo di confidenza al 95% è compreso il valore 0 (vuol dire che tra i valori compatibili con il mio campione c’è quella per cui la media è uguale al valore teorico).
Ora andiamo a vedere il nostro campione era compatibile anche con un valore teorico uguale a 45.000 = naturalmente la media, la deviazione standard e lo standard error rimangono gli stessi. Questa volta la T è negativa (perchè 41.085-45.00 fà un valore negativo), il p-value questa volta è molto piccolo = questo vuol dire che se fosse stato vero che i redditi erano uguali a 45mila rubli era ESTREMAMENTE IMPROBABILE OTTENERE IL MIO CAMPIONE QUINDI RIFIUTO H.
Il test a 2 campioni è quello che mi permette di dire se la media di un gruppo è uguale a quella di un altro gruppo → mi permette di vedere se ci sono differenze significative (ovvero non dovute alla variabilità campionaria!). La verifica di ipotesi si può utilizzare anche per capire se due popolazioni (due gruppi sperimentali, due parti del campione, la stessa popolazione prima e dopo un trattamento, etc…) hanno lo stesso valore rispetto a una caratteristica (quantitativa!)
Innanzitutto occorre capire se i due campioni sono:
Campioni dipendenti: un esempio Un fornitore di telefonia mobile effettua una campagna promozionale presso i propri clienti, e vuole verificare se tale promozione ha sortito qualche effetto oppure no (le persone sono le stesse).
In questo caso i due gruppi sono i clienti prima della promozione, e i clienti dopo la promozione, e i due campioni sono certamente non indipendenti Come procedereste? SISTEMA DI IPOTESI: H0: la spesa prima della promozione è uguale alla spesa dopo la promozione H1: la spesa prima della promozione è diversa dalla spesa dopo la promozione Ma possiamo anche costruire per ogni persona la VARIABILE DIFFERENZA : posso vedere quanto ogni persona ha cambiato la sua spesa prima e dopo. Quindi invece di avere un confronto tra due medie e facciamo questa differenza * (lo facciamo per ciascuna coppia) = possiamo costruire questa nuova variabile differenza che diventa una normale variabile.
Abbiamo riportato questo particolare tipo di campione al CAMPIONE UNICO! Se sono dipendenti è sempre possibile costruire la variabile differenza e quindi si possono trattare come un campione unico (SEMPRE).
Vogliamo capire se c’è stata una differenza nella spesa prima e dopo la promozione, e quindi possiamo scrivere:
Esempio : Nel corso di un’indagine sui prezzi di mercato si vuol verificare se i prezzi di due punti vendita siano equivalenti oppure no ; a tal fine si rileva il prezzo di 25 diversi articoli in entrambi i negozi, e si sottopongono i risultati a un test.
In questi esempi (tutti e due con la stessa variabile), qui la variabile viene fatta su 2 livelli:
Ma come al solito avremo un p-value : cioè un valore che ci dice quale era la probabilità di ottenere un campione come il nostro se le medie nella popolazione fossero state uguali.
Il test T vero e proprio funziona bene se la variabilità (la varianza) del gruppo1 è uguale alla variabilità del gruppo2. Chiaramente però questo non lo sappiamo, per farlo dobbiamo fare un altro test che è il TEST DI LEVENE
Prima di condurre un test per due campioni indipendenti, occorre quindi verificare che le varianze dei due gruppi siano uguali; SPSS fornisce una tabella coi risultati del test di Levene sull’uguaglianza delle varianze
In questo esempio sto confrontando il reddito personale di chi vive in zona urbana e chi vive in zona rurale.
Il campione è piccolo: ho 127 persone che vivono in zona urbana e 45 persone che vivono in zona rurale.
Devo fare un TEST T PER CAMPIONI INDIPENDENTI.
Ma per prima cosa devo capire se la deviazione standard di chi vive in zona urbana (che è più di 48mila) e la deviazione standard di chi vive in zona rurale SONO SIGNIFICATIVAMENTE DIVERSE. Per farlo guardo il Test di Levene per l’uguaglianza delle varianze :
Questo quindi è un bivio che mi dice o di continuare nella prima riga (varianze uguali) o nella seconda (varianze uguali non presunte).
Quindi dico che in zona urbana il reddito è molto più alto nelle zone urbane.
Lo stesso vale nel secondo caso con l’età dei maschi e delle femmine, anche in questo caso il campione non è grande.
La variabilità del fenomeno che analizziamo si può scomporre in due parti:
1.La variabilità DENTRO i gruppi: sommiamo la variabilità del gruppo1, la variabilità del gruppo2 e la variabilità del gruppo3 (ecc) → è la somma di tutte le variabilità
2. La variabilita TRA i gruppi → mi dice quanto è distante la media del gruppo1 dalla media generale e questa la peso per quante sono le unità del gruppo1=poi faccio questo per ogni gruppo e ogni distanza dalla media generale.LE SOMMO
La STATISTICA F è un rapporto tra:
Questo è un valore sempre positivo (assume valori >= di 0)
La distribuzione della statistica F dipende da 2 parametri:
CARATTERISTICHE : Va su velocemente poi assume via a via valore sempre più bassi. Qui parliamo di variabilità! Non abbiamo più la distribuzione a campana della normale o del test T → le probabilità le andiamo a guardare nella coda a destra della curva come probabilità di ottenere un valore più grande di quello che ho ottenuto.
Consideriamo la curva più bassa: se io ottengo sui miei valori campionari il numero 1. La distribuzione F mi permette di dire che probabilità avevo solo per via del caso di ottenere un rapporto di variabilità uguale a 1 se in realtà le medie fossero state uguali.
Devo costruire anche in questo caso: H0 all’incontrario: le medie sono tutte uguali H1: non tutte le medie sono uguali
Se le medie dei gruppi sono tutte uguali cosa succede? Se le medie sono tutte uguali abbiamo uno 0 al numeratore (MSG) → quindi l’ipotesi nulla che abbiamo appena scritto la possiamo scrivere anche che sotto H0, F è uguale a 0 (F è dato da MSG diviso MSE).
Questa distribuzione mi dice quali probabilità avevo di ottenere quei valori di F se fosse stata vera H0 (ovvero se le medie fossero davvero state uguali). La distribuzione F, detta anche “distribuzione di FisherSnedecor”, prende il nome dal famoso statistico R.A.Fisher
Le tavole della F sono un po’ più complicate da consultare, perché occorre cercare contemporaneamente il valore che corrisponde ai gradi di libertà al numeratore ( = è dato dal numero di gruppi MENO 1) , ai gradi di libertà al denominatore ( = dato dal numero di unità MENO numero di gruppi ), e al livello di significatività che ci interessa
In generale sono fornite diverse tavole, corrispondenti ad alcune aree notevoli (es. 1%, 5%, etc…), e in ciascuna tavola si individua, all’incrocio dei due valori dei gradi di libertà, il valore critico corrispondente
Anche qui abbiamo un p-value e lo leggiamo come sempre: → se il p-value è grande i dati sono compatibili con H → se il p-value è piccolo significa che era molto raro trovare i dati come i nostri se fosse stata vera H
→ se le varianze sono diverse NON posso andare a guardare l’ANOVA ma vado a vedere i TEST ROBUSTI (che sono i test sull’uguaglianza delle medie).
Fino a che età si è studiato → vediamo le varianze: il p-value è più grande di 0,05 (0,78) Qui le varianze a livello 95% sono uguali mentre se vogliamo condurre un test di livello al 90% sono diverse (dal momento che la soglia è dello 0,1)
→ i test ci dicono che le MEDIE SONO DIVERSE: quindi andiamo a vedere in che modo le medie sono diverse
→ quindi poi andiamo a vedere i test con confronti multipli