






Studia grazie alle numerose risorse presenti su Docsity
Guadagna punti aiutando altri studenti oppure acquistali con un piano Premium
Prepara i tuoi esami
Studia grazie alle numerose risorse presenti su Docsity
Prepara i tuoi esami con i documenti condivisi da studenti come te su Docsity
Trova i documenti specifici per gli esami della tua università
Preparati con lezioni e prove svolte basate sui programmi universitari!
Rispondi a reali domande d’esame e scopri la tua preparazione
Riassumi i tuoi documenti, fagli domande, convertili in quiz e mappe concettuali
Studia con prove svolte, tesine e consigli utili
Togliti ogni dubbio leggendo le risposte alle domande fatte da altri studenti come te
Esplora i documenti più scaricati per gli argomenti di studio più popolari
Ottieni i punti per scaricare
Guadagna punti aiutando altri studenti oppure acquistali con un piano Premium
Una panoramica completa dei concetti chiave dell'inferenza statistica, coprendo la stima puntuale e intervallare, i test di ipotesi e la regressione lineare. Esempi pratici e formule per calcolare il margine di errore, il p-value e altri parametri statistici. Inoltre, vengono illustrati i diversi tipi di test di ipotesi e le loro applicazioni. Un'ottima risorsa per studenti universitari e chiunque desideri approfondire la propria conoscenza dell'inferenza statistica.
Tipologia: Appunti
1 / 12
Questa pagina non è visibile nell’anteprima
Non perderti parti importanti!







Come è stato detto nel capitolo precedente, in statistica si usa la “inferenza statistica”, per definire le caratteristiche di una certa popolazione, attraverso lo studio di un suo campione. Nel definire quindi il parametro di una popolazione (xc) o di una sua proporzione (pc), si usa la cosiddetta stima puntuale (singolo valore numerico), ma dato che noi non sappiamo se il valore dato è quello esatto, può venirci in aiuto il calcolo di una “stima intervallare, detta anche intervallo di confidenza”, aggiungendo e sottraendo alla stima puntuale un valore chiamato: margine di errore. La probabilità che questo intervallo contenga il parametro vero è detta “livello di confidenza (1-alfa) -> dev’essere vicino il più possibile a 1”. Con essa possiamo trovare quei valori entro il quale si ritiene, con un certo grado di fiducia, cada il “vero valore” del parametro incognito “teta”. Formule per la stima puntuale: Adesso vediamo il calcolo della stima intervallare in due casi: DS nota DS/radice di n x z -> margine di errore. Per esempio: con un livello di confidenza del 95%, si ha che Z0,025 è il quantile di ordine 0,975. A parità di livello di confidenza, gli intervalli sono più stretti all’aumentare del numero di osservazioni; a parità di dimensione campionaria, gli intervalli sono più stretti al diminuire del livello di confidenza. Per diminuire il margine di errore si può ricorrere a due opzioni: o aumentare la numerosità campionaria o ridurre il livello di confidenza; DS non nota In questo caso passiamo da sigma a S (vedi formula s stima puntuale). Quindi la nuova formula di standardizzazione è: T=Xc- micro/(S/radice di n). T rappresenta una v.c. che ha una distribuzione nota; essa è detta anche “t di Student” con n – 1 gradi di libertà (T-tn-1). La distribuzione tr: o Assomiglia alla distribuzione Gaussiana, perché la t di Student ha una forma a campana, è simmetrica ed è centrata sullo 0; o La sua VAR dipende dai gradi libertà: VAR(tr)=r/r-2 (è >1);
o Questa distribuzione ha code più pesanti e una maggiore variabilità rispetto alla Normale. Tuttavia al crescere dei gradi di libertà (r), la sua forma si avvicina sempre di più alla Gaussiana. Quando il numero dei gradi di libertà è >30, le due distribuzioni sono quasi identiche; o Per calcolare t alfa/2 bisogna consultare una tavola apposita che è proprio quella della t di Student (bisogna usare n – 1 è 1
La formula sopra riportata, misura quanto lontano la media campionaria xc cade rispetto al valore micro0, specificato sotto l’ipotesi nulla. In corrispondenza di un certo livello di alfa, dobbiamo trovare la soglia k che mi permette di definire le regioni di accettazione e di rifiuto. E questo lo possiamo fare attraverso l’uso della formula Z (normale standardizzata). o Caso bidirezionale Rifiuto H0 se: z <= -z alfa/2 o z >= z alfa/2; o Caso unidirezionale: Destra Rifiuto H0 se: z >= z alfa; Sinistra Rifiuto H0 se: z <= -z alfa. Il p-value rappresenta la probabilità di osservare, per la statistica test (calcolata sul fatto che H0 sia vera) valori più estremi del valore della statistica test, ottenuta sui dati osservati. Tanto più piccolo è il p-value, minore è la probabilità che sotto H0, la statistica test produca un valore > a quello osservato; mentre è alta la probabilità sotto H1 -> quindi rifiuto H0. La regola decisionale è quindi: o P-v > alfa -> non rifiuto H0; o P-v <= alfa -> rifiuto H0. In particolare: o Se il p-v<0,01 -> rifiuto H0 con un livello di significatività dell’1%. Quindi ipotesi H1 molto favorevole; o Se il 0,01<=p-v<0,05 -> rifiuto H0 con un livello di significatività del 5%; o Se il 0,05<=p-v<0,10 -> rifiuto H0 con un livello di significatività del 10%; o Se il p-v>=0,10 -> evidenza a favore di H1 è insufficiente. Per calcolare il p-value bisogna fare la somma delle aree delle due code, o moltiplicare per “2” il risultato trovato (BIDI), o di una sola
(UNIDI) in base allo z trovato (stesso principio della variabile Gaussiana); DS non nota (t-test) In questo caso dobbiamo ricorrere al calcolo della S e alla distribuzione della t di Student. Quindi possiamo usare questo calcolo solo se: la DS della “popolazione” non è nota e se il campione (n)<30. o Caso bidirezionale. Rifiuto H0 se: t <= -t alfa/2, n-1 o t >= t alfa/2, n-1; o Caso unidirezionale: Destra. Rifiuto H0 se: t >= t alfa, n-1; Sinistra. Rifiuto H0 se: t <= -t alfa, n-1; Per il calcolo del p-value, ci sono due opzioni: usare una funzione in Excel chiamata “=DISTRIB.T (t; n-1; numero di code) -> 1 = unidirezionale; 2 = bidirezionale”; o trovare il valore critico nella rispettiva tavola, con il rispettivo grado di libertà (si trova un intervallo alfa). Per le regole di confronto valgono le stesse di prima. Ora valutiamo le ipotesi su una proporzione di una popolazione -> X-Ber (p) (z-test). Stesso principio di valutazione su: approssimazione alla Normale. Caso bidirezionale. Rifiuto H0 se: z <= -z alfa/2 o z >= z alfa/2; Caso unidirezionale: o Destra. Rifiuto H0 se: z >= z alfa; o Sinistra. Rifiuto H0 se: z <= -z alfa. Calcolo del p-value secondo la distribuzione Normale (z), e ancora stesse regole per il confronto. Procedura operativa per un test delle ipotesi (valore critico e p-value): Si sceglie alfa; Si decide quale Statistica Test utilizzare (T): z-test o t-test; Si determina la regione di Rifiuto e di Accettazione attraverso l’individuazione dei valori critici, k: o Ipotesi alternativa bidirezionale, regione di rifiuto: T <= −k, T >= k; o Ipotesi alternativa unidirezionale destra, regione di rifiuto: T >= k; o Ipotesi alternativa unidirezionale sinistra, regione di rifiuto: T <= −k; Si calcola il valore della Statistica test osservato; Si verifica se cade o no nella regione di rifiuto:
Ipotesi che DS1 = DS2 = DS; S2p = varianza campionaria congiunta (pooled sample variance); Qui abbiamo un t alfa72, n1+n2-2; o Proporzioni. o La radice nella formula “statistica test” è la DS p^1-p^2. Con campioni appaiati. Questo disegno si discosta dal primo per due elementi: il primo è che ogni coppia di osservazioni (metodo 1 e metodo 2), ha un elemento in comune; il secondo è che le due osservazioni sono dipendenti. Quindi il carattere della “dipendenza” è quella che contraddistingue questi due disegni (1 popolazione per 2 osservazioni diverse). Questo disegno consente anche una maggiore precisione, perché si sta utilizzando una stessa popolazione per confrontare due osservazioni (la diversità della popolazione è eliminata). Se l’appaiamento non è possibile, o i tempi o i costi associati a quest’ultimo sono eccessivi, è preferibile il c.c.s. indipendente. La VAR[X] non è nota
La t è alfa/2, n-1. In un c.c.s., quando si classificano le unità statistiche secondo le modalità di due caratteri diversi (variabili qualitative), ci si domanda spesso: questi due caratteri del c.c.s. sono dipendenti o indipendenti fra di loro? Per risolvere questo quesito ci aiuta il “test d’indipendenza”. In questo test, si mette a sottoporre a verifica le seguenti ipotesi: Per risolvere questo test, ci viene in aiuto anche una tabella di contingenza delle frequenze osservate (sotto forma di “matrice”): Legenda: nij: frequenza osservata in una singola cella (frequenza osservata); ni0: totale della riga i; n0j: totale della colonna j; n: totale assoluto. Per capire se c’è l’indipendenza (P(A^B)=P(A)*P(B)) o meno, bisogna fare un confronto tra le frequenze osservate e attese (eij). Se la discrepanza è elevatissima, rifiutiamo H0. Statistica test. N.B.: questo test è un test “unidirezionale con coda DX” -> stesse regole per il valore critico
o Se =0: nessuna relazione lineare. Avendo dunque noti i dati campionari (o dati osservati) sulle variabili X e Y su n unità statistiche, ma non i parametri; dai dati osservati, è possibile trovare le stime dei parametri incogniti. Equazione di regressione stimata: (Y^ = stimatore puntuale di E(Y)) Per trovare b0 e b1, useremo il metodo dei “minimi quadrati”. Dato: Un c.c.s. di n coppie di valori osservati (xn, yn); b0 e b1 come due valori per beta 0 e 1, per ogni xi e possibile calcolare yi. Dai valori che si assegnano a b0 e b1, dipende il grado di approssimazione dei valori teorici (y^i = valore previsto di Y, per l’osservazione i), rispetto ai valori effettivi (yi); La differenza tra il valore osservato e il valore teorico, viene definito “residuo”. Essa rappresenta l’errore in cui si incorre, nell’utilizzo di Y=b0+b1*Xi, per stimare Yi; Per avere dei valori ottimali, la regressione stimata deve produrre residui piccoli. Formule di calcolo per b0 e b1: Legenda: Xi: valore della variabile indipendente per l’i-esima osservazione; Yi: valore della variabile risposta per l’i-esima osservazione; Xc: il valore medio della variabile indipendente; Yc: il valore medio della variabile risposta; N: numero totale di osservazioni. Grazie al criterio dei “MIN X^2”, possiamo trovare le stime di beta0 e beta1. Tuttavia, esso non ci dice niente sulla loro “bontà”: ovvero, sull’attendibilità dell’equazione di regressione. Per rispondere a questa domanda, bisogna utilizzare il “coefficiente di determinazione”:
-> somma dei quadrati dovuta all’errore; -> somma totale dei quadrati; -> somma dei quadrati dovuta alla regressione. R2 o r2 rappresenta la frazione della varianza della variabile risposta spiegata dal modello, ovvero, la quota della variabilità della v.c.Y che può essere attribuita alla relazione lineare con la v.c.X. Più r2->1, maggiore è l’attendibilità dell’equazione di regressione lineare (però dipende anche dal contesto). In termini di commento: l’equazione di regressione lineare, spiega …% della variabilità complessiva della v.c.Y. Coefficiente di correlazione campionario: Se b1>0 (segno +); mentre b1<0 (segno -). Assunti del modello: