Prepara i tuoi esami
Ottieni punti
Guide e consigli
Vendi su Docsity
Docsity AI

Prepara i tuoi esami

Studia grazie alle numerose risorse presenti su Docsity

Ottieni i punti per scaricare

Guadagna punti aiutando altri studenti oppure acquistali con un piano Premium

Guide e consigli

Vendi su Docsity

Docsity AI

Accedi Registrati

Prepara i tuoi esami

Studia grazie alle numerose risorse presenti su Docsity

Cerca documenti

Prepara i tuoi esami con i documenti condivisi da studenti come te su Docsity

Cerca la tua università

Trova i documenti specifici per gli esami della tua università

Video Corsi

Preparati con lezioni e prove svolte basate sui programmi universitari!

Quiz

Rispondi a reali domande d’esame e scopri la tua preparazione

Docsity AINEW

Riassumi i tuoi documenti, fagli domande, convertili in quiz e mappe concettuali

Maturità 2026

Studia con prove svolte, tesine e consigli utili

Esplora domande

Togliti ogni dubbio leggendo le risposte alle domande fatte da altri studenti come te

Argomenti di studio

Esplora i documenti più scaricati per gli argomenti di studio più popolari

Ottieni i punti per scaricare

Guadagna punti aiutando altri studenti oppure acquistali con un piano Premium

Condividi documenti

20 Punti

Per ogni documento caricato

Rispondi alle domande

5 Punti

per ogni risposta data (max 1 al giorno)

Tutti i modi per ottenere punti gratis

Ottieni punti subito

Scegli un piano Premium con tutti i punti di cui hai bisogno

Opportunità di studio

Scegli il tuo prossimo programma di studio

Entra in contatto con le migliori università del mondo e scegli il tuo percorso di studi

Classifica delle migliori università

Scopri le migliori università italiane secondo gli studenti

Community

Chiedi alla community

Chiedi aiuto alla community e sciogli i tuoi dubbi legati allo studio

Guide Gratuite

I nostri eBook salva studente

Scarica gratuitamente le nostre guide sulle tecniche di studio, metodi per gestire l'ansia, dritte per la tesi realizzati da tutor Docsity

Inferenza Statistica: Stima Puntuale e Intervallare, Test di Ipotesi e Regressione Lineare, Appunti di Statistica

Università Ca' Foscari di Venezia (UNIVE)Statistica

Una panoramica completa dei concetti chiave dell'inferenza statistica, coprendo la stima puntuale e intervallare, i test di ipotesi e la regressione lineare. Esempi pratici e formule per calcolare il margine di errore, il p-value e altri parametri statistici. Inoltre, vengono illustrati i diversi tipi di test di ipotesi e le loro applicazioni. Un'ottima risorsa per studenti universitari e chiunque desideri approfondire la propria conoscenza dell'inferenza statistica.

Tipologia: Appunti

2019/2020

Caricato il 08/01/2025

gianmy-nikon 🇮🇹

4.5

(2)

17 documenti

1 / 12

Questa pagina non è visibile nell’anteprima

Non perderti parti importanti!

Statistica 2

Come è stato detto nel capitolo precedente, in statistica si usa la

“inferenza statistica”, per definire le caratteristiche di una certa

popolazione, attraverso lo studio di un suo campione. Nel definire quindi

il parametro di una popolazione (xc) o di una sua proporzione (pc), si usa

la cosiddetta stima puntuale (singolo valore numerico), ma dato che noi

non sappiamo se il valore dato è quello esatto, può venirci in aiuto il

calcolo di una “stima intervallare, detta anche intervallo di confidenza”,

aggiungendo e sottraendo alla stima puntuale un valore chiamato:

margine di errore. La probabilità che questo intervallo contenga il

parametro vero è detta “livello di confidenza (1-alfa) -> dev’essere vicino

il più possibile a 1”. Con essa possiamo trovare quei valori entro il quale

si ritiene, con un certo grado di fiducia, cada il “vero valore” del

parametro incognito “teta”. Formule per la stima puntuale:

Adesso vediamo il calcolo della stima intervallare in due casi:

DS nota

DS/radice di n x z -> margine di errore. Per esempio: con un livello

di confidenza del 95%, si ha che Z0,025 è il quantile di ordine

0,975. A parità di livello di confidenza, gli intervalli sono più stretti

all’aumentare del numero di osservazioni; a parità di dimensione

campionaria, gli intervalli sono più stretti al diminuire del livello di

confidenza. Per diminuire il margine di errore si può ricorrere a due

opzioni: o aumentare la numerosità campionaria o ridurre il livello

di confidenza;

DS non nota

In questo caso passiamo da sigma a S (vedi formula s stima

puntuale). Quindi la nuova formula di standardizzazione è: T=Xc-

micro/(S/radice di n). T rappresenta una v.c. che ha una

distribuzione nota; essa è detta anche “t di Student” con n – 1 gradi

di libertà (T-tn-1). La distribuzione tr:

oAssomiglia alla distribuzione Gaussiana, perché la t di Student

ha una forma a campana, è simmetrica ed è centrata sullo 0;

oLa sua VAR dipende dai gradi libertà: VAR(tr)=r/r-2 (è >1);

Scopri Appunti di Statistica Università Ca' Foscari di Venezia (UNIVE)

Documenti correlati

Stima Puntuale e Intervallare: Guida all'Inferenza Statistica

Esercizi di Statistica Applicata: Stima Puntuale e Intervallare, Test di Ipotesi

Stima intervallare formule

(1)

Statistica II modulo: Stima Puntuale e Intervallare

Stima Puntuale e Intervallare: Applicazioni e Esempi

Inferenza Statistica: Stima Intervallare e Intervalli di Confidenza

Introduzione alla Statistica: Stima Puntuale, Stima Intervallare e Test di Ipotesi - Prof.

Inferenza Statistica: Stima Puntuale e Intervalli di Confidenza

Inferenza Statistica: Stima e Test di Ipotesi - Prof. De Capitani

Inferenza Statistica: Verifica d'Ipotesi e Stima Intervallare

Stima Puntuale e Intervallare: Esercizi e Quiz - Prof. De Battisti

Esercitazione di Statistica: Stima Puntuale e Intervallare - Prof. Tommasi

Anteprima parziale del testo

Scarica Inferenza Statistica: Stima Puntuale e Intervallare, Test di Ipotesi e Regressione Lineare e più Appunti in PDF di Statistica solo su Docsity!

Statistica 2

Come è stato detto nel capitolo precedente, in statistica si usa la “inferenza statistica”, per definire le caratteristiche di una certa popolazione, attraverso lo studio di un suo campione. Nel definire quindi il parametro di una popolazione (xc) o di una sua proporzione (pc), si usa la cosiddetta stima puntuale (singolo valore numerico), ma dato che noi non sappiamo se il valore dato è quello esatto, può venirci in aiuto il calcolo di una “stima intervallare, detta anche intervallo di confidenza”, aggiungendo e sottraendo alla stima puntuale un valore chiamato: margine di errore. La probabilità che questo intervallo contenga il parametro vero è detta “livello di confidenza (1-alfa) -> dev’essere vicino il più possibile a 1”. Con essa possiamo trovare quei valori entro il quale si ritiene, con un certo grado di fiducia, cada il “vero valore” del parametro incognito “teta”. Formule per la stima puntuale: Adesso vediamo il calcolo della stima intervallare in due casi:  DS nota DS/radice di n x z -> margine di errore. Per esempio: con un livello di confidenza del 95%, si ha che Z0,025 è il quantile di ordine 0,975. A parità di livello di confidenza, gli intervalli sono più stretti all’aumentare del numero di osservazioni; a parità di dimensione campionaria, gli intervalli sono più stretti al diminuire del livello di confidenza. Per diminuire il margine di errore si può ricorrere a due opzioni: o aumentare la numerosità campionaria o ridurre il livello di confidenza;  DS non nota In questo caso passiamo da sigma a S (vedi formula s stima puntuale). Quindi la nuova formula di standardizzazione è: T=Xc- micro/(S/radice di n). T rappresenta una v.c. che ha una distribuzione nota; essa è detta anche “t di Student” con n – 1 gradi di libertà (T-tn-1). La distribuzione tr: o Assomiglia alla distribuzione Gaussiana, perché la t di Student ha una forma a campana, è simmetrica ed è centrata sullo 0; o La sua VAR dipende dai gradi libertà: VAR(tr)=r/r-2 (è >1);

o Questa distribuzione ha code più pesanti e una maggiore variabilità rispetto alla Normale. Tuttavia al crescere dei gradi di libertà (r), la sua forma si avvicina sempre di più alla Gaussiana. Quando il numero dei gradi di libertà è >30, le due distribuzioni sono quasi identiche; o Per calcolare t alfa/2 bisogna consultare una tavola apposita che è proprio quella della t di Student (bisogna usare n – 1 è 1

alfa/2). Esse sono accomunate dal calcolo di alfa: 1 – calcolo alfa (1 – %); 2 – calcolo alfa/2; e 3 – calcolo l’area del mio grafico facendo 1 – alfa/2. Nel caso di proporzione campionaria lo stimatore passa da Xc a Pc. In questo caso la DS riprende la formula della proporzione di una popolazione, e non si usano le tavole della t di Student (la si usa quindi quando la DS non è nota). Se si vuole calcolare un numero di osservazioni, dopo aver stabilito ex ante il margine di errore che si vorrebbe ottenere, bisogna calcolare appunto la “dimensione minima campionaria (n)”, in cui essa garantisce che per tutti gli n>=n, si abbia un margine di errore non superiore a quello prefissato (E). Nel caso di proporzione di una popolazione: N.B.: dato che p è incognito, per ipotesi è 0,50. Dopo aver visto il calcolo della stima puntuale e della stima intervallare, si passa all’esaminazione del terzo problema dell’inferenza statistica: ovvero il “test delle ipotesi”. In questa fase si valuta se un’affermazione, formulata sul valore di un parametro di una popolazione, debba essere rifiutata o meno. Quindi stiamo valutando la “veridicità” dell’ipotesi statistica. Un’ipotesi statistica è un’affermazione sul valore del parametro bella popolazione d’interesse. Si dichiara dunque che un parametro assume un particolare valore, oppure che è compreso in un certo intervallo di valori. Nell’affermare una decisione bisogna tener conto anche di un “margine d’errore”, che descrive il rischio che i dati campionari suggeriscano delle conclusioni errate.

La formula sopra riportata, misura quanto lontano la media campionaria xc cade rispetto al valore micro0, specificato sotto l’ipotesi nulla. In corrispondenza di un certo livello di alfa, dobbiamo trovare la soglia k che mi permette di definire le regioni di accettazione e di rifiuto. E questo lo possiamo fare attraverso l’uso della formula Z (normale standardizzata). o Caso bidirezionale Rifiuto H0 se: z <= -z alfa/2 o z >= z alfa/2; o Caso unidirezionale:  Destra Rifiuto H0 se: z >= z alfa;  Sinistra Rifiuto H0 se: z <= -z alfa. Il p-value rappresenta la probabilità di osservare, per la statistica test (calcolata sul fatto che H0 sia vera) valori più estremi del valore della statistica test, ottenuta sui dati osservati. Tanto più piccolo è il p-value, minore è la probabilità che sotto H0, la statistica test produca un valore > a quello osservato; mentre è alta la probabilità sotto H1 -> quindi rifiuto H0. La regola decisionale è quindi: o P-v > alfa -> non rifiuto H0; o P-v <= alfa -> rifiuto H0. In particolare: o Se il p-v<0,01 -> rifiuto H0 con un livello di significatività dell’1%. Quindi ipotesi H1 molto favorevole; o Se il 0,01<=p-v<0,05 -> rifiuto H0 con un livello di significatività del 5%; o Se il 0,05<=p-v<0,10 -> rifiuto H0 con un livello di significatività del 10%; o Se il p-v>=0,10 -> evidenza a favore di H1 è insufficiente. Per calcolare il p-value bisogna fare la somma delle aree delle due code, o moltiplicare per “2” il risultato trovato (BIDI), o di una sola

(UNIDI) in base allo z trovato (stesso principio della variabile Gaussiana);  DS non nota (t-test) In questo caso dobbiamo ricorrere al calcolo della S e alla distribuzione della t di Student. Quindi possiamo usare questo calcolo solo se: la DS della “popolazione” non è nota e se il campione (n)<30. o Caso bidirezionale. Rifiuto H0 se: t <= -t alfa/2, n-1 o t >= t alfa/2, n-1; o Caso unidirezionale:  Destra. Rifiuto H0 se: t >= t alfa, n-1;  Sinistra. Rifiuto H0 se: t <= -t alfa, n-1; Per il calcolo del p-value, ci sono due opzioni: usare una funzione in Excel chiamata “=DISTRIB.T (t; n-1; numero di code) -> 1 = unidirezionale; 2 = bidirezionale”; o trovare il valore critico nella rispettiva tavola, con il rispettivo grado di libertà (si trova un intervallo alfa). Per le regole di confronto valgono le stesse di prima. Ora valutiamo le ipotesi su una proporzione di una popolazione -> X-Ber (p) (z-test). Stesso principio di valutazione su: approssimazione alla Normale.  Caso bidirezionale. Rifiuto H0 se: z <= -z alfa/2 o z >= z alfa/2;  Caso unidirezionale: o Destra. Rifiuto H0 se: z >= z alfa; o Sinistra. Rifiuto H0 se: z <= -z alfa. Calcolo del p-value secondo la distribuzione Normale (z), e ancora stesse regole per il confronto. Procedura operativa per un test delle ipotesi (valore critico e p-value):  Si sceglie alfa;  Si decide quale Statistica Test utilizzare (T): z-test o t-test;  Si determina la regione di Rifiuto e di Accettazione attraverso l’individuazione dei valori critici, k: o Ipotesi alternativa bidirezionale, regione di rifiuto: T <= −k, T >= k; o Ipotesi alternativa unidirezionale destra, regione di rifiuto: T >= k; o Ipotesi alternativa unidirezionale sinistra, regione di rifiuto: T <= −k;  Si calcola il valore della Statistica test osservato;  Si verifica se cade o no nella regione di rifiuto:

Ipotesi che DS1 = DS2 = DS; S2p = varianza campionaria congiunta (pooled sample variance); Qui abbiamo un t alfa72, n1+n2-2; o Proporzioni. o La radice nella formula “statistica test” è la DS p^1-p^2.  Con campioni appaiati. Questo disegno si discosta dal primo per due elementi: il primo è che ogni coppia di osservazioni (metodo 1 e metodo 2), ha un elemento in comune; il secondo è che le due osservazioni sono dipendenti. Quindi il carattere della “dipendenza” è quella che contraddistingue questi due disegni (1 popolazione per 2 osservazioni diverse). Questo disegno consente anche una maggiore precisione, perché si sta utilizzando una stessa popolazione per confrontare due osservazioni (la diversità della popolazione è eliminata). Se l’appaiamento non è possibile, o i tempi o i costi associati a quest’ultimo sono eccessivi, è preferibile il c.c.s. indipendente. La VAR[X] non è nota

 La t è alfa/2, n-1. In un c.c.s., quando si classificano le unità statistiche secondo le modalità di due caratteri diversi (variabili qualitative), ci si domanda spesso: questi due caratteri del c.c.s. sono dipendenti o indipendenti fra di loro? Per risolvere questo quesito ci aiuta il “test d’indipendenza”. In questo test, si mette a sottoporre a verifica le seguenti ipotesi: Per risolvere questo test, ci viene in aiuto anche una tabella di contingenza delle frequenze osservate (sotto forma di “matrice”): Legenda:  nij: frequenza osservata in una singola cella (frequenza osservata);  ni0: totale della riga i;  n0j: totale della colonna j;  n: totale assoluto. Per capire se c’è l’indipendenza (P(A^B)=P(A)*P(B)) o meno, bisogna fare un confronto tra le frequenze osservate e attese (eij). Se la discrepanza è elevatissima, rifiutiamo H0. Statistica test. N.B.: questo test è un test “unidirezionale con coda DX” -> stesse regole per il valore critico

o Se =0: nessuna relazione lineare. Avendo dunque noti i dati campionari (o dati osservati) sulle variabili X e Y su n unità statistiche, ma non i parametri; dai dati osservati, è possibile trovare le stime dei parametri incogniti. Equazione di regressione stimata: (Y^ = stimatore puntuale di E(Y)) Per trovare b0 e b1, useremo il metodo dei “minimi quadrati”. Dato:  Un c.c.s. di n coppie di valori osservati (xn, yn);  b0 e b1 come due valori per beta 0 e 1, per ogni xi e possibile calcolare yi. Dai valori che si assegnano a b0 e b1, dipende il grado di approssimazione dei valori teorici (y^i = valore previsto di Y, per l’osservazione i), rispetto ai valori effettivi (yi);  La differenza tra il valore osservato e il valore teorico, viene definito “residuo”. Essa rappresenta l’errore in cui si incorre, nell’utilizzo di Y=b0+b1*Xi, per stimare Yi;  Per avere dei valori ottimali, la regressione stimata deve produrre residui piccoli. Formule di calcolo per b0 e b1: Legenda:  Xi: valore della variabile indipendente per l’i-esima osservazione;  Yi: valore della variabile risposta per l’i-esima osservazione;  Xc: il valore medio della variabile indipendente;  Yc: il valore medio della variabile risposta;  N: numero totale di osservazioni. Grazie al criterio dei “MIN X^2”, possiamo trovare le stime di beta0 e beta1. Tuttavia, esso non ci dice niente sulla loro “bontà”: ovvero, sull’attendibilità dell’equazione di regressione. Per rispondere a questa domanda, bisogna utilizzare il “coefficiente di determinazione”:

-> somma dei quadrati dovuta all’errore; -> somma totale dei quadrati; -> somma dei quadrati dovuta alla regressione. R2 o r2 rappresenta la frazione della varianza della variabile risposta spiegata dal modello, ovvero, la quota della variabilità della v.c.Y che può essere attribuita alla relazione lineare con la v.c.X. Più r2->1, maggiore è l’attendibilità dell’equazione di regressione lineare (però dipende anche dal contesto). In termini di commento: l’equazione di regressione lineare, spiega …% della variabilità complessiva della v.c.Y. Coefficiente di correlazione campionario: Se b1>0 (segno +); mentre b1<0 (segno -). Assunti del modello:

Il termine di errore, è una variabile casuale con E(term. di errore)=0 (si elimina);
La VAR(term. di errore) (sigma quadro) è costante per ogni valore di X = x;
I valori del termine di errore, sono indipendenti;
Il termine di errore, è una v.c. che si distribuisce seguendo una Gaussiana. Nell’equazione di regressione lineare semplice, si possono verificare due casi:  Se beta1=0, il E(Y)=beta0, per ciascuna valore di X e dunque non dipende da x. In questo caso, fra X e Y non vi è una relazione lineare;  Se beta1<>0, fra X e Y vi è una relazione lineare. Quindi per verificare la “significatività” di una relazione di regressione, si dovrà studiare l’inferenza su beta1, attraverso un test d’ipotesi (BIDIREZIONALE). H0 = l’effetto della v.c.X sulla v.c.Y, non è statisticamente significativo; H1 = l’effetto della v.c.X sulla v.c.Y, è statisticamente significativo. E[b1] = beta1; VAR[b1] =. Distribuzione campionaria di b1: