



































Studia grazie alle numerose risorse presenti su Docsity
Guadagna punti aiutando altri studenti oppure acquistali con un piano Premium
Prepara i tuoi esami
Studia grazie alle numerose risorse presenti su Docsity
Prepara i tuoi esami con i documenti condivisi da studenti come te su Docsity
Trova i documenti specifici per gli esami della tua università
Preparati con lezioni e prove svolte basate sui programmi universitari!
Rispondi a reali domande d’esame e scopri la tua preparazione
Riassumi i tuoi documenti, fagli domande, convertili in quiz e mappe concettuali
Studia con prove svolte, tesine e consigli utili
Togliti ogni dubbio leggendo le risposte alle domande fatte da altri studenti come te
Esplora i documenti più scaricati per gli argomenti di studio più popolari
Ottieni i punti per scaricare
Guadagna punti aiutando altri studenti oppure acquistali con un piano Premium
Appunti statistica del secondo modulo, inferenza e regressione lineare, unicatt 2025/2026
Tipologia: Dispense
1 / 43
Questa pagina non è visibile nell’anteprima
Non perderti parti importanti!




































Inferenza Statistica
1. Dalla statistica descrittiva all’inferenza POPOLAZIONE E CAMPIONE La popolazione di riferimento può essere di due tipi: Popolazione finita: un insieme finito di N unità su cui si può osservare un certo carattere (es: gli investimenti annui di tutte le aziende di un paese; il numero di figli di ogni famiglia italiana) Popolazione infinita o virtuale: composta da tutte le unità potenzialmente osservabili e non necessariamente già esistenti fisicamente. Il carattere d’interesse può essere rappresentato da una variabile casuale X con una certa distribuzione di probabilità Per la raccolta delle informazioni sui caratteri della popolazione si possono usare due tipi di indagine: Pregi e difetti delle due tipologie di indagini Quando si effettua un’indagine campionaria la statistica inferenziale consente, avvalendosi di metodi probabilistici, di trarre conclusioni generali sulla popolazione a partire dall’esame del campione di osservazioni. 2. Campionamento Le indagini campionarie si basano sull’analisi di un campione di osservazioni dunque su un sottoinsieme di unità dell’universo di riferimento. Se l’obiettivo però non è descrivere quel sottoinsieme ma avere informazioni sull’intero universo, ci chiediamo:
Il campione casuale può essere: da popolazione finita Campionamento casuale semplice con reinserimento, Campionamento casuale semplice senza reinserimento (in blocco), Campionamento stratificato, a grappoli, a due stadi, sistematico… da popolazione infinita o da variabile casuale (es. X~N(μ,1)) Si utilizza il campionamento casuale semplice con reinserimento (c.c.s.) C.C.S. da POPOLAZIONE FINITA Gli schemi base sono: Con reimmissione. Lo schema di riferimento è quello dell’urna che contiene N palline numerate (popolazione). Si estrae una pallina dall’urna e si osserva il numero. Si ripete l’esperimento n volte. Ad ogni estrazione la pallina viene rimessa nell’urna. Lo stesso numero può essere estratto più di una volta. Le estrazioni sono indipendenti. Ciascuna unità ha una medesima probabilità pari ad 1/N di essere estratta ad ogni estrazione. Per le sue proprietà statistiche (indipendenza) è lo schema utilizzato anche per il campionamento da popolazione infinita. Senza reimmissione (in blocco). Lo schema di riferimento è sempre quello dell’urna. Ad ogni estrazione la pallina non viene rimessa nell’urna. Lo stesso numero può essere estratto una sola volta. Le estrazioni NON sono indipendenti. Ciascuna unità ha una probabilità pari ad 1/N di essere estratta alla prima estrazione. Alla seconda estrazione la probabilità sarà pari ad 1/(N-1), e così via. Utilizzato nelle interviste quando non ha senso interrogare più di una volta lo stesso individuo C.C.S. da VARIABILE CASUALE Sia X una v.c. con una certa distribuzione di probabilità. Si estrae un campione casuale semplice di ampiezza n (numerosità campionaria) (X1,X2,…,Xn) possibile realizzazione di n v.c. di campionamento (X1,X2,…,Xn) con le seguenti proprietà: ● sono variabili casuali indipendenti. ● ogni v.c. possiede la stessa distribuzione di probabilità della popolazione X , identicamente distribuite
3. Oggetto dell’inferenza statistica Come già detto, lo scopo dell’inferenza è fornire gli STRUMENTI per generalizzare alla popolazione di riferimento i risultati rilevati sul campione (x1,x2,x3…). Utilizzando il calcolo delle probabilità: è possibile misurare e controllare l’attendibilità delle informazioni provenienti da un campione, si è in grado di stabilire delle regole di decisione. Generalmente l’inferenza riguarda uno o più valori incogniti di una popolazione definiti PARAMETRI (della popolazione). Si indica il generico parametro con la lettera greca θ (che può assumere valori in un insieme Θ) Per esempio Media della popolazione: θ=μ=E[X] Esempio: Potremmo ad esempio voler conoscere: ● reddito medio degli abitanti della Lombardia; ● percentuale di individui soddisfatti dei servizi offerti dal servizio sanitario; ● percentuale di utilizzatori di internet; ● durata media delle chiamate ad un call-center; ● peso medio della produzione di una azienda; ● percentuale di favorevoli alla fine della guerra in Ucraina Tali valori medi o percentuali rappresentano i parametri di interesse su cui fare inferenza Attraverso le procedure dell’inferenza statistica si può rispondere alle seguenti domande su θ: Stima Quale è il valore di θ più plausibile? Quale intervallo di valori è più plausibile? Verifica delle ipotesi θ ∈Θ 0 oppure no?
Media campionaria ( 𝑋) utilizzata per stimare la media aritmetica della popolazione μ Varianza campionaria ( 𝑆) utilizzata per stimare la varianza della popolazione σ* 2 Proporzione campionaria (P) utilizzata per stimare la frazione o proporzione di elementi di una popolazione π STIMATORE DELLA MEDIA Sia X una popolazione con media μ e varianza σ* Sia (X1,X2,…,Xn) un ccs di dimensione n da X Distribuzione media campionaria Se il campione è estratto da una popolazione non Normale è possibile trovare la distribuzione asintotica (per n grande). Grazie al Teorema del Limite Centrale la media campionaria standardizzata si distribuisce asintoticamente come una N(0,1). per n sufficientemente grande (n>30). Esempio: Un dirigente deve scegliere tra 3 dipendenti i 2 componenti di un gruppo di lavoro. Gli anni di esperienza dei dipendenti sono: {3,5,9} (popolazione) Il numero medio di anni di esperienza per la popolazione e la sua varianza sono:
Sia X una popolazione con media μ e varianza σ*2 entrambe ignote Sia (X1,X2,…,Xn) un ccs di dimensione n da X Si definisce VARIANZA CAMPIONARIA CORRETTA lo stimatore Proprietà varianza campionaria
esempio In una popolazione il reddito pro-capite è distribuito secondo una Normale di media incognita e σ =56,3. Da un campione casuale di numerosità 20 estratto dalla popolazione risulta un reddito medio pro-capite pari a 980,5. Calcolare l’intervallo di confidenza al 95% per il reddito medio pro-capite. Intervallo di possibili stime per μ costruito intorno alla stima puntuale Poiché il parametro μ è ignoto, non possiamo affermare che l’intervallo stimato contenga o meno μ. Possiamo solo dire che:
Osservazioni Empiricamente è verificato che la relazione asintotica è accettabile se 0,3
Ampiezza dell’intervallo L’ampiezza della differenza tra estremo superiore e estremo inferiore: ampiezza IC= l2-l La semiampiezza è δ = ampiezza/2 = l2 – stima parametro è l’errore (o la precisione) che si può compiere in eccesso o in difetto nella stima Precisione dell’intervallo = semiampiezza A seconda dell’IC in esame l’errore è dato da: Determinazione numerosità campionaria Nella pratica al fine di commisurare al meglio le risorse necessarie per affrontare lo studio di una quantità incognita si vuole determinare in anticipo la dimensione campionaria per avere una data precisione della stima. Dalla semiampiezza δ è possibile calcolare il valore della numerosità n tale da garantire, ad un certo livello di probabilità (1-α), di non compiere un errore superiore ad un valore prefissato δ0. δ minore uguale di δ0. Se il valore ottenuto non è un numero intero si prenderà come dimensione campionaria il primo intero superiore a tale valore NB: Per l’intervallo sulla proporzione la stima p è chiaramente incognita. Quando non si hanno informazioni sul parametro incognito, si suggerisce di adottare il valore «prudenziale» p=0.5 a cui corrisponde il valore massimo di p(1-p) =0.25 (situazione più sfavorevole, per la quale la stima della varianza è massima).
esempio Secondo il costruttore di un certo tipo di batterie per autovetture, la durata media è maggiore di 3400 ore. Un cliente, per verificarne la durata, osserva un campione di 30 batterie: Ipotesi nulla H0 : le batterie hanno durata media di almeno 3400 ore Ipotesi alternativa H1 : le batterie hanno durata media inferiore a 3400 ore Come passare dai dati osservati alla decisione se accettare o rifiutare l’ipotesi nulla H0 ?? STATISTICA TEST Un test statistico è una regola che permette sulla base del campione osservato di decidere se rifiutare (o meno)H0. Il test si basa sul calcolo del valore di una statistica test. La statistica test T è una statistica campionaria (uno stimatore) la cui distribuzione deve essere completamente nota sotto l’ipotesi nulla (quando essa è vera). Ad esempio: media campionaria se il test è sulla media, proporzione campionaria se il test è sulla proporzione.
Ogni test statistico induce una partizione dello spazio campionario in: • regione di accettazione di H0 • regione di rifiuto di H Si definisce regione di accettazione l’insieme dei valori della statistica test che portano all'accettazione dell'ipotesi nulla. Si definisce regione di rifiuto l’insieme dei valori della statistica test che portano al rifiuto dell’ipotesi nulla. In base alla regione in cui andrà a cadere il valore campionario della statistica test, si prenderà una decisione sull’ipotesi H0. Il valore (o valori) della statistica che separano le due regioni viene chiamato valore critico e corrispondente ad un percentile a cui è associato un certo valore di probabilità. Le regioni di accettazione e di rifiuto dipendono dal livello di significatività alfa, maggiore è il suo valore, più ampia sarà la regione di rifiuto. esempio Supponiamo che la popolazione sia Normale con media incognita e varianza nota. Si vuole verificare:
Unendo ora tutti gli «ingredienti» visti si definisce la seguente procedura per arrivare alla decisione finale: 1.Definizione del sistema d’ipotesi sul parametro
2) Test unilaterale dx (sx) sulla media con varianza nota.
Più piccolo è il p-value più alta è l’evidenza contro H0 ossia quanto più piccolo è il p-value tanto più siamo propensi a rifiutare H. Ad es. sia p-value=4% se fosse vera H0 , allora la probabilità dell’evento {T>t} risulterebbe appunto del 4%, ossia piccola. In questo caso: ● abbiamo osservato un evento “raro” (che si verifica nel 4% dei casi) ● oppure H0 è poco plausibile La conclusione più cauta è che H0 sia poco plausibile. N.B. Purtroppo NON possiamo affermare che la probabilità che H0 sia vera è pari al p-value (ossia 4%). Infatti il p-value è calcolato condizionatamente a H0 ; dunque nell’ipotesi che H0 sia vera! Regressione lineare semplice STUDIO DELLA DIPENDENZA TRA CARATTERI QUANTITATIVI Date due variabili X e Y ci si propone di descrivere con un modello matematico l’andamento di Y al variare di X (o viceversa) Y=f(X). Per identificare f(x):
La forma di relazione più semplice è quella LINEARE , che matematicamente è una RETTA Y = a + b X che descrive un legame di tipo proporzionale tra la variabile dipendente (Y) e la variabile indipendente (X). Lo studio della linearità dei dati di due variabili quantitative X e Y prende il nome di CORRELAZIONE.
2. Correlazione: covarianza e coefficiente di correlazione COVARIANZA L’indice COVARIANZA è dato da media dei prodotti degli scarti di ogni variabile dalla propria media aritmetica FORMULA OPERATIVA esempio di calcolo (serie) esempio di calcolo (tabella a doppia entrata)