Docsity
Docsity

Prepara i tuoi esami
Prepara i tuoi esami

Studia grazie alle numerose risorse presenti su Docsity


Ottieni i punti per scaricare
Ottieni i punti per scaricare

Guadagna punti aiutando altri studenti oppure acquistali con un piano Premium


Guide e consigli
Guide e consigli


Statistica secondo parziale, Dispense di Statistica

Appunti statistica del secondo modulo, inferenza e regressione lineare, unicatt 2025/2026

Tipologia: Dispense

2025/2026

Caricato il 25/03/2026

riccardo-boni-7
riccardo-boni-7 🇮🇹

1 documento

1 / 43

Toggle sidebar

Questa pagina non è visibile nell’anteprima

Non perderti parti importanti!

bg1
Inferenza Statistica
1. Dalla statistica descrittiva all’inferenza
POPOLAZIONE E CAMPIONE
La popolazione di riferimento può essere di due tipi:
Popolazione finita: un insieme finito di N unità su cui si può osservare un certo carattere (es: gli investimenti
annui di tutte le aziende di un paese; il numero di figli di ogni famiglia italiana)
Popolazione infinita o virtuale: composta da tutte le unità potenzialmente osservabili e non necessariamente
già esistenti fisicamente. Il carattere d’interesse può essere rappresentato da una variabile casuale X con una certa
distribuzione di probabilità
Per la raccolta delle informazioni sui caratteri della popolazione si possono usare due tipi di indagine:
Pregi e difetti delle due tipologie di indagini
Quando si effettua un’indagine campionaria la statistica inferenziale consente, avvalendosi di metodi
probabilistici, di trarre conclusioni generali sulla popolazione a partire dall’esame del campione di osservazioni.
2. Campionamento
Le indagini campionarie si basano sull’analisi di un campione di osservazioni dunque su un sottoinsieme di unità
dell’universo di riferimento.
Se l’obiettivo però non è descrivere quel sottoinsieme ma avere informazioni sull’intero universo, ci chiediamo:
1) Il campione va scelto seguendo un qualche criterio?
2) Bastano gli strumenti della statistica descrittiva per analizzare i dati e generalizzare alla popolazione i risultati?
CARATTERISTICHE DEL CAMPIONE
Per poter fare inferenza nel modo corretto il campione deve essere:
1) RAPPRESENTATIVO: cioè una miniatura della popolazione ovvero molto simile alla popolazione rispetto alle
caratteristiche salienti per la ricerca.
2) CASUALE: tutte le unità hanno una probabilità non nulla di entrare a far parte del campione.
Campione casuale o probabilistico: la scelta delle unità dalla popolazione è casuale, ciascuna unità statistica
presenta una prefissata probabilità non nulla di entrare a far parte del campione
Campione non casuale o non probabilistico: la scelta delle unità prescinde da criteri di casualità, le unità
sono ottenute in funzione di particolari esigenze conoscitive o per certe loro caratteristiche peculiari
Attenzione: solo per i campionamenti di tipo probabilistico è possibile calcolare la precisione della stima e fare
inferenza sulla popolazione.
pf3
pf4
pf5
pf8
pf9
pfa
pfd
pfe
pff
pf12
pf13
pf14
pf15
pf16
pf17
pf18
pf19
pf1a
pf1b
pf1c
pf1d
pf1e
pf1f
pf20
pf21
pf22
pf23
pf24
pf25
pf26
pf27
pf28
pf29
pf2a
pf2b

Anteprima parziale del testo

Scarica Statistica secondo parziale e più Dispense in PDF di Statistica solo su Docsity!

Inferenza Statistica

1. Dalla statistica descrittiva all’inferenza POPOLAZIONE E CAMPIONE La popolazione di riferimento può essere di due tipi: Popolazione finita: un insieme finito di N unità su cui si può osservare un certo carattere (es: gli investimenti annui di tutte le aziende di un paese; il numero di figli di ogni famiglia italiana) Popolazione infinita o virtuale: composta da tutte le unità potenzialmente osservabili e non necessariamente già esistenti fisicamente. Il carattere d’interesse può essere rappresentato da una variabile casuale X con una certa distribuzione di probabilità Per la raccolta delle informazioni sui caratteri della popolazione si possono usare due tipi di indagine: Pregi e difetti delle due tipologie di indagini Quando si effettua un’indagine campionaria la statistica inferenziale consente, avvalendosi di metodi probabilistici, di trarre conclusioni generali sulla popolazione a partire dall’esame del campione di osservazioni. 2. Campionamento Le indagini campionarie si basano sull’analisi di un campione di osservazioni dunque su un sottoinsieme di unità dell’universo di riferimento. Se l’obiettivo però non è descrivere quel sottoinsieme ma avere informazioni sull’intero universo, ci chiediamo:

  1. Il campione va scelto seguendo un qualche criterio?
  2. Bastano gli strumenti della statistica descrittiva per analizzare i dati e generalizzare alla popolazione i risultati? CARATTERISTICHE DEL CAMPIONE Per poter fare inferenza nel modo corretto il campione deve essere:
  3. RAPPRESENTATIVO: cioè una miniatura della popolazione ovvero molto simile alla popolazione rispetto alle caratteristiche salienti per la ricerca.
  4. CASUALE: tutte le unità hanno una probabilità non nulla di entrare a far parte del campione. Campione casuale o probabilistico: la scelta delle unità dalla popolazione è casuale, ciascuna unità statistica presenta una prefissata probabilità non nulla di entrare a far parte del campione Campione non casuale o non probabilistico: la scelta delle unità prescinde da criteri di casualità, le unità sono ottenute in funzione di particolari esigenze conoscitive o per certe loro caratteristiche peculiari Attenzione: solo per i campionamenti di tipo probabilistico è possibile calcolare la precisione della stima e fare inferenza sulla popolazione.

Il campione casuale può essere: da popolazione finita Campionamento casuale semplice con reinserimento, Campionamento casuale semplice senza reinserimento (in blocco), Campionamento stratificato, a grappoli, a due stadi, sistematico… da popolazione infinita o da variabile casuale (es. X~N(μ,1)) Si utilizza il campionamento casuale semplice con reinserimento (c.c.s.) C.C.S. da POPOLAZIONE FINITA Gli schemi base sono: Con reimmissione. Lo schema di riferimento è quello dell’urna che contiene N palline numerate (popolazione). Si estrae una pallina dall’urna e si osserva il numero. Si ripete l’esperimento n volte. Ad ogni estrazione la pallina viene rimessa nell’urna. Lo stesso numero può essere estratto più di una volta. Le estrazioni sono indipendenti. Ciascuna unità ha una medesima probabilità pari ad 1/N di essere estratta ad ogni estrazione. Per le sue proprietà statistiche (indipendenza) è lo schema utilizzato anche per il campionamento da popolazione infinita. Senza reimmissione (in blocco). Lo schema di riferimento è sempre quello dell’urna. Ad ogni estrazione la pallina non viene rimessa nell’urna. Lo stesso numero può essere estratto una sola volta. Le estrazioni NON sono indipendenti. Ciascuna unità ha una probabilità pari ad 1/N di essere estratta alla prima estrazione. Alla seconda estrazione la probabilità sarà pari ad 1/(N-1), e così via. Utilizzato nelle interviste quando non ha senso interrogare più di una volta lo stesso individuo C.C.S. da VARIABILE CASUALE Sia X una v.c. con una certa distribuzione di probabilità. Si estrae un campione casuale semplice di ampiezza n (numerosità campionaria) (X1,X2,…,Xn) possibile realizzazione di n v.c. di campionamento (X1,X2,…,Xn) con le seguenti proprietà: ● sono variabili casuali indipendenti. ● ogni v.c. possiede la stessa distribuzione di probabilità della popolazione X , identicamente distribuite

3. Oggetto dell’inferenza statistica Come già detto, lo scopo dell’inferenza è fornire gli STRUMENTI per generalizzare alla popolazione di riferimento i risultati rilevati sul campione (x1,x2,x3…). Utilizzando il calcolo delle probabilità: è possibile misurare e controllare l’attendibilità delle informazioni provenienti da un campione, si è in grado di stabilire delle regole di decisione. Generalmente l’inferenza riguarda uno o più valori incogniti di una popolazione definiti PARAMETRI (della popolazione). Si indica il generico parametro con la lettera greca θ (che può assumere valori in un insieme Θ) Per esempio Media della popolazione: θ=μ=E[X] Esempio: Potremmo ad esempio voler conoscere: ● reddito medio degli abitanti della Lombardia; ● percentuale di individui soddisfatti dei servizi offerti dal servizio sanitario; ● percentuale di utilizzatori di internet; ● durata media delle chiamate ad un call-center; ● peso medio della produzione di una azienda; ● percentuale di favorevoli alla fine della guerra in Ucraina Tali valori medi o percentuali rappresentano i parametri di interesse su cui fare inferenza Attraverso le procedure dell’inferenza statistica si può rispondere alle seguenti domande su θ: Stima Quale è il valore di θ più plausibile? Quale intervallo di valori è più plausibile? Verifica delle ipotesi θ ∈Θ 0 oppure no?

STIMATORI RILEVANTI

Media campionaria ( 𝑋) utilizzata per stimare la media aritmetica della popolazione μ Varianza campionaria ( 𝑆) utilizzata per stimare la varianza della popolazione σ* 2 Proporzione campionaria (P) utilizzata per stimare la frazione o proporzione di elementi di una popolazione π STIMATORE DELLA MEDIA Sia X una popolazione con media μ e varianza σ* Sia (X1,X2,…,Xn) un ccs di dimensione n da X Distribuzione media campionaria Se il campione è estratto da una popolazione non Normale è possibile trovare la distribuzione asintotica (per n grande). Grazie al Teorema del Limite Centrale la media campionaria standardizzata si distribuisce asintoticamente come una N(0,1). per n sufficientemente grande (n>30). Esempio: Un dirigente deve scegliere tra 3 dipendenti i 2 componenti di un gruppo di lavoro. Gli anni di esperienza dei dipendenti sono: {3,5,9} (popolazione) Il numero medio di anni di esperienza per la popolazione e la sua varianza sono:

STIMATORE DELLA VARIANZA

Sia X una popolazione con media μ e varianza σ*2 entrambe ignote Sia (X1,X2,…,Xn) un ccs di dimensione n da X Si definisce VARIANZA CAMPIONARIA CORRETTA lo stimatore Proprietà varianza campionaria

INTERVALLO PER LA MEDIA CON VARIANZA NOTA

esempio In una popolazione il reddito pro-capite è distribuito secondo una Normale di media incognita e σ =56,3. Da un campione casuale di numerosità 20 estratto dalla popolazione risulta un reddito medio pro-capite pari a 980,5. Calcolare l’intervallo di confidenza al 95% per il reddito medio pro-capite. Intervallo di possibili stime per μ costruito intorno alla stima puntuale Poiché il parametro μ è ignoto, non possiamo affermare che l’intervallo stimato contenga o meno μ. Possiamo solo dire che:

  • [955,83; 1005,18] è una realizzazione dell’intervallo casuale che contiene μ con probabilità 0,
  • [955,83; 1005,18] include la media della popolazione con un grado di fiducia dello 0,95. INTERVALLO PER LA MEDIA CON VARIANZA NON NOTA

INTERVALLO PER LA PROPORZIONE

Osservazioni Empiricamente è verificato che la relazione asintotica è accettabile se 0,3

PRECISIONE DELL’IC E DETERMINAZIONE DELLA NUMEROSITÀ CAMPIONARIA

Ampiezza dell’intervallo L’ampiezza della differenza tra estremo superiore e estremo inferiore: ampiezza IC= l2-l La semiampiezza è δ = ampiezza/2 = l2 – stima parametro è l’errore (o la precisione) che si può compiere in eccesso o in difetto nella stima Precisione dell’intervallo = semiampiezza A seconda dell’IC in esame l’errore è dato da: Determinazione numerosità campionaria Nella pratica al fine di commisurare al meglio le risorse necessarie per affrontare lo studio di una quantità incognita si vuole determinare in anticipo la dimensione campionaria per avere una data precisione della stima. Dalla semiampiezza δ è possibile calcolare il valore della numerosità n tale da garantire, ad un certo livello di probabilità (1-α), di non compiere un errore superiore ad un valore prefissato δ0. δ minore uguale di δ0. Se il valore ottenuto non è un numero intero si prenderà come dimensione campionaria il primo intero superiore a tale valore NB: Per l’intervallo sulla proporzione la stima p è chiaramente incognita. Quando non si hanno informazioni sul parametro incognito, si suggerisce di adottare il valore «prudenziale» p=0.5 a cui corrisponde il valore massimo di p(1-p) =0.25 (situazione più sfavorevole, per la quale la stima della varianza è massima).

esempio Secondo il costruttore di un certo tipo di batterie per autovetture, la durata media è maggiore di 3400 ore. Un cliente, per verificarne la durata, osserva un campione di 30 batterie: Ipotesi nulla H0 : le batterie hanno durata media di almeno 3400 ore Ipotesi alternativa H1 : le batterie hanno durata media inferiore a 3400 ore Come passare dai dati osservati alla decisione se accettare o rifiutare l’ipotesi nulla H0 ?? STATISTICA TEST Un test statistico è una regola che permette sulla base del campione osservato di decidere se rifiutare (o meno)H0. Il test si basa sul calcolo del valore di una statistica test. La statistica test T è una statistica campionaria (uno stimatore) la cui distribuzione deve essere completamente nota sotto l’ipotesi nulla (quando essa è vera). Ad esempio: media campionaria se il test è sulla media, proporzione campionaria se il test è sulla proporzione.

REGIONE DI ACCETTAZIONE E DI RIFIUTO

Ogni test statistico induce una partizione dello spazio campionario in: • regione di accettazione di H0 • regione di rifiuto di H Si definisce regione di accettazione l’insieme dei valori della statistica test che portano all'accettazione dell'ipotesi nulla. Si definisce regione di rifiuto l’insieme dei valori della statistica test che portano al rifiuto dell’ipotesi nulla. In base alla regione in cui andrà a cadere il valore campionario della statistica test, si prenderà una decisione sull’ipotesi H0. Il valore (o valori) della statistica che separano le due regioni viene chiamato valore critico e corrispondente ad un percentile a cui è associato un certo valore di probabilità. Le regioni di accettazione e di rifiuto dipendono dal livello di significatività alfa, maggiore è il suo valore, più ampia sarà la regione di rifiuto. esempio Supponiamo che la popolazione sia Normale con media incognita e varianza nota. Si vuole verificare:

PASSI DA SEGUIRE NELLA VERIFICA D’IPOTESI

Unendo ora tutti gli «ingredienti» visti si definisce la seguente procedura per arrivare alla decisione finale: 1.Definizione del sistema d’ipotesi sul parametro

  1. Scelta della statistica test
  2. Scelta del livello di significatività, definizione della regione di rifiuto e calcolo dei valori critici
  3. Estrazione del campione
  4. Calcolo della statistica test
  5. Decisione (accetto o rifiuto H0) TEST PER LA MEDIA per verificare l’ipotesi su particolari valori della media di una popolazione Si distinguono inoltre per l’ipotesi sulla popolazione
  • con varianza nota
  • con varianza ignota 1) Test bilaterale sulla media con varianza nota esempio La statura (in cm) degli abitanti di una regione si distribuisce come una normale di media incognita e varianza
  1. Si vuole verificare a un livello di significatività α=0.05:

2) Test unilaterale dx (sx) sulla media con varianza nota.

Più piccolo è il p-value più alta è l’evidenza contro H0 ossia quanto più piccolo è il p-value tanto più siamo propensi a rifiutare H. Ad es. sia p-value=4% se fosse vera H0 , allora la probabilità dell’evento {T>t} risulterebbe appunto del 4%, ossia piccola. In questo caso: ● abbiamo osservato un evento “raro” (che si verifica nel 4% dei casi) ● oppure H0 è poco plausibile La conclusione più cauta è che H0 sia poco plausibile. N.B. Purtroppo NON possiamo affermare che la probabilità che H0 sia vera è pari al p-value (ossia 4%). Infatti il p-value è calcolato condizionatamente a H0 ; dunque nell’ipotesi che H0 sia vera! Regressione lineare semplice STUDIO DELLA DIPENDENZA TRA CARATTERI QUANTITATIVI Date due variabili X e Y ci si propone di descrivere con un modello matematico l’andamento di Y al variare di X (o viceversa) Y=f(X). Per identificare f(x):

  1. interpolazione matematica: curva analitica che passa esattamente PER i punti dati
  2. interpolazione statistica: curva analitica che passa TRA i punti dati La soluzione 1) NON è possibile vista l’alta numerosità dei punti nelle indagini statistiche INTERPOLAZIONE STATISTICA (regressione lineare). esempio Studio sul consumo di elettricità all’interno di un edificio su base mensile con l’obiettivo di prevedere l’utilizzo di elettricità in modo da tenere sotto controllo i costi. Si può immaginare che tale consumo sia influenzato dalla temperatura esterna, che può richiedere l’utilizzo di caloriferi elettrici.
  • Y è il consumo medio giornaliero di kW
  • X è la temperatura media mensile in gradi Si vuole studiare come varia Y al variare di X Il dataset contiene le informazioni sul consumo medio giornaliero e la temperatura media giornaliera per n=24 mesi. Grafico a dispersione (scatterplot):

La forma di relazione più semplice è quella LINEARE , che matematicamente è una RETTA Y = a + b X che descrive un legame di tipo proporzionale tra la variabile dipendente (Y) e la variabile indipendente (X). Lo studio della linearità dei dati di due variabili quantitative X e Y prende il nome di CORRELAZIONE.

2. Correlazione: covarianza e coefficiente di correlazione COVARIANZA L’indice COVARIANZA è dato da media dei prodotti degli scarti di ogni variabile dalla propria media aritmetica FORMULA OPERATIVA esempio di calcolo (serie) esempio di calcolo (tabella a doppia entrata)