Docsity
Docsity

Prepara i tuoi esami
Prepara i tuoi esami

Studia grazie alle numerose risorse presenti su Docsity


Ottieni i punti per scaricare
Ottieni i punti per scaricare

Guadagna punti aiutando altri studenti oppure acquistali con un piano Premium


Guide e consigli
Guide e consigli


Statistica, secondo parziale - Prof. Roberta Paroli, Dispense di Statistica

Appunti e slide delle lezioni.

Tipologia: Dispense

2025/2026

In vendita dal 18/01/2026

lisa-ca05
lisa-ca05 🇮🇹

5

(1)

14 documenti

1 / 63

Toggle sidebar

Questa pagina non è visibile nell’anteprima

Non perderti parti importanti!

bg1
STATISTICA
Inferenza Statistica
1. Dalla statistica descrittiva all’inferenza
Aree della statistica
A) Statistica descrittiva: Descrive fenomeni osservati su un insieme di unità (popolazione di
riferimento) e che costituisce la “parte dell’universo che ci interessa”.
B) Statistica probabilistica: Studia i fenomeni aleatori. Svolge un ruolo fondamentale nella statistica
inferenziale.
C) Statistica inferenziale: campione e parametro.
Popolazione e campione
La popolazione di riferimento può essere di due tipi:
- Popolazione finita: un insieme finito di N unità su cui si può osservare un certo carattere (es:
gli investimenti annui di tutte le aziende di un paese; il numero di figli di ogni famiglia
italiana);
- Popolazione infinita o virtuale: composta da tutte le unità potenzialmente osservabili e non
necessariamente già esistenti fisicamente. Il carattere d’interesse può essere rappresentato da
una variabile casuale X con una certa distribuzione di probabilità.
Per la raccolta delle informazioni sui caratteri della popolazione si possono usare due tipi di indagine.
§ Indagine totale o censuaria: quando si esaminano tutte le unità statistiche che compongono la
popolazione oggetto di studio.
§ Indagine campionaria: quando ci si limita a studiare un sottoinsieme della popolazione di
riferimento detto campione.
Pregi e difetti delle due tipologie di indagini
pf3
pf4
pf5
pf8
pf9
pfa
pfd
pfe
pff
pf12
pf13
pf14
pf15
pf16
pf17
pf18
pf19
pf1a
pf1b
pf1c
pf1d
pf1e
pf1f
pf20
pf21
pf22
pf23
pf24
pf25
pf26
pf27
pf28
pf29
pf2a
pf2b
pf2c
pf2d
pf2e
pf2f
pf30
pf31
pf32
pf33
pf34
pf35
pf36
pf37
pf38
pf39
pf3a
pf3b
pf3c
pf3d
pf3e
pf3f

Anteprima parziale del testo

Scarica Statistica, secondo parziale - Prof. Roberta Paroli e più Dispense in PDF di Statistica solo su Docsity!

STATISTICA

Inferenza Statistica

1. Dalla statistica descrittiva all’inferenza Aree della statistica A) Statistica descrittiva: Descrive fenomeni osservati su un insieme di unità (popolazione di riferimento) e che costituisce la “parte dell’universo che ci interessa”. B) Statistica probabilistica: Studia i fenomeni aleatori. Svolge un ruolo fondamentale nella statistica inferenziale. C) Statistica inferenziale: campione e parametro. Popolazione e campione La popolazione di riferimento può essere di due tipi: - Popolazione finita: un insieme finito di N unità su cui si può osservare un certo carattere (es: gli investimenti annui di tutte le aziende di un paese; il numero di figli di ogni famiglia italiana); - Popolazione infinita o virtuale: composta da tutte le unità potenzialmente osservabili e non necessariamente già esistenti fisicamente. Il carattere d’interesse può essere rappresentato da una variabile casuale X con una certa distribuzione di probabilità. Per la raccolta delle informazioni sui caratteri della popolazione si possono usare due tipi di indagine. § Indagine totale o censuaria: quando si esaminano tutte le unità statistiche che compongono la popolazione oggetto di studio. § Indagine campionaria: quando ci si limita a studiare un sottoinsieme della popolazione di riferimento detto campione. Pregi e difetti delle due tipologie di indagini

Quando si effettua un’indagine campionaria la statistica inferenziale consente, avvalendosi di metodi probabilistici, di trarre conclusioni generali sulla popolazione a partire dall’esame del campione di osservazioni.

2. Popolazione e Campionamento Le indagini campionarie si basano sull’analisi di un campione di osservazioni, dunque, su un sottoinsieme di unità dell’universo di riferimento. Se l’obiettivo però non è descrivere quel sottoinsieme ma avere informazioni sull’intero universo, ci chiediamo: - Il campione va scelto seguendo un qualche criterio? - Bastano gli strumenti della statistica descrittiva per analizzare i dati e generalizzare alla popolazione i risultati? Caratteristiche del campione Per poter fare inferenza nel modo corretto il campione deve essere: 1) RAPPRESENTATIVO: cioè una miniatura della popolazione ovvero molto simile alla popolazione rispetto alle caratteristiche salienti per la ricerca 2) CASUALE: tutte le unità hanno una probabilità non nulla di entrare a far parte del campione. Attenzione: solo per i campionamenti di tipo probabilistico è possibile calcolare la precisione della stima e fare inferenza sulla popolazione.

Per esempio, Media della popolazione: θ = μ = E[X] Esempio Potremmo voler conoscere:

  • Reddito medio degli abitanti della Lombardia;
  • Percentuale di individui soddisfatti dei servizi offerti dal servizio sanitario;
  • Percentuale di utilizzatori di internet;
  • Durata media delle chiamate ad un call-center;
  • Peso medio della produzione di una azienda;
  • Percentuale di favorevoli alla fine della guerra in Ucraina. Tali valori medi o percentuali rappresentano i parametri di interesse su cui fare inferenza. Attraverso le procedure dell’inferenza statistica si può rispondere alle seguenti domande su θ: § Stima Quale è il valore di θ più plausibile? Quale intervallo di valori è più plausibile? § Verifica delle ipotesi θ Î Q 0 oppure no? 4. Stima puntuale Stima puntuale Sia X una v.c. che rappresenta il carattere osservato sulla popolazione di interesse con distribuzione di probabilità caratterizzata da un parametro incognito θ. STIMARE in Statistica vuol dire ottenere un valore per il parametro incognito partendo dai dati. Esempio
  • Se X è Binomiale (n, π) vogliamo sapere quanto vale π.
  • Se X è Normale (μ, σ^2 ) vogliamo sapere che valore ha la sua media μ. Stimatore Siano (x 1 , x 2 , …, xn) realizzazioni di (X 1 , X 2 , …, Xn) v.c. di campionamento IID. Si definisce STIMATORE la v.c. T = t(X 1 , X 2 , …, Xn) È una statistica (funzione dei dati) utilizzata per stimare il valore del parametro J incognito della popolazione.

Stima Ogni particolare valore assunto da uno stimatore è una STIMA (è un numero). t = t(x 1 , x 2 , …, xn) Esempio Lo stimatore T è una variabile casuale. Di conseguenza è caratterizzato da una distribuzione di probabilità chiamata Distribuzione Campionaria. Proprietà stimatore Ogni parametro θ possiede più di uno stimatore possibile. Per la media aritmetica, per esempio, si possono usare anche la moda campionaria o la mediana campionaria. Per scegliere lo stimatore è utile studiarne le proprietà ottimali (correttezza, consistenza, efficienza). Noi ne vedremo una sola. Correttezza Lo stimatore T è uno stimatore corretto di θ se la sua media coincide con il parametro da stimare. M(T)=E(T) = θ Se lo stimatore non è corretto si chiama distorsione (bias) di uno stimatore la quantità: B(T) = E(T) – θ

per n sufficientemente grande (n > 30). Esempio Un dirigente deve scegliere tra 3 dipendenti i 2 componenti di un gruppo di lavoro. Gli anni di esperienza dei dipendenti sono: {3,5,9} (popolazione) Il numero medio di anni di esperienza per la popolazione e la sua varianza sono: Si estrae CON REINSERIMENTO un campione di n = 2 dipendenti. Le possibili coppie sono 9: Per ogni campione facciamo la media campionaria: La distribuzione della v.c. media campionaria è: Se si calcolano media e varianza si ottiene:

Se si estrae SENZA REINSERIMENTO un campione di n = 2 cosa succede? Le possibili coppie sono 6 : Le possibili medie campionarie ora sono: E la distribuzione è: Stimatore della varianza

  • Sia X una popolazione con media μ e varianza s^2 entrambe ignote
  • Sia (X 1 , X 2 , …, Xn) un ccs di dimensione n da X Si definisce VARIANZA CAMPIONARIA CORRETTA lo stimatore la stima si indica con Proprietà varianza campionaria La v.c. varianza campionaria è uno stimatore corretto: E(S^2 ) = s^2 esistono altre proprietà sulla varianza di S^2 e la sua distribuzione ma non sono oggetto di questo corso. Praticamente: per calcolare S^2 conviene usare la solita formula operativa della varianza e moltiplicare il risultato per il fattore n/(n-1). Stimatore della proporzione Si consideri una popolazione suddivisa in 2 gruppi sulla base del possesso o meno di una certa caratteristica. Si definisce proporzione π il rapporto fra il numero di unità che posseggono la caratteristica (Nc) e la numerosità totale della popolazione (N).

Si vuole determinare un intervallo [ L 1 , L 2 ] intorno alla stima di θ :

  • Che non dipende dal parametro θ ma solo dalle osservazioni campionarie;
  • Che contiene il vero valore di θ con un certo livello di confidenza; Il “livello di confidenza” è la probabilità che l’intervallo di confidenza contenga θ , al variare del campione. dove P () è la distribuzione di probabilità dello stimatore che si utilizza per il parametro. I limiti saranno dipendenti dal campione e dallo specifico stimatore L 1 = L 1 ( X 1 ,… , Xn ) e L 2 = L 2 ( X 1 ,… , X n) Con L 1 ≤ L 2 per ogni possibile campione. Gli estremi dell’intervallo di confidenza [ L 1 , L 2 ] sono variabili casuali e per tale motivo l’intervallo viene detto intervallo casuale P [ L 1 ( X 1 , X 2 …, Xn ) ≤ θL 2 ( X 1 , X 2 …, Xn )] = 1 – α Estratto un campione dalla popolazione si ottiene l’intervallo di confidenza stimato (numerico) [ l 1 , l 2 ] che è una realizzazione dell’intervallo casuale [ L 1 , L 2 ]. Il livello di confidenza 1 – α è fissato dal ricercatore, ovviamente alto. Il valore scelto più di frequente è 0.95 (95%). Tuttavia, viene scelto anche un livello di confidenza del 0.90 (90%), oppure del 0. (99%). Vedremo:
  • Intervallo di confidenza per la media μ con varianza 𝜎^2 nota.
  • Intervallo di confidenza per la media μ con varianza 𝜎^2 non nota.
  • Intervallo di confidenza per la proporzione π. Intervallo per la media con varianza nota Sia X una popolazione con distribuzione normale di media μ (non nota) e varianza 𝜎^2 (nota): Lo stimatore per la media è la media campionaria per la quale sappiamo che:

Fissato 1 – α : dove z α /2 è il percentile di ordine (1 – α /2) della N (0,1). Ricaviamo il paramento μ: da cui: 1 – α è il grado di fiducia nel fatto che l’intervallo contenga il parametro μ. Esempio In una popolazione il reddito pro-capite è distribuito secondo una Normale di media incognita e σ=56,3. Da un campione casuale di numerosità 20 estratto dalla popolazione risulta un reddito medio pro-capite pari a 980,5. Calcolare l’intervallo di confidenza al 95% per il reddito medio pro-capite.

dove S^2 è lo stimatore di 𝜎^2 e T è una t di Student con gdl n- 1. tn - 1; α/ 2 è il percentile di ordine (1 – α /2) della tn - 1. Esempio In una popolazione il reddito pro-capite è distribuito secondo una Normale di media e varianza incognita. Da un campione casuale di numerosità 20 estratto dalla popolazione risulta un reddito medio pro-capite pari a 980,5 e s= 56,3. Calcolare l’intervallo di confidenza al 95% per il reddito medio pro-capite.

Gli estremi dell’intervallo stimato sono: Osservazioni In generale: tn - 1; α/ 2 > z α / à a parità di numerosità campionaria n l’intervallo di confidenza per la media con 𝜎^2 non nota è più ampio di quello con 𝜎^2 nota. Asintoticamente si ha che: per n > 30 l’utilizzo della distribuzione Normale porta a differenze nell’ampiezza praticamente trascurabili. Esempio (grande campione) Una casa editrice è interessata a sapere quanto spendono in libri gli studenti della scuola secondaria. Per un campione casuale di n=400 la spesa media è risultata 101 e la varianza campionaria 44,47. Assumendo che la spesa si distribuisca come una Normale si calcoli l’intervallo di confidenza (asintotico) al 95% per la spesa media. Intervallo per la proporzione Consideriamo una popolazione riferita a un carattere che assume due modalità (popolazione Bernoulliana), siamo interessati all’intervallo di confidenza per la proporzione π.

  • IC per la media con varianza non nota:
  • IC per la proporzione (n>100): Precisione dell’IC e determinazione della numerosità campionaria Ampiezza dell’intervallo L’ampiezza dalla differenza tra estremo superiore ed estremo inferiore: ampiezza IC = l 2 – l 1 La semiampiezza è δ = ampiezza/2 = l 2 – stima parametro è l’errore (o la precisione) che si può compiere in eccesso o in difetto nella stima. Precisione dell’intervallo = semiampiezza A seconda dell’IC in esame l’errore è dato da: Determinazione numerosità campionaria Nella pratica al fine di commisurare al meglio le risorse necessarie per affrontare lo studio di una quantità incognita si vuole determinare in anticipo la dimensione campionaria per avere una data precisione della stima. Dalla semiampiezza δ è possibile calcolare il valore della numerosità n tale da garantire, a un certo livello di probabilità (1- α ), di non compiere un errore superiore a un valore prefissato δ 0. δ ≤ δ 0

Dato il livello di probabilità, si può ricavare il percentile z α / 2 o t α /2 e, esplicitando rispetto ad n, si può ricavare il valore minimo di n. Se il valore ottenuto non è un numero intero si prenderà come dimensione campionaria il primo intero superiore a tale valore. NB: Per l’intervallo sulla proporzione la stima p è chiaramente incognita. Quando non si hanno informazioni sul parametro incognito, si suggerisce di adottare il valore «prudenziale» p = 0.5 a cui corrisponde il valore massimo di p(1-p) = 0.25 (situazione più sfavorevole, per la quale la stima della varianza è massima). Esempio Si vuole studiare la percentuale di giovani (15-25 anni) che posseggono un tablet, calcolare il numero minimo di soggetti da intervistare in modo che l’intervallo di confidenza di π al 90% abbia semi- ampiezza pari all’1%. I dati ci dicono solo che la semi-ampiezza dell’intervallo deve essere 0.01: Osservazione: soluzione di problemi inversi Dato l’intervallo di confidenza, si possono determinare:

  • Numerosità = si ricava tenendo conto di δ o dell’ampiezza che dipendono da n.
  • Stima paramento = semisomma estremi intervallo (per simmetria degli intervalli).
  • Varianza stimatore = si ricava tenendo conto che δ, l’errore che si può compiere in eccesso o in difetto nella stima, dipende da tale varianza. In generale vale che: da cui, noto n e il percentile si può ricavare la stima della varianza dello stimatore.

Ipotesi statistica e sistema di ipotesi Ipotesi statistica : una congettura riguardante un parametro della popolazione. Si distinguono due ipotesi contrapposte:

  • Ipotesi nulla, indicata con H 0 ;
  • Ipotesi alternativa, indicata con H 1. H 0 ipotesi che si ritiene “vera fino a prova contraria” (riveste un ruolo privilegiato). H 1 ipotesi che si contrappone a quella nulla e che potrebbe essere considerata più verosimile sulla base al risultato campionario. Si definisce sistema di ipotesi : Esempio Secondo il costruttore di un certo tipo di batterie per autovetture, la durata media è maggiore di 3400 ore. Un cliente, per verificarne la durata, osserva un campione di 30 batterie: Ipotesi nulla H 0 : le batterie hanno durata media di almeno 3400 ore. Ipotesi alternativa H 1 : le batterie hanno durata media inferiore a 3400 ore.

Un’ipotesi può essere:

  • Semplice à quando specifica completamente la popolazione.
  • Composta à quando non specifica completamente la popolazione. Un’ipotesi composta può essere:
  • Unidirezionale à quando specifica un intervallo di valori.
  • Bidirezionale à quando specifica due intervalli di valore. I sistemi di ipotesi più frequentemente utilizzati sono i seguenti: dove θ 0 è un valore fissato del parametro. Noi ci concentreremo sulla verifica di ipotesi per la media della popolazione θ = 𝜇. Come passare dai dati osservati alla decisione se accettare o rifiutare l’ipotesi nulla H 0? Statistica test Un test statistico è una regola che permette sulla base del campione osservato di decidere se rifiutare (o meno) H0. Il test si basa sul calcolo del valore di una statistica test. La statistica test T è una statistica campionaria (uno stimatore) la cui distribuzione deve essere completamente nota sotto l’ipotesi nulla (quando essa è vera). Per esempio:
  • Media campionaria se il test è sulla media;
  • Proporzione campionaria se il test è sulla proporzione. Regione di accettazione e di rifiuto Ogni test statistico induce una partizione dello spazio campionario in:
  • Regione di accettazione di H 0
  • Regione di rifiuto di H 0