Docsity
Docsity

Prepara i tuoi esami
Prepara i tuoi esami

Studia grazie alle numerose risorse presenti su Docsity


Ottieni i punti per scaricare
Ottieni i punti per scaricare

Guadagna punti aiutando altri studenti oppure acquistali con un piano Premium


Guide e consigli
Guide e consigli


Stima Puntuale e Intervallare: Esercizi e Quiz - Prof. De Battisti, Sintesi del corso di Statistica

Una serie di esercizi e quiz relativi alla stima puntuale e intervallare, concetti fondamentali della statistica inferenziale. Gli esercizi illustrano come calcolare la stima puntuale e l'intervallo di confidenza per la media e la proporzione di una popolazione, mentre i quiz testano la comprensione dei concetti chiave e delle formule utilizzate.

Tipologia: Sintesi del corso

2023/2024

Caricato il 28/01/2025

bivacco-montano
bivacco-montano 🇮🇹

1 documento

1 / 5

Toggle sidebar

Questa pagina non è visibile nell’anteprima

Non perderti parti importanti!

bg1
La stima puntuale è un singolo numero che rappresenta la migliore previsione del valore assunto dal parametro nella
popolazione.
La stima intervallare è, invece, un intervallo di valori intorno alla stima puntuale, in cui si ritiene ricada il valore del
parametro.
L’estrazione del campione è un esperimento casuale, per ogni campione ho un’ diversa. Quando ho , dove
𝑥 𝑛30
è l’ampiezza campionaria, per il Teorema del Limite Centrale, posso dire di avere una distribuzione campionaria
𝑛
pressoché Normale; se la popolazione da cui viene estratto il campione è Normale, anche la distribuzione
campionaria sarà Normale.
Lo stimatore è un particolare tipo di statistica impiegato per stimare un parametro, è una variabile casuale e non un
numero.
Un buon stimatore deve essere:
- CORRETTO: quando il suo valore atteso (la media) coincide con il parametro da stimare; se non è questo
𝑦
il caso, lo stimatore si dice distorto. La distorsione è la differenza tra il valore atteso ed il parametro da θ 𝑦
stimare.
- EFFICIENTE: quando la varianza (o, in alternativa, la deviazione standard ), è quanto più piccola 𝑉𝑎𝑟(𝑦)
possibile e c’è quindi meno dispersione intorno al valore atteso ; la varianza tende in generale a diminuire
𝑦
all’aumentare dell’ampiezza campionaria.
- CONSISTENTE: quando uno stimatore è sia corretto, sia efficiente.
Lo stimatore naturale della media della popolazione è la variabile casuale media campionaria ; si tratta di uno
µ 𝑥
stimatore corretto, consistente ed efficiente.
Lo stimatore naturale della proporzione della popolazione (ovvero la frequenza relativa ) è la variabile
𝑝 𝑓𝑖=𝑛𝑖
𝑛
casuale proporzione campionaria ; si tratta di uno stimatore corretto, consistente ed efficiente.
𝑃
Lo stimatore naturale della varianza della popolazione è la variabile casuale varianza campionaria, la varianza
σ2
classica calcolata sui dati campionari, ovvero ; non è uno stimatore corretto, va quindi moltiplicato
1
𝑛𝑖=1
𝑥𝑖𝑥
( )
2
per , il che trasforma la formula in .
𝑛
𝑛−1 1
𝑛−1𝑖=1
𝑥𝑖𝑥
( )
2
L’intervallo di confidenza è un intervallo di valori dentro il quale si ritiene ricada il valore del parametro, ad esso è
associato un livello di fiducia, un numero prossimo a 1 (sempre positivo), che rappresenta una sorta di probabilità
associata.
Per le proporzioni, con molto grande, consideriamo una distribuzione Normale, con valore atteso e
𝑛 𝐸(𝑃)=𝑝
varianza . La Normale si può standardizzare, sottraendo il valore atteso e dividendo il tutto per
𝑉𝑎𝑟(𝑃)= 𝑝𝑞
𝑛𝐸(𝑃)
la deviazione standard , quindi ; la Normale standardizzata ha e
𝑉𝑎𝑟(𝑃) 𝑧= 𝑃−𝐸(𝑃)
𝑉𝑎𝑟(𝑃) =𝑃−𝑝
𝑝𝑞
𝑛𝐸(𝑃)=0
. L’area sottesa dalla curva vale 1. 1- è il livello di fiducia, compreso tra 0 e 1, l’ “rimanente”, ovvero
𝑉𝑎𝑟(𝑃)=1 α α
il livello di significatività, è diviso specularmente sulle 2 code della curva Normale. Quindi:
pf3
pf4
pf5

Anteprima parziale del testo

Scarica Stima Puntuale e Intervallare: Esercizi e Quiz - Prof. De Battisti e più Sintesi del corso in PDF di Statistica solo su Docsity!

La stima puntuale è un singolo numero che rappresenta la migliore previsione del valore assunto dal parametro nella popolazione. La stima intervallare è, invece, un intervallo di valori intorno alla stima puntuale, in cui si ritiene ricada il valore del parametro.

L’estrazione del campione è un esperimento casuale, per ogni campione ho un’ 𝑥 diversa. Quando ho 𝑛 ≥ 30, dove 𝑛 è l’ampiezza campionaria, per il Teorema del Limite Centrale, posso dire di avere una distribuzione campionaria pressoché Normale; se la popolazione da cui viene estratto il campione è Normale, anche la distribuzione campionaria sarà Normale.

Lo stimatore è un particolare tipo di statistica impiegato per stimare un parametro, è una variabile casuale e non un numero. Un buon stimatore deve essere:

  • CORRETTO: quando il suo valore atteso 𝑦(la media) coincide con il parametro da stimare; se non è questo il caso, lo stimatore si dice distorto. La distorsione θ è la differenza tra il valore atteso 𝑦ed il parametro da stimare.
  • EFFICIENTE: quando la varianza 𝑉𝑎𝑟(𝑦)(o, in alternativa, la deviazione standard ), è quanto più piccola possibile e c’è quindi meno dispersione intorno al valore atteso 𝑦; la varianza tende in generale a diminuire all’aumentare dell’ampiezza campionaria.
  • CONSISTENTE: quando uno stimatore è sia corretto, sia efficiente.

Lo stimatore naturale della media della popolazione μ è la variabile casuale media campionaria 𝑥; si tratta di uno stimatore corretto, consistente ed efficiente.

Lo stimatore naturale della proporzione della popolazione 𝑝 (ovvero la frequenza relativa 𝑓𝑖 = ) è la variabile

𝑛𝑖 𝑛

casuale proporzione campionaria 𝑃; si tratta di uno stimatore corretto, consistente ed efficiente.

Lo stimatore naturale della varianza della popolazione σ^2 è la variabile casuale varianza campionaria, la varianza

classica calcolata sui dati campionari, ovvero (^1) 𝑛 ; non è uno stimatore corretto, va quindi moltiplicato 𝑖=

2

per (^) 𝑛−1^ 𝑛 , il che trasforma la formula in (^) 𝑛−1^1. 𝑖=

2

L’intervallo di confidenza è un intervallo di valori dentro il quale si ritiene ricada il valore del parametro, ad esso è associato un livello di fiducia, un numero prossimo a 1 (sempre positivo), che rappresenta una sorta di probabilità associata.

Per le proporzioni, con 𝑛 molto grande, consideriamo una distribuzione Normale, con valore atteso 𝐸(𝑃) = 𝑝e

varianza 𝑉𝑎𝑟(𝑃) = 𝑝𝑞𝑛. La Normale si può standardizzare, sottraendo il valore atteso 𝐸(𝑃)e dividendo il tutto per

la deviazione standard 𝑉𝑎𝑟(𝑃), quindi 𝑧 = 𝑃−𝐸(𝑃) ; la Normale standardizzata ha e 𝑉𝑎𝑟(𝑃)

𝑛

𝑉𝑎𝑟(𝑃) = 1. L’area sottesa dalla curva vale 1. 1- α è il livello di fiducia, compreso tra 0 e 1, l’ α“rimanente”, ovvero il livello di significatività, è diviso specularmente sulle 2 code della curva Normale. Quindi:

𝑃(− 𝑧 (^) α o 2

≤ 𝑧 ≤ 𝑧 (^) α 2

) = α − 1 𝑃(− 𝑧 (^) α 2

𝑛

≤ 𝑧 (^) α 2

) = α − 1

Che diventa:

𝑃(− 𝑧 (^) α 2

· 𝑝𝑞𝑛 ≤ 𝑃 − 𝑝 ≤ 𝑧 (^) α 2

· 𝑝𝑞𝑛 ) = α − 1

A questo punto, posso decidere di spostare sia 𝑃 sia 𝑝. La formula dell’intervallo di confidenza è:

𝐼𝐶 = 𝑝 − 𝑧 (^) α , p e q sono campionari. 2

· 𝑝𝑞𝑛 ; 𝑝 + 𝑧 (^) α 2

( ·^ 𝑝𝑞𝑛)

L’ampiezza dell’intervallo è data dalla stima puntuale 𝑝 ± 𝑧 (^) α , dove è il cosiddetto margine d’errore. 2

𝑝𝑞 𝑛 𝑧^ α 2

𝑝𝑞 𝑛

Per la media, se la varianza σ ci è nota, standardizzo in primis la Normale, tramite la formula , dove è

(^2) 𝑋−𝑥 σ 𝑛

σ 𝑛

l’errore standard campionario. In questo caso, l’intervallo di confidenza è:

𝐼𝐶 = 𝑥 − 𝑧 (^) α o 2

· σ𝑛 ; 𝑥 + 𝑧 (^) α 2

( ·^ σ𝑛) 𝐼𝐶 = 𝑥 ± 𝑧^ α

2

· σ𝑛

Se invece la varianza σ non ci è nota, la vado a stimare, con la formula della varianza campionaria corretta, ovvero:

2

1

𝑛 𝑖=1^ ∑^ (𝑥^ 𝑖 − 𝑥)

2 · (^) 𝑛−1𝑛 = (^) 𝑛−1^1 𝑖=

2

Essendo la varianza già una stima, la distribuzione standardizzata non è una Normale standardizzata, ma una distribuzione 𝑡, caratterizzata dal parametro 𝑛 − 1, il degree of freedom (gdl).

La distribuzione 𝑡 somiglia ad una Normale, è simmetrica rispetto all’asse 𝑦, moda, mediana e media sono 0, σè poco più grande di 1 e dipende dai gdl; quanto più grande è l’ampiezza campionaria, quanto minore è la deviazione standard, 𝑡 tende sempre più alla Normale. ( 𝑡 si sostituisce in tutto a 𝑧, il meccanismo è lo stesso, oltre una certa 𝑛 posso anche tornare ad usare 𝑧).

Per scegliere la dimensione campionaria, con proporzione campionaria, posso fissare il margine di errore 𝑀e

scegliere l’ampiezza del campione 𝑛 in funzione di ciò; infatti, 𝑀 = 𝑧 (^) α. Mi metto nel caso meno favorevole, 2

𝑝𝑞 𝑛

con varianza maggiore, in cui 𝑝 = 0, 5, 𝑞 = 0, 5 e il loro prodotto 𝑝𝑞 è 0. 25.

Se χ^2 = 0, le variabili sono indipendenti.

Il χ^2 si può anche normalizzare, dividendolo per il χ^2 𝑚𝑎𝑥, così che sia compreso tra 0 e 1. Il χ^2 𝑚𝑎𝑥si calcola moltiplicando 𝑛 per il valore più piccolo tra il numero delle righe − 1 e il numero delle colonne − 1.

Con i dati campionari, non si possono fare affermazioni certe riguardo la popolazione da cui viene estratto il

campione, anche per quanto riguarda dipendenza ed indipendenza. Quanto più è grande χ^2 del campione, maggiore è l’evidenza statistica contro 𝐻 0 , l’ipotesi nulla secondo cui le variabili sarebbero indipendenti. Per condurre questi

test, è necessario che in ciascuna cella le cumulate 𝑛𝑖𝑗 ≥ 5.

Il χ^2 è sempre positivo, la sua distribuzione campionaria è asimmetrica e cambia con i gradi di libertà, 𝑔𝑑𝑙; all’aumentare dei 𝑔𝑑𝑙, il picco, che corrisponde alla media μ, si sposta a destra e aumenta la dispersione, l’errore standard σ. Infatti:

  • 𝑔𝑑𝑙 = (𝑛𝑢𝑚𝑒𝑟𝑜 𝑑𝑖 𝑟𝑖𝑔ℎ𝑒 − 1) · (𝑛𝑢𝑚𝑒𝑟𝑜 𝑑𝑖 𝑐𝑜𝑙𝑜𝑛𝑛𝑒 − 1); i gradi di libertà sono il numero di valori di cumulate che mi servono per riempire tutta una tabella, note solo le marginali.
  • μ = 𝑔𝑑𝑙
  • σ = 2𝑔𝑑𝑙

Il test del chi-quadro di indipendenza si compone di 5 parti:

  • ASSUNZIONI: le variabili sono qualitative, il campione è casuale, le 𝑛𝑖𝑗 ≥ 5.
  • IPOTESI: l’ipotesi nulla 𝐻 0 afferma che le variabili siano indipendenti.
  • TEST STATISTICO: si calcola l’ χ^2 come. 𝑖,𝑗

2

𝑛𝑖𝑗𝑡

  • P-VALUE
  • CONCLUSIONI: come per il test di significatività, se al mio χ è associato un p-value minore rispetto a

2

quello calcolato con α, posso rifiutare 𝐻 0.

La covarianza è la media degli scostamenti delle variabili 𝑋 e 𝑌dalle loro rispettive medie. Misura la variabilità congiunta di due variabili. Senza una distribuzione di frequenze, la formula della covarianza è:

𝐶𝑜𝑣 𝑋, 𝑌( ) = (^1) 𝑛 o 𝑖=

𝑛

𝑖=

𝑛 ∑ (^) (𝑥 (^) 𝑖 · 𝑦𝑖) − (𝑥 · 𝑦 )

Se invece abbiamo una distribuzione di frequenze, la formula diventa:

𝐶𝑜𝑣 𝑋, 𝑌( ) = 𝑛^1

𝑖=

𝑛 ∑ (^) (𝑥 (^) 𝑖 · 𝑦𝑖 · 𝑛𝑖) − (𝑥 · 𝑦 )

Se le variabili 𝑋 e 𝑌 subiscono una trasformazione lineare del tipo 𝑍 = 𝑎 + 𝑏𝑍, la covarianza va moltiplicata per il prodotto tra i rispettivi coefficienti angolari.

La covarianza si può anche normalizzare, se la divido per il prodotto delle deviazioni standard, σ𝑥σ𝑦; questo è il

coefficiente di correlazione lineare di Pearson ρ. ρ è un coefficiente simmetrico, privo di unità di misura, compreso tra − 1 e 1. (Se faccio il grafico e la curva 𝑋𝑌è una retta, allora so che ρ = 1).

REGRESSIONE LINEARE - Considero 𝑌 come variabile dipendente e 𝑋come variabile indipendente e utilizzo la formula della retta per descrivere come la distribuzione condizionata di 𝑌 varia al variare di 𝑋. La formula della retta è:

𝑦 = α + β𝑥 , dove α è l’intercetta e βil coefficiente angolare.

Uso questa funzione per calcolare le 𝑦 teoriche, che uso per stimare i residui 𝑒 rispetto alle 𝑦osservate. La somma e la media dei residui 𝑒 sono 0 , perché la somma dei valori 𝑦 osservati è uguale alla somma dei valori 𝑦teorici.

Per stimare α e β, così che la retta rispetti al meglio l’andamento della dispersione e allo stesso tempo si avvicini quanto più possibile ai valori effettivamente osservati, utilizzo il metodo dei minimi quadrati.

𝑏 = 𝐶𝑜𝑣 𝑋, 𝑌𝑉𝑎𝑟 𝑋(^ ( ))

La retta di regressione passa sempre per il punto di ascissa 𝑥 e ordinata 𝑦.

La devianza ∑ 𝑦( 𝑖 − 𝑦)è uguale alla somma tra devianza spiegata e varianza residua.

2

2 ∑ 𝑦( (^) 𝑖 − 𝑦𝑡)

2

Il coefficiente di determinazione 𝑅^2 fa riferimento alla scomposizione della varianza

∑ 𝑦( 𝑖 − 𝑦). Si calcola come:

2

2

  • ∑ 𝑦( (^) 𝑖 − 𝑦𝑡)

2

𝑅 ovvero

2

2

2

𝑑𝑒𝑣𝑖𝑎𝑛𝑧𝑎 𝑠𝑝𝑖𝑒𝑔𝑎𝑡𝑎 𝑑𝑒𝑣𝑖𝑎𝑛𝑧𝑎

  • Se la devianza spiegata vale 0 , la devianza residua è uguale alla devianza totale: la retta non si adatta ai dati.
  • Se la devianza residua vale 0, la devianza spiegata è uguale alla devianza totale: la retta si adatta ai dati.

Con la retta di regressione, posso avere il coefficiente di determinazione 𝑅^2 uguale al quadrato del coefficiente di

correlazione lineare di Pearson ρ^2.

Quando ρ^2 = 𝑅^2 ≥ 0, 7, la retta si può considerare come un buon modello.