



Studia grazie alle numerose risorse presenti su Docsity
Guadagna punti aiutando altri studenti oppure acquistali con un piano Premium
Prepara i tuoi esami
Studia grazie alle numerose risorse presenti su Docsity
Prepara i tuoi esami con i documenti condivisi da studenti come te su Docsity
Trova i documenti specifici per gli esami della tua università
Preparati con lezioni e prove svolte basate sui programmi universitari!
Rispondi a reali domande d’esame e scopri la tua preparazione
Riassumi i tuoi documenti, fagli domande, convertili in quiz e mappe concettuali
Studia con prove svolte, tesine e consigli utili
Togliti ogni dubbio leggendo le risposte alle domande fatte da altri studenti come te
Esplora i documenti più scaricati per gli argomenti di studio più popolari
Ottieni i punti per scaricare
Guadagna punti aiutando altri studenti oppure acquistali con un piano Premium
Una serie di esercizi e quiz relativi alla stima puntuale e intervallare, concetti fondamentali della statistica inferenziale. Gli esercizi illustrano come calcolare la stima puntuale e l'intervallo di confidenza per la media e la proporzione di una popolazione, mentre i quiz testano la comprensione dei concetti chiave e delle formule utilizzate.
Tipologia: Sintesi del corso
1 / 5
Questa pagina non è visibile nell’anteprima
Non perderti parti importanti!




La stima puntuale è un singolo numero che rappresenta la migliore previsione del valore assunto dal parametro nella popolazione. La stima intervallare è, invece, un intervallo di valori intorno alla stima puntuale, in cui si ritiene ricada il valore del parametro.
L’estrazione del campione è un esperimento casuale, per ogni campione ho un’ 𝑥 diversa. Quando ho 𝑛 ≥ 30, dove 𝑛 è l’ampiezza campionaria, per il Teorema del Limite Centrale, posso dire di avere una distribuzione campionaria pressoché Normale; se la popolazione da cui viene estratto il campione è Normale, anche la distribuzione campionaria sarà Normale.
Lo stimatore è un particolare tipo di statistica impiegato per stimare un parametro, è una variabile casuale e non un numero. Un buon stimatore deve essere:
Lo stimatore naturale della media della popolazione μ è la variabile casuale media campionaria 𝑥; si tratta di uno stimatore corretto, consistente ed efficiente.
Lo stimatore naturale della proporzione della popolazione 𝑝 (ovvero la frequenza relativa 𝑓𝑖 = ) è la variabile
𝑛𝑖 𝑛
casuale proporzione campionaria 𝑃; si tratta di uno stimatore corretto, consistente ed efficiente.
Lo stimatore naturale della varianza della popolazione σ^2 è la variabile casuale varianza campionaria, la varianza
classica calcolata sui dati campionari, ovvero (^1) 𝑛 ; non è uno stimatore corretto, va quindi moltiplicato 𝑖=
2
per (^) 𝑛−1^ 𝑛 , il che trasforma la formula in (^) 𝑛−1^1. 𝑖=
2
L’intervallo di confidenza è un intervallo di valori dentro il quale si ritiene ricada il valore del parametro, ad esso è associato un livello di fiducia, un numero prossimo a 1 (sempre positivo), che rappresenta una sorta di probabilità associata.
Per le proporzioni, con 𝑛 molto grande, consideriamo una distribuzione Normale, con valore atteso 𝐸(𝑃) = 𝑝e
varianza 𝑉𝑎𝑟(𝑃) = 𝑝𝑞𝑛. La Normale si può standardizzare, sottraendo il valore atteso 𝐸(𝑃)e dividendo il tutto per
la deviazione standard 𝑉𝑎𝑟(𝑃), quindi 𝑧 = 𝑃−𝐸(𝑃) ; la Normale standardizzata ha e 𝑉𝑎𝑟(𝑃)
𝑛
𝑉𝑎𝑟(𝑃) = 1. L’area sottesa dalla curva vale 1. 1- α è il livello di fiducia, compreso tra 0 e 1, l’ α“rimanente”, ovvero il livello di significatività, è diviso specularmente sulle 2 code della curva Normale. Quindi:
𝑃(− 𝑧 (^) α o 2
≤ 𝑧 ≤ 𝑧 (^) α 2
) = α − 1 𝑃(− 𝑧 (^) α 2
𝑛
≤ 𝑧 (^) α 2
) = α − 1
Che diventa:
𝑃(− 𝑧 (^) α 2
· 𝑝𝑞𝑛 ≤ 𝑃 − 𝑝 ≤ 𝑧 (^) α 2
· 𝑝𝑞𝑛 ) = α − 1
A questo punto, posso decidere di spostare sia 𝑃 sia 𝑝. La formula dell’intervallo di confidenza è:
𝐼𝐶 = 𝑝 − 𝑧 (^) α , p e q sono campionari. 2
· 𝑝𝑞𝑛 ; 𝑝 + 𝑧 (^) α 2
L’ampiezza dell’intervallo è data dalla stima puntuale 𝑝 ± 𝑧 (^) α , dove è il cosiddetto margine d’errore. 2
𝑝𝑞 𝑛 𝑧^ α 2
𝑝𝑞 𝑛
Per la media, se la varianza σ ci è nota, standardizzo in primis la Normale, tramite la formula , dove è
(^2) 𝑋−𝑥 σ 𝑛
σ 𝑛
l’errore standard campionario. In questo caso, l’intervallo di confidenza è:
𝐼𝐶 = 𝑥 − 𝑧 (^) α o 2
· σ𝑛 ; 𝑥 + 𝑧 (^) α 2
2
· σ𝑛
Se invece la varianza σ non ci è nota, la vado a stimare, con la formula della varianza campionaria corretta, ovvero:
2
1
2 · (^) 𝑛−1𝑛 = (^) 𝑛−1^1 𝑖=
2
Essendo la varianza già una stima, la distribuzione standardizzata non è una Normale standardizzata, ma una distribuzione 𝑡, caratterizzata dal parametro 𝑛 − 1, il degree of freedom (gdl).
La distribuzione 𝑡 somiglia ad una Normale, è simmetrica rispetto all’asse 𝑦, moda, mediana e media sono 0, σè poco più grande di 1 e dipende dai gdl; quanto più grande è l’ampiezza campionaria, quanto minore è la deviazione standard, 𝑡 tende sempre più alla Normale. ( 𝑡 si sostituisce in tutto a 𝑧, il meccanismo è lo stesso, oltre una certa 𝑛 posso anche tornare ad usare 𝑧).
Per scegliere la dimensione campionaria, con proporzione campionaria, posso fissare il margine di errore 𝑀e
scegliere l’ampiezza del campione 𝑛 in funzione di ciò; infatti, 𝑀 = 𝑧 (^) α. Mi metto nel caso meno favorevole, 2
𝑝𝑞 𝑛
con varianza maggiore, in cui 𝑝 = 0, 5, 𝑞 = 0, 5 e il loro prodotto 𝑝𝑞 è 0. 25.
Se χ^2 = 0, le variabili sono indipendenti.
Il χ^2 si può anche normalizzare, dividendolo per il χ^2 𝑚𝑎𝑥, così che sia compreso tra 0 e 1. Il χ^2 𝑚𝑎𝑥si calcola moltiplicando 𝑛 per il valore più piccolo tra il numero delle righe − 1 e il numero delle colonne − 1.
Con i dati campionari, non si possono fare affermazioni certe riguardo la popolazione da cui viene estratto il
campione, anche per quanto riguarda dipendenza ed indipendenza. Quanto più è grande χ^2 del campione, maggiore è l’evidenza statistica contro 𝐻 0 , l’ipotesi nulla secondo cui le variabili sarebbero indipendenti. Per condurre questi
test, è necessario che in ciascuna cella le cumulate 𝑛𝑖𝑗 ≥ 5.
Il χ^2 è sempre positivo, la sua distribuzione campionaria è asimmetrica e cambia con i gradi di libertà, 𝑔𝑑𝑙; all’aumentare dei 𝑔𝑑𝑙, il picco, che corrisponde alla media μ, si sposta a destra e aumenta la dispersione, l’errore standard σ. Infatti:
Il test del chi-quadro di indipendenza si compone di 5 parti:
2
𝑛𝑖𝑗𝑡
2
quello calcolato con α, posso rifiutare 𝐻 0.
La covarianza è la media degli scostamenti delle variabili 𝑋 e 𝑌dalle loro rispettive medie. Misura la variabilità congiunta di due variabili. Senza una distribuzione di frequenze, la formula della covarianza è:
𝐶𝑜𝑣 𝑋, 𝑌( ) = (^1) 𝑛 o 𝑖=
𝑛
𝑖=
𝑛 ∑ (^) (𝑥 (^) 𝑖 · 𝑦𝑖) − (𝑥 · 𝑦 )
Se invece abbiamo una distribuzione di frequenze, la formula diventa:
𝑖=
𝑛 ∑ (^) (𝑥 (^) 𝑖 · 𝑦𝑖 · 𝑛𝑖) − (𝑥 · 𝑦 )
Se le variabili 𝑋 e 𝑌 subiscono una trasformazione lineare del tipo 𝑍 = 𝑎 + 𝑏𝑍, la covarianza va moltiplicata per il prodotto tra i rispettivi coefficienti angolari.
La covarianza si può anche normalizzare, se la divido per il prodotto delle deviazioni standard, σ𝑥σ𝑦; questo è il
coefficiente di correlazione lineare di Pearson ρ. ρ è un coefficiente simmetrico, privo di unità di misura, compreso tra − 1 e 1. (Se faccio il grafico e la curva 𝑋𝑌è una retta, allora so che ρ = 1).
REGRESSIONE LINEARE - Considero 𝑌 come variabile dipendente e 𝑋come variabile indipendente e utilizzo la formula della retta per descrivere come la distribuzione condizionata di 𝑌 varia al variare di 𝑋. La formula della retta è:
𝑦 = α + β𝑥 , dove α è l’intercetta e βil coefficiente angolare.
Uso questa funzione per calcolare le 𝑦 teoriche, che uso per stimare i residui 𝑒 rispetto alle 𝑦osservate. La somma e la media dei residui 𝑒 sono 0 , perché la somma dei valori 𝑦 osservati è uguale alla somma dei valori 𝑦teorici.
Per stimare α e β, così che la retta rispetti al meglio l’andamento della dispersione e allo stesso tempo si avvicini quanto più possibile ai valori effettivamente osservati, utilizzo il metodo dei minimi quadrati.
La retta di regressione passa sempre per il punto di ascissa 𝑥 e ordinata 𝑦.
2
2 ∑ 𝑦( (^) 𝑖 − 𝑦𝑡)
2
Il coefficiente di determinazione 𝑅^2 fa riferimento alla scomposizione della varianza
2
2
2
𝑅 ovvero
2
2
𝑑𝑒𝑣𝑖𝑎𝑛𝑧𝑎 𝑠𝑝𝑖𝑒𝑔𝑎𝑡𝑎 𝑑𝑒𝑣𝑖𝑎𝑛𝑧𝑎
Con la retta di regressione, posso avere il coefficiente di determinazione 𝑅^2 uguale al quadrato del coefficiente di
correlazione lineare di Pearson ρ^2.
Quando ρ^2 = 𝑅^2 ≥ 0, 7, la retta si può considerare come un buon modello.