Prepara i tuoi esami
Ottieni punti
Guide e consigli
Vendi su Docsity
Docsity AI

Prepara i tuoi esami

Studia grazie alle numerose risorse presenti su Docsity

Ottieni i punti per scaricare

Guadagna punti aiutando altri studenti oppure acquistali con un piano Premium

Guide e consigli

Vendi su Docsity

Docsity AI

Accedi Registrati

Prepara i tuoi esami

Studia grazie alle numerose risorse presenti su Docsity

Cerca documenti

Prepara i tuoi esami con i documenti condivisi da studenti come te su Docsity

Cerca la tua università

Trova i documenti specifici per gli esami della tua università

Video Corsi

Preparati con lezioni e prove svolte basate sui programmi universitari!

Quiz

Rispondi a reali domande d’esame e scopri la tua preparazione

Docsity AINEW

Riassumi i tuoi documenti, fagli domande, convertili in quiz e mappe concettuali

Maturità 2026

Studia con prove svolte, tesine e consigli utili

Esplora domande

Togliti ogni dubbio leggendo le risposte alle domande fatte da altri studenti come te

Argomenti di studio

Esplora i documenti più scaricati per gli argomenti di studio più popolari

Ottieni i punti per scaricare

Guadagna punti aiutando altri studenti oppure acquistali con un piano Premium

Condividi documenti

20 Punti

Per ogni documento caricato

Rispondi alle domande

5 Punti

per ogni risposta data (max 1 al giorno)

Tutti i modi per ottenere punti gratis

Ottieni punti subito

Scegli un piano Premium con tutti i punti di cui hai bisogno

Opportunità di studio

Scegli il tuo prossimo programma di studio

Entra in contatto con le migliori università del mondo e scegli il tuo percorso di studi

Classifica delle migliori università

Scopri le migliori università italiane secondo gli studenti

Community

Chiedi alla community

Chiedi aiuto alla community e sciogli i tuoi dubbi legati allo studio

Guide Gratuite

I nostri eBook salva studente

Scarica gratuitamente le nostre guide sulle tecniche di studio, metodi per gestire l'ansia, dritte per la tesi realizzati da tutor Docsity

Statistica secondo parziale, Dispense di Statistica

Università Cattolica del Sacro Cuore - Milano (UNICATT MI)Statistica

Appunti statistica del secondo modulo, inferenza e regressione lineare, unicatt 2025/2026

Tipologia: Dispense

2025/2026

Caricato il 25/03/2026

riccardo-boni-7 🇮🇹

1 documento

1 / 43

Questa pagina non è visibile nell’anteprima

Non perderti parti importanti!

Inferenza Statistica

1. Dalla statistica descrittiva all’inferenza

POPOLAZIONE E CAMPIONE

La popolazione di riferimento può essere di due tipi:

Popolazione finita: un insieme finito di N unità su cui si può osservare un certo carattere (es: gli investimenti

annui di tutte le aziende di un paese; il numero di figli di ogni famiglia italiana)

Popolazione infinita o virtuale: composta da tutte le unità potenzialmente osservabili e non necessariamente

già esistenti fisicamente. Il carattere d’interesse può essere rappresentato da una variabile casuale X con una certa

distribuzione di probabilità

Per la raccolta delle informazioni sui caratteri della popolazione si possono usare due tipi di indagine:

Pregi e difetti delle due tipologie di indagini

Quando si effettua un’indagine campionaria la statistica inferenziale consente, avvalendosi di metodi

probabilistici, di trarre conclusioni generali sulla popolazione a partire dall’esame del campione di osservazioni.

2. Campionamento

Le indagini campionarie si basano sull’analisi di un campione di osservazioni dunque su un sottoinsieme di unità

dell’universo di riferimento.

Se l’obiettivo però non è descrivere quel sottoinsieme ma avere informazioni sull’intero universo, ci chiediamo:

1) Il campione va scelto seguendo un qualche criterio?

2) Bastano gli strumenti della statistica descrittiva per analizzare i dati e generalizzare alla popolazione i risultati?

CARATTERISTICHE DEL CAMPIONE

Per poter fare inferenza nel modo corretto il campione deve essere:

1) RAPPRESENTATIVO: cioè una miniatura della popolazione ovvero molto simile alla popolazione rispetto alle

caratteristiche salienti per la ricerca.

2) CASUALE: tutte le unità hanno una probabilità non nulla di entrare a far parte del campione.

Campione casuale o probabilistico: la scelta delle unità dalla popolazione è casuale, ciascuna unità statistica

presenta una prefissata probabilità non nulla di entrare a far parte del campione

Campione non casuale o non probabilistico: la scelta delle unità prescinde da criteri di casualità, le unità

sono ottenute in funzione di particolari esigenze conoscitive o per certe loro caratteristiche peculiari

Attenzione: solo per i campionamenti di tipo probabilistico è possibile calcolare la precisione della stima e fare

inferenza sulla popolazione.

Scopri Dispense di Statistica Università Cattolica del Sacro Cuore - Milano (UNICATT MI)

Documenti correlati

Appunti per il secondo parziale del corso di statistica SPOSI

SECONDO PARZIALE STATISTICA PROF. OSMETTI (UNICATT)

(4)

Secondo parziale statistica UNICATT

STATISTICA SECONDO PARZIALE

Statistica 3° Parziale

(2)

Esame - STATISTICA 2° parziale - Paroli

Primo parziale statistica UNICATT

Secondo parziale statistica

(1)

Appunti secondo parziale di statistica

Formulario secondo parziale statistica

(1)

dispensa, appunti sul secondo parziale di statistica

Statistica - appunti secondo parziale

Anteprima parziale del testo

Scarica Statistica secondo parziale e più Dispense in PDF di Statistica solo su Docsity!

Inferenza Statistica

1. Dalla statistica descrittiva all’inferenza POPOLAZIONE E CAMPIONE La popolazione di riferimento può essere di due tipi: Popolazione finita: un insieme finito di N unità su cui si può osservare un certo carattere (es: gli investimenti annui di tutte le aziende di un paese; il numero di figli di ogni famiglia italiana) Popolazione infinita o virtuale: composta da tutte le unità potenzialmente osservabili e non necessariamente già esistenti fisicamente. Il carattere d’interesse può essere rappresentato da una variabile casuale X con una certa distribuzione di probabilità Per la raccolta delle informazioni sui caratteri della popolazione si possono usare due tipi di indagine: Pregi e difetti delle due tipologie di indagini Quando si effettua un’indagine campionaria la statistica inferenziale consente, avvalendosi di metodi probabilistici, di trarre conclusioni generali sulla popolazione a partire dall’esame del campione di osservazioni. 2. Campionamento Le indagini campionarie si basano sull’analisi di un campione di osservazioni dunque su un sottoinsieme di unità dell’universo di riferimento. Se l’obiettivo però non è descrivere quel sottoinsieme ma avere informazioni sull’intero universo, ci chiediamo:

Il campione va scelto seguendo un qualche criterio?
Bastano gli strumenti della statistica descrittiva per analizzare i dati e generalizzare alla popolazione i risultati? CARATTERISTICHE DEL CAMPIONE Per poter fare inferenza nel modo corretto il campione deve essere:
RAPPRESENTATIVO: cioè una miniatura della popolazione ovvero molto simile alla popolazione rispetto alle caratteristiche salienti per la ricerca.
CASUALE: tutte le unità hanno una probabilità non nulla di entrare a far parte del campione. Campione casuale o probabilistico: la scelta delle unità dalla popolazione è casuale, ciascuna unità statistica presenta una prefissata probabilità non nulla di entrare a far parte del campione Campione non casuale o non probabilistico: la scelta delle unità prescinde da criteri di casualità, le unità sono ottenute in funzione di particolari esigenze conoscitive o per certe loro caratteristiche peculiari Attenzione: solo per i campionamenti di tipo probabilistico è possibile calcolare la precisione della stima e fare inferenza sulla popolazione.

Il campione casuale può essere: da popolazione finita Campionamento casuale semplice con reinserimento, Campionamento casuale semplice senza reinserimento (in blocco), Campionamento stratificato, a grappoli, a due stadi, sistematico… da popolazione infinita o da variabile casuale (es. X~N(μ,1)) Si utilizza il campionamento casuale semplice con reinserimento (c.c.s.) C.C.S. da POPOLAZIONE FINITA Gli schemi base sono: Con reimmissione. Lo schema di riferimento è quello dell’urna che contiene N palline numerate (popolazione). Si estrae una pallina dall’urna e si osserva il numero. Si ripete l’esperimento n volte. Ad ogni estrazione la pallina viene rimessa nell’urna. Lo stesso numero può essere estratto più di una volta. Le estrazioni sono indipendenti. Ciascuna unità ha una medesima probabilità pari ad 1/N di essere estratta ad ogni estrazione. Per le sue proprietà statistiche (indipendenza) è lo schema utilizzato anche per il campionamento da popolazione infinita. Senza reimmissione (in blocco). Lo schema di riferimento è sempre quello dell’urna. Ad ogni estrazione la pallina non viene rimessa nell’urna. Lo stesso numero può essere estratto una sola volta. Le estrazioni NON sono indipendenti. Ciascuna unità ha una probabilità pari ad 1/N di essere estratta alla prima estrazione. Alla seconda estrazione la probabilità sarà pari ad 1/(N-1), e così via. Utilizzato nelle interviste quando non ha senso interrogare più di una volta lo stesso individuo C.C.S. da VARIABILE CASUALE Sia X una v.c. con una certa distribuzione di probabilità. Si estrae un campione casuale semplice di ampiezza n (numerosità campionaria) (X1,X2,…,Xn) possibile realizzazione di n v.c. di campionamento (X1,X2,…,Xn) con le seguenti proprietà: ● sono variabili casuali indipendenti. ● ogni v.c. possiede la stessa distribuzione di probabilità della popolazione X , identicamente distribuite

3. Oggetto dell’inferenza statistica Come già detto, lo scopo dell’inferenza è fornire gli STRUMENTI per generalizzare alla popolazione di riferimento i risultati rilevati sul campione (x1,x2,x3…). Utilizzando il calcolo delle probabilità: è possibile misurare e controllare l’attendibilità delle informazioni provenienti da un campione, si è in grado di stabilire delle regole di decisione. Generalmente l’inferenza riguarda uno o più valori incogniti di una popolazione definiti PARAMETRI (della popolazione). Si indica il generico parametro con la lettera greca θ (che può assumere valori in un insieme Θ) Per esempio Media della popolazione: θ=μ=E[X] Esempio: Potremmo ad esempio voler conoscere: ● reddito medio degli abitanti della Lombardia; ● percentuale di individui soddisfatti dei servizi offerti dal servizio sanitario; ● percentuale di utilizzatori di internet; ● durata media delle chiamate ad un call-center; ● peso medio della produzione di una azienda; ● percentuale di favorevoli alla fine della guerra in Ucraina Tali valori medi o percentuali rappresentano i parametri di interesse su cui fare inferenza Attraverso le procedure dell’inferenza statistica si può rispondere alle seguenti domande su θ: Stima Quale è il valore di θ più plausibile? Quale intervallo di valori è più plausibile? Verifica delle ipotesi θ ∈Θ 0 oppure no?

STIMATORI RILEVANTI

Media campionaria ( 𝑋) utilizzata per stimare la media aritmetica della popolazione μ Varianza campionaria ( 𝑆) utilizzata per stimare la varianza della popolazione σ* 2 Proporzione campionaria (P) utilizzata per stimare la frazione o proporzione di elementi di una popolazione π STIMATORE DELLA MEDIA Sia X una popolazione con media μ e varianza σ* Sia (X1,X2,…,Xn) un ccs di dimensione n da X Distribuzione media campionaria Se il campione è estratto da una popolazione non Normale è possibile trovare la distribuzione asintotica (per n grande). Grazie al Teorema del Limite Centrale la media campionaria standardizzata si distribuisce asintoticamente come una N(0,1). per n sufficientemente grande (n>30). Esempio: Un dirigente deve scegliere tra 3 dipendenti i 2 componenti di un gruppo di lavoro. Gli anni di esperienza dei dipendenti sono: {3,5,9} (popolazione) Il numero medio di anni di esperienza per la popolazione e la sua varianza sono:

STIMATORE DELLA VARIANZA

Sia X una popolazione con media μ e varianza σ*2 entrambe ignote Sia (X1,X2,…,Xn) un ccs di dimensione n da X Si definisce VARIANZA CAMPIONARIA CORRETTA lo stimatore Proprietà varianza campionaria

INTERVALLO PER LA MEDIA CON VARIANZA NOTA

esempio In una popolazione il reddito pro-capite è distribuito secondo una Normale di media incognita e σ =56,3. Da un campione casuale di numerosità 20 estratto dalla popolazione risulta un reddito medio pro-capite pari a 980,5. Calcolare l’intervallo di confidenza al 95% per il reddito medio pro-capite. Intervallo di possibili stime per μ costruito intorno alla stima puntuale Poiché il parametro μ è ignoto, non possiamo affermare che l’intervallo stimato contenga o meno μ. Possiamo solo dire che:

[955,83; 1005,18] è una realizzazione dell’intervallo casuale che contiene μ con probabilità 0,
[955,83; 1005,18] include la media della popolazione con un grado di fiducia dello 0,95. INTERVALLO PER LA MEDIA CON VARIANZA NON NOTA

INTERVALLO PER LA PROPORZIONE

Osservazioni Empiricamente è verificato che la relazione asintotica è accettabile se 0,3

PRECISIONE DELL’IC E DETERMINAZIONE DELLA NUMEROSITÀ CAMPIONARIA

Ampiezza dell’intervallo L’ampiezza della differenza tra estremo superiore e estremo inferiore: ampiezza IC= l2-l La semiampiezza è δ = ampiezza/2 = l2 – stima parametro è l’errore (o la precisione) che si può compiere in eccesso o in difetto nella stima Precisione dell’intervallo = semiampiezza A seconda dell’IC in esame l’errore è dato da: Determinazione numerosità campionaria Nella pratica al fine di commisurare al meglio le risorse necessarie per affrontare lo studio di una quantità incognita si vuole determinare in anticipo la dimensione campionaria per avere una data precisione della stima. Dalla semiampiezza δ è possibile calcolare il valore della numerosità n tale da garantire, ad un certo livello di probabilità (1-α), di non compiere un errore superiore ad un valore prefissato δ0. δ minore uguale di δ0. Se il valore ottenuto non è un numero intero si prenderà come dimensione campionaria il primo intero superiore a tale valore NB: Per l’intervallo sulla proporzione la stima p è chiaramente incognita. Quando non si hanno informazioni sul parametro incognito, si suggerisce di adottare il valore «prudenziale» p=0.5 a cui corrisponde il valore massimo di p(1-p) =0.25 (situazione più sfavorevole, per la quale la stima della varianza è massima).

esempio Secondo il costruttore di un certo tipo di batterie per autovetture, la durata media è maggiore di 3400 ore. Un cliente, per verificarne la durata, osserva un campione di 30 batterie: Ipotesi nulla H0 : le batterie hanno durata media di almeno 3400 ore Ipotesi alternativa H1 : le batterie hanno durata media inferiore a 3400 ore Come passare dai dati osservati alla decisione se accettare o rifiutare l’ipotesi nulla H0 ?? STATISTICA TEST Un test statistico è una regola che permette sulla base del campione osservato di decidere se rifiutare (o meno)H0. Il test si basa sul calcolo del valore di una statistica test. La statistica test T è una statistica campionaria (uno stimatore) la cui distribuzione deve essere completamente nota sotto l’ipotesi nulla (quando essa è vera). Ad esempio: media campionaria se il test è sulla media, proporzione campionaria se il test è sulla proporzione.

REGIONE DI ACCETTAZIONE E DI RIFIUTO

Ogni test statistico induce una partizione dello spazio campionario in: • regione di accettazione di H0 • regione di rifiuto di H Si definisce regione di accettazione l’insieme dei valori della statistica test che portano all'accettazione dell'ipotesi nulla. Si definisce regione di rifiuto l’insieme dei valori della statistica test che portano al rifiuto dell’ipotesi nulla. In base alla regione in cui andrà a cadere il valore campionario della statistica test, si prenderà una decisione sull’ipotesi H0. Il valore (o valori) della statistica che separano le due regioni viene chiamato valore critico e corrispondente ad un percentile a cui è associato un certo valore di probabilità. Le regioni di accettazione e di rifiuto dipendono dal livello di significatività alfa, maggiore è il suo valore, più ampia sarà la regione di rifiuto. esempio Supponiamo che la popolazione sia Normale con media incognita e varianza nota. Si vuole verificare:

PASSI DA SEGUIRE NELLA VERIFICA D’IPOTESI

Unendo ora tutti gli «ingredienti» visti si definisce la seguente procedura per arrivare alla decisione finale: 1.Definizione del sistema d’ipotesi sul parametro

Scelta della statistica test
Scelta del livello di significatività, definizione della regione di rifiuto e calcolo dei valori critici
Estrazione del campione
Calcolo della statistica test
Decisione (accetto o rifiuto H0) TEST PER LA MEDIA per verificare l’ipotesi su particolari valori della media di una popolazione Si distinguono inoltre per l’ipotesi sulla popolazione

con varianza nota
con varianza ignota 1) Test bilaterale sulla media con varianza nota esempio La statura (in cm) degli abitanti di una regione si distribuisce come una normale di media incognita e varianza

Si vuole verificare a un livello di significatività α=0.05:

2) Test unilaterale dx (sx) sulla media con varianza nota.

Più piccolo è il p-value più alta è l’evidenza contro H0 ossia quanto più piccolo è il p-value tanto più siamo propensi a rifiutare H. Ad es. sia p-value=4% se fosse vera H0 , allora la probabilità dell’evento {T>t} risulterebbe appunto del 4%, ossia piccola. In questo caso: ● abbiamo osservato un evento “raro” (che si verifica nel 4% dei casi) ● oppure H0 è poco plausibile La conclusione più cauta è che H0 sia poco plausibile. N.B. Purtroppo NON possiamo affermare che la probabilità che H0 sia vera è pari al p-value (ossia 4%). Infatti il p-value è calcolato condizionatamente a H0 ; dunque nell’ipotesi che H0 sia vera! Regressione lineare semplice STUDIO DELLA DIPENDENZA TRA CARATTERI QUANTITATIVI Date due variabili X e Y ci si propone di descrivere con un modello matematico l’andamento di Y al variare di X (o viceversa) Y=f(X). Per identificare f(x):

interpolazione matematica: curva analitica che passa esattamente PER i punti dati
interpolazione statistica: curva analitica che passa TRA i punti dati La soluzione 1) NON è possibile vista l’alta numerosità dei punti nelle indagini statistiche INTERPOLAZIONE STATISTICA (regressione lineare). esempio Studio sul consumo di elettricità all’interno di un edificio su base mensile con l’obiettivo di prevedere l’utilizzo di elettricità in modo da tenere sotto controllo i costi. Si può immaginare che tale consumo sia influenzato dalla temperatura esterna, che può richiedere l’utilizzo di caloriferi elettrici.

Y è il consumo medio giornaliero di kW
X è la temperatura media mensile in gradi Si vuole studiare come varia Y al variare di X Il dataset contiene le informazioni sul consumo medio giornaliero e la temperatura media giornaliera per n=24 mesi. Grafico a dispersione (scatterplot):

La forma di relazione più semplice è quella LINEARE , che matematicamente è una RETTA Y = a + b X che descrive un legame di tipo proporzionale tra la variabile dipendente (Y) e la variabile indipendente (X). Lo studio della linearità dei dati di due variabili quantitative X e Y prende il nome di CORRELAZIONE.

2. Correlazione: covarianza e coefficiente di correlazione COVARIANZA L’indice COVARIANZA è dato da media dei prodotti degli scarti di ogni variabile dalla propria media aritmetica FORMULA OPERATIVA esempio di calcolo (serie) esempio di calcolo (tabella a doppia entrata)