Docsity
Docsity

Prepara i tuoi esami
Prepara i tuoi esami

Studia grazie alle numerose risorse presenti su Docsity


Ottieni i punti per scaricare
Ottieni i punti per scaricare

Guadagna punti aiutando altri studenti oppure acquistali con un piano Premium


Guide e consigli
Guide e consigli


Statistica di Alessia pini secondo modulo, Sintesi del corso di Statistica

Teoria con tutte le slide del secondo modulo di statistica

Tipologia: Sintesi del corso

2025/2026

Caricato il 29/01/2026

Kyla_04
Kyla_04 🇮🇹

5

(1)

5 documenti

1 / 35

Toggle sidebar

Questa pagina non è visibile nell’anteprima

Non perderti parti importanti!

bg1
STATISTICA MODULO 2
pf3
pf4
pf5
pf8
pf9
pfa
pfd
pfe
pff
pf12
pf13
pf14
pf15
pf16
pf17
pf18
pf19
pf1a
pf1b
pf1c
pf1d
pf1e
pf1f
pf20
pf21
pf22
pf23

Anteprima parziale del testo

Scarica Statistica di Alessia pini secondo modulo e più Sintesi del corso in PDF di Statistica solo su Docsity!

INFERENZA STATISTICA

insieme di tecniche per generalizzare i risultati ottenuti su di

un campione all’intera popolazione.

STATISTICA DESCRITTIVA sintesi delle osservazioni campionarie o dei dati della popolazione STATISTICA PROBABILISTICA studio del meccanismo generatore delle realizzazioni campionarie POPOLAZIONE POPOLAZIONE FINITA = un insieme finito di N unità su cui si può osservare un certo carattere

  • (es: gli investimenti annui di tutte le aziende di un paese; il numero di figli di ogni famiglia italiana) POPOLAZIONE INFINITA O VIRTUALE = composta da tutte le unità potenzialmente osservabili e non necessariamente già esistenti fisicamente. Il carattere d’interesse può essere rappresentato da una variabile casuale X con una certa distribuzione di probabilità Quando ci si limita a studiare un sottoinsieme detto campione della popolazione di riferimento Quando si esaminano tutte le unità statistiche che compongono la popolazione oggetto di studio Si usano due tipi di indagine per raccogliere informazioni sui caratteri della popolazione
  • Costo elevato
  • Tempi di elaborazione dei dati molto lunghi
  • Indagini per popolazioni finite
  • Tempi di rilevazione e elaborazione più brevi
  • Economicità
  • Indagini più mirate e approfondite
  • Indagini anche per popolazioni infinite o virtuali
  • Non Accuratezza delle stime
  • Ricchezza delle informazioni raccolte
  • Esaustività
  • Variabilità campionaria - Non servono tecniche di statistica inferenziale perché il campione coincide con la popolazione - Servono tecniche di statistica inferenziale perché il campione non coincide con la popolazione INDAGINE TOTALE O CENSUARIA INDAGINE CAMPIONARIA Quando si effettua un’indagine campionaria la STATISTICA INFERENZIALE consente, avvalendosi di metodi probabilistici, di trarre conclusioni generali sulla popolazione a partire dall’esame del campione di osservazioni consente di misurare e controllare l’attendibilità delle informazioni provenienti dal campione _ CAMPIONE-- MODELLO^ RICORDA!! ' può (^) essere d 2 TIPI :
  • (^)

I

_

Sia X una v.c. con una certa distribuzione di probabilità. Si estrae un campione casuale semplice di ampiezza n (numerosità campionaria) possibile realizzazione di n v.c. di campionamento con le seguenti proprietà

  • sono variabili casuali indipendenti.
  • ogni v.c. possiede la stessa distribuzione di probabilità della popolazione X CAMPIONAMENTO CASUALE SEMPLICE DA VARIABILE CASUALE OGGETTO DELL’INFERENZA STATISTICA Generalmente l’inferenza riguarda uno o più valori incogniti di una popolazione definiti PARAMETRI (della popolazione) E’ usuale indicare il generico parametro con la lettera greca θ (che può assumere valori in un insieme)
  • reddito medio degli abitanti di una regione;
  • durata media delle chiamate ad un call-center;
  • peso medio della produzione di una azienda;
  • percentuale di individui soddisfatti dei servizi offerti dal servizio sanitario;
  • percentuale di utilizzatori di internet per acquisti di un brand;
  • percentuale di favorevoli alla fine della guerra in Ucraina Sia X una v.c. che rappresenta il carattere osservato sulla popolazione di interesse con distribuzione di probabilità caratterizzata da un parametro incognito θ. Obiettivo : ottenere una stima puntuale per θ. È una statistica utilizzata per stimare il valore del parametro θ incognito della popolazione Ogni particolare valore assunto da uno stimatore è una STIMA (è un numero) Lo stimatore T è una variabile casuale Di conseguenza è caratterizzato da una distribuzione di probabilità chiamata Distribuzione Campionaria. ( X (^) (^) ^ ** (^) (^) … × (^) n) (X1 (^) , X2,, .. .., XN)
  • (^) D Per (^) esempio : la (^) media della (^) popolazione:^ A = M =^ E[x]. TALI VALORI MEDIO PERCENTUALI RAPPRESENTANO/ PARAMETRI DI INTERESSE (^) SU CULFARE INFERENZA 1 ' ∠ £ :^ t (^) ( ×. 1 - * (^) ω) 1 STIMATORE }

「 = E (X^2 , Xa, … ×n )

es. campione Osservato^ (2,^5 , (^5) , (^6) ,^4 ,^4 , (^1) , (^2) , (^2) , 5) · (^) parametro : media della (^) popolazione

· stimatore : media campionaria X = E

· Stima := (^3). 4

STIMATORI RILEVANTI

  • Media campionaria (X) utilizzata per stimare la media aritmetica della popolazione μ.
  • Varianza campionaria (S) utilizzata per stimare la varianza della popolazione s
  • Proporzione campionaria (p) utilizzata per stimare la frazione o proporzione di elementi di una popolazione STIMATORE DELLA MEDIA Sia X una popolazione con media μ e varianza Sia (X1,X2,…,Xn) un ccs di dimensione n da X. LO STIMATORE MEDIA CAMPIONARIA STIMA PUNTUALE PROPRIETÀ DELLO STIMATORE
  • Il parametro θ possiede più di uno stimatore possibile:
  • per la media aritmetica ( es. si possono usare anche la moda campionaria o la mediana campionaria -per scegliere lo stimatore è utile studiarne le proprietà ottimali Es. correttezza: la media dello stimatore deve coincidere con il parametro da stimare. CORRETTEZZA -Lo stimatore T è uno stimatore corretto di θ se E(T) = θ -La distorsione di uno stimatore è uguale a: B(T) = E(T) - θ CORRETTEZZA ASINTOTICA Lo stimatore T è asintoticamente corretto per θ se la sua media coincide con il parametro da stimare all’aumentare dell’ampiezza campionaria n Per valutare l’accuratezza di T nello stimare θ possiamo usare l’errore quadratico medio (mean squarred error) dato dalla quantità: PROPRIETÀ
  1. F
  2. Se lo stimatore è corretto, la distorsione è nulla e si ha: MSE(T)=Var(T) M. §^
    · P M - : Castima (^) corrispondente 2 .) =^ O 3 STIMATORE POSSIEDEUNERRATICO MO EQM(T) = MSElT) = EIST- 07 Y MSE^0 (T)=£ [^ {T^ - θ^ :Var(^ τ)+^ B^ (I)'conVar[^ T)=^ MI^ (T-^ μ^ (T^ )^ グ」

STIMATORE DELLA VARIANZA

  • Sia X una popolazione con media μ e varianza entrambe ignote
  • Sia (X1,X2,…,Xn) un ccs di dimensione n da X

Si definisce VARIANZA CAMPIONARIA CORRETTA lo stimatore

La stima si indica con

PROPRIETÀ VARIANZA CAMPIONARIA -La v.c varianza campionaria è uno stimatore corretto

S:^ (^) = ) s^2 = { :

IXi-

  • )' E(Sy = (^02)

Si consideri una popolazione suddivisa in 2 gruppi sulla base del possesso o meno di una certa caratteristica. Si definisce proporzione 𝝅 il rapporto fra il numero di unità che posseggono la caratteristica e la numerosità totale della popolazione Si introduce una variabile di comodo X che assume valore 1 in corrispondenza delle unità che possiedono la caratteristica e 0 altrimenti: STIMATORE DELLA PROPORZIONE Sia X una popolazione distribuita come una Bernoulli di parametro 𝜋 Sia (X 1 ,X 2 ,…,Xn) un ccs di dimensione n da X Nota che ogni Xi è una Bernoulli con Xi=1, se l’i-ma estrazione presenta la caratteristica; Xi=0 , altrimenti. Di conseguenza il numero di unità campionarie con la caratteristica è dato da Lo stimatore PROPORZIONE CAMPIONARIA è PROPRIETÀ PROPORZIONE CAMPIONARIA

  • La v.c proporzione campionaria è uno stimatore corretto
  • La varianza della v.c. proporzione campionaria è
  • Si dimostra che asintoticamente (TCL): BIN (^) (1, i) (^) Bernoulli di parametro i { (^) iXi P = (^) 弄⿏ Xi =I^ lecorrispondenute stivma (^) pil.

E (P) =π

Var(p) =^ m^ (i- m) (^) /n PrN(I,) per ne a

L’ intervallo di confidenza per la media 𝛍 della popolazione Normale con varianza 𝛔𝟐 non nota a livello 𝟏 − 𝜶 è S In gara ,

si osservano

, a campions

a 、 ampiezza n=^10 da unaNormale di media le ela

varianzao^0. (^1) ,gleintervall stimate (^) perla media ad (^) unlivello de confidenza (^0). 95 [[.,^ L^2 ] : [ *- (^) tn- ai 録前 ++ tn - (^) + Esempio : SOLUZIONE (^) >

INTERVALLO PER LA MEDIA CON VARIANZA NON NOTA a parità di numerosità campionaria n e qualora l’intervallo di confidenza per la media con non nota sarebbe più ampio di quello con nota Asintoticamente si ha che per n>100 l’utilizzo della distribuzione Normale porta a differenze nell’ampiezza praticamente trascurabili INTERVALLO PER LA PROPORZIONE

L’intervallo di confidenza per 𝜋 a livello 𝟏 − 𝜶 è

Empiricamente è verificato che la relazione asintotica è accettabile se L’intervallo di confidenza esatto (n<100) per la proporzione è ottenibile tramite una procedura alternativa basata sulla distribuzione Binomiale.

In GENERALE [nj

S 2 =^02 σ≤ esempio :^ G^ NOTA^ [935^.^83 ; 100 5.^ 18] & "NON (^) NOTA (^1954). (^15) ; 1006. 85] tu 'N(0, 1) (^) pern ,^ as INTERVALLO PER (^) LA MEDIA (^) PER GRANDI CAMPION PrN(IT, (^) A pern [lr,ha ] に 中軽 j 季踏! OSSERVAZION 0 .3-0. en

FONDAMENTI DI TEST IPOTESI Un procedimento attraverso il quale dal campione si ricavano informazioni per decidere se accettare o rifiutare una congettura o ipotesi fatta sul valore del parametro θ.

- test parametrico —> se l’ipotesi riguarda uno o più parametri della distribuzione di probabilità della popolazione (altrimenti non parametrico).

  • test d’ipotesi—> prevede la formulazione di un’ ipotesi nulla e un’ipotesi alternativa. IPOTESI STATISTICA = un'ipotesi riguardante un parametro della popolazione. Si distinguono 2 ipotesi contrapposte: - ipotesi nulla = H0 —> ipotesi che si ritiene “vera fino a prova contraria” ( riveste un ruolo privilegiato) - ipotesi alternativa = H1–> ipotesi che si contrappone a quella nulla e che potrebbe essere considerata più verosimile sulla base al risultato campionari quando specifica completamente la popolazione quando NON specifica completamente la popolazione quando specifica un intervallo di valori quando NON specifica un intervallo di valori REGIONE DI ACCETTAZIONE E DI RIFIUTO
  • Un TEST STATISTICO è una regola che permette sulla base del campione osservato di decidere se rifiutare (o meno) H.
  • Il test si basa sul calcolo del valore di una statistica test
  • La statistica test T è una statistica campionaria la cui distribuzione deve essere completamente nota sotto l’ipotesi nulla. Basata ad esempio su: media campionaria (se il test è sulla media) proporzione campionaria (se il test è sulla proporzione)
  • Si definisce REGIONE DI ACCETTAZIONE = l’insieme dei valori della statistica test che portano all’accettazione dell’ipotesi nulla.
  • Si definisce REGIONE DI RIFIUTO = l’insieme dei valori della statistica test che portano al rifiuto dell’ipotesi nulla. Si (^) definisce SISTEMA D^ IPOTESI esempli IPOTESI può essere SEMPLICE COMPOSTA UNIDIMENSIONALE BIDIMENSIONALE (es.^ Ho 3 es. Hof 3 _ _
  • Il valore (o valori) della statistica che separano le due regioni viene chiamato valore critico e

corrispondente ad un percentile a cui è associato un certo valore di probabilità (TAVOLE normale)

  • Le regioni di accettazione e rifiuto dipendono dal livello di significatività a : maggiore è il suo valore,

più ampia sarà la regione di rifiuto.

REGOLE DI DECISIONE ERRORI E PROBABILITÀ DI ERRORE

- Errore del I tipo —>si rifiuta l’ipotesi nulla quando essa è vera. - Errore del II tipo —> si accetta l’ipotesi nulla quando essa è falsa ESEMP^1 O ~ (^) NOTA BENE !! J ^

P-VALUE È uno strumento più flessibile che non richiede di fissare α, ma consente, sulla base del campione osservato, di determinare l’evidenza empirica a sfavore di H I software statistici forniscono il p-value = probabilità di osservare un valore della statistica test T=T(X 1 ,…,Xn) uguale o più estremo del valore ottenuto dal campione t=t(x 1 ,…,xn), sotto l’ipotesi nulla. È una quantità che misura l’evidenza fornita dai dati contro l’ipotesi nulla : minore è il valore del p-value, più è forte l’evidenza contro l’ipotesi nulla. In pratica: Regione di rifiuto unilaterale dx: se t ≥ c —> rifiuto H 0 𝑝 𝑣𝑎𝑙𝑢𝑒 = 𝑃 ( 𝑇 𝑡 | H 0 )

- Più piccolo è il p-value più alta è l’evidenza contro H0 —>ossia quanto più piccolo è il p-value

tanto più siamo propensi a rifiutare H0.

Ad es. sia p-value=4% se fosse vera H0, allora la probabilità dell’evento {T>t} risulterebbe appunto del 4%, ossia piccola. In questo caso: o abbiamo osservato un evento “raro” (che si verifica nel 4% dei casi) oppure H0 è poco plausibile—> La conclusione più cauta è che H0 sia poco plausibile. N.B. Purtroppo NON possiamo affermare che la probabilità che H0 sia vera è pari al p-value (ossia 4%). Infatti il p-value è calcolato condizionatamente a H0 ; dunque nell’ipotesi che H0 sia vera! sep-value &^ I^ RIFIUTO^ Ho

(PER CONVENZIONE^ se p-value 0 ,^05 ;^ RIFIUTO^ Ho

RICORDA!

Test di ipotesi bilaterale sulla media con non nota

  • Nei problemi reali la varianza è spesso non nota.
  • Invece che si utilizza la sua stima puntuale s
  • Come per gli intervalli di confidenza, si utilizza la distribuzione t di Student per la statistica test se n<100, altrimenti l’approssimazione alla normale se n>100. TEST SULLA MEDIA α ② (^) AP 成为 S esempio : [HMO^ > STATISTICATEST <>Mo Istandarizzata) wEgn esempio 1

esecpio 2

REGRESSIONE COVARIANZA E COEFFICIENTE DI REGRESSIONE CORRELAZIONE = é lo studio della RELAZIONE LINEARE tra due variabili quantitative X e Y

  • Indice che misura il GRADO DI CORRELAZIONE tra due variabili
  • Indici di Bravais-Pearson COVARIANZA rappresenta la media dei prodotti degli scarti di ogni variabile dalla propria media aritmetica QUALI VALORI PUÒ ASSUMERE LA COVARIANZA? p = (^) COEFFICIENTE DI (^) CORRELAZIONE LINEARE co ,^ ox = M((X-uX

us[G iMX =My fij) FORMULA OPERATIVA Co , N MxMy = E is i Yefis (^) Mx My · (^) ESEMP1O 1 FORMULA^ PER DEFINIZIONE COV = [ 3 -^6.^25 )-^2 +^ - 25 6. 25 )+ (^3) () (^) (^6 - 6.^252 +^ (-^3 )(^7 -^6.^25 )+ (^) (^5 ~^3 )(^10 -^6.^252 =^3. 75

2) FORMULA^ OPERATIVA

. (^) M 1. y) =^22. 5

COXIY=^ MX^ .Y^ -^ M^ (JMY -^3.^75

la quantità X= M. L + M

In

questi quadranti^ ogni^ punto

hascarti dalla media (^) prodotto In questi quadrante^ ognipunto^ ha (^) scarto dalla (^) media diY (^) neg. e scarto (^) dalla media di (^) pos. prod

  • la covarianza puo’ assumere tutti i valori reali
  • cov(XY) > 0 indica una tendenza alla linearità positiva ( crescente )
  • cov(XY) < 0 indica una tendenza alla linearità negativa ( decrescente ) PROPRIETÀ DELLA COVARIANZA L’introduzione della covarianza dà la possibilità di calcolare la varianza di una somma o differenza di variabili. In particolare: 3 CASI PARTICOLARI IL COEFFIECIENTE DI CORRELAZIONE LINEARE COVARIANZA NORMALIZZATA p assume valore -1 quando il legame tra le due variabili è perfettamente lineare ma inverso. La retta che congiunge i punti ha coefficiente angolare negativo p assume valore +1 quando il legame tra le due variabili è perfettamente lineare e diretto. La retta che congiunge i punti ha coefficiente angolare positivo. p assume valore 0 in condizione di incorrelazione tra le due variabili, cioè in assenza di un legame lineare tra le variabili. L’assenza di un legame lineare potrebbe discendere da una situazione di indipendenza tra le variabili (grafico a sx), ovvero da un legame tra le variabili di tipo non lineare (come nel grafico a dx) per il quale tra le variabili esiste un legame di tipo parabolico, e non lineare, tra le due variabili). RICORDA!! _ -^ CO)^ ,^ CO,^ , simmetria (^2) Co · (^) Do Open Col, (^) oo < (^) MAX (^). DELLA COVARIANZA √ MIN. DELLA COVARIANZA 3 lar.^ +^ ar^ I^ ar^ '2C01, p cor,i > PER LA 2 PROPRIETÀ DELLA COVARIANZA Ex (^) Gy (^14) PX + (^1) NORMALIZZAZIONE IMPROPRIA Δ P = (^) o p = - e V p = (^) te OSSERVAZIONE !!