Docsity
Docsity

Prepara i tuoi esami
Prepara i tuoi esami

Studia grazie alle numerose risorse presenti su Docsity


Ottieni i punti per scaricare
Ottieni i punti per scaricare

Guadagna punti aiutando altri studenti oppure acquistali con un piano Premium


Guide e consigli
Guide e consigli


Appunti del II modulo di Statistica, Appunti di Statistica

Appunti, con esercizi di esempio svolti in classe, del secondo modulo di Statistica per Scienze Politiche con la prof. De Battisti

Tipologia: Appunti

2021/2022

In vendita dal 19/03/2025

vincentss
vincentss 🇮🇹

10 documenti

1 / 42

Toggle sidebar

Questa pagina non è visibile nell’anteprima

Non perderti parti importanti!

bg1
1
Statistica, modulo II
Capitolo 5
1
Capitolo 6
9
Capitolo 7
19
Capitolo 8
26
Numeri indici
38
Tramite la statistica inferenziale è possibile utilizzare i dati campionari (statistiche) per dire qualcosa sui (funzioni dei
dati) dati della popolazione (parametri); in particolare:
- Se non si conosce il parametro media della popolazione (), si usa la statistica media campionaria (𝑥), che è un
numero, per calcolare la stima puntale e intervallare.
- Se non si conosce il parametro varianza nella popolazione (𝜎2), si usa la statistica varianza campionaria
corretta (𝑠2), per calcolare la stima puntuale.
- Se non si conosce il parametro proporzione della popolazione (p), si usa la statistica proporzione campionaria (𝑝),
per calcolare la stima puntale e intervallare.
La stima puntuale è un numero che rappresenta la migliore previsione possibile del valore assunto dal parametro.
Intorno ad essa si costruisce un intervallo, nel quale si confida che stia il valore esatto del parametro. La stima
intervallare è quindi un intervallo di valori contenente (si confida che contenga) il valore esatto del parametro, detto
intervallo di confidenza.
Stima puntuale e stimatori
Lo stimatore è una variabile casuale usata per stimare puntualmente un parametro. Il valore (numero) che tale variabile
casuale assume in corrispondenza del singolo campione si chiama stima; esso varia al variare del campione (se si
vuole stimare la media della popolazione
, 𝑋 è la variabile casuale media campionaria stimatore, 𝑥 è la stima del
parametro. La media campionaria ha distribuzione normale; il grafico indica quindi tutti i valori essa che può assumere
quando si estrae un campione; a ciascun valore corrisponde una probabilità di manifestarsi, la quale è minore più il
valore si colloca nelle code della curva. Quando si estrae un campione, non si sa se il valore estratto abbia una bassa
o alta probabilità). Lo stimatore scelto per stimare un parametro è lo stimatore naturale (per stimare la media della
popolazione, si usa la variabile casuale media campionaria).
Lo stimatore deve soddisfare le seguenti proprietà:
- Correttezza: lo stimatore è corretto quando il suo valore atteso coincide con il parametro da stimare; quindi la
distorsione è pari a 0.
𝐸(𝑦)=𝜃 (𝑝𝑎𝑟𝑎𝑚𝑒𝑡𝑟𝑜 𝑖𝑛 𝑔𝑒𝑛𝑒𝑟𝑎𝑙𝑒)
𝐸(𝑦)𝜃=0
Lo stimatore quindi non è corretto, quindi è distorto, quando il suo valore atteso non coincide con il parametro da
stimare, ovvero:
𝐸(𝑦)𝜃 (𝑝𝑎𝑟𝑎𝑚𝑒𝑡𝑟𝑜 𝑖𝑛 𝑔𝑒𝑛𝑒𝑟𝑎𝑙𝑒)=𝑑𝑖𝑠𝑡𝑜𝑟𝑠𝑖𝑜𝑛𝑒
Ad esempio, se 𝐸(𝑋)=𝜇 , allora lo stimatore è corretto.
- Consistenza: lo stimatore corretto è consistente se la sua varianza tende a 0 all’aumentare di n.
In particolare, se lo stimatore è corretto, è centrato nella media; se all’aumentare di n la varianza tende a 0 significa
che lo stimatore tende ad assumere valori sempre più vicini alla media, in quanto la varianza è la media degli scarti
di x dalla media (gli scarti quindi sono piccoli).
Ad esempio, 𝑉𝑎𝑟(𝑋)=𝜎2
𝑛, quindi lo stimatore è consistente in quanto all’aumentare di n, la sua varianza tende a
0.
- Efficienza relativa: uno stimatore è maggiormente efficiente di un altro stimatore se ha errore standard o
varianza minore; tale efficienza è relativa, in quanto confronta tra loro due stimatori, non individuando il più
efficiente in assoluto.
pf3
pf4
pf5
pf8
pf9
pfa
pfd
pfe
pff
pf12
pf13
pf14
pf15
pf16
pf17
pf18
pf19
pf1a
pf1b
pf1c
pf1d
pf1e
pf1f
pf20
pf21
pf22
pf23
pf24
pf25
pf26
pf27
pf28
pf29
pf2a

Anteprima parziale del testo

Scarica Appunti del II modulo di Statistica e più Appunti in PDF di Statistica solo su Docsity!

Statistica, modulo II

Capitolo 5 1

Capitolo 6 9

Capitolo 7 19

Capitolo 8 26

Numeri indici 38

Tramite la statistica inferenziale è possibile utilizzare i dati campionari (statistiche) per dire qualcosa sui (funzioni dei

dati) dati della popolazione (parametri); in particolare:

  • Se non si conosce il parametro media della popolazione (), si usa la statistica media campionaria (𝑥̅ ), che è un

numero, per calcolare la stima puntale e intervallare.

  • Se non si conosce il parametro varianza nella popolazione (𝜎

2

), si usa la statistica varianza campionaria

corretta (𝑠

2

), per calcolare la stima puntuale.

  • Se non si conosce il parametro proporzione della popolazione (p), si usa la statistica proporzione campionaria (𝑝̂ ),

per calcolare la stima puntale e intervallare.

La stima puntuale è un numero che rappresenta la migliore previsione possibile del valore assunto dal parametro.

Intorno ad essa si costruisce un intervallo, nel quale si confida che stia il valore esatto del parametro. La stima

intervallare è quindi un intervallo di valori contenente ( si confida che contenga ) il valore esatto del parametro, detto

intervallo di confidenza.

Stima puntuale e stimatori

Lo stimatore è una variabile casuale usata per stimare puntualmente un parametro. Il valore (numero) che tale variabile

casuale assume in corrispondenza del singolo campione si chiama stima; esso varia al variare del campione ( se si

vuole stimare la media della popolazione  , 𝑋

è la variabile casuale media campionaria stimatore, 𝑥̅ è la stima del

parametro. La media campionaria ha distribuzione normale; il grafico indica quindi tutti i valori essa che può assumere

quando si estrae un campione; a ciascun valore corrisponde una probabilità di manifestarsi, la quale è minore più il

valore si colloca nelle code della curva. Quando si estrae un campione, non si sa se il valore estratto abbia una bassa

o alta probabilità ). Lo stimatore scelto per stimare un parametro è lo stimatore naturale (per stimare la media della

popolazione, si usa la variabile casuale media campionaria).

Lo stimatore deve soddisfare le seguenti proprietà :

  • Correttezza : lo stimatore è corretto quando il suo valore atteso coincide con il parametro da stimare; quindi la

distorsione è pari a 0.

Lo stimatore quindi non è corretto, quindi è distorto , quando il suo valore atteso non coincide con il parametro da

stimare, ovvero:

Ad esempio, se 𝐸

= 𝜇 , allora lo stimatore è corretto.

  • Consistenza : lo stimatore corretto è consistente se la sua varianza tende a 0 all’aumentare di n.

In particolare, se lo stimatore è corretto, è centrato nella media; se all’aumentare di n la varianza tende a 0 significa

che lo stimatore tende ad assumere valori sempre più vicini alla media, in quanto la varianza è la media degli scarti

di x dalla media (gli scarti quindi sono piccoli).

Ad esempio, 𝑉𝑎𝑟

𝜎

2

𝑛

, quindi lo stimatore è consistente in quanto all’aumentare di n, la sua varianza tende a

  • Efficienza relativa : uno stimatore è maggiormente efficiente di un altro stimatore se ha errore standard o

varianza minore ; tale efficienza è relativa, in quanto confronta tra loro due stimatori, non individuando il più

efficiente in assoluto.

Quindi :

  • Per stimare puntualmente la media nella popolazione (), si considera lo stimatore variabile casuale media

campionaria (X

); esso è uno stimatore naturale, corretto ( 𝐸

= 𝜇) , consistente ( 𝑉𝑎𝑟

𝜎

2

𝑛

𝑎𝑢𝑚𝑒𝑛𝑡𝑎𝑟𝑒𝑑𝑖 𝑛) e più efficiente rispetto a altri stimatori.

  • Per stimare puntualmente la proporzione nella popolazione (p), si considera lo stimatore variabile casuale

proporzione campionaria (𝑃

); esso è uno stimatore naturale, corretto (𝐸

= 𝑝), consistente (𝑉𝑎𝑟

𝑝𝑞

𝑛

  • Per stimare puntualmente la varianza nella popolazione (𝜎

2

), si considera lo stimatore varianza campionaria

corretto (𝑆

2

); esso è uno stimatore naturale, corretto e consistente. È fondamentale riconoscere che tale

stimatore sia corretto, in quanto la varianza campionaria (𝑆

2

) è pari a:

2

𝑖

2

𝑛

𝑖= 1

Esso è uno stimatore asintoticamente corretto, ovvero il valore atteso non coincide con il parametro ma c’è una

distorsione che tende a 0 all’aumentare di n:

2

2

×

Lo stimatore può essere corretto, moltiplicandolo per

𝒏

𝒏−𝟏

, divenendo 𝑆

2

2

2

×

𝑖

2

𝑛

𝑖= 1

×

𝑖

2

𝑛

𝑖= 1

×

2

Stima intervallare e intervalli di confidenza

L’intervallo di confidenza è un intervallo di valori entro cui si confida ricada il valore del parametro che si sta cercando

di stimare; la probabilità che il parametro si trovi nell’intervallo di confidenza è detta livello di fiducia.

La formula per l’intervallo di fiducia è:

  • La stima puntuale è un numero preciso assunto dalla variabile casuale stimatore (𝑝̂ ; 𝑥̅ ), in quanto è stato estratto

il campione di riferimento. Esso deve essere contenuto nell’intervallo di confidenza.

  • Il margine di errore M è pari al prodotto tra lo z-score/t-score e lo standard error dello stimatore.
    1. Lo z-score o t-score: esso è lo stimatore standardizzato, il quale può assumere una distribuzione normale o t

student ; è pari a 𝑧

𝛼

2

o 𝑡

𝛼

2

; dato il valore di 1 − 𝛼, si calcola 𝛼 e, di conseguenza,

𝛼

2

. Tramite le tavole poi, si

individua il valore di 𝑧

𝛼

2

( suppongo che 1 − 𝛼 sia livello di fiducia pari a 0,95, 𝛼 vale 0,05 e

𝛼

2

è 0,025; 𝑧

𝛼

2

si

definisce con le tavole: 1,96, circa 2) o 𝑡

𝛼

2

  1. Lo standard error dello stimatore
  • Il livello di fiducia : se si vuole che l’intervallo abbia un’alta probabilità di contenere il parametro che si vuole

stimare, si sceglie un 𝟏 − 𝜶 alto (ma mai pari a 1, in quanto è sempre ammessa la possibilità di sbagliare).

Definendo il livello di fiducia, si definiscono in automatico gli estremi dell’intervallo , essendo essi dipendenti

dallo z-score/t-score; in particolare, maggiore è il livello di fiducia (quindi più 1 − 𝛼 è alto), più l’intervallo sarà

ampio e gli z-score/t-score estremi. ( maggiore ampiezza, maggiore affidabilità, maggiore valore di 1 − 𝛼 ).

In particolare, 𝛼 indica il livello di significatività.

Gli intervalli possono essere:

  • Intervallo di confidenza per la proporzione nella popolazione p:

è una normale con valore atteso pari a p e varianza pari a √

𝑝𝑞

𝑛

; la probabilità che 𝑃

sia compresa tra questi

intervalli centrali rispetto alla media p dipende da un k costante, pari a 𝑧

𝛼

2

𝛼

2

×

𝑝𝑞

𝑛

𝛼

2

×

𝑝𝑞

𝑛

p è un parametro con valore preciso, mentre gli estremi dell’intervallo variano al variare del campione, in

quanto dipendono da 𝑃

, la quale varia al variare del campione; la probabilità che il parametro p sia compreso

in un intervallo così definito è pari a 1 − 𝛼.

Quindi, la formula per individuare gli estremi dell’intervallo di confidenza è:

2

× √

Esso è composto da:

  • 𝑝̂ è la stima puntuale.

𝛼

2

×

𝑝𝑞

𝑛

è il margine di errore , a sua volta costituito da z-score e √

𝑝𝑞

𝑛

, ovvero lo standard error.

  • 1 − 𝛼 è il livello di fiducia dell’intervallo;

Si consideri la variabile casuale proporzione campionaria 𝑃

che si distribuisce come una normale ed è centrata in p.

Si consideri 𝑝̂ (puntini nel grafico), ovvero valori particolari assunti dalla variabile casuale 𝑃

, una volta estratti dei

campioni. È possibile costruire intorno a ciascun 𝑝̂ considerato un intervallo di fiducia, sommando e sottatrendo ad

esso 𝑧

𝛼

2

; tale intervallo costruito può contenere o meno p.

Inoltre, qualora il livello di fiducia fosse 90%, ovvero 1 − 𝛼 = 0 , 9 , significa che 9 intervalli su 10 costruiti

contengono p.

Esercizio : stimare la proporzione nella popolazione (p) degli studenti di statistica che studiano ogni giorno.

Si estrae un campione di 50 studenti (n) di cui 20 studiano ogni giorno (x). 𝑝̂ è la proporzione campionaria che

conta la proporzione dei successi, quindi 𝑝̂ =

20

50

Calcola e interpreta intervallo di confidenza per p con livello di fiducia del 95%.

La formula per calcolare l’intervallo di fiducia è:

𝛼

2

×

L’intervallo è centrato in 𝑝̂ , ovvero la stima puntuale, pari a 0,4. Essendo il livello di fiducia richiesto pari a 95%,

allora 1 − 𝛼 = 0 , 95 ; 𝛼 = 0 , 05 ;

𝛼

2

= 0 , 025. La 𝑧

𝛼

2

= 0 , 025

corrispondente è 1,96.

Quindi:

( 0 , 4 ) ± 1 , 96 ×

Da cui si ottengono gli estremi dell’intervallo (0,2648; 0,5352).

Interpretazione : si confida che questo sia uno dei 95 intervalli su 100 che comprendono p.

Calcola e interpreta intervallo di confidenza per p con livello di fiducia del 9 9 %.

La formula per calcolare l’intervallo di fiducia è:

2

× √

L’intervallo è centrato in 𝑝̂ , ovvero la stima puntuale, pari sempre a 0,4. Essendo il livello di fiducia richiesto pari

a 99%, allora 1 − 𝛼 = 0 , 99 ; 𝛼 = 0 , 01 ;

𝛼

2

= 0 , 005. La 𝑧

𝛼

2

= 0 , 005

corrispondente è 2,58.

Quindi:

( 0 , 4 ) ± 2 , 58 ×

Interpretazione : scegliendo un livello di fiducia maggiore, l’intervallo sarà più ampio.

  • Intervallo di confidenza per la media della popolazionecon 𝝈

𝟐

nota:

2

×

2

Tale formulazione è giustificabile esattamente come nel caso della stima della proporzione nella popolazione p , con

la differenza che si vuole stimare la media della popolazione , usando come stimatore la media campionaria 𝑥̅

standardizzata ( z ), che si distribuisce anch’essa come una normale di valore atteso 0 e varianza 1.

Esercizio: si consideri la variabile casuale X taglia delle donne trentenni, la quale si distribuisce come una

normale con varianza pari a 9. stimare la taglia media delle donne trentenni (media nella popolazione  ), dato

un campione di 10 donne (n), con le seguenti taglie: 42, 48, 52, 46, 44, 46, 40, 54, 38, 48.

Taglia 𝑋~𝑁 (𝜇 =? ; 𝜎

2

L’esercizio richiede di calcolare la stima puntuale di  ; la stima puntuale per  è la media campionaria:

Si calcoli ora l’intervallo di confidenza per  con livello di fiducia 𝟏 − 𝜶 = 𝟎, 𝟗𝟔 , fornendo un’interpretazione.

2

×

2

×

Per calcolare lo z-score, si consideri 1 −𝛼 = 0 , 96 , da cui 𝛼 = 0 , 04 e

𝛼

2

0 , 02

è individuato usando le tavole.

Interpretazione : confido che questo sia uno dei 96 intervalli su 100 che contengono .

Si calcola poi l’IC:

2

;𝑔𝑑𝑙=𝑛− 1

×

2

× 1 , 59 → ( 42 , 20 ; 39 , 40 )

Per calcolare il t-score, si consideri 1 −𝛼 = 0 , 95 , da cui 𝛼 = 0 , 05 e

𝛼

2

0 , 025 (𝐺𝐷𝐿= 10 − 1 = 9 )

è individuato

usando le tavole.

Interpretazione: l’intervallo con lo z-score è più preciso di quello con t-score.

In sintesi, per quanto attiene l’individuazione dell’intervallo di confidenza per la media della popolazione :

Data variabile casuale 𝑋~𝑁 (𝜇; 𝜎

2

) oppure data la variabile X con 𝑛 > 30 (così da applicare il teorema del limite

centrale), la media della popolazione viene stimata con lo stimatore media campionaria 𝑋

𝜎

2

𝑛

e l’intervallo di

confidenza per :

  • Se 𝜎

2

è nota, si individua con lo z-score

  • Se 𝜎

2

non è nota, si individua con il t-score per n piccoli (per n grandi, si utilizza ugualmente il t-score, il quale

però si conforma con lo z-score, in quanto la distribuzione di z è pari alla distribuzione di t con GDL infiniti).

Nel caso in cui non si conosca la distribuzione di X e n sia piccolo, non si può fare inferenza.

Riflessioni sull’ampiezza dell’intervallo di confidenza per la media nella popolazione:

  • Maggiore è il livello di fiducia, maggiore è l’ampiezza dell’intervallo di confidenza.
  • Maggiore è l’ampiezza del campione (n), minore è l’ampiezza dell’intervallo di confidenza ( essendo n al

denominatore della varianza ).

  • Maggiore è lo standard errore, maggiore è l’ampiezza dell’intervallo.

Dimensione campionaria

È possibile definire la dimensione campionaria n , prima di estrarre il campione, in modo da ottenere un certo grado di

precisione della stima del parametro. In particolare è possibile definire:

  • La dimensione del campione n in funzione del margine di errore M : è possibile fissare il margine di errore M e,

sulla base di esso, individuare il campione n che garantisca tale margine di errore; il margine di errore infatti dipende

dallo z-score o t-score e dallo standard error, il quale ha n al denominatore.

La formula per individuare n in funzione di M è:

2

× √

2

× (

𝛼

2

2

2

× (

𝛼

2

2

A parità di margine di errore e livello di fiducia (z-score), all’aumentare della varianza, aumenta la numerosità

del campione necessario.

A parità di varianza e livello di fiducia (z-score), all’aumentare del margine di errore, diminuisce la numerosità

del campione necessario.

Esempio con proporzione: ai fini di stimare la proporzione nella popolazione, individuare quale campione di

numerosità n estrarre, volendo commettere un errore maggiore di 0,04 (M) con livello di fiducia pari a 0,95 (1-

Essendo 𝑀 = 𝑧

𝛼

2

× √

𝑝𝑞

𝑛

, è possibile ricavare la formula inversa per individuare n in funzione di M; in particolare:

𝑛 = 𝑝𝑞 × (

𝛼

2

2

= 𝑝𝑞 × (

2

Ci sono ora due possibilità:

  1. Se non si conosce il valore di p , ci si colloca nella situazione più sfavorevole , ovvero quella in cui 𝑝𝑞 assume

il valore più grande possibile 𝑝𝑞 = 0 , 25 , quindi in cui 𝒑 = 𝟎, 𝟓. Sostituendo tale valore nella formula

precedente si ottiene un valore di 𝑛 = 600 , il quale indica la numerosità del campione che soddisfa la richiesta

nel caso più sfavorevole possibile , quindi necessariamente anche nei casi meno sfavorevoli.

Quindi, se si vuole stimare la proporzione della popolazione con la probabilità do commettere un errore che

non sia maggiore di 0,04 pari al 95%, bisogna prendere un campione di 600 unità.

2. Se si conosce il valore di p , in quanto è stato precedentemente stimato, si sostituisce quest’ultimo nella formula

e si calcola la numerosità. Se, ad esempio, 𝒑 = 𝟎, 𝟐𝟓, è necessario un campione di 450 unità per soddisfare la

richiesta.

Ora, ai fini di stimare la proporzione nella popolazione, individuare quale campione di numerosità n estrarre,

volendo commettere un errore maggiore di 0,0 8 con livello di fiducia pari a 0,95.

𝑛 = 𝑝𝑞 × (

𝛼

2

2

= 0 , 25 × (

2

Interpretazione : dimezzando M, n quadruplica.

Esempio con media: ai fini di stimare la media nella popolazione, che ha varianza pari a 3, individuare quale

campione di numerosità n estrarre, volendo commettere un errore minore o uguale di 0,0 1 (M) con livello di

fiducia pari a 0,9 9.

2

2

× (

2

2

≥ 3 × (

2

Ora, si consideri che la varianza della popolazione sia 1; interpreto

2

× (

2

2

2

Interpretazione: la varianza e la numerosità del campione, a parità di margine di errore e livello di fiducia (z-

score), sono direttamente proporzionali. Nel primo caso si ottiene quindi una n maggiore rispetto al secondo. Tali

n inoltre sono particolarmente grandi in quanto il livello di fiducia è altissimo; si ammette infatti di sbagliare molto

poco, quindi serve rilevare un campione molto grande.

Ora, si consideri che la varianza della popolazione sia 1 e l’errore marginale non superiore a 0,05; interpreto.

2

× (

2

2

2

Interpretazione: la numerosità del campione e il margine di errore, a parità di varianza e livello di fiducia ( z-

score), sono inversamente proporzionali.

  • La dimensione del campione n in funzione dell’errore standard/deviazione standard dello stimatore se (o

varianza , poiché esso è la radice della varianza): è possibile fissare il lo standard error e, sulla base di esso,

individuare il campione n che garantisca tale standard error; esso infatti ha n al denominatore.

La formula per individuare n in funzione di se è:

Dove k è un valore numerico.

Esempio con proporzione: ai fini di stimare la proporzione nella popolazione, individuare quale campione di

numerosità n estrarre, in modo che la varianza dello stimatore proporzione campionaria sia minore o uguale a

0,01 (k).

Esempio : i panettoni prodotti pesano mediamente 1 kg (H0); x dice che pesano mediamente meno di 1 kg (H1). Se

H0 è vera, l’azienda di panettoni non cambia nulla; se H1 è vera, l’azienda di panettoni deve modificare il peso dei

panettoni, riportandolo a 1 kg.

  • Test statistico : in seguito all’estrazione di un campione casuale dalla popolazione, si valuta l’evidenza empirica

campionaria dell’H0 , ovvero si confrontano i valori teorici e quelli osservati (dati campionari, statistiche test)

per decidere se rifiutare o non rifiutare H0. L’accettazione o il rifiuto dell’H0 si fonda su una dimostrazione per

contraddizione: se l’H0 trova riscontro nel campione è estratto, quindi se si trovano dati campionari verosimili, si

considera H0 vera; se l’H0 non trova riscontro nel campione è estratto, quindi se non si trovano dati campionari

verosimili, si protende per l’alternativa H1.

Esempio: si considerino l’esempio della selezione manageriale; l’ipotesi nulla afferma che la proporzione di

maschi sia 0,5; mentre l’ipotesi alternativa che la proporzione di maschi sia maggiore di 0,5.

𝑚

0

𝑚

0

Si calcola allora la statistica test della proporzione nella popolazione, ovvero la proporzione campionaria, ai fini

di confrontarla con i valori proposti dall’ipotesi nulli; tali valori sono osservati.

  • P-value : area della coda della curva che sta alla destra o sinistra del valore osservato, ovvero la statistica test (se è

positivo, nella coda di destra; se è negativo, nella coda di sinistra). Un p- value piccolo porta a rifiutare l’ipotesi

nulla H0, in quanto significa che si è trovato un valore osservato molto estremo rispetto al parametro ( poco

probabile che si verifichi), il quale si colloca nell’area di rifiuto

Esempio: considerando l’esempio della selezione manageriale, H0 afferma che la proporzione di maschi sia pari

a 0,5; H1 afferma che sia maggiore di 0,5, in particolare 0,9. Dall’estrazione del campione risulta che la

proporzione campionaria sia pari a 0,9. Il p-value è l’area della curva a destra di 0,9.

  • Conclusioni : esse prevedono il rifiuto o il non rifiuto di H0; essa infatti può essere vera o falsa e può venir

rifiutata o non rifiutata ; in base alla combinazione di questi 4 casi, si originano 4 possibili decisioni (p. 159):

Rifiutare H0 Non rifiutare H

H0 vera Errore di I tipo Decisione corretta

H0 falsa Decisione corretta Errore di II tipo

La probabilità di commettere un errore di primo tipo (rifiutare un H0 vera) è . Essa è l’area alla destra/sinistra

o entrambe del valore teorico.

La probabilità di commettere un errore di secondo tipo (non rifiutare H0 vera) è .

Si parla di probabilità di commettere un errore in quanto ciascuna decisione dipende da risultati del campione, il

quale è evento casuale.

Si può giungere a conclusioni, quindi accettare o rifiutare H0, statistiche test e valori teorici (z o t teorici); in

particolare, se la statistica test (z o t osservato, media o proporzione campionarie standardizzate) rientra nella regione

di accettazione definita dalla soglia critica , H0 è vera e non si rifiuta; se la statistica test (z o t osservato, media o

proporzione campionarie standardizzate) non rientra nella regione di accettazione definita dalla soglia critica/valore

teorico, H0 è falsa e si rifiuta. Si possono quindi individuare una regione di rifiuto e una di accettazione, sulla

base della soglia critica e sulla base dell’affermazione dell’H1 (se afferma maggiore, l’area di rifiuto è nella coda

destra; se è minore, l’area di rifiuto è nella coda destra sinistra; se è diverso, l’area di rifiuto è in entrambe le code).

Quindi graficamente, se H0 è vera, ovvero la statistica test non rientra nella regione di rifiuto ( quindi la

distribuzione della popolazione e del campione sono simili ), H0 non viene rifiutata. Si può però compiere un

errore di primo tipo; in particolare, la probabilità di rifiutare tale H0 vera è pari ad , ovvero la parte colorata del

grafico:

Normalmente  viene fornito in valori standard piccoli (0,05; 0,01; 0,001). Fissando, è possibile individuare il

valore della soglia critica, la quale determina le regioni di rifiuto e accettazione.

Se invece, H0 non è vera, ovvero la statistica test rientra nella regione di rifiuto ( la distribuzione della media

campionaria è spostata rispetto a quella della popolazione ), H0 viene rifiutata. Si può però compiere un errore

di secondo tipo; in particolare, la probabilità di non rifiutare tale H0 falsa è pari a , ovvero la parte colorata del

grafico con le stelline:

Le due aree sono in relazione tra loro ; infatti, riducendo , aumenta , e viceversa.

fissando alfa, è possibile trovare la soglia critica, ovvero x barrato cerchiato

I test di significatività possono essere condotti per la media con varianza nota e non nota e per la proporzione nella

popolazione; l’ipotesi alternativa può proporre, per ciascuno dei tre casi precedenti, un valore maggiore (coda di destra),

minore (coda di sinistra) o diverso (entrambe le code), determinando quindi 9 possibilità.

Test di significatività per media con varianza 𝝈

𝟐

nota

  • Assunzioni : la variabile X è quantitativa e ha distribuzione normale nella popolazione, oppure n>30 (quindi si

applica il teorema del limite centrale); si estrae un campione casuale.

- Ipotesi : l’ipotesi nulla 𝐻 0 𝑝𝑜𝑛𝑒  = 𝜇

0

, la quale corrisponde ad un’assenza di effetto/cambiamento. L’ipotesi

alternativa 𝐻 1 può essere:

0

o  < 𝜇

0

(test unidirezionali, a 1 coda)

0

(test bidirezionali, a 2 code)

  • Test statistico : si estrae il campione e si calcolano lo z osservato e teorico:
    1. Lo z osservato è la statistica test; essa è pari alla media campionaria standardizzata sotto l’ipotesi nulla.

PROCEDIMENTO 1

  • Test statistico :
    • Calcolo di z osservato , ovvero la statistica test: calcolo media campionaria e standardizzazione sotto H
    • Calcolo di z teorico , ovvero la soglia critica, usando le tavole: esso è il valore che lascia alla sua destra 𝛼 =

0 , 05 , come da dati; essa viene individuata usando le tavole:

Esso identifica la regione di rifiuto come n> z teorico (n>1,65) e la regione di non rifiuto come n< z teorico

(n<1,65).

  • Conclusione : confronto tra z osservato e z teorico , come soglia critica tra le regioni di rifiuto e non rifiuto.

Considerando che n<z teorico sia regione di accettazione e che 1,5<1,65, H0 non viene rifiutata.

PROCEDIMENTO 2

  • Conclusione : confronto tra p value e: il p-value, ovvero l’area alla destra dello z osservato, è pari a 0,

( tavole ), mentre  , ovvero l’area alla destra dello z teorico, è pari a 0,05, come da dati. Qui 0,0668>0,05 , quindi

H0 non viene rifiutata.

( Se il p-value fosse stato 0,03 e0,05, H0 sarebbe stato rifiutata).

Esercizio test di significatività su media con varianza nota e H1 :  ≠ 𝝁 𝟎

: l’ammontare medio delle fatture di un

produttore è 150 euro; al fine di mantenere il controllo sulle vendite, un revisore estrae un campione di n fatture per

valutarne l’ammontare medio. La variabile X ammontare medio di una fattura ha distribuzione normale e varianza pari

a 25. Verificare se è opportuno accettare H0.

  • Verificare le assunzioni : la variabile X è quantitativa, quindi la statistica test è la media campionaria

standardizzata; la variabile X si distribuisce come una normale, quindi la statistica test media campionaria

standardizzata si distribuisce come una normale; il campione è casuale.

  • Ipotesi :

PROCEDIMENTO 1

  • Test statistico :
    • Calcolo di z osservato , ovvero la statistica test: calcolo media campionaria e standardizzazione sotto l’H
    • Calcolo di z teorico , ovvero la soglia critica, usando le tavole: essendo il test bidirezionale, ci sono due z

teorici, uguali in valore assoluto ma di segno opposto; ciascuno di essi lascia rispettivamente alla sua destra

o alla sua sinistra  /2=0,025.

Quindi gli z teorici sono - 1,96 e 1,

Essi identificano la regione di rifiuto come 𝑛 < −𝑧 𝑡𝑒𝑜𝑟𝑖𝑐𝑜 𝑒 𝑛 > 𝑧 𝑡𝑒𝑜𝑟𝑖𝑐𝑜 (𝑛 < − 1 , 96 𝑒 𝑛 > 1 , 96 ) e la

regione di non rifiuto come − 𝑧 𝑡𝑒𝑜𝑟𝑖𝑐𝑜 < 𝑛 < 𝑧 𝑡𝑒𝑜𝑟𝑖𝑐𝑜 (− 1 , 96 < 𝑛 < 1 , 96 ).

  • Conclusione : confronto tra z osservato e z teorici , come soglie critiche tra le regioni di rifiuto e non rifiuto.
  • Conclusione : confronto tra z osservato e z teorico , come soglia critica tra le regioni di rifiuto e non rifiuto.

Considerando che n<z teorico sia regione di rifiuto e che - 31,25 < - 2,33, H0 viene rifiutata.

PROCEDIMENTO 2

  • Conclusione : confronto tra p value e: il p-value, ovvero l’area alla sinistra dello z osservato, è pari a 0 ( tavole ),

mentre  è pari a 0,0 1 , come da dati. Qui 0<0,0 1 , quindi H0 viene rifiutata.

Test di significatività per media con varianza 𝝈

𝟐

non nota

  • Assunzioni : la variabile X è quantitativa e ha distribuzione normale nella popolazione, oppure n>30 (quindi si

applica il teorema del limite centrale); si estrae un campione casuale.

- Ipotesi : l’ipotesi nulla 𝐻 0 𝑝𝑜𝑛𝑒  = 𝜇

0

, la quale corrisponde ad un’assenza di effetto/cambiamento. L’ipotesi

alternativa 𝐻 1 può essere:

0

o  < 𝜇

0

(test unidirezionali, a 1 coda)

0

(test bidirezionali, a 2 code)

  • Test statistico : si estrae il campione e si calcolano lo t osservato e teorico:
    1. Lo t osservato è la statistica test; essa è pari alla media campionaria standardizzata sotto l’ipotesi nulla. Esso

però non si distribuisce come una normale (z) in quanto, non essendo la varianza nota, viene utilizzata la

varianza campionaria corretta, ma come una t di student

0

𝑔𝑑𝑙=𝑛− 1

  1. Lo t teorico dipende da  (se test è unidirezionale) o da /2 (se il test è bidirezionale) e dai gradi di libertà (gdl)

si calcola usando le tavole. In particolare:

o Lo t teorico è il valore che lascia alla sua destra , quando H1 :  > 𝜇

0

o Lo t teorico è il valore che lascia alla sua sinistra , quando H1 :  < 𝜇

0

o Gli t teorici (-t teorico e +t teorico) sono i valori che lasciano rispettivamente alla propria destra e

sinistra /2, quando H1 :  ≠ 𝜇

0

  • P-value : in questo caso non è possibile calcolare il p-value, in quanto le tavole di t student non permettono di

individuare le area destra o sinistra di t osservato.

  • Conclusioni : si può giungere alle conclusioni, quindi al rifiuto o al non rifiuto dell’H0, tramite:
    1. Confronto di t osservato e teorico (confronto di ascisse); a tale proposito vengono sfruttate le regioni di

accettazione e rifiuto definite dallo t teorico o soglia critica , a sua volta determinata con le tavole, in base al

valore di . In particolare:

o Se H 1 :  > 𝜇

0

, allora la regione di rifiuto è n > 𝑡 𝑡𝑒𝑜𝑟𝑖𝑐𝑜

o Se H1 :  < 𝜇

0

, allora la regione di rifiuto è n < 𝑡 𝑡𝑒𝑜𝑟𝑖𝑐𝑜

o Se H1 :  ≠ 𝜇

0

, allora la regione di rifiuto è 𝑛 < − t teorico e n > t teorico

Esercizio test di significatività su media con varianza non nota e H1 :  ≠ 𝝁

𝟎

: un’azienda vuole verificare che il peso

medio dei propri pacchi di caffè è 250 gr; estrae quindi un campione n di 30 pacchetti, i quali hanno un peso medio

pari a 248 gr (media campionaria) e varianza campionaria corretta pari a 25,862 (stima della varianza); il livello di

significatività è  =0,002. Definire il sistema di ipotesi e verificare se è opportuno accettare H0:

  • Verificare le assunzioni : la variabile X è quantitativa, quindi la statistica test è la media campionaria

standardizzata; la statistica test media campionaria standardizzata si distribuisce come una t di student ; il

campione è casuale.

  • Ipotesi :
  • Test statistico:
    • Calcolo di t osservato , ovvero la statistica test: calcolo media campionaria e standardizzazione sotto l’H
    • Calcolo di t teorico , ovvero la soglia critica, usando le tavole: essendo il test bidirezionale, ci sono due t teorici,

uguali in valore assoluto ma di segno opposto; ciascuno di essi lascia rispettivamente alla sua destra o alla

sua sinistra  /2=0,001. I gradi di libertà sono 29, ovvero 30-1.

Quindi gli t teorici sono - 2,462 e 2,

Essi identificano la regione di rifiuto come 𝑛 < −𝑡 𝑡𝑒𝑜𝑟𝑖𝑐𝑜 𝑒 𝑛 > 𝑡 𝑡𝑒𝑜𝑟𝑖𝑐𝑜 (𝑛 < − 2 , 462 𝑒 𝑛 > 2 , 462 ) e la

regione di non rifiuto come − 𝑧 𝑡𝑒𝑜𝑟𝑖𝑐𝑜 < 𝑛 < 𝑧 𝑡𝑒𝑜𝑟𝑖𝑐𝑜

  • Conclusione : confronto tra t osservato e t teorici , come soglie critiche tra le regioni di rifiuto e non rifiuto.

Considerando che − 𝑧 𝑡𝑒𝑜𝑟𝑖𝑐𝑜 < 𝑛 < 𝑧 𝑡𝑒𝑜𝑟𝑖𝑐𝑜 sia regione di non rifiuto e che - 2,462 < - 2,154 < 2,462, H0 non

viene rifiutata.

Test di significatività per proporzione

  • Assunzioni : la variabile X è qualitativa e ha distribuzione normale nella popolazione, oppure n>30 (quindi si applica

il teorema del limite centrale); si estrae un campione casuale.

  • Ipotesi : l’ipotesi nulla 𝐻 0 𝑝𝑜𝑛𝑒 𝑝 = 𝑝 0

, la quale corrisponde ad un’assenza di effetto/cambiamento. L’ipotesi

alternativa 𝐻 1 può essere:

  • p > 𝑝

0

o p < 𝑝

0

(test unidirezionali, a 1 coda)

  • Calcolo z teorico: ovvero la soglia critica, usando le tavole: esso è il valore che lascia alla sua sinistra 𝛼 =

0 , 03 , come da dati. Poiché le tavole non riportano solo la coda di sinistra, si osserva il valore proposto per la

coda di destra, cambiando il segno, sfruttando la simmetria della distribuzione rispetto allo 0.

Esso identifica la regione di rifiuto come n<z teorico (n< - 1,88) e la regione di non rifiuto come n> z teorico

(n> - 1,88).

  • Conclusione : confronto tra z osservato e z teorico , come soglia critica tra le regioni di rifiuto e non rifiuto.

Considerando che n<z teorico sia regione di rifiuto e che - 2,58 < - 1,88, H0 viene rifiutata.

PROCEDIMENTO 2

  • Conclusione : confronto tra p value e.

ESERCIZI 2

Variabili e indipendenza/dipendenza

  • Tra due variabili qualitative (categoriali) o tra una variabile qualitativa e una variabile quantitativa può esserci

connessione (ovvero un legame - dipendenza o indipendenza- , il variare dell’una influenza il variare dell’altra), la

quale viene misurata con l’indice di connessione 𝜲

𝟐

, ovvero un indice che rileva la presenza di un legame di

dipendenza o indipendenza- tra le suddette variabili; tale indice può essere poi normalizzato, divenendo

𝟐

  • Tra due variabili quantitative può esserci correlazione (ovvero un legame lineare , il quale prevede che

all’aumentare dell’una, l’altra aumenta a sua volta o diminuisce), la quale viene misurata con la covarianza 𝝈

𝒙𝒚

ovvero un indice che rileva la presenza di un legame lineare tra le suddette variabili; tale indice può poi essere

normalizzato, divenendo il coefficiente di correlazione lineare 𝝆

𝒙𝒚

Legame (indipendenza, massima dipendenza funzionale, connessione) tra variabili categoriali

Le variabili categoriali sono variabili qualitative, le quali possono essere:

  • Dipendenti: due variabili sono dipendenti quando c’è un’associazione, connessione, dipendenza o legame tra loro,

ovvero quando la variazione dell’una determina la variazione dell’altra. Quando tale associazione dipende da una

terza variabile, la quale influenza le due precedenti, l’associazione è detta spuria.

  • Indipendenti: due variabili sono indipendenti quando c’è assenza di associazione tra loro, ovvero la variazione

dell’una non determina la variazione dell’altra.

I dati campionari raccolti casualmente, relativamente alle due variabili, portano alla costruzione di tabelle di

contingenza, ovvero tabelle di contingenza in cui sono presenti variabili categoriali (nel caso in cui le variabili siano

quantitative, si parla di tabelle di correlazione).

Esempio : si considerino le variabili X e Y sesso e orientamento politico, con le rispettive modalità femmina/maschio e

democratico/repubblicano/indipendente.

Democratico Indipendente Repubblicano

Femmine 25 30 45 100

Maschio 100 120 180 400

Si possono definire ora:

  • Frequenze assolute congiunte (𝑛 𝑖𝑗

): sono i numeri in tabella; esse sono bivariate in quanto tengono conto di due

caratteri contemporaneamente (𝑛

11

= 25 sono le donne democratiche ).

  • Frequenze relative congiunte ( 𝑓

𝑖𝑗

): sono il rapporto tra le frequenze assolute congiunte e n, ovvero la totalità delle

unità statistiche, pari a 500.

𝑖𝑗

𝑖𝑗

  • Frequenze assolute marginali di riga : sono le somme delle frequenze assolute congiunte di ogni riga (𝑛

= 400 ); esse sono univariate in quanto considerano un carattere solo (𝑛

= 100 sono femmine ).

  • Frequenze relative marginali di riga: sono il rapporto tra le frequenze assolute marginali di riga e n, ovvero la

totalità delle unità statistiche.

𝑖.

𝑖.

  • Frequenze assolute marginali di colonna : sono le somme delle frequenze assolute congiunte di ogni colonna

. 1

. 2

= 150 ); esse sono univariate in quanto considerano un carattere solo (𝑛

. 1

= 125 sono

democratici ).

  • Frequenze relative marginali di colonna: sono il rapporto tra le frequenze assolute congiunte di ogni colonna e n,

ovvero la totalità delle unità statistiche.

𝑖.

.𝑗

  • Frequenze assolute condizionate : esse sono univariate. in quanto considerano un solo carattere per volta.
    • Frequenze assolute condizionate dell’orientamento, dato il genere : si fissa il genere (femmine) e si osserva

come le unità statistiche femmine si distribuiscono circa l’orientamento politico (25, 30, 45).

  • Frequenze assolute condizionate del genere, dato l’orientamento : si fissa l’orientamento (repubblicano) e

si osserva come le unità statistiche repubblicane si distribuiscono circa il genere (45, 180).

  • Frequenze relative condizionate :
    • Frequenze relative condizionate dell’orientamento (colonna), dato il genere (riga) : rapporto tra

condizionate assolute e frequenze assolute marginali ( se si fissano le femmine: 25/100, 30/100 e 45/100; quindi

il 25% delle donne è repubblicano, il 30% indipendente e il 45% democratico. Se si fissano i maschi: 100/

120/400 e 180/400, il 25% degli uomini è repubblicano, il 30% indipendente e il 45% democratico).

  • Frequenze relative condizionate del genere (riga), dato l’orientamento (colonna) : rapporto tra condizionate

assolute e frequenze assolute marginali.

Indipendenza e dipendenza funzionale di variabili in un’ottima descrittiva

Due variabili sono indipendenti quando le condizionate relative di riga sono uguali tra loro e uguali alle marginali

relative di riga e le condizionate relative di colonna sono uguali tra loro e uguali alle marginali relative di colonna

Democratico Indipendente Repubblicano

Femmine 25 /125 = 0,2 30 /150= 0,2 45 /225 = 0,2 100 /500 = 0,

Maschio 100 /125 = 0,8 120 /150 = 0,8 180 /225 = 0,8 400 /500 = 0,

Democratico Indipendente Repubblicano

Femmine 25 /100 = 0,25 30 /100 = 0,30 45 /100 = 0,45 100

Maschio 100 /400 = 0,25 120 /400 = 0,30 180 /400 = 0,45 400

In simboli, considerando: