


































Studia grazie alle numerose risorse presenti su Docsity
Guadagna punti aiutando altri studenti oppure acquistali con un piano Premium
Prepara i tuoi esami
Studia grazie alle numerose risorse presenti su Docsity
Prepara i tuoi esami con i documenti condivisi da studenti come te su Docsity
Trova i documenti specifici per gli esami della tua università
Preparati con lezioni e prove svolte basate sui programmi universitari!
Rispondi a reali domande d’esame e scopri la tua preparazione
Riassumi i tuoi documenti, fagli domande, convertili in quiz e mappe concettuali
Studia con prove svolte, tesine e consigli utili
Togliti ogni dubbio leggendo le risposte alle domande fatte da altri studenti come te
Esplora i documenti più scaricati per gli argomenti di studio più popolari
Ottieni i punti per scaricare
Guadagna punti aiutando altri studenti oppure acquistali con un piano Premium
Appunti, con esercizi di esempio svolti in classe, del secondo modulo di Statistica per Scienze Politiche con la prof. De Battisti
Tipologia: Appunti
1 / 42
Questa pagina non è visibile nell’anteprima
Non perderti parti importanti!



































Capitolo 5 1
Capitolo 6 9
Capitolo 7 19
Capitolo 8 26
Numeri indici 38
Tramite la statistica inferenziale è possibile utilizzare i dati campionari (statistiche) per dire qualcosa sui (funzioni dei
dati) dati della popolazione (parametri); in particolare:
numero, per calcolare la stima puntale e intervallare.
2
), si usa la statistica varianza campionaria
corretta (𝑠
2
), per calcolare la stima puntuale.
per calcolare la stima puntale e intervallare.
La stima puntuale è un numero che rappresenta la migliore previsione possibile del valore assunto dal parametro.
Intorno ad essa si costruisce un intervallo, nel quale si confida che stia il valore esatto del parametro. La stima
intervallare è quindi un intervallo di valori contenente ( si confida che contenga ) il valore esatto del parametro, detto
intervallo di confidenza.
Lo stimatore è una variabile casuale usata per stimare puntualmente un parametro. Il valore (numero) che tale variabile
casuale assume in corrispondenza del singolo campione si chiama stima; esso varia al variare del campione ( se si
è la variabile casuale media campionaria stimatore, 𝑥̅ è la stima del
parametro. La media campionaria ha distribuzione normale; il grafico indica quindi tutti i valori essa che può assumere
quando si estrae un campione; a ciascun valore corrisponde una probabilità di manifestarsi, la quale è minore più il
valore si colloca nelle code della curva. Quando si estrae un campione, non si sa se il valore estratto abbia una bassa
o alta probabilità ). Lo stimatore scelto per stimare un parametro è lo stimatore naturale (per stimare la media della
popolazione, si usa la variabile casuale media campionaria).
Lo stimatore deve soddisfare le seguenti proprietà :
distorsione è pari a 0.
Lo stimatore quindi non è corretto, quindi è distorto , quando il suo valore atteso non coincide con il parametro da
stimare, ovvero:
Ad esempio, se 𝐸
= 𝜇 , allora lo stimatore è corretto.
In particolare, se lo stimatore è corretto, è centrato nella media; se all’aumentare di n la varianza tende a 0 significa
che lo stimatore tende ad assumere valori sempre più vicini alla media, in quanto la varianza è la media degli scarti
di x dalla media (gli scarti quindi sono piccoli).
Ad esempio, 𝑉𝑎𝑟
𝜎
2
𝑛
, quindi lo stimatore è consistente in quanto all’aumentare di n, la sua varianza tende a
varianza minore ; tale efficienza è relativa, in quanto confronta tra loro due stimatori, non individuando il più
efficiente in assoluto.
Quindi :
campionaria (X
); esso è uno stimatore naturale, corretto ( 𝐸
= 𝜇) , consistente ( 𝑉𝑎𝑟
𝜎
2
𝑛
′
𝑎𝑢𝑚𝑒𝑛𝑡𝑎𝑟𝑒𝑑𝑖 𝑛) e più efficiente rispetto a altri stimatori.
proporzione campionaria (𝑃
); esso è uno stimatore naturale, corretto (𝐸
= 𝑝), consistente (𝑉𝑎𝑟
𝑝𝑞
𝑛
′
2
), si considera lo stimatore varianza campionaria
corretto (𝑆
2
); esso è uno stimatore naturale, corretto e consistente. È fondamentale riconoscere che tale
stimatore sia corretto, in quanto la varianza campionaria (𝑆
2
) è pari a:
2
𝑖
2
𝑛
𝑖= 1
Esso è uno stimatore asintoticamente corretto, ovvero il valore atteso non coincide con il parametro ma c’è una
distorsione che tende a 0 all’aumentare di n:
2
2
Lo stimatore può essere corretto, moltiplicandolo per
𝒏
𝒏−𝟏
, divenendo 𝑆
2
2
2
𝑖
2
𝑛
𝑖= 1
𝑖
2
𝑛
𝑖= 1
2
L’intervallo di confidenza è un intervallo di valori entro cui si confida ricada il valore del parametro che si sta cercando
di stimare; la probabilità che il parametro si trovi nell’intervallo di confidenza è detta livello di fiducia.
La formula per l’intervallo di fiducia è:
il campione di riferimento. Esso deve essere contenuto nell’intervallo di confidenza.
student ; è pari a 𝑧
𝛼
2
o 𝑡
𝛼
2
; dato il valore di 1 − 𝛼, si calcola 𝛼 e, di conseguenza,
𝛼
2
. Tramite le tavole poi, si
individua il valore di 𝑧
𝛼
2
( suppongo che 1 − 𝛼 sia livello di fiducia pari a 0,95, 𝛼 vale 0,05 e
𝛼
2
è 0,025; 𝑧
𝛼
2
si
definisce con le tavole: 1,96, circa 2) o 𝑡
𝛼
2
stimare, si sceglie un 𝟏 − 𝜶 alto (ma mai pari a 1, in quanto è sempre ammessa la possibilità di sbagliare).
Definendo il livello di fiducia, si definiscono in automatico gli estremi dell’intervallo , essendo essi dipendenti
dallo z-score/t-score; in particolare, maggiore è il livello di fiducia (quindi più 1 − 𝛼 è alto), più l’intervallo sarà
ampio e gli z-score/t-score estremi. ( maggiore ampiezza, maggiore affidabilità, maggiore valore di 1 − 𝛼 ).
In particolare, 𝛼 indica il livello di significatività.
Gli intervalli possono essere:
è una normale con valore atteso pari a p e varianza pari a √
𝑝𝑞
𝑛
; la probabilità che 𝑃
sia compresa tra questi
intervalli centrali rispetto alla media p dipende da un k costante, pari a 𝑧
𝛼
2
𝛼
2
𝑝𝑞
𝑛
𝛼
2
𝑝𝑞
𝑛
p è un parametro con valore preciso, mentre gli estremi dell’intervallo variano al variare del campione, in
quanto dipendono da 𝑃
, la quale varia al variare del campione; la probabilità che il parametro p sia compreso
in un intervallo così definito è pari a 1 − 𝛼.
Quindi, la formula per individuare gli estremi dell’intervallo di confidenza è:
2
Esso è composto da:
𝛼
2
𝑝𝑞
𝑛
è il margine di errore , a sua volta costituito da z-score e √
𝑝𝑞
𝑛
, ovvero lo standard error.
Si consideri la variabile casuale proporzione campionaria 𝑃
che si distribuisce come una normale ed è centrata in p.
Si consideri 𝑝̂ (puntini nel grafico), ovvero valori particolari assunti dalla variabile casuale 𝑃
, una volta estratti dei
campioni. È possibile costruire intorno a ciascun 𝑝̂ considerato un intervallo di fiducia, sommando e sottatrendo ad
esso 𝑧
𝛼
2
; tale intervallo costruito può contenere o meno p.
Inoltre, qualora il livello di fiducia fosse 90%, ovvero 1 − 𝛼 = 0 , 9 , significa che 9 intervalli su 10 costruiti
contengono p.
Esercizio : stimare la proporzione nella popolazione (p) degli studenti di statistica che studiano ogni giorno.
Si estrae un campione di 50 studenti (n) di cui 20 studiano ogni giorno (x). 𝑝̂ è la proporzione campionaria che
conta la proporzione dei successi, quindi 𝑝̂ =
20
50
Calcola e interpreta intervallo di confidenza per p con livello di fiducia del 95%.
La formula per calcolare l’intervallo di fiducia è:
𝛼
2
L’intervallo è centrato in 𝑝̂ , ovvero la stima puntuale, pari a 0,4. Essendo il livello di fiducia richiesto pari a 95%,
allora 1 − 𝛼 = 0 , 95 ; 𝛼 = 0 , 05 ;
𝛼
2
= 0 , 025. La 𝑧
𝛼
2
= 0 , 025
corrispondente è 1,96.
Quindi:
Da cui si ottengono gli estremi dell’intervallo (0,2648; 0,5352).
Interpretazione : si confida che questo sia uno dei 95 intervalli su 100 che comprendono p.
Calcola e interpreta intervallo di confidenza per p con livello di fiducia del 9 9 %.
La formula per calcolare l’intervallo di fiducia è:
2
L’intervallo è centrato in 𝑝̂ , ovvero la stima puntuale, pari sempre a 0,4. Essendo il livello di fiducia richiesto pari
a 99%, allora 1 − 𝛼 = 0 , 99 ; 𝛼 = 0 , 01 ;
𝛼
2
= 0 , 005. La 𝑧
𝛼
2
= 0 , 005
corrispondente è 2,58.
Quindi:
Interpretazione : scegliendo un livello di fiducia maggiore, l’intervallo sarà più ampio.
𝟐
nota:
2
2
Tale formulazione è giustificabile esattamente come nel caso della stima della proporzione nella popolazione p , con
la differenza che si vuole stimare la media della popolazione , usando come stimatore la media campionaria 𝑥̅
standardizzata ( z ), che si distribuisce anch’essa come una normale di valore atteso 0 e varianza 1.
Esercizio: si consideri la variabile casuale X taglia delle donne trentenni, la quale si distribuisce come una
un campione di 10 donne (n), con le seguenti taglie: 42, 48, 52, 46, 44, 46, 40, 54, 38, 48.
Taglia 𝑋~𝑁 (𝜇 =? ; 𝜎
2
2
2
Per calcolare lo z-score, si consideri 1 −𝛼 = 0 , 96 , da cui 𝛼 = 0 , 04 e
𝛼
2
0 , 02
è individuato usando le tavole.
Si calcola poi l’IC:
2
;𝑔𝑑𝑙=𝑛− 1
2
Per calcolare il t-score, si consideri 1 −𝛼 = 0 , 95 , da cui 𝛼 = 0 , 05 e
𝛼
2
0 , 025 (𝐺𝐷𝐿= 10 − 1 = 9 )
è individuato
usando le tavole.
Interpretazione: l’intervallo con lo z-score è più preciso di quello con t-score.
In sintesi, per quanto attiene l’individuazione dell’intervallo di confidenza per la media della popolazione :
Data variabile casuale 𝑋~𝑁 (𝜇; 𝜎
2
) oppure data la variabile X con 𝑛 > 30 (così da applicare il teorema del limite
centrale), la media della popolazione viene stimata con lo stimatore media campionaria 𝑋
𝜎
2
𝑛
e l’intervallo di
confidenza per :
2
è nota, si individua con lo z-score
2
non è nota, si individua con il t-score per n piccoli (per n grandi, si utilizza ugualmente il t-score, il quale
però si conforma con lo z-score, in quanto la distribuzione di z è pari alla distribuzione di t con GDL infiniti).
Nel caso in cui non si conosca la distribuzione di X e n sia piccolo, non si può fare inferenza.
Riflessioni sull’ampiezza dell’intervallo di confidenza per la media nella popolazione :
denominatore della varianza ).
È possibile definire la dimensione campionaria n , prima di estrarre il campione, in modo da ottenere un certo grado di
precisione della stima del parametro. In particolare è possibile definire:
sulla base di esso, individuare il campione n che garantisca tale margine di errore; il margine di errore infatti dipende
dallo z-score o t-score e dallo standard error, il quale ha n al denominatore.
La formula per individuare n in funzione di M è:
2
2
𝛼
2
2
2
𝛼
2
2
A parità di margine di errore e livello di fiducia (z-score), all’aumentare della varianza, aumenta la numerosità
del campione necessario.
A parità di varianza e livello di fiducia (z-score), all’aumentare del margine di errore, diminuisce la numerosità
del campione necessario.
Esempio con proporzione: ai fini di stimare la proporzione nella popolazione, individuare quale campione di
numerosità n estrarre, volendo commettere un errore maggiore di 0,04 (M) con livello di fiducia pari a 0,95 (1-
Essendo 𝑀 = 𝑧
𝛼
2
𝑝𝑞
𝑛
, è possibile ricavare la formula inversa per individuare n in funzione di M; in particolare:
𝛼
2
2
2
Ci sono ora due possibilità:
il valore più grande possibile 𝑝𝑞 = 0 , 25 , quindi in cui 𝒑 = 𝟎, 𝟓. Sostituendo tale valore nella formula
precedente si ottiene un valore di 𝑛 = 600 , il quale indica la numerosità del campione che soddisfa la richiesta
nel caso più sfavorevole possibile , quindi necessariamente anche nei casi meno sfavorevoli.
Quindi, se si vuole stimare la proporzione della popolazione con la probabilità do commettere un errore che
non sia maggiore di 0,04 pari al 95%, bisogna prendere un campione di 600 unità.
2. Se si conosce il valore di p , in quanto è stato precedentemente stimato, si sostituisce quest’ultimo nella formula
e si calcola la numerosità. Se, ad esempio, 𝒑 = 𝟎, 𝟐𝟓, è necessario un campione di 450 unità per soddisfare la
richiesta.
Ora, ai fini di stimare la proporzione nella popolazione, individuare quale campione di numerosità n estrarre,
volendo commettere un errore maggiore di 0,0 8 con livello di fiducia pari a 0,95.
𝛼
2
2
2
Interpretazione : dimezzando M, n quadruplica.
Esempio con media: ai fini di stimare la media nella popolazione, che ha varianza pari a 3, individuare quale
campione di numerosità n estrarre, volendo commettere un errore minore o uguale di 0,0 1 (M) con livello di
fiducia pari a 0,9 9.
2
2
2
2
2
Ora, si consideri che la varianza della popolazione sia 1; interpreto
2
2
2
2
Interpretazione: la varianza e la numerosità del campione, a parità di margine di errore e livello di fiducia (z-
score), sono direttamente proporzionali. Nel primo caso si ottiene quindi una n maggiore rispetto al secondo. Tali
n inoltre sono particolarmente grandi in quanto il livello di fiducia è altissimo; si ammette infatti di sbagliare molto
poco, quindi serve rilevare un campione molto grande.
Ora, si consideri che la varianza della popolazione sia 1 e l’errore marginale non superiore a 0,05; interpreto.
2
2
2
2
Interpretazione: la numerosità del campione e il margine di errore, a parità di varianza e livello di fiducia ( z-
score), sono inversamente proporzionali.
varianza , poiché esso è la radice della varianza): è possibile fissare il lo standard error e, sulla base di esso,
individuare il campione n che garantisca tale standard error; esso infatti ha n al denominatore.
La formula per individuare n in funzione di se è:
Dove k è un valore numerico.
Esempio con proporzione: ai fini di stimare la proporzione nella popolazione, individuare quale campione di
numerosità n estrarre, in modo che la varianza dello stimatore proporzione campionaria sia minore o uguale a
0,01 (k).
Esempio : i panettoni prodotti pesano mediamente 1 kg (H0); x dice che pesano mediamente meno di 1 kg (H1). Se
H0 è vera, l’azienda di panettoni non cambia nulla; se H1 è vera, l’azienda di panettoni deve modificare il peso dei
panettoni, riportandolo a 1 kg.
campionaria dell’H0 , ovvero si confrontano i valori teorici e quelli osservati (dati campionari, statistiche test)
per decidere se rifiutare o non rifiutare H0. L’accettazione o il rifiuto dell’H0 si fonda su una dimostrazione per
contraddizione: se l’H0 trova riscontro nel campione è estratto, quindi se si trovano dati campionari verosimili, si
considera H0 vera; se l’H0 non trova riscontro nel campione è estratto, quindi se non si trovano dati campionari
verosimili, si protende per l’alternativa H1.
Esempio: si considerino l’esempio della selezione manageriale; l’ipotesi nulla afferma che la proporzione di
maschi sia 0,5; mentre l’ipotesi alternativa che la proporzione di maschi sia maggiore di 0,5.
𝑚
0
𝑚
0
Si calcola allora la statistica test della proporzione nella popolazione, ovvero la proporzione campionaria, ai fini
di confrontarla con i valori proposti dall’ipotesi nulli; tali valori sono osservati.
positivo, nella coda di destra; se è negativo, nella coda di sinistra). Un p- value piccolo porta a rifiutare l’ipotesi
nulla H0, in quanto significa che si è trovato un valore osservato molto estremo rispetto al parametro ( poco
probabile che si verifichi), il quale si colloca nell’area di rifiuto
Esempio: considerando l’esempio della selezione manageriale, H0 afferma che la proporzione di maschi sia pari
a 0,5; H1 afferma che sia maggiore di 0,5, in particolare 0,9. Dall’estrazione del campione risulta che la
proporzione campionaria sia pari a 0,9. Il p-value è l’area della curva a destra di 0,9.
rifiutata o non rifiutata ; in base alla combinazione di questi 4 casi, si originano 4 possibili decisioni (p. 159):
Rifiutare H0 Non rifiutare H
H0 vera Errore di I tipo Decisione corretta
H0 falsa Decisione corretta Errore di II tipo
La probabilità di commettere un errore di primo tipo (rifiutare un H0 vera) è . Essa è l’area alla destra/sinistra
o entrambe del valore teorico.
La probabilità di commettere un errore di secondo tipo (non rifiutare H0 vera) è .
Si parla di probabilità di commettere un errore in quanto ciascuna decisione dipende da risultati del campione, il
quale è evento casuale.
Si può giungere a conclusioni, quindi accettare o rifiutare H0, statistiche test e valori teorici (z o t teorici); in
particolare, se la statistica test (z o t osservato, media o proporzione campionarie standardizzate) rientra nella regione
di accettazione definita dalla soglia critica , H0 è vera e non si rifiuta; se la statistica test (z o t osservato, media o
proporzione campionarie standardizzate) non rientra nella regione di accettazione definita dalla soglia critica/valore
teorico, H0 è falsa e si rifiuta. Si possono quindi individuare una regione di rifiuto e una di accettazione, sulla
base della soglia critica e sulla base dell’affermazione dell’H1 (se afferma maggiore, l’area di rifiuto è nella coda
destra; se è minore, l’area di rifiuto è nella coda destra sinistra; se è diverso, l’area di rifiuto è in entrambe le code).
Quindi graficamente, se H0 è vera, ovvero la statistica test non rientra nella regione di rifiuto ( quindi la
distribuzione della popolazione e del campione sono simili ), H0 non viene rifiutata. Si può però compiere un
errore di primo tipo; in particolare, la probabilità di rifiutare tale H0 vera è pari ad , ovvero la parte colorata del
grafico:
Normalmente viene fornito in valori standard piccoli (0,05; 0,01; 0,001). Fissando , è possibile individuare il
valore della soglia critica, la quale determina le regioni di rifiuto e accettazione.
Se invece, H0 non è vera, ovvero la statistica test rientra nella regione di rifiuto ( la distribuzione della media
campionaria è spostata rispetto a quella della popolazione ), H0 viene rifiutata. Si può però compiere un errore
di secondo tipo; in particolare, la probabilità di non rifiutare tale H0 falsa è pari a , ovvero la parte colorata del
grafico con le stelline:
Le due aree sono in relazione tra loro ; infatti, riducendo , aumenta , e viceversa.
fissando alfa, è possibile trovare la soglia critica, ovvero x barrato cerchiato
I test di significatività possono essere condotti per la media con varianza nota e non nota e per la proporzione nella
popolazione; l’ipotesi alternativa può proporre, per ciascuno dei tre casi precedenti, un valore maggiore (coda di destra),
minore (coda di sinistra) o diverso (entrambe le code), determinando quindi 9 possibilità.
𝟐
applica il teorema del limite centrale); si estrae un campione casuale.
0
, la quale corrisponde ad un’assenza di effetto/cambiamento. L’ipotesi
alternativa 𝐻 1 può essere:
0
o < 𝜇
0
(test unidirezionali, a 1 coda)
0
(test bidirezionali, a 2 code)
0 , 05 , come da dati; essa viene individuata usando le tavole:
Esso identifica la regione di rifiuto come n> z teorico (n>1,65) e la regione di non rifiuto come n< z teorico
(n<1,65).
Considerando che n<z teorico sia regione di accettazione e che 1,5<1,65, H0 non viene rifiutata.
H0 non viene rifiutata.
( Se il p-value fosse stato 0,03 e 0,05, H0 sarebbe stato rifiutata).
Esercizio test di significatività su media con varianza nota e H1 : ≠ 𝝁 𝟎
: l’ammontare medio delle fatture di un
produttore è 150 euro; al fine di mantenere il controllo sulle vendite, un revisore estrae un campione di n fatture per
valutarne l’ammontare medio. La variabile X ammontare medio di una fattura ha distribuzione normale e varianza pari
a 25. Verificare se è opportuno accettare H0.
standardizzata; la variabile X si distribuisce come una normale, quindi la statistica test media campionaria
standardizzata si distribuisce come una normale; il campione è casuale.
teorici, uguali in valore assoluto ma di segno opposto; ciascuno di essi lascia rispettivamente alla sua destra
Quindi gli z teorici sono - 1,96 e 1,
Essi identificano la regione di rifiuto come 𝑛 < −𝑧 𝑡𝑒𝑜𝑟𝑖𝑐𝑜 𝑒 𝑛 > 𝑧 𝑡𝑒𝑜𝑟𝑖𝑐𝑜 (𝑛 < − 1 , 96 𝑒 𝑛 > 1 , 96 ) e la
regione di non rifiuto come − 𝑧 𝑡𝑒𝑜𝑟𝑖𝑐𝑜 < 𝑛 < 𝑧 𝑡𝑒𝑜𝑟𝑖𝑐𝑜 (− 1 , 96 < 𝑛 < 1 , 96 ).
Considerando che n<z teorico sia regione di rifiuto e che - 31,25 < - 2,33, H0 viene rifiutata.
𝟐
applica il teorema del limite centrale); si estrae un campione casuale.
0
, la quale corrisponde ad un’assenza di effetto/cambiamento. L’ipotesi
alternativa 𝐻 1 può essere:
0
o < 𝜇
0
(test unidirezionali, a 1 coda)
0
(test bidirezionali, a 2 code)
però non si distribuisce come una normale (z) in quanto, non essendo la varianza nota, viene utilizzata la
varianza campionaria corretta, ma come una t di student
0
𝑔𝑑𝑙=𝑛− 1
si calcola usando le tavole. In particolare:
o Lo t teorico è il valore che lascia alla sua destra , quando H1 : > 𝜇
0
o Lo t teorico è il valore che lascia alla sua sinistra , quando H1 : < 𝜇
0
o Gli t teorici (-t teorico e +t teorico) sono i valori che lasciano rispettivamente alla propria destra e
sinistra /2, quando H1 : ≠ 𝜇
0
individuare le area destra o sinistra di t osservato.
accettazione e rifiuto definite dallo t teorico o soglia critica , a sua volta determinata con le tavole, in base al
valore di . In particolare:
o Se H 1 : > 𝜇
0
, allora la regione di rifiuto è n > 𝑡 𝑡𝑒𝑜𝑟𝑖𝑐𝑜
o Se H1 : < 𝜇
0
, allora la regione di rifiuto è n < 𝑡 𝑡𝑒𝑜𝑟𝑖𝑐𝑜
o Se H1 : ≠ 𝜇
0
, allora la regione di rifiuto è 𝑛 < − t teorico e n > t teorico
Esercizio test di significatività su media con varianza non nota e H1 : ≠ 𝝁
𝟎
: un’azienda vuole verificare che il peso
medio dei propri pacchi di caffè è 250 gr; estrae quindi un campione n di 30 pacchetti, i quali hanno un peso medio
pari a 248 gr (media campionaria) e varianza campionaria corretta pari a 25,862 (stima della varianza); il livello di
standardizzata; la statistica test media campionaria standardizzata si distribuisce come una t di student ; il
campione è casuale.
uguali in valore assoluto ma di segno opposto; ciascuno di essi lascia rispettivamente alla sua destra o alla
Quindi gli t teorici sono - 2,462 e 2,
Essi identificano la regione di rifiuto come 𝑛 < −𝑡 𝑡𝑒𝑜𝑟𝑖𝑐𝑜 𝑒 𝑛 > 𝑡 𝑡𝑒𝑜𝑟𝑖𝑐𝑜 (𝑛 < − 2 , 462 𝑒 𝑛 > 2 , 462 ) e la
regione di non rifiuto come − 𝑧 𝑡𝑒𝑜𝑟𝑖𝑐𝑜 < 𝑛 < 𝑧 𝑡𝑒𝑜𝑟𝑖𝑐𝑜
Considerando che − 𝑧 𝑡𝑒𝑜𝑟𝑖𝑐𝑜 < 𝑛 < 𝑧 𝑡𝑒𝑜𝑟𝑖𝑐𝑜 sia regione di non rifiuto e che - 2,462 < - 2,154 < 2,462, H0 non
viene rifiutata.
il teorema del limite centrale); si estrae un campione casuale.
, la quale corrisponde ad un’assenza di effetto/cambiamento. L’ipotesi
alternativa 𝐻 1 può essere:
0
o p < 𝑝
0
(test unidirezionali, a 1 coda)
0 , 03 , come da dati. Poiché le tavole non riportano solo la coda di sinistra, si osserva il valore proposto per la
coda di destra, cambiando il segno, sfruttando la simmetria della distribuzione rispetto allo 0.
Esso identifica la regione di rifiuto come n<z teorico (n< - 1,88) e la regione di non rifiuto come n> z teorico
(n> - 1,88).
Considerando che n<z teorico sia regione di rifiuto e che - 2,58 < - 1,88, H0 viene rifiutata.
connessione (ovvero un legame - dipendenza o indipendenza- , il variare dell’una influenza il variare dell’altra), la
quale viene misurata con l’indice di connessione 𝜲
𝟐
, ovvero un indice che rileva la presenza di un legame di
dipendenza o indipendenza- tra le suddette variabili; tale indice può essere poi normalizzato, divenendo
𝟐
all’aumentare dell’una, l’altra aumenta a sua volta o diminuisce), la quale viene misurata con la covarianza 𝝈
𝒙𝒚
ovvero un indice che rileva la presenza di un legame lineare tra le suddette variabili; tale indice può poi essere
normalizzato, divenendo il coefficiente di correlazione lineare 𝝆
𝒙𝒚
Le variabili categoriali sono variabili qualitative, le quali possono essere:
ovvero quando la variazione dell’una determina la variazione dell’altra. Quando tale associazione dipende da una
terza variabile, la quale influenza le due precedenti, l’associazione è detta spuria.
dell’una non determina la variazione dell’altra.
I dati campionari raccolti casualmente, relativamente alle due variabili, portano alla costruzione di tabelle di
contingenza, ovvero tabelle di contingenza in cui sono presenti variabili categoriali (nel caso in cui le variabili siano
quantitative, si parla di tabelle di correlazione).
Esempio : si considerino le variabili X e Y sesso e orientamento politico, con le rispettive modalità femmina/maschio e
democratico/repubblicano/indipendente.
Democratico Indipendente Repubblicano
Femmine 25 30 45 100
Maschio 100 120 180 400
Si possono definire ora:
): sono i numeri in tabella; esse sono bivariate in quanto tengono conto di due
caratteri contemporaneamente (𝑛
11
= 25 sono le donne democratiche ).
𝑖𝑗
): sono il rapporto tra le frequenze assolute congiunte e n, ovvero la totalità delle
unità statistiche, pari a 500.
𝑖𝑗
𝑖𝑗
= 400 ); esse sono univariate in quanto considerano un carattere solo (𝑛
= 100 sono femmine ).
totalità delle unità statistiche.
𝑖.
𝑖.
. 1
. 2
= 150 ); esse sono univariate in quanto considerano un carattere solo (𝑛
. 1
= 125 sono
democratici ).
ovvero la totalità delle unità statistiche.
𝑖.
.𝑗
come le unità statistiche femmine si distribuiscono circa l’orientamento politico (25, 30, 45).
si osserva come le unità statistiche repubblicane si distribuiscono circa il genere (45, 180).
condizionate assolute e frequenze assolute marginali ( se si fissano le femmine: 25/100, 30/100 e 45/100; quindi
il 25% delle donne è repubblicano, il 30% indipendente e il 45% democratico. Se si fissano i maschi: 100/
120/400 e 180/400, il 25% degli uomini è repubblicano, il 30% indipendente e il 45% democratico).
assolute e frequenze assolute marginali.
Due variabili sono indipendenti quando le condizionate relative di riga sono uguali tra loro e uguali alle marginali
relative di riga e le condizionate relative di colonna sono uguali tra loro e uguali alle marginali relative di colonna
Democratico Indipendente Repubblicano
Femmine 25 /125 = 0,2 30 /150= 0,2 45 /225 = 0,2 100 /500 = 0,
Maschio 100 /125 = 0,8 120 /150 = 0,8 180 /225 = 0,8 400 /500 = 0,
Democratico Indipendente Repubblicano
Femmine 25 /100 = 0,25 30 /100 = 0,30 45 /100 = 0,45 100
Maschio 100 /400 = 0,25 120 /400 = 0,30 180 /400 = 0,45 400
In simboli, considerando: