









Studia grazie alle numerose risorse presenti su Docsity
Guadagna punti aiutando altri studenti oppure acquistali con un piano Premium
Prepara i tuoi esami
Studia grazie alle numerose risorse presenti su Docsity
Prepara i tuoi esami con i documenti condivisi da studenti come te su Docsity
Trova i documenti specifici per gli esami della tua università
Preparati con lezioni e prove svolte basate sui programmi universitari!
Rispondi a reali domande d’esame e scopri la tua preparazione
Riassumi i tuoi documenti, fagli domande, convertili in quiz e mappe concettuali
Studia con prove svolte, tesine e consigli utili
Togliti ogni dubbio leggendo le risposte alle domande fatte da altri studenti come te
Esplora i documenti più scaricati per gli argomenti di studio più popolari
Ottieni i punti per scaricare
Guadagna punti aiutando altri studenti oppure acquistali con un piano Premium
esercizi per il compito di statistica con la marini
Tipologia: Esercizi
1 / 15
Questa pagina non è visibile nell’anteprima
Non perderti parti importanti!










Indici di forma, distribuzioni doppie di frequenza e studio del legame tra variabili
Il seguente data set riporta la rilevazione di alcuni caratteri su un collettivo di 20 studenti
Studente Sesso Età Red Istituto di provenienza Voto al diploma Statura (cm) Colore occhi Voto
esame
Giud.
sul
corso
1 M 22 0,7 ITC 96 173 Nero 26 Pessimo
2 F 20 0,2 Liceo Classico 92 168 Marrone 26 Ottimo
3 F 30 1,6 Liceo Classico 90 165 Marrone 30 Buono
4 M 22 2,5 Liceo Scient 85 180 Nero 25 Buono
5 F 26 3,2 ITI 100 163 Azzurro 30 Pessimo
6 F 20 0,5 ITC 74 160 Nero 24 Pessimo
7 M 26 4,2 Liceo Scient 60 177 Marrone 20 Suff
8 M 30 1,3 ITC 76 164 Verde 18 Ottimo
9 F 27 1,2 Liceo Scient 100 158 Azzurro 29 Ottimo
10 F 25 1,7 ITI 95 170 Nero 25 Pessimo
11 F 25 1,9 ITI 85 167 Nero 25 Buono
12 M 22 0,7 ITC 97 159 Marrone 27 Buono
13 F 21 0,4 Liceo Classico 65 174 Azzurro 21 Ottimo
14 F 24 1,8 Liceo Scient 70 164 Verde 30 Suff
15 M 20 1,9 Liceo Scient 80 177 Nero 28 Suff
16 F 21 3,2 Liceo Classico 93 172 Nero 27 Pessimo
17 F 27 2,1 ITC 100 166 Marrone 26 Suff
18 F 22 0,1 ITI 84 160 Marrone 24 Buono
19 M 23 1,6 Liceo Scient 92 170 Azzurro 27 Ottimo
20 F 23 2,2 Liceo Scient 73 184 Verde 23 Buono
Esercizio 1. Il boxplot e gli indici di forma
condizionata al Sesso degli studenti. Commentare i risultati ottenuti.
Soluzione Q.
Distribuzione del carattere Voto all’esame rispetto al Sesso
Dati per costruire i boxplot (sintesi a cinque):
statistiche di sintesi Voto Esame condizionato a Sesso=F
statistiche di sintesi Voto Esame condizionato a Sesso=M
Y=Voto esame|X=F !
"
"
"
"
Totale (n) 13 1
Y=Voto esame|X=M
!
"
&
"
&
"
&
"
&
Totale (n) 7 1
Soluzione Q.
Partendo dalla distribuzione in classi del carattere Età calcoliamo l’indice di Fisher:
Y=Età (classi) '
"
"
"
"
"
(
"
"
"
.
"
:
?
:
?
B
?CD
:
:
:
Indice di Fisher:
?
J
K
?CD
?
I = 0 asimmetria nulla
I > 0 asimmetria positiva! nel nostro caso, asimmetria positiva per il carattere Età
I < 0 asimmetria negativa
Indice di Yule-Bowley
OP
J
D
J
D
J
D
J
D
Questo indice si basa sul confronto tra i quartili e si concentra sugli sbilanciamenti che si verificano tra le
modalità comprese nel 50% centrale della distribuzione
OP
= 0 simmetria
OP
< 0 asimmetria negativa, quindi dominano valori medio alti
OP
> 0 asimmetria positiva, quindi dominano valori medio bassi
Nel nostro caso per la variabile Età:
Y=Età (classi) '
"
"
"
"
Mediana=22.
#$
&
'
()*+,&
&
'
(&
)...()∗)).11,)2.
)...()2.
2..
..
= 0.098 asimmetria positiva
Nota: L’indice di YB è relativo ed è anche standardizzato ossia −1 ≤ " #$
Il massimo negativo (valore pari a -1) è ottenuto per le distribuzione asimmetriche negative mentre il massimo
positivo (valore pari a 1) è raggiunto da distribuzioni asimmetriche positive
Indice di Hotelling-Solomon
Questo indice si basa sul concetto che, data una distribuzione unimodale,
disposti per riga e i valori di Y in colonna, si può affermare che Y è indipendente in distribuzione da X se i profili
colonna (distribuzioni condizionate di Y/X in frequenze relative) sono uguali tra loro e uguali al profilo medio di
Y. Analogamente ciò è vero anche per i profili riga.
Nota: si può dimostrare che dati due caratteri qualitativi (X e Y) organizzati in una tabella doppia di frequenze
dove i valori di X sono disposti per riga e i valori di Y in colonna, il profilo medio di Y può essere ottenuto come
media ponderata delle distribuzioni condizionate di Y rispetto ai valori di X utilizzando come pesi i marginali di
riga (profilo medio riga di X). Allo stesso modo, si può dimostrare che il profilo medio di X può essere ottenuto
come media ponderata delle distribuzioni condizionate di X rispetto ai valori di Y utilizzando come pesi i
marginali di colonna (profilo medio colonna di Y). Nel nostro caso :
Tabella 2. Distribuzione condizionata di Y=Tempo libero rispetto alle modalità di X=Titolo di Studio
.
E cosi via per le altre frequenze del profilo medio:
.)
= (0.12)* 0.213+(0.232)0.532+(0.292)0.255=0.223 etc.
Siccome, in caso di indipendenza assoluta tra X e Y deve valere la seguente:
OQ
O.
.Q
da un punto di vista operativo, i due caratteri X e Y si dicono indipendenti (in distribuzione) se le frequenze
osservate sono uguali alle cosiddette frequenze teoriche per ogni cella (i, j) della distribuzione doppia.
Frequenze teoriche (sotto ipotesi di indipendenza): VW
OQ
R
S.
R
.T
R
Y=Tempo libero
X=Titolo di studio
Cinema Teatro Musica Sport Totale Profilo medio fi.
(distribuzione marginale di riga)
Lic.media 0.25 0.12 0.18 0.45 1 0.
Diploma 0.304 0.232 0.196 0.268 1 0.
Laurea 0.325 0.292 0.292 0.091 1 0.
Profilo medio f.j
(distribuzione marginale di colonna) 0.298 0.223 0.217 0.262 1
Tabella teorica (ipotesi di indipendenza)
Tempo libero
Titolo di studio
Cinema Teatro Musica Sport Totale (ni.)
Lic.media 29.79 2 2.34 21.70 26.17 100
Diploma 74.47 55.85 54.26 65.43 250
Laurea 35.74 26.81 26.04 31.40 120
Totale (n.j) 140 105 102 123 470
Es. calcoli
44
)
34
..e cosi via fino a riempire tutte le altre celle.
A questo punto confronto la tabella delle frequenze teoriche con quella delle frequenze osservate. Le frequenze
teoriche sono diverse da quelle osservate, quindi concludo che i caratteri Titolo di Studio e Tempo Libero non
sono indipendenti. Un indice che misura il grado di connessione tra due caratteri qualitativi è l’indice E
)
di
Pearson:
)
OQ
OQ
)
OQ
O Q
L’indice assume valore 0 in caso di indipendenza mentre tende a crescere al crescere del grado di connessione tra
i caratteri.
Per agevolare i calcoli dell’indice di Pearson posso costruire la seguente tabella dove ogni cella contiene la
differenza al quadrato tra frequenze osservate e teoriche diviso la corrispondente frequenza teorica:
Esercizio 3. Misura dell’indipendenza in media tra caratteri
In un collettivo di giovani si è osservato l’atteggiamento verso il fumo per classi di età ottenendo la seguente
distribuzione di frequenze:
Y= Età (classi) Fuma Non Fuma
Quesiti:
Soluzione Q. 1
Dati due caratteri X qualitativo e Y quantitativo si dice che Y è indipendente in media da X se alla variare delle
modalità della X le medie delle distribuzioni condizionate di Y rimangono costanti, ovvero:
>(K|e = f
D
) = /(g|e = f
:
) … /(g|e = f
i
) = /(g)
Nota: indipendenza in distribuzione →indipendenza in media (ma non vice-versa)
Distribuzione congiunta della variabile Età rispetto all’abitudine al fumo
Y= Età (classi) '
"
=valore centrale
Fuma Non Fuma Totale
Totale 66 53 119
Indichiamo con n
j
il totale dei soggetti fumatori e con n
kj
il totale dei soggetti non fumatori. La media
condizionata di Y dato che X=fuma è pari a:
l|mCnopq
n
?
K
r
?CD
?D
La media condizionata di Y dato che X=non fuma è pari a:
J|abcdR nopq
Bn
?
K
sr
?CD
?:
La media generale è pari a:
?
?.
K
?CD
Le medie di Y condizionate alle modalità di X non sono costanti e sono diverse dalla media generale. Tra i due
caratteri non esiste indipendenza in media.
Soluzione Q.
Il rapporto di correlazione tra Y e X rappresenta l’indice η
:
di Pearson, nel nostro caso definito nel modo
seguente:
η
O|a
)
e@f
g+hi++R
e@f
hdh
#|abI
T
)
k
Qb
.Q
∑ ∑ (l
O
)
O Q
O.
E’ un indice normalizzato che varia tra 0 (massima indipendenza in media) a 1 (massima dipendenza in media)
L’indice descrive quanta parte della devianza totale è spiegata dalla variabilità delle medie parziali rispetto alla
media generale. In caso di massima dipendenza in media la devianza totale coincide con la devianza esterna per
cui la variabilità del fenomeno è unicamente spiegata dalla variabilità delle medie condizionate rispetto alla media
generale. Allo stesso modo, se X e Y sono perfettamente indipendenti in media, la devianza complessiva coincide
con la varianza interna ai gruppi essendo la devianza esterna esattamente pari a zero (in caso di indipendenza, le
medie condizionate saranno tutte costanti e la variabilità ad esse associata sarà quindi nulla).
Per comodità, calcoliamo la devianza esterna ai gruppi:
e@f
g+hi++R
#|abI T
)
Q
.Q
)
)
La devianza totale è pari a:
e@f hdh
l
O
)
O Q
O.
Appendice
Il boxplot e la gestione dei valori anomali
Consideriamo la seguente tabella di frequenza relativa alla variabile X=punteggio all’esonero per un collettivo di
31 studenti
X=punteggio p
q
r
q
s
q
t
q
Totale (n) 31 1
Il grafico a scatola (box-plot) è una particolare rappresentazione di una distribuzione. E’ottenuto a partire da 5
numeri di sintesi: minimo, 1° quartile (Q1), mediana, 3° quartile (Q3), massimo.
Il box plot o diagramma a scatola e baffi si ottiene riportando su un asse verticale (oppure orizzontale) i 5 numeri
di sintesi. La scatola del box plot ha come estremi inferiore e superiore rispettivamente Q1 e Q3. La differenza
tra Q3 e Q1 costituisce il campo di variazione interquartile, indicato con CVI=Q3-Q1. La mediana divide la
scatola in due parti. I baffi si ottengono congiungendo Q1 al minimo osservato e Q3 al massimo osservato nella
distribuzione della variabile di interesse.
Dati (sintesi a 5):
Min(x) u
v
u
w
u
x
Max(x)
yz{ = | 3
4
La distanza tra il terzo ed il primo quartile (CVI), è una misura della dispersione della distribuzione. Il 50% delle
osservazioni si trovano comprese tra questi due valori. Se il campo di variazione interquartile è piccolo, tale metà
delle osservazioni si trova fortemente concentrata intorno alla mediana; all'aumentare della distanza
interquartilica aumenta la dispersione del 50% delle osservazioni centrali intorno alla mediana.
Le distanze tra ciascun quartile e la mediana forniscono informazioni relativamente alla forma della distribuzione.
Se una distanza è diversa dall'altra allora la distribuzione è asimmetrica (vedi indice di Yule-Bowley che sfrutta
proprio queste considerazioni).
Rappresentiamo mediante il boxplot variabile X oggetto di studio.
Grafico 1. Boxplot variabile X
La rappresentazione evidenzia la presenza di un valore anomalo. I valori anomali (distanti rispetto a tutti gli altri
valori che caratterizzano la distribuzione) vengono determinati dal confronto con il campo di variazione
interquartile. In particolare vengono considerate due soglie:
4
3
4
3
3
4
I valori al di fuori di queste soglie, costituiscono appunto un’ "anomalia" rispetto alla maggior parte dei valori
osservati e pertanto è necessario non solo identificarli ma anche analizzarne le caratteristiche e le eventuali cause
che li hanno determinati. Essi infatti forniscono informazioni ulteriori sulla dispersione e sulla forma della
distribuzione.
Nota operativa per non confondersi: nel boxplot, i baffi vengono tracciati congiungendo, rispettivamente, il minimo
valore osservato (non anomalo) al primo quartile e il massimo valore osservato (non anomalo) al terzo quartile
della distribuzione ordinata di X. Nel nostro caso, il massimo valore osservato a sinistra della soglia è 31.5 mentre
il minimo osservato sempre rispetto alla soglia è 19.5. In sostanza, i baffi individuano gli intervalli in cui sono
posizionati i valori rispettivamente minori di Q1 e maggiori di Q3; i punti estremi dei "baffi" evidenziano i limiti
ovvero i valori di minimo e massimo propri della distribuzione. Il confronto di un valore particolarmente
distante rispetto alle soglie consente di individuare i valori esterni a questi limiti. Questi ultimi costituiscono