Docsity
Docsity

Prepara i tuoi esami
Prepara i tuoi esami

Studia grazie alle numerose risorse presenti su Docsity


Ottieni i punti per scaricare
Ottieni i punti per scaricare

Guadagna punti aiutando altri studenti oppure acquistali con un piano Premium


Guide e consigli
Guide e consigli


Esercizi statistica marini, Esercizi di Statistica Descrittiva

esercizi per il compito di statistica con la marini

Tipologia: Esercizi

2020/2021

Caricato il 24/05/2021

chris-noe
chris-noe 🇮🇹

4

(2)

11 documenti

1 / 15

Toggle sidebar

Questa pagina non è visibile nell’anteprima

Non perderti parti importanti!

bg1
1
CORSO DI STATISTICA (parte 1) - ESERCITAZIONE 5
Dott.ssa Antonella Costanzo
Indici di forma, distribuzioni doppie di frequenza e studio del legame tra variabili
Il seguente data set riporta la rilevazione di alcuni caratteri su un collettivo di 20 studenti
Studente
Sesso
Età
Red
Istituto di provenienza
Voto al diploma
Statura (cm)
Colore occhi
Voto
esame
Giud.
sul
corso
1 M 22
0,7
ITC
96
173
Nero
26
Pessimo
2 F 20
0,2
Liceo Classico
92
168
Marrone
26
Ottimo
3 F 30
1,6
Liceo Classico
90
165
Marrone
30
Buono
4 M 22
2,5
Liceo Scient
85
180
Nero
25
Buono
5 F 26
3,2
ITI
100
163
Azzurro
30
Pessimo
6 F 20
0,5
ITC
74
160
Nero
24
Pessimo
7 M 26
4,2
Liceo Scient
60
177
Marrone
20
Suff
8 M 30
1,3
ITC
76
164
Verde
18
Ottimo
9 F 27
1,2
Liceo Scient
100
158
Azzurro
29
Ottimo
10 F 25
1,7
ITI
95
170
Nero
25
Pessimo
11 F 25
1,9
ITI
85
167
Nero
25
Buono
12 M 22
0,7
ITC
97
159
Marrone
27
Buono
13 F 21
0,4
Liceo Classico
65
174
Azzurro
21
Ottimo
14 F 24
1,8
Liceo Scient
70
164
Verde
30
Suff
15 M 20
1,9
Liceo Scient
80
177
Nero
28
Suff
16 F 21
3,2
Liceo Classico
93
172
Nero
27
Pessimo
17 F 27
2,1
ITC
100
166
Marrone
26
Suff
18 F 22
0,1
ITI
84
160
Marrone
24
Buono
19 M 23
1,6
Liceo Scient
92
170
Azzurro
27
Ottimo
20 F 23
2,2
Liceo Scient
73
184
Verde
23
Buono
Esercizio 1. Il boxplot e gli indici di forma
1. Rappresentare graficamente, attraverso il boxplot, la distribuzione della variabile X=Voto all’esame
condizionata al Sesso degli studenti. Commentare i risultati ottenuti.
2. Relativamente alla variabile Età organizzata in classi calcolare:
- l’indice di asimmetria di Fisher
- l’indice di Yule-Bowley
- l’indice di Hotelling-Solomon
pf3
pf4
pf5
pf8
pf9
pfa
pfd
pfe
pff

Anteprima parziale del testo

Scarica Esercizi statistica marini e più Esercizi in PDF di Statistica Descrittiva solo su Docsity!

CORSO DI STATISTICA (parte 1) - ESERCITAZIONE 5

Dott.ssa Antonella Costanzo

[email protected]

Indici di forma, distribuzioni doppie di frequenza e studio del legame tra variabili

Il seguente data set riporta la rilevazione di alcuni caratteri su un collettivo di 20 studenti

Studente Sesso Età Red Istituto di provenienza Voto al diploma Statura (cm) Colore occhi Voto

esame

Giud.

sul

corso

1 M 22 0,7 ITC 96 173 Nero 26 Pessimo

2 F 20 0,2 Liceo Classico 92 168 Marrone 26 Ottimo

3 F 30 1,6 Liceo Classico 90 165 Marrone 30 Buono

4 M 22 2,5 Liceo Scient 85 180 Nero 25 Buono

5 F 26 3,2 ITI 100 163 Azzurro 30 Pessimo

6 F 20 0,5 ITC 74 160 Nero 24 Pessimo

7 M 26 4,2 Liceo Scient 60 177 Marrone 20 Suff

8 M 30 1,3 ITC 76 164 Verde 18 Ottimo

9 F 27 1,2 Liceo Scient 100 158 Azzurro 29 Ottimo

10 F 25 1,7 ITI 95 170 Nero 25 Pessimo

11 F 25 1,9 ITI 85 167 Nero 25 Buono

12 M 22 0,7 ITC 97 159 Marrone 27 Buono

13 F 21 0,4 Liceo Classico 65 174 Azzurro 21 Ottimo

14 F 24 1,8 Liceo Scient 70 164 Verde 30 Suff

15 M 20 1,9 Liceo Scient 80 177 Nero 28 Suff

16 F 21 3,2 Liceo Classico 93 172 Nero 27 Pessimo

17 F 27 2,1 ITC 100 166 Marrone 26 Suff

18 F 22 0,1 ITI 84 160 Marrone 24 Buono

19 M 23 1,6 Liceo Scient 92 170 Azzurro 27 Ottimo

20 F 23 2,2 Liceo Scient 73 184 Verde 23 Buono

Esercizio 1. Il boxplot e gli indici di forma

  1. Rappresentare graficamente, attraverso il boxplot, la distribuzione della variabile X=Voto all’esame

condizionata al Sesso degli studenti. Commentare i risultati ottenuti.

  1. Relativamente alla variabile Età organizzata in classi calcolare:
    • l’indice di asimmetria di Fisher
    • l’indice di Yule-Bowley
    • l’indice di Hotelling-Solomon

Soluzione Q.

Distribuzione del carattere Voto all’esame rispetto al Sesso

Dati per costruire i boxplot (sintesi a cinque):

statistiche di sintesi Voto Esame condizionato a Sesso=F

  • Min=

- Q1=

  • Me=

- Q3=

  • Max=

statistiche di sintesi Voto Esame condizionato a Sesso=M

  • Min=

- Q1=

  • Me=

- Q3=

  • Max=

Y=Voto esame|X=F !

"

"

"

"

Totale (n) 13 1

Y=Voto esame|X=M

!

"

&

"

&

"

&

"

&

Totale (n) 7 1

Soluzione Q.

Partendo dalla distribuzione in classi del carattere Età calcoliamo l’indice di Fisher:

Y=Età (classi) '

"

"

"

"

"

(

"

"

"

.

"

(19, 22] 20.5 9 184.5 3782.25 - 2.775 - 7.

(22, 24] 23 3 69 1587 - 0.275 - 0.

(24, 26] 25 4 100 2500 1.725 0.

(26,28] 27 2 54 1458 3.725 3.

(28, 30] 29 2 58 1682 5.725 14.

:

?

:

∗ A

?

B

?CD

:

:

G

:

Indice di Fisher:

I =

?

J

K

?CD

A

?

I = 0 asimmetria nulla

I > 0 asimmetria positiva! nel nostro caso, asimmetria positiva per il carattere Età

I < 0 asimmetria negativa

Indice di Yule-Bowley

N

OP

(Q

J

− RS) − (RS − Q

D

(Q

J

− RS) + (RS − Q

D

Q

J

− 2RS + Q

D

Q

J

− Q

D

Questo indice si basa sul confronto tra i quartili e si concentra sugli sbilanciamenti che si verificano tra le

modalità comprese nel 50% centrale della distribuzione

N

OP

= 0 simmetria

N

OP

< 0 asimmetria negativa, quindi dominano valori medio alti

N

OP

> 0 asimmetria positiva, quindi dominano valori medio bassi

Nel nostro caso per la variabile Età:

Y=Età (classi) '

"

"

"

"

(19, 22] 20.5 9 0.45 0.

(22, 24] 23 3 0.15 0.

(24, 26] 25 4 0.20 0.

(26,28] 27 2 0.1 0.

(28, 30] 29 2 0.1 1

Q1=20.

Mediana=22.

Q3=25.

#$

&

'

()*+,&

&

'

(&

)...()∗)).11,)2.

)...()2.

2..

..

= 0.098 asimmetria positiva

Nota: L’indice di YB è relativo ed è anche standardizzato ossia −1 ≤ " #$

Il massimo negativo (valore pari a -1) è ottenuto per le distribuzione asimmetriche negative mentre il massimo

positivo (valore pari a 1) è raggiunto da distribuzioni asimmetriche positive

Indice di Hotelling-Solomon

A

Questo indice si basa sul concetto che, data una distribuzione unimodale,

  1. se la distribuzione è simmetrica: Media=Mediana
  2. Se la distribuzione è asimmetrica positiva: Media>Mediana
  3. Se la distribuzione è asimmetrica negativa: Media Quindi, dati due caratteri qualitativi Y e X, organizzati in una tabella doppia di frequenze dove i valori di X sono

disposti per riga e i valori di Y in colonna, si può affermare che Y è indipendente in distribuzione da X se i profili

colonna (distribuzioni condizionate di Y/X in frequenze relative) sono uguali tra loro e uguali al profilo medio di

Y. Analogamente ciò è vero anche per i profili riga.

Nota: si può dimostrare che dati due caratteri qualitativi (X e Y) organizzati in una tabella doppia di frequenze

dove i valori di X sono disposti per riga e i valori di Y in colonna, il profilo medio di Y può essere ottenuto come

media ponderata delle distribuzioni condizionate di Y rispetto ai valori di X utilizzando come pesi i marginali di

riga (profilo medio riga di X). Allo stesso modo, si può dimostrare che il profilo medio di X può essere ottenuto

come media ponderata delle distribuzioni condizionate di X rispetto ai valori di Y utilizzando come pesi i

marginali di colonna (profilo medio colonna di Y). Nel nostro caso :

Tabella 2. Distribuzione condizionata di Y=Tempo libero rispetto alle modalità di X=Titolo di Studio

U

.

E cosi via per le altre frequenze del profilo medio:

• U

.)

= (0.12)* 0.213+(0.232)0.532+(0.292)0.255=0.223 etc.

Siccome, in caso di indipendenza assoluta tra X e Y deve valere la seguente:

V

OQ

V

O.

V

.Q

V

da un punto di vista operativo, i due caratteri X e Y si dicono indipendenti (in distribuzione) se le frequenze

osservate sono uguali alle cosiddette frequenze teoriche per ogni cella (i, j) della distribuzione doppia.

Frequenze teoriche (sotto ipotesi di indipendenza): VW

OQ

R

S.

R

.T

R

Y=Tempo libero

X=Titolo di studio

Cinema Teatro Musica Sport Totale Profilo medio fi.

(distribuzione marginale di riga)

Lic.media 0.25 0.12 0.18 0.45 1 0.

Diploma 0.304 0.232 0.196 0.268 1 0.

Laurea 0.325 0.292 0.292 0.091 1 0.

Profilo medio f.j

(distribuzione marginale di colonna) 0.298 0.223 0.217 0.262 1

Tabella teorica (ipotesi di indipendenza)

Tempo libero

Titolo di studio

Cinema Teatro Musica Sport Totale (ni.)

Lic.media 29.79 2 2.34 21.70 26.17 100

Diploma 74.47 55.85 54.26 65.43 250

Laurea 35.74 26.81 26.04 31.40 120

Totale (n.j) 140 105 102 123 470

Es. calcoli

V

44

V

)

V

34

..e cosi via fino a riempire tutte le altre celle.

A questo punto confronto la tabella delle frequenze teoriche con quella delle frequenze osservate. Le frequenze

teoriche sono diverse da quelle osservate, quindi concludo che i caratteri Titolo di Studio e Tempo Libero non

sono indipendenti. Un indice che misura il grado di connessione tra due caratteri qualitativi è l’indice E

)

di

Pearson:

E

)

= [ [

(V

OQ

− VW

OQ

)

VW

OQ

O Q

L’indice assume valore 0 in caso di indipendenza mentre tende a crescere al crescere del grado di connessione tra

i caratteri.

Per agevolare i calcoli dell’indice di Pearson posso costruire la seguente tabella dove ogni cella contiene la

differenza al quadrato tra frequenze osservate e teoriche diviso la corrispondente frequenza teorica:

Esercizio 3. Misura dell’indipendenza in media tra caratteri

In un collettivo di giovani si è osservato l’atteggiamento verso il fumo per classi di età ottenendo la seguente

distribuzione di frequenze:

Y= Età (classi) Fuma Non Fuma

[16, 18] 7 16

(18, 22] 8 18

(22, 25] 21 9

(25, 30] 30 10

Quesiti:

  1. Verificare se esiste indipendenza in media tra l’età e l’abitudine al fumo
  2. Calcolare il rapporto di correlazione dell’età all’atteggiamento verso il fumo

Soluzione Q. 1

Dati due caratteri X qualitativo e Y quantitativo si dice che Y è indipendente in media da X se alla variare delle

modalità della X le medie delle distribuzioni condizionate di Y rimangono costanti, ovvero:

>(K|e = f

D

) = /(g|e = f

:

) … /(g|e = f

i

) = /(g)

Nota: indipendenza in distribuzione →indipendenza in media (ma non vice-versa)

Distribuzione congiunta della variabile Età rispetto all’abitudine al fumo

Y= Età (classi) '

"

=valore centrale

Fuma Non Fuma Totale

[16, 18] 17 7 16 23

(18, 22] 20 8 18 26

(22, 25] 23.5 21 9 30

(25, 30] 27.5 30 10 40

Totale 66 53 119

Indichiamo con n

j

il totale dei soggetti fumatori e con n

kj

il totale dei soggetti non fumatori. La media

condizionata di Y dato che X=fuma è pari a:

l|mCnopq

A

n

?

K

r

?CD

∗ A

?D

La media condizionata di Y dato che X=non fuma è pari a:

J|abcdR nopq

A

Bn

?

K

sr

?CD

∗ A

?:

La media generale è pari a:

?

∗ A

?.

K

?CD

Le medie di Y condizionate alle modalità di X non sono costanti e sono diverse dalla media generale. Tra i due

caratteri non esiste indipendenza in media.

Soluzione Q.

Il rapporto di correlazione tra Y e X rappresenta l’indice η

:

di Pearson, nel nostro caso definito nel modo

seguente:

η

O|a

)

e@f

g+hi++R

e@f

hdh

#|abI

T

)

k

Qb

V

.Q

∑ ∑ (l

O

)

O Q

V

O.

E’ un indice normalizzato che varia tra 0 (massima indipendenza in media) a 1 (massima dipendenza in media)

L’indice descrive quanta parte della devianza totale è spiegata dalla variabilità delle medie parziali rispetto alla

media generale. In caso di massima dipendenza in media la devianza totale coincide con la devianza esterna per

cui la variabilità del fenomeno è unicamente spiegata dalla variabilità delle medie condizionate rispetto alla media

generale. Allo stesso modo, se X e Y sono perfettamente indipendenti in media, la devianza complessiva coincide

con la varianza interna ai gruppi essendo la devianza esterna esattamente pari a zero (in caso di indipendenza, le

medie condizionate saranno tutte costanti e la variabilità ad esse associata sarà quindi nulla).

Per comodità, calcoliamo la devianza esterna ai gruppi:

e@f

g+hi++R

= [(>

#|abI T

)

Q

∗ V

.Q

)

)

La devianza totale è pari a:

e@f hdh

= [ [

l

O

)

O Q

∗ V

O.

Appendice

Il boxplot e la gestione dei valori anomali

Consideriamo la seguente tabella di frequenza relativa alla variabile X=punteggio all’esonero per un collettivo di

31 studenti

X=punteggio p

q

r

q

s

q

t

q

Totale (n) 31 1

Il grafico a scatola (box-plot) è una particolare rappresentazione di una distribuzione. E’ottenuto a partire da 5

numeri di sintesi: minimo, 1° quartile (Q1), mediana, 3° quartile (Q3), massimo.

Il box plot o diagramma a scatola e baffi si ottiene riportando su un asse verticale (oppure orizzontale) i 5 numeri

di sintesi. La scatola del box plot ha come estremi inferiore e superiore rispettivamente Q1 e Q3. La differenza

tra Q3 e Q1 costituisce il campo di variazione interquartile, indicato con CVI=Q3-Q1. La mediana divide la

scatola in due parti. I baffi si ottengono congiungendo Q1 al minimo osservato e Q3 al massimo osservato nella

distribuzione della variabile di interesse.

Dati (sintesi a 5):

Min(x) u

v

u

w

u

x

Max(x)

yz{ = | 3

4

La distanza tra il terzo ed il primo quartile (CVI), è una misura della dispersione della distribuzione. Il 50% delle

osservazioni si trovano comprese tra questi due valori. Se il campo di variazione interquartile è piccolo, tale metà

delle osservazioni si trova fortemente concentrata intorno alla mediana; all'aumentare della distanza

interquartilica aumenta la dispersione del 50% delle osservazioni centrali intorno alla mediana.

Le distanze tra ciascun quartile e la mediana forniscono informazioni relativamente alla forma della distribuzione.

Se una distanza è diversa dall'altra allora la distribuzione è asimmetrica (vedi indice di Yule-Bowley che sfrutta

proprio queste considerazioni).

Rappresentiamo mediante il boxplot variabile X oggetto di studio.

Grafico 1. Boxplot variabile X

La rappresentazione evidenzia la presenza di un valore anomalo. I valori anomali (distanti rispetto a tutti gli altri

valori che caratterizzano la distribuzione) vengono determinati dal confronto con il campo di variazione

interquartile. In particolare vengono considerate due soglie:

  • il valore al di sotto del quale una modalità viene considerata outlier:

4

3

4

  • il valore al di sopra del quale una modalità viene considerata outlier:

3

3

4

I valori al di fuori di queste soglie, costituiscono appunto un’ "anomalia" rispetto alla maggior parte dei valori

osservati e pertanto è necessario non solo identificarli ma anche analizzarne le caratteristiche e le eventuali cause

che li hanno determinati. Essi infatti forniscono informazioni ulteriori sulla dispersione e sulla forma della

distribuzione.

Nota operativa per non confondersi: nel boxplot, i baffi vengono tracciati congiungendo, rispettivamente, il minimo

valore osservato (non anomalo) al primo quartile e il massimo valore osservato (non anomalo) al terzo quartile

della distribuzione ordinata di X. Nel nostro caso, il massimo valore osservato a sinistra della soglia è 31.5 mentre

il minimo osservato sempre rispetto alla soglia è 19.5. In sostanza, i baffi individuano gli intervalli in cui sono

posizionati i valori rispettivamente minori di Q1 e maggiori di Q3; i punti estremi dei "baffi" evidenziano i limiti

ovvero i valori di minimo e massimo propri della distribuzione. Il confronto di un valore particolarmente

distante rispetto alle soglie consente di individuare i valori esterni a questi limiti. Questi ultimi costituiscono