Prepara i tuoi esami
Ottieni punti
Guide e consigli
Vendi su Docsity
Docsity AI

Prepara i tuoi esami

Studia grazie alle numerose risorse presenti su Docsity

Ottieni i punti per scaricare

Guadagna punti aiutando altri studenti oppure acquistali con un piano Premium

Guide e consigli

Vendi su Docsity

Docsity AI

Accedi Registrati

Prepara i tuoi esami

Studia grazie alle numerose risorse presenti su Docsity

Cerca documenti

Prepara i tuoi esami con i documenti condivisi da studenti come te su Docsity

Cerca la tua università

Trova i documenti specifici per gli esami della tua università

Video Corsi

Preparati con lezioni e prove svolte basate sui programmi universitari!

Quiz

Rispondi a reali domande d’esame e scopri la tua preparazione

Docsity AINEW

Riassumi i tuoi documenti, fagli domande, convertili in quiz e mappe concettuali

Maturità 2026

Studia con prove svolte, tesine e consigli utili

Esplora domande

Togliti ogni dubbio leggendo le risposte alle domande fatte da altri studenti come te

Argomenti di studio

Esplora i documenti più scaricati per gli argomenti di studio più popolari

Ottieni i punti per scaricare

Guadagna punti aiutando altri studenti oppure acquistali con un piano Premium

Condividi documenti

20 Punti

Per ogni documento caricato

Rispondi alle domande

5 Punti

per ogni risposta data (max 1 al giorno)

Tutti i modi per ottenere punti gratis

Ottieni punti subito

Scegli un piano Premium con tutti i punti di cui hai bisogno

Opportunità di studio

Scegli il tuo prossimo programma di studio

Entra in contatto con le migliori università del mondo e scegli il tuo percorso di studi

Classifica delle migliori università

Scopri le migliori università italiane secondo gli studenti

Community

Chiedi alla community

Chiedi aiuto alla community e sciogli i tuoi dubbi legati allo studio

Guide Gratuite

I nostri eBook salva studente

Scarica gratuitamente le nostre guide sulle tecniche di studio, metodi per gestire l'ansia, dritte per la tesi realizzati da tutor Docsity

Esercizi statistica marini, Esercizi di Statistica Descrittiva

Università degli Studi di Napoli Federico II (UNINA)Statistica Descrittiva

esercizi per il compito di statistica con la marini

Tipologia: Esercizi

2020/2021

Caricato il 24/05/2021

chris-noe 🇮🇹

4

(2)

11 documenti

1 / 15

Questa pagina non è visibile nell’anteprima

Non perderti parti importanti!

1

CORSO DI STATISTICA (parte 1) - ESERCITAZIONE 5

Dott.ssa Antonella Costanzo

[email protected]

Indici di forma, distribuzioni doppie di frequenza e studio del legame tra variabili

Il seguente data set riporta la rilevazione di alcuni caratteri su un collettivo di 20 studenti

Studente

Sesso

Età

Red

Istituto di provenienza

Voto al diploma

Statura (cm)

Colore occhi

Voto

esame

Giud.

sul

corso

1 M 22

0,7

ITC

96

173

Nero

26

Pessimo

2 F 20

0,2

Liceo Classico

92

168

Marrone

26

Ottimo

3 F 30

1,6

Liceo Classico

90

165

Marrone

30

Buono

4 M 22

2,5

Liceo Scient

85

180

Nero

25

Buono

5 F 26

3,2

ITI

100

163

Azzurro

30

Pessimo

6 F 20

0,5

ITC

74

160

Nero

24

Pessimo

7 M 26

4,2

Liceo Scient

60

177

Marrone

20

Suff

8 M 30

1,3

ITC

76

164

Verde

18

Ottimo

9 F 27

1,2

Liceo Scient

100

158

Azzurro

29

Ottimo

10 F 25

1,7

ITI

95

170

Nero

25

Pessimo

11 F 25

1,9

ITI

85

167

Nero

25

Buono

12 M 22

0,7

ITC

97

159

Marrone

27

Buono

13 F 21

0,4

Liceo Classico

65

174

Azzurro

21

Ottimo

14 F 24

1,8

Liceo Scient

70

164

Verde

30

Suff

15 M 20

1,9

Liceo Scient

80

177

Nero

28

Suff

16 F 21

3,2

Liceo Classico

93

172

Nero

27

Pessimo

17 F 27

2,1

ITC

100

166

Marrone

26

Suff

18 F 22

0,1

ITI

84

160

Marrone

24

Buono

19 M 23

1,6

Liceo Scient

92

170

Azzurro

27

Ottimo

20 F 23

2,2

Liceo Scient

73

184

Verde

23

Buono

Esercizio 1. Il boxplot e gli indici di forma

1. Rappresentare graficamente, attraverso il boxplot, la distribuzione della variabile X=Voto all’esame

condizionata al Sesso degli studenti. Commentare i risultati ottenuti.

2. Relativamente alla variabile Età organizzata in classi calcolare:

- l’indice di asimmetria di Fisher

- l’indice di Yule-Bowley

- l’indice di Hotelling-Solomon

Scopri Esercizi di Statistica Descrittiva Università degli Studi di Napoli Federico II (UNINA)

Documenti correlati

Esercizi statistica descrittiva

Esercizi statistica 2 edizione

ESERCIZI DI STATISTICA DESCRITTIVA

esercizi statistica

Statistica medica esercizi

Esercizi svolti di statistica descrittiva

esercizi marini stat

Esercizi statistica

Statistica esercizi probabilità

statistica esercizi esame

Esercizi statistica descrittiva

Anteprima parziale del testo

Scarica Esercizi statistica marini e più Esercizi in PDF di Statistica Descrittiva solo su Docsity!

CORSO DI STATISTICA (parte 1) - ESERCITAZIONE 5

Dott.ssa Antonella Costanzo

[email protected]

Indici di forma, distribuzioni doppie di frequenza e studio del legame tra variabili

Il seguente data set riporta la rilevazione di alcuni caratteri su un collettivo di 20 studenti

Studente Sesso Età Red Istituto di provenienza Voto al diploma Statura (cm) Colore occhi Voto

esame

Giud.

sul

corso

1 M 22 0,7 ITC 96 173 Nero 26 Pessimo

2 F 20 0,2 Liceo Classico 92 168 Marrone 26 Ottimo

3 F 30 1,6 Liceo Classico 90 165 Marrone 30 Buono

4 M 22 2,5 Liceo Scient 85 180 Nero 25 Buono

5 F 26 3,2 ITI 100 163 Azzurro 30 Pessimo

6 F 20 0,5 ITC 74 160 Nero 24 Pessimo

7 M 26 4,2 Liceo Scient 60 177 Marrone 20 Suff

8 M 30 1,3 ITC 76 164 Verde 18 Ottimo

9 F 27 1,2 Liceo Scient 100 158 Azzurro 29 Ottimo

10 F 25 1,7 ITI 95 170 Nero 25 Pessimo

11 F 25 1,9 ITI 85 167 Nero 25 Buono

12 M 22 0,7 ITC 97 159 Marrone 27 Buono

13 F 21 0,4 Liceo Classico 65 174 Azzurro 21 Ottimo

14 F 24 1,8 Liceo Scient 70 164 Verde 30 Suff

15 M 20 1,9 Liceo Scient 80 177 Nero 28 Suff

16 F 21 3,2 Liceo Classico 93 172 Nero 27 Pessimo

17 F 27 2,1 ITC 100 166 Marrone 26 Suff

18 F 22 0,1 ITI 84 160 Marrone 24 Buono

19 M 23 1,6 Liceo Scient 92 170 Azzurro 27 Ottimo

20 F 23 2,2 Liceo Scient 73 184 Verde 23 Buono

Esercizio 1. Il boxplot e gli indici di forma

Rappresentare graficamente, attraverso il boxplot, la distribuzione della variabile X=Voto all’esame

condizionata al Sesso degli studenti. Commentare i risultati ottenuti.

Relativamente alla variabile Età organizzata in classi calcolare:
- l’indice di asimmetria di Fisher
- l’indice di Yule-Bowley
- l’indice di Hotelling-Solomon

Soluzione Q.

Distribuzione del carattere Voto all’esame rispetto al Sesso

Dati per costruire i boxplot (sintesi a cinque):

statistiche di sintesi Voto Esame condizionato a Sesso=F

Min=

- Q1=

Me=

- Q3=

Max=

statistiche di sintesi Voto Esame condizionato a Sesso=M

Min=

- Q1=

Me=

- Q3=

Max=

Y=Voto esame|X=F !

"

Totale (n) 13 1

Y=Voto esame|X=M

!

"

&

"

&

"

&

"

&

Totale (n) 7 1

Soluzione Q.

Partendo dalla distribuzione in classi del carattere Età calcoliamo l’indice di Fisher:

Y=Età (classi) '

"

(

"

.

"

(19, 22] 20.5 9 184.5 3782.25 - 2.775 - 7.

(22, 24] 23 3 69 1587 - 0.275 - 0.

(24, 26] 25 4 100 2500 1.725 0.

(26,28] 27 2 54 1458 3.725 3.

(28, 30] 29 2 58 1682 5.725 14.

:

?

:

∗ A

?

B

?CD

:

G

:

Indice di Fisher:

I =

?

J

K

?CD

A

?

I = 0 asimmetria nulla

I > 0 asimmetria positiva! nel nostro caso, asimmetria positiva per il carattere Età

I < 0 asimmetria negativa

Indice di Yule-Bowley

N

OP

(Q

J

− RS) − (RS − Q

D

(Q

J

− RS) + (RS − Q

D

Q

J

− 2RS + Q

D

Q

J

− Q

D

Questo indice si basa sul confronto tra i quartili e si concentra sugli sbilanciamenti che si verificano tra le

modalità comprese nel 50% centrale della distribuzione

N

OP

= 0 simmetria

N

OP

< 0 asimmetria negativa, quindi dominano valori medio alti

N

OP

> 0 asimmetria positiva, quindi dominano valori medio bassi

Nel nostro caso per la variabile Età:

Y=Età (classi) '

"

(19, 22] 20.5 9 0.45 0.

(22, 24] 23 3 0.15 0.

(24, 26] 25 4 0.20 0.

(26,28] 27 2 0.1 0.

(28, 30] 29 2 0.1 1

Q1=20.

Mediana=22.

Q3=25.

#$

&

'

()*+,&

&

'

(&

)...()∗)).11,)2.

)...()2.

2..

..

= 0.098 asimmetria positiva

Nota: L’indice di YB è relativo ed è anche standardizzato ossia −1 ≤ " #$

Il massimo negativo (valore pari a -1) è ottenuto per le distribuzione asimmetriche negative mentre il massimo

positivo (valore pari a 1) è raggiunto da distribuzioni asimmetriche positive

Indice di Hotelling-Solomon

A

Questo indice si basa sul concetto che, data una distribuzione unimodale,

se la distribuzione è simmetrica: Media=Mediana
Se la distribuzione è asimmetrica positiva: Media>Mediana
Se la distribuzione è asimmetrica negativa: Media Quindi, dati due caratteri qualitativi Y e X, organizzati in una tabella doppia di frequenze dove i valori di X sono

disposti per riga e i valori di Y in colonna, si può affermare che Y è indipendente in distribuzione da X se i profili

colonna (distribuzioni condizionate di Y/X in frequenze relative) sono uguali tra loro e uguali al profilo medio di

Y. Analogamente ciò è vero anche per i profili riga.

Nota: si può dimostrare che dati due caratteri qualitativi (X e Y) organizzati in una tabella doppia di frequenze

dove i valori di X sono disposti per riga e i valori di Y in colonna, il profilo medio di Y può essere ottenuto come

media ponderata delle distribuzioni condizionate di Y rispetto ai valori di X utilizzando come pesi i marginali di

riga (profilo medio riga di X). Allo stesso modo, si può dimostrare che il profilo medio di X può essere ottenuto

come media ponderata delle distribuzioni condizionate di X rispetto ai valori di Y utilizzando come pesi i

marginali di colonna (profilo medio colonna di Y). Nel nostro caso :

Tabella 2. Distribuzione condizionata di Y=Tempo libero rispetto alle modalità di X=Titolo di Studio

U

.

E cosi via per le altre frequenze del profilo medio:

• U

.)

= (0.12)* 0.213+(0.232)0.532+(0.292)0.255=0.223 etc.

Siccome, in caso di indipendenza assoluta tra X e Y deve valere la seguente:

V

OQ

V

O.

V

.Q

V

da un punto di vista operativo, i due caratteri X e Y si dicono indipendenti (in distribuzione) se le frequenze

osservate sono uguali alle cosiddette frequenze teoriche per ogni cella (i, j) della distribuzione doppia.

Frequenze teoriche (sotto ipotesi di indipendenza): VW

OQ

R

S.

R

.T

R

Y=Tempo libero

X=Titolo di studio

Cinema Teatro Musica Sport Totale Profilo medio fi.

(distribuzione marginale di riga)

Lic.media 0.25 0.12 0.18 0.45 1 0.

Diploma 0.304 0.232 0.196 0.268 1 0.

Laurea 0.325 0.292 0.292 0.091 1 0.

Profilo medio f.j

(distribuzione marginale di colonna) 0.298 0.223 0.217 0.262 1

Tabella teorica (ipotesi di indipendenza)

Tempo libero

Titolo di studio

Cinema Teatro Musica Sport Totale (ni.)

Lic.media 29.79 2 2.34 21.70 26.17 100

Diploma 74.47 55.85 54.26 65.43 250

Laurea 35.74 26.81 26.04 31.40 120

Totale (n.j) 140 105 102 123 470

Es. calcoli

V

44

V

)

V

34

..e cosi via fino a riempire tutte le altre celle.

A questo punto confronto la tabella delle frequenze teoriche con quella delle frequenze osservate. Le frequenze

teoriche sono diverse da quelle osservate, quindi concludo che i caratteri Titolo di Studio e Tempo Libero non

sono indipendenti. Un indice che misura il grado di connessione tra due caratteri qualitativi è l’indice E

)

di

Pearson:

E

)

= [ [

(V

OQ

− VW

OQ

)

VW

OQ

O Q

L’indice assume valore 0 in caso di indipendenza mentre tende a crescere al crescere del grado di connessione tra

i caratteri.

Per agevolare i calcoli dell’indice di Pearson posso costruire la seguente tabella dove ogni cella contiene la

differenza al quadrato tra frequenze osservate e teoriche diviso la corrispondente frequenza teorica:

Esercizio 3. Misura dell’indipendenza in media tra caratteri

In un collettivo di giovani si è osservato l’atteggiamento verso il fumo per classi di età ottenendo la seguente

distribuzione di frequenze:

Y= Età (classi) Fuma Non Fuma

[16, 18] 7 16

(18, 22] 8 18

(22, 25] 21 9

(25, 30] 30 10

Quesiti:

Verificare se esiste indipendenza in media tra l’età e l’abitudine al fumo
Calcolare il rapporto di correlazione dell’età all’atteggiamento verso il fumo

Soluzione Q. 1

Dati due caratteri X qualitativo e Y quantitativo si dice che Y è indipendente in media da X se alla variare delle

modalità della X le medie delle distribuzioni condizionate di Y rimangono costanti, ovvero:

>(K|e = f

D

) = /(g|e = f

:

) … /(g|e = f

i

) = /(g)

Nota: indipendenza in distribuzione →indipendenza in media (ma non vice-versa)

Distribuzione congiunta della variabile Età rispetto all’abitudine al fumo

Y= Età (classi) '

"

=valore centrale

Fuma Non Fuma Totale

[16, 18] 17 7 16 23

(18, 22] 20 8 18 26

(22, 25] 23.5 21 9 30

(25, 30] 27.5 30 10 40

Totale 66 53 119

Indichiamo con n

j

il totale dei soggetti fumatori e con n

kj

il totale dei soggetti non fumatori. La media

condizionata di Y dato che X=fuma è pari a:

l|mCnopq

A

n

?

K

r

?CD

∗ A

?D

La media condizionata di Y dato che X=non fuma è pari a:

J|abcdR nopq

A

Bn

?

K

sr

?CD

∗ A

?:

La media generale è pari a:

?

∗ A

?.

K

?CD

Le medie di Y condizionate alle modalità di X non sono costanti e sono diverse dalla media generale. Tra i due

caratteri non esiste indipendenza in media.

Soluzione Q.

Il rapporto di correlazione tra Y e X rappresenta l’indice η

:

di Pearson, nel nostro caso definito nel modo

seguente:

η

O|a

)

e@f

g+hi++R

e@f

hdh

#|abI

T

)

k

Qb

V

.Q

∑ ∑ (l

O

)

O Q

V

O.

E’ un indice normalizzato che varia tra 0 (massima indipendenza in media) a 1 (massima dipendenza in media)

L’indice descrive quanta parte della devianza totale è spiegata dalla variabilità delle medie parziali rispetto alla

media generale. In caso di massima dipendenza in media la devianza totale coincide con la devianza esterna per

cui la variabilità del fenomeno è unicamente spiegata dalla variabilità delle medie condizionate rispetto alla media

generale. Allo stesso modo, se X e Y sono perfettamente indipendenti in media, la devianza complessiva coincide

con la varianza interna ai gruppi essendo la devianza esterna esattamente pari a zero (in caso di indipendenza, le

medie condizionate saranno tutte costanti e la variabilità ad esse associata sarà quindi nulla).

Per comodità, calcoliamo la devianza esterna ai gruppi:

e@f

g+hi++R

= [(>

#|abI T

)

Q

∗ V

.Q

)

La devianza totale è pari a:

e@f hdh

= [ [

l

O

)

O Q

∗ V

O.

Appendice

Il boxplot e la gestione dei valori anomali

Consideriamo la seguente tabella di frequenza relativa alla variabile X=punteggio all’esonero per un collettivo di

31 studenti

X=punteggio p

q

r

q

s

q

t

q

Totale (n) 31 1

Il grafico a scatola (box-plot) è una particolare rappresentazione di una distribuzione. E’ottenuto a partire da 5

numeri di sintesi: minimo, 1° quartile (Q1), mediana, 3° quartile (Q3), massimo.

Il box plot o diagramma a scatola e baffi si ottiene riportando su un asse verticale (oppure orizzontale) i 5 numeri

di sintesi. La scatola del box plot ha come estremi inferiore e superiore rispettivamente Q1 e Q3. La differenza

tra Q3 e Q1 costituisce il campo di variazione interquartile, indicato con CVI=Q3-Q1. La mediana divide la

scatola in due parti. I baffi si ottengono congiungendo Q1 al minimo osservato e Q3 al massimo osservato nella

distribuzione della variabile di interesse.

Dati (sintesi a 5):

Min(x) u

v

u

w

u

x

Max(x)

yz{ = | 3

4

La distanza tra il terzo ed il primo quartile (CVI), è una misura della dispersione della distribuzione. Il 50% delle

osservazioni si trovano comprese tra questi due valori. Se il campo di variazione interquartile è piccolo, tale metà

delle osservazioni si trova fortemente concentrata intorno alla mediana; all'aumentare della distanza

interquartilica aumenta la dispersione del 50% delle osservazioni centrali intorno alla mediana.

Le distanze tra ciascun quartile e la mediana forniscono informazioni relativamente alla forma della distribuzione.

Se una distanza è diversa dall'altra allora la distribuzione è asimmetrica (vedi indice di Yule-Bowley che sfrutta

proprio queste considerazioni).

Rappresentiamo mediante il boxplot variabile X oggetto di studio.

Grafico 1. Boxplot variabile X

La rappresentazione evidenzia la presenza di un valore anomalo. I valori anomali (distanti rispetto a tutti gli altri

valori che caratterizzano la distribuzione) vengono determinati dal confronto con il campo di variazione

interquartile. In particolare vengono considerate due soglie:

il valore al di sotto del quale una modalità viene considerata outlier:

4

3

4

il valore al di sopra del quale una modalità viene considerata outlier:

3

4

I valori al di fuori di queste soglie, costituiscono appunto un’ "anomalia" rispetto alla maggior parte dei valori

osservati e pertanto è necessario non solo identificarli ma anche analizzarne le caratteristiche e le eventuali cause

che li hanno determinati. Essi infatti forniscono informazioni ulteriori sulla dispersione e sulla forma della

distribuzione.

Nota operativa per non confondersi: nel boxplot, i baffi vengono tracciati congiungendo, rispettivamente, il minimo

valore osservato (non anomalo) al primo quartile e il massimo valore osservato (non anomalo) al terzo quartile

della distribuzione ordinata di X. Nel nostro caso, il massimo valore osservato a sinistra della soglia è 31.5 mentre

il minimo osservato sempre rispetto alla soglia è 19.5. In sostanza, i baffi individuano gli intervalli in cui sono

posizionati i valori rispettivamente minori di Q1 e maggiori di Q3; i punti estremi dei "baffi" evidenziano i limiti

ovvero i valori di minimo e massimo propri della distribuzione. Il confronto di un valore particolarmente

distante rispetto alle soglie consente di individuare i valori esterni a questi limiti. Questi ultimi costituiscono