Docsity
Docsity

Prepara i tuoi esami
Prepara i tuoi esami

Studia grazie alle numerose risorse presenti su Docsity


Ottieni i punti per scaricare
Ottieni i punti per scaricare

Guadagna punti aiutando altri studenti oppure acquistali con un piano Premium


Guide e consigli
Guide e consigli


Raccolta di Temi d'esame di 'Statistica' risolti e commentati - A.A. 2012-2013, Prove d'esame di Statistica

Temi d’esame di statistica descrittiva ed inferenziale

Tipologia: Prove d'esame

2020/2021

Caricato il 25/04/2021

Fradoria
Fradoria 🇮🇹

3

(1)

13 documenti

1 / 71

Toggle sidebar

Questa pagina non è visibile nell’anteprima

Non perderti parti importanti!

bg1
Federico Di Palma
Raccolta di Temi d'esame
di "Statistica"
risolti e commentati.
A.A. 2012 - 2013
- 1 -
pf3
pf4
pf5
pf8
pf9
pfa
pfd
pfe
pff
pf12
pf13
pf14
pf15
pf16
pf17
pf18
pf19
pf1a
pf1b
pf1c
pf1d
pf1e
pf1f
pf20
pf21
pf22
pf23
pf24
pf25
pf26
pf27
pf28
pf29
pf2a
pf2b
pf2c
pf2d
pf2e
pf2f
pf30
pf31
pf32
pf33
pf34
pf35
pf36
pf37
pf38
pf39
pf3a
pf3b
pf3c
pf3d
pf3e
pf3f
pf40
pf41
pf42
pf43
pf44
pf45
pf46
pf47

Anteprima parziale del testo

Scarica Raccolta di Temi d'esame di 'Statistica' risolti e commentati - A.A. 2012-2013 e più Prove d'esame in PDF di Statistica solo su Docsity!

Federico Di Palma

Raccolta di Temi d'esame

di "Statistica"

risolti e commentati.

A.A. 2012 - 2013

A Claudia

Indice generale

    • Appello del 4 Febbraio 2011 - Fila A.................................................................................................
    • Appello del 4 Febbraio 2011 -Fila B..................................................................................................
    • Appello del 18 Febbraio 2011 - Fila A.............................................................................................
    • Appello del 18 Febbraio 2011 - Fila B.............................................................................................
    • Appello del 24 Giugno 2011 - Fila A...............................................................................................
    • Appello del 24 Giugno 2011 - Fila B...............................................................................................
    • Appello del 08 Luglio 2011 -...........................................................................................................
    • Appello del 09 Settembre 2011 -......................................................................................................
    • Appello del 23 Settembre 2011 -......................................................................................................
    • Appello del 8 Febbraio 2012 -..........................................................................................................
    • Appello del 22 Febbraio 2012 -........................................................................................................
    • Appello del 27 Giugno 2012 -..........................................................................................................
    • Appello del 11 Luglio 2012 -...........................................................................................................
    • Appello del 05 Settembre 2012 -......................................................................................................
    • Appello del 19 Settembre 2012 -......................................................................................................
  • Tavola I - Distribuzione normale standardizzata................................................................................
  • Tavola II - Distribuzione χ2................................................................................................................

- Appello del 4 Febbraio 2011 - Fila A

Esercizio 1)

Nella tabella seguente viene riportata la distribuzione delle assenze relative al'intero anno scolastico

2009/2010 di una classe IV superiore.

Giorni di assenza 4 5 8 11 16 18 19 25 28

Frequenza 3 2 1 4 5 2 1 4 6

Determinare

a) La tipologia del carattere.

b) Un indice sintetico di posizione.

c) Se possibile, un indice sintetico di variabilità.

d) Una rappresentazione grafica adeguata.

e) L'eventuale presenza di outlier.

Esercizio 2)

E' data la seguente tabella di ricavata da un indagine svolta su 200 lavoratrici di un industria per

conoscere le preferenze riguardo all'orario di lavoro in relazione allo stato civile.

Y:stato civile

Nubili Coniugate Vedove

X:orario preferito

Diviso (oltre 2 ore

di pausa)

Continuato con

breve interruzione

Continuato senza

interruzione

Il candidato

a) Se possibile, indichi e calcoli per la serie ottenuta un opportuno indice di posizione

b) Se possibile, indichi e calcoli per la serie ottenuta un opportuno indice di variabilità

c) Verifichi, ad un opportuno livello di significatività, se i due caratteri si possono dire

indipendenti.

Esercizio 3)

L'istituto descritto nell'esercizio 1 dichiarava nel A.S. 2008/2009 che il valore atteso delle assenze

fosse di 10 gg per una classe IV. Considerando la classe illustrata nell'esercizo 1 come campione è

possibile confermare tale asserzione?

Esercizio 4)

Si considerino i seguenti eventi legati all'estrazione di una delle lavoratrici descritte nell'Esercizio 2.

E

1

: si estragga una lavoratrice sposata

E

2

: si estragga una lavoratrice che preferirebbe avere un orario continuato

a) Il candidato calcoli le seguenti Probabilità P(E

1

); P(E

2

); P(E

1

U E

2

) P(E

1

| E

2

b) Il candidato indichi se i due eventi E

1

ed E

2

sono indipendenti.

volte la distanza interquartile (VAI) e sommando al terzo quartile K volte la distanza interquartile (VAS). I valori

esterni all'intervallo VAI-VAS vengono considerati outlier. Tipici valori di K sono 1, 1.5 e 2. Utilizzando K = 1 si

ha che

VAI = 11- 14 = -3 VAS = 25 + 1*14 = 39

Non esistendo alcuna osservazioni esterna all'intervallo [-3 ; 39] possiamo concludere che la popolazione

presumibilmente non presenta outlier.

Esercizio 2)

L'esercizio verte sull'analisi di una serie bivariata, ottenuta misurando due caratteri qualitativi non ordinabili.

a) Se possibile, indichi e calcoli per la serie ottenuta un opportuno indice di posizione

Una serie bivariata ottenuta misurando due caratteri qualitativi non ordinabili ammette un solo indice

sintetici di posizione: la moda. La moda di una bi-variata si ottiene valutando la modalità della serie

corrispondente alla frequenza (assoluta o relativa) maggiore. Nel caso in esame la frequenza assoluta maggiore è

50 da cui si ha le seguente moda

(Continuato con breve interruzione ; Coniugate)

b) Se possibile, indichi e calcoli per la serie ottenuta un opportuno indice di variabilità

Una serie bivariata ottenuta misurando due caratteri qualitativi non ordinabili non ammette indice sintetici

di variabilità in quanto non è possibile ottenere il concetto di distanza in maniera oggettiva.

c) Verifichi, ad un opportuno livello di significatività, se i due caratteri si possono dire

indipendenti.

Per verificare se i due caratteri sono indipiendeti si può effettuare un test di ipotesi volto a verificare se le

frequenze delle osservazioni rilevate nel campione sono sufficiente mente vicine (ad un determinato livello di

significatività) a quelle teoriche ottenute dall'ipotesi di indipendeza. Il test viene fatto sfruttando la distribuzione

limite dello stimatore di Pizzetti Pearson che viene ad essere un chi quadranto avente gradi di libertà paria quelli

del numero di parametri liberi della distribuzione teorica.

Il primo punto di questa procedura consiste nel calcolo delle frequenze teoriche ricavate dalle frequenze marginali

ottenute orlando la tabella delle frequenze.

n 

i , j

= n  p

i , j

n

i ,

n

, j

n

∀ i , j

nella tabella si ripotano le frequenze marginali e quelle teoriche fra parentesi

Y:stato civile

Totali

Nubili Coniugate Vedove

X:orario preferito

Diviso (oltre 2

ore di pausa)

Continuato con

breve

interruzione

Continuato

senza

interruzione

Totali 68 90 42 200

A questo punto è possibile valutare la convergenza dell stimatore di Pizzetti Pearson, possibile solo se tutte le

frequenze teoriche sono superiori a 5. Constatato che la condizione è verificata si può procedere al calcolo della

regione di accettazione fissato il livello di significatività al 5%.

A =

[

1 − 

2

 M

x

− 1  M

y

 ]

[

1 − 0.

2

 3 − 1  3 − 1 

]

[

2

 4 

]

=[ 0 ; 9.49]

Si può ora procedere al calcolo dello stimatore vero e proprio

i = 1

3

j = 1

3

n

i , j

n

i , j

2

n

i, j

2

2

2

2

2

2

2

2

2

Poichè il valore dello stimatore è esterno all'intervallo di accettazione posso dire che i due caratteri non sono

indipendenti ad un livello di significatività del 5 per cento.

Esercizio 3)

Nel testo viene richiesto di verificare se il valore atteso della popolazione da cui si è estratto il campione indicato

nell'esercizio 1 e pari a 10.

Questo test si appoggia allo stimatore media campionaria e richiede un campione la cui dimensione sia di almeno

30 elementi. Non soddisfacendo questa ipotesi non è possibie confermare o smentire l'ipotesi.

Esercizio 4)

a) Il candidato calcoli le seguenti Probabilità: P(E

1

); P(E

2

); P(E

1

U E

2

) P(E

1

| E

2

Essendo gli eventi elementari equiprobabili, le probabilità degli eventi E

1

ed E

2

e dell'evento intersezione (estrarre

donne coniugate che prefriscono orairio continuato) possono essere ricavate utilizzando la definizione classica;

secondo la quale la probabilità è il rapporto dei casi favorevoli sui casi totali. Pertanto si ha che:

P  E

1

=0.45 P  E

2

=0.75 P  E

1

∩ E

2

Le restanti probabilità possono essere ricavate utilizzando la definizione assiomatica

P  E

1

∪ E

2

= P  E

1

 P  E

2

− P  E

1

∩ E

2

=0.85 P  E

1

∣ E

2

= P
 E

1

∩ E

2

P  E

2

b) Il candidato indichi se i due eventi E

1

ed E

2

sono indipendenti.

Se due eventi sono indipendenti si ha che la probabilità condizionata è data dal prodotto delle probabilità, pertanto

essendo

P  E

1

 P  E

2

= P  E

1

∣ E

2

Gli eventi non sono indipendenti.

  • Appello del 4 Febbraio 2011 -

Svolgimento - Fila B

Esercizio 1)

a) Determinare la tipologia del carattere.

Il carattere è di tipo qualitativo (in quanto non espresso da numeri) ordinabili (in quanto e possibile fissare

un ordine fra le modalità)

b) Tutti gli indici sintetici di posizione possibili da calcolare.

Un carattere di tipo qualitativo ordinabile ammette due indici sintetici di posizione: la moda e la mediana.

La moda è che la modalità con la frequenza maggiore: pertanto la moda è "Insufficiente"

Per calcolare la mediana si deve valutare la numerosità della popolazione (N=17) facilmente ottenibile comulando

le frequenze assolute

Gradimento Ottimo Buono Discreto Sufficiente Insufficiente Gravemente Insufficiente

Frequenza 3 2 1 4 5 2

Cumulata 3 5 6 10 15 17

Dopo di che, la mediana è il valore che bipartisce la popolazione, ovvero, una volta ordinate le osservazioni si

ricerca quella che lascia alla sua destra (N-1)/2 = 8 elementi; ovvero il nono elemento. Analizzando le frequenze

cumulate si ottiene che la mediana indicherà la modalità "Sufficiente" (che infatti raccoglie le osservazioni dal 7°

al 10 ° posto).

c) Tutti gli indici sintetici di posizione possibili da calcolare.

Un carattere di tipo qualitativo non ammette alcun indici sintetici di variabilità.

d) Una rappresentazione grafica adeguata.

Un carattere di tipo qualitativo ordinabile le cui le modalità

abbiano frequenze superiori all'unità viene solitamente

rappresentato mediante un diagramma a barre.

Questo diagramma è composto da barre orizzontali (o verticali)

inserite in un piano cartesiano. Il grafico riposta una barra per

ogni modalità, la cui base (o altezza) viene fissata e centrata nel

valore della modalità corrispondente mentre la sua altezza (o

base) raggiunge la relativa frequenza assoluta.

A lato si riporta il digramma a barre ricavato dalla distribuzione

in esame

Esercizio 2)

a) Indicare e fornire una rappresentazione grafica adeguata.

Per serie bivariate continue o discrete, cui le frequenze non siano

particolarmente alte, si usa rappresentare la serie mediante diagrammi a

dispersione. Un diagramma a dispersione è rappresentato in un piano

cartesiano dove le modalità dei due caratteri vengono posti sui due assi ed

ogni osservazione viene rappresentata da un punto.

A lato si mostra il diagramma a dispersione ottenuto dai dati

forniti.

Ottimo

Buono

Discreto

Sufficiente

Insufficiente

Gravemente Insufficiente

0 1 2 3 4 5 6

20 30 40 50 60 70 80 90 100

0

10

20

30

40

50

60

70

Profitto

Spese

b) Se possibile, indichi e calcoli un opportuno indice di variabilità

Per serie bivariate continue o discrete l'indice di variabilità migliore è dato dalla matrice

varianza/covarianza. Questa matrice si compone di 3 distinti valori le due varianze dei distinti caratteri e la

covarianza, della serie bivariata.

Si seguito riportiamo i calcoli per le due varianze per i singoli caratteri:

X: Profitto realizzato dall'aziende

x =

N

i = 1

n

x

i

x

2

N

i = 1

n

x

i

2

x

2

Y: Spesa per ammodernamento effettuata dall'aziende

y =

N

i = 1

n

y

i

x

2

N

i = 1

n

y

i

2

y

2

La covarianza si ottiene

xy

N

i = 1

n

x

i

x  y

i

y

I cui conti sono ripostati in tabella

Per tanto la matrice varianza covarianza risulta essere

[

]

c 1) Ipotizzando un legame di tipo lineare, si calcoli l'opportuna regressione

La retta di regressione ha equazione

y =

xy

x

2

x  

y

xy

x

2

xy =

x  35 −

60  y =0.68 x −5.

c 2) Ipotizzando un legame di tipo lineare, si ipotizzi quale sarebbe l'investimento previsto nel caso

si riscontrasse un profitto di 100 mila euro

La risposta a questo quesito si ottiene applicando la retta nel punto x= 100. si ottiene quindi un investimento

previsto di 62.2 mila euro.

X Y

somma 360 210 2210

x – x y - y (x – x) (y -y)

Esercizio 4)

a) Il candidato calcoli le seguenti Probabilità: P(E

1

); P(E

2

); P(E

1

U E

2

) P(E

1

| E

2

Essendo gli eventi elementari equiprobabili, le probabilità degli eventi E

1

ed E

2

e dell'evento intersezione (estrarre

un'azienda che spenda e ricavi oltre 45 mila euro) possono essere ricavate utilizzando la definizione classica;

secondo la quale la probabilità è il rapporto dei casi favorevoli sui casi totali. Pertanto si ha che:

P  E

2

=0.667 P  E

1

=0.5 P  E

1

∩ E

2

Le restanti probabilità possono essere ricavate utilizzando la definizione assiomatica

P  E

1

∪ E

2

= P  E

1

 P  E

2

− P  E

1

∩ E

2

=0.833 P  E

1

∣ E

2

= P
 E

1

∩ E

2

P  E

2

b) Il candidato indichi se i due eventi E

1

ed E

2

sono indipendenti.

Se due eventi sono indipendenti si ha che la probabilità condizionata è data dal prodotto delle probabilità, pertanto

essendo

P  E

1

 P  E

2

=0.5≠0.667= P  E

1

∣ E

2

Gli eventi non sono indipendenti.

- Appello del 18 Febbraio 2011 - Fila A

Esercizio 1)

Si vuole valutare il tempo di incubazione (espresso

in giorni) di un agente virale. Da un osservazione su

di una popolazione di 20 elementi si sono ottenute le

frequenze assolute indicate nella tabella a lato.

Il candidato

a) Determini la tipologia del carattere.

b) Se possibile, tracci l'istogramma.

c) Se possibile, calcoli la mediana.

d) Se possibile, calcoli la varianza.

N.b. L'estremo superiore delle varie classi di

modalità è da ritenersi escluso

Esercizio 2)

I dati raccolti nel precedente esercizio sono stati organizzati tenendo conto del diverso genere del

soggetto che ha contratto il virus, ottenendo la seguente tabella.

Y:tempo di incubazione

fino a 12 gg

da 12 a 16 gg

(16 escluso)

da 16 a 20 gg

(20 esluso)

da 20 a 24 gg

(24 escluso)

24 gg e oltre

X:Genere

Maschile 1 2 2

Femminile 2 1

Il candidato

a) Completi la tabella con i dati mancanti.

b) Se possibile, indichi e calcoli per la serie ottenuta un opportuno indice di posizione

c) Se possibile, indichi e calcoli per la serie ottenuta un opportuno indice di variabilità

d) Se possibile, verifichi, ad un opportuno livello di significatività, se i due caratteri si

possono dire indipendenti.

Esercizio 3)

Un laboratorio di ricerca vuole stimare la varianza di un microscopio elettronico. Per fare questo

effettuate 11 misure di un campione di lunghezza nota 5 nm. Le misure (espresse in nm) ottenute

sono:

Il candidato stimi puntualmente e per intervallo lo scarto quadratico medio delle misurazioni.

Esercizio 4)

Si considerino i due eventi E

1

ed E

2

. Sapendo che i due eventi sono indipendenti e P(E

1

P(E

2

) = 1/3. Il candidato calcoli le probabilità dei seguenti eventi

a) evento E

2

condizionato E

1

b) evento E

1

intersezione E

2

c) evento E

2

unito E

1

inf

i

sup

i

n

i

nell'esercizio 1. Si noti che nella nuova formulazione alcune classi di modalità sono state aggregate.

Y:tempo di incubazione

fino a 12 gg

da 12 a 16 gg

(16 escluso)

da 16 a 20 gg

(20 esluso)

da 20 a 24 gg

(24 escluso)

24 gg e oltre

X:Genere

Maschile 1 2 2 3 2

Femminile 2 3 2 2 1

b) Se possibile, indichi e calcoli per la serie ottenuta un opportuno indice di posizione

Una serie bivariata ottenuta misurando almeno un carattere qualitativo non ordinabile ammette un solo

indice sintetico di posizione: la moda. La moda di una bi-variata si ottiene valutando la o le modalità della serie

corrispondenti alla frequenza (assoluta o relativa) maggiore. Nel caso in esame la frequenza assoluta maggiore è 3

cui corrispondono due modalità (distribuzione bi-modale)

(Maschile; Da 20 a 24 gg ) e (Femminile; Da 12 a 16 gg )

c) Se possibile, indichi e calcoli per la serie ottenuta un opportuno indice di variabilità

Una serie bivariata ottenuta misurando almeno un carattere qualitativio non ordinabile non ammette

indice sintetici di variabilità in quanto non è possibile ottenere il concetto di distanza in maniera oggettiva.

d) Verifichi, ad un opportuno livello di significatività, se i due caratteri si possono dire

indipendenti.

Per verificare se i due caratteri sono indipendenti si può effettuare un test di ipotesi volto a verificare se le

frequenze delle osservazioni rilevate nel campione sono sufficientemente vicine (ad un determinato livello di

significatività) a quelle teoriche ottenute dall'ipotesi di indipendeza. Il test viene fatto sfruttando la distribuzione

limite dello stimatore di Pizzetti Pearson che viene ad essere un chi quadrato avente gradi di libertà pari a quelli

del numero di parametri liberi della distribuzione teorica.

Il primo punto di questa procedura consiste nel calcolo delle frequenze teoriche ricavate dalle frequenze

marginali ottenute orlando la tabella delle frequenze.

n 

i , j

= n  p

i , j

n

i ,

n

, j

n

∀ i , j

nella tabella si ripotano le frequenze marginali e quelle teoriche fra parentesi

Y:tempo di incubazione

fino a 12 gg

da 12 a 16

gg (

escluso)

da 16 a 20

gg (

esluso)

da 20 a 24

gg (

escluso)

24 gg e

oltre

Totali

X:Genere

Maschile 1 (1.5) 2 (2.5) 2 (2) 3 (2.5) 1 (1.5) 10

Femminile 2 (1.5) 3 (2.5) 2 (2) 2 (2.5) 2 (1.5) 10

Totali 3 5 4 5 3 20

A questo punto è possibile valutare la convergenza dello stimatore di Pizzetti Pearson, possibile solo se tutte le

frequenze teoriche sono superiori a 5. Constatato che la condizione non è verificata si può concludere che non è

possibile ricevare l'informazione richiesta dalle osservazioni fornite.

Esercizio 3)

Nel testo si effettuano diverse misure di una grandezza nota. Possiamo modellare questo problema come

l'estrazione di una variabile casuale X avente distribuzione ignota e valore atteso 5.

Si sono effettuate N= 11 estrazioni aventi M=4 modalità

a) stimare puntualmente la varianza.

Continuando con il modello precedentemente fatto il punto richiede di stimare lo scarto quadratico medio ovvero

la radice quadrata di Var[X]. Questa stima può essere effettuata ricordando che la varianza viene stimata

correttamente mediante la varianza campionaria ( s

2

). Il calcolo di s

2

in presenza di osservazioni ripetute,

(frequenze assolute maggiori di uno) è dato dalla seguente:

s

2

i = 1

M

n

i

x

i

x

2

N − 1

=0.00008⇒ S =0.

Il calcolo della varianza è stato fatto utilizzando la seguente tabella

b) stimare per intervallo la varianza.

La stima della varianza per intervallo si ha considerando la distribuzione di partenza gaussiana ed n grande. Nel

caso in esame considerare la distribuzione di partenza gaussiana non introduce un errore elevato (trattasi di errori

di misura quindi nello specifico simmetrici) per quanto riguarda la dimensione del campione è possibile ritenere n

= 11 una dimensione sufficiente.

Validate le ipotesi si ha che la stima per intervallo della varianza è data dalla

[

 n − 1  s

2

1 −

2

2

 n − 1 

 n − 1  s

2

2

2

 n − 1 

]

ponendo un livello del 5 % si ha che:

Var [ X ]∈

[

]

=[ 0.000039 ; 0.000246 ]

Pertanto l'intevallo richiesto è:

sqm =

Var [ X ]∈

[

] =[ 0.0062 ; 0.01569]

Esercizio 4)

Si noti come l'esercizio fissa la probabilità degli eventi elementari e richiede il computo delle probabilità di eventi

complessi, pertanto richiede l'applicazione della definizione assiomatica di probabilità.

a) Il candidato calcoli Probabilità dell' evento E

2

condizionato E

1

La probabilità richiestà P(E

2

| E

1

) viene calcota immediatamente ricordando che gli eventi statisticamente

indipendenti sono quelli per cui il verificarsi di un evento non altera la probabilità di verificarsi dell'altro. Pertanto

si ha che P(E

2

| E

1

)=P(E

2

b) Il candidato calcoli Probabilità dell'evento E

1

intersezione E

2

La probabilità dell'evento intersezione di due eventi indipendenti (ovvero che i due eventi si verifichino

entrambi) è data dal prodotto delle due probabilità. Si ha infatti

P  E

1

∩ E

2

= P  E

1

 P  E

2

Si noti come lo stesso risultato poteva essere raggiunto elaborando la definzione di probabilità condizionata:

P  E

2

∣ E

1

= P
 E

1

∩ E

2

P  E

1

⇒ P  E

2

∣ E

1

 P  E

1

= P  E

1

∩ E

2

E

1,

E

2

indip.

P  E

2

 P  E

1

= P  E

1

∩ E

2

c) Il candidato calcoli la Probabilità dell'evento E

1

unito E

2

Note le probabilità degli eventi elementari e dell'evento intersezione si ha che

P  E

1

∪ E

u

= P  E

1

 P  E

2

− P  E

1

∩ E

2

i

Totali 11 55,0000 0,

x

i

n

i

x

i

n

i

x

i

- x (x

i

- x)

2

n

i

(x

i

- x)

2

  • Appello del 18 Febbraio 2011 -

Svolgimento - Fila B

Esercizio 1)

a) Determini la tipologia del carattere.

Il carattere è di tipo quantitativo (in quanto espresso da numeri) continuo (in quanto si vuole monitorare

un tempo che concettualemente è continuo).

b) Fornisca una rappresentazione tabellare dei dati.

L'istogramma è una rappresentazione comunemente utilizzata quando si tratta un dato quantitativo

continuo che viene, per diverse esigenze, raccolto in classi di modalita c

i

. Il grafico riporta le modalità sull'asse

delle ascisse e sulle ordinate la densità di frequenza di ogni classe. Esso si compone di un rettangolo per ogni

classe. I rettangoli sono fra di loro adiacenti e dalle loro basi si ricavano gli estremi della classe corrispondente

( sup

i

e inf

i

) mentre l'altezza coincide con la densità di frequenza ( d

i

). Quindi l'area di ogni rettangolo sarà uguale

alla frequenza relativa della classe ( f

i

= d

i

.*( sup

i

e inf

i

)). Pertanto, la frequenza assoluta può essere ottenuta

moltiplicando l'area del rettangolo per la dimensione del campione (N=20). Applicando quanto descritto è

possibile ottenere la seguente rappresentazione tabellare.

i di

Totali

inf

i

sup

i

sup

i

-inf

i

f

i

n

i

F

i

c

i

c

i

f

i

c

i

2

c

i

2

f

i

c) Se possibile, calcoli la mediana.

La mediana è il valore che bipartisce la popolazione, ovvero, una volta ordinate le osservazioni si ricerca

quella che lascia alla sua destra la metà delle osservazioni meno una. Nel caso in esame non vi sono le

osservazioni, in quanto queste sono raccolte in classi, pertanto la mediana si indica come il valore che bipartisce

l'area dell'istogramma. Dal calcolo delle frequenze cumulate (F

i

) si vede come la mediana cada all'estremità

superiore della classe 3. Pertanto si può asserrire q

2

d) Se possibile, si calcoli la varianza.

La varianza nel caso siano presenti osservazioni raggruppate in classi si calcola utilizzando come

modalità i valori centrali delle classi (c

i

). Nella tabella alla fine del punto b) è stato riportato il calcolo della

varianza utilizzando la formula abbreviata.

2

i = 1

M

c

i

2

∗ f

i

i = 1

M

c

i

∗ f

i

2

2

Il risultato è stato ottenuto calcolando la media (somma colonna c

i

f

i

) e della media dei quadrati dei valori

centrali (ultime due colonne della tabella).

Esercizio 2)

a)Completi la tabella con i dati mancanti.

La tabella si completa tenendo conto che la somma delle colonne e delle righe deve coincidere con le

distribuzioni marginali e con il totale delle osservazioni ( N = 100 ).

Y: anni fuori corso laurea triennale

0 1 2 3 Totali

X:Anni

fuori corso

magistrale

Totali 10 40 30 20 100

b) Se possibile, indichi e calcoli un opportuno indice di posizione

La bivariata è composta da due caratteri quantitativi discreti. Pertanto è possibile calcolare la media come indice

di poszione. In una bi-variata la media può essere calcolata raccogliendo in un vettore le medie dei due caratteri

calcolate separatamente a partire dalle rispettive marginali.

x =

N

i = 1

M

x

n

i ,

⋅ x

i

y =

N

j = 1

M

y

n

, j

⋅ y

j

da cui si ricava che la media è (1.3; 1.6).

c) Se possibile, indichi e calcoli un opportuno indice di variabilità

Per serie bivariate continue o discrete l'indice di variabilità migliore è dato dalla matrice

varianza/covarianza. Questa matrice si compone di 3 distinti valori, le due varianze dei distinti caratteri e la

covarianza, della serie bivariata.

Si seguito riportiamo i calcoli per le due varianze per i singoli caratteri:

X : Anni fuori corso durante la laurea triennale

x

2

i = 1

M

x

n

i ,

x

i

2

N

x

2

2

2

2

2

Y : Anni fuori corso durante la laurea magistrale

y

2

j = 1

M y

n

, j

y

j

2

N

y

2

2

2

2

2

2

La covarianza si ottiene

xy

N

i = 1

M

x

j = 1

M

y

n

i , j

x

i

x  y

j

y =0.

Pertanto la matrice varianza covarianza risulta essere

[

]

d) Verifichi, ad un opportuno livello di significatività, se i due caratteri si possono dire

indipendenti.

Per verificare se i due caratteri sono indipiendeti si può effettuare un test di ipotesi volto a verificare se le

frequenze delle osservazioni rilevate nel campione sono sufficiente mente vicine (ad un determinato livello di

significatività) a quelle teoriche ottenute dall'ipotesi di indipendeza. Il test viene fatto sfruttando la distribuzione

limite dello stimatore di Pizzetti Pearson che viene ad essere un chi quadranto avente gradi di libertà pari a quelli

del numero di parametri liberi della distribuzione teorica.

Il primo punto di questa procedura consiste nel calcolo delle frequenze teoriche ricavate dalle frequenze

marginali ottenute orlando la tabella delle frequenze.

n 

i , j

= n  p

i , j

n

i ,

n

, j

n

∀ i , j

nella tabella a doppia entrata indicata al punto a) si ripotano le frequenze teoriche fra parentesi

A questo punto è possibile valutare la convergenza dell stimatore di Pizzetti Pearson, possibile solo se tutte le

frequenze teoriche sono superiori a 5. Constatato che la condizione non è verificata si può concludere che non è

possibile ricevare l'informazione richiesta dalle osservazioni fornite.