Scarica Raccolta di Temi d'esame di 'Statistica' risolti e commentati - A.A. 2012-2013 e più Prove d'esame in PDF di Statistica solo su Docsity!
Federico Di Palma
Raccolta di Temi d'esame
di "Statistica"
risolti e commentati.
A.A. 2012 - 2013
A Claudia
Indice generale
- Appello del 4 Febbraio 2011 - Fila A.................................................................................................
- Appello del 4 Febbraio 2011 -Fila B..................................................................................................
- Appello del 18 Febbraio 2011 - Fila A.............................................................................................
- Appello del 18 Febbraio 2011 - Fila B.............................................................................................
- Appello del 24 Giugno 2011 - Fila A...............................................................................................
- Appello del 24 Giugno 2011 - Fila B...............................................................................................
- Appello del 08 Luglio 2011 -...........................................................................................................
- Appello del 09 Settembre 2011 -......................................................................................................
- Appello del 23 Settembre 2011 -......................................................................................................
- Appello del 8 Febbraio 2012 -..........................................................................................................
- Appello del 22 Febbraio 2012 -........................................................................................................
- Appello del 27 Giugno 2012 -..........................................................................................................
- Appello del 11 Luglio 2012 -...........................................................................................................
- Appello del 05 Settembre 2012 -......................................................................................................
- Appello del 19 Settembre 2012 -......................................................................................................
- Tavola I - Distribuzione normale standardizzata................................................................................
- Tavola II - Distribuzione χ2................................................................................................................
- Appello del 4 Febbraio 2011 - Fila A
Esercizio 1)
Nella tabella seguente viene riportata la distribuzione delle assenze relative al'intero anno scolastico
2009/2010 di una classe IV superiore.
Giorni di assenza 4 5 8 11 16 18 19 25 28
Frequenza 3 2 1 4 5 2 1 4 6
Determinare
a) La tipologia del carattere.
b) Un indice sintetico di posizione.
c) Se possibile, un indice sintetico di variabilità.
d) Una rappresentazione grafica adeguata.
e) L'eventuale presenza di outlier.
Esercizio 2)
E' data la seguente tabella di ricavata da un indagine svolta su 200 lavoratrici di un industria per
conoscere le preferenze riguardo all'orario di lavoro in relazione allo stato civile.
Y:stato civile
Nubili Coniugate Vedove
X:orario preferito
Diviso (oltre 2 ore
di pausa)
Continuato con
breve interruzione
Continuato senza
interruzione
Il candidato
a) Se possibile, indichi e calcoli per la serie ottenuta un opportuno indice di posizione
b) Se possibile, indichi e calcoli per la serie ottenuta un opportuno indice di variabilità
c) Verifichi, ad un opportuno livello di significatività, se i due caratteri si possono dire
indipendenti.
Esercizio 3)
L'istituto descritto nell'esercizio 1 dichiarava nel A.S. 2008/2009 che il valore atteso delle assenze
fosse di 10 gg per una classe IV. Considerando la classe illustrata nell'esercizo 1 come campione è
possibile confermare tale asserzione?
Esercizio 4)
Si considerino i seguenti eventi legati all'estrazione di una delle lavoratrici descritte nell'Esercizio 2.
E
1
: si estragga una lavoratrice sposata
E
2
: si estragga una lavoratrice che preferirebbe avere un orario continuato
a) Il candidato calcoli le seguenti Probabilità P(E
1
); P(E
2
); P(E
1
U E
2
) P(E
1
| E
2
b) Il candidato indichi se i due eventi E
1
ed E
2
sono indipendenti.
volte la distanza interquartile (VAI) e sommando al terzo quartile K volte la distanza interquartile (VAS). I valori
esterni all'intervallo VAI-VAS vengono considerati outlier. Tipici valori di K sono 1, 1.5 e 2. Utilizzando K = 1 si
ha che
VAI = 11- 14 = -3 VAS = 25 + 1*14 = 39
Non esistendo alcuna osservazioni esterna all'intervallo [-3 ; 39] possiamo concludere che la popolazione
presumibilmente non presenta outlier.
Esercizio 2)
L'esercizio verte sull'analisi di una serie bivariata, ottenuta misurando due caratteri qualitativi non ordinabili.
a) Se possibile, indichi e calcoli per la serie ottenuta un opportuno indice di posizione
Una serie bivariata ottenuta misurando due caratteri qualitativi non ordinabili ammette un solo indice
sintetici di posizione: la moda. La moda di una bi-variata si ottiene valutando la modalità della serie
corrispondente alla frequenza (assoluta o relativa) maggiore. Nel caso in esame la frequenza assoluta maggiore è
50 da cui si ha le seguente moda
(Continuato con breve interruzione ; Coniugate)
b) Se possibile, indichi e calcoli per la serie ottenuta un opportuno indice di variabilità
Una serie bivariata ottenuta misurando due caratteri qualitativi non ordinabili non ammette indice sintetici
di variabilità in quanto non è possibile ottenere il concetto di distanza in maniera oggettiva.
c) Verifichi, ad un opportuno livello di significatività, se i due caratteri si possono dire
indipendenti.
Per verificare se i due caratteri sono indipiendeti si può effettuare un test di ipotesi volto a verificare se le
frequenze delle osservazioni rilevate nel campione sono sufficiente mente vicine (ad un determinato livello di
significatività) a quelle teoriche ottenute dall'ipotesi di indipendeza. Il test viene fatto sfruttando la distribuzione
limite dello stimatore di Pizzetti Pearson che viene ad essere un chi quadranto avente gradi di libertà paria quelli
del numero di parametri liberi della distribuzione teorica.
Il primo punto di questa procedura consiste nel calcolo delle frequenze teoriche ricavate dalle frequenze marginali
ottenute orlando la tabella delle frequenze.
n
i , j
= n p
i , j
n
i ,
n
, j
n
∀ i , j
nella tabella si ripotano le frequenze marginali e quelle teoriche fra parentesi
Y:stato civile
Totali
Nubili Coniugate Vedove
X:orario preferito
Diviso (oltre 2
ore di pausa)
Continuato con
breve
interruzione
Continuato
senza
interruzione
Totali 68 90 42 200
A questo punto è possibile valutare la convergenza dell stimatore di Pizzetti Pearson, possibile solo se tutte le
frequenze teoriche sono superiori a 5. Constatato che la condizione è verificata si può procedere al calcolo della
regione di accettazione fissato il livello di significatività al 5%.
A =
[
1 −
2
M
x
− 1 M
y
]
[
1 − 0.
2
3 − 1 3 − 1
]
[
2
4
]
=[ 0 ; 9.49]
Si può ora procedere al calcolo dello stimatore vero e proprio
∑
i = 1
3
∑
j = 1
3
n
i , j
− n
i , j
2
n
i, j
2
2
2
2
2
2
2
2
2
Poichè il valore dello stimatore è esterno all'intervallo di accettazione posso dire che i due caratteri non sono
indipendenti ad un livello di significatività del 5 per cento.
Esercizio 3)
Nel testo viene richiesto di verificare se il valore atteso della popolazione da cui si è estratto il campione indicato
nell'esercizio 1 e pari a 10.
Questo test si appoggia allo stimatore media campionaria e richiede un campione la cui dimensione sia di almeno
30 elementi. Non soddisfacendo questa ipotesi non è possibie confermare o smentire l'ipotesi.
Esercizio 4)
a) Il candidato calcoli le seguenti Probabilità: P(E
1
); P(E
2
); P(E
1
U E
2
) P(E
1
| E
2
Essendo gli eventi elementari equiprobabili, le probabilità degli eventi E
1
ed E
2
e dell'evento intersezione (estrarre
donne coniugate che prefriscono orairio continuato) possono essere ricavate utilizzando la definizione classica;
secondo la quale la probabilità è il rapporto dei casi favorevoli sui casi totali. Pertanto si ha che:
P E
1
=0.45 P E
2
=0.75 P E
1
∩ E
2
Le restanti probabilità possono essere ricavate utilizzando la definizione assiomatica
P E
1
∪ E
2
= P E
1
P E
2
− P E
1
∩ E
2
=0.85 P E
1
∣ E
2
= P
E
1
∩ E
2
P E
2
b) Il candidato indichi se i due eventi E
1
ed E
2
sono indipendenti.
Se due eventi sono indipendenti si ha che la probabilità condizionata è data dal prodotto delle probabilità, pertanto
essendo
P E
1
P E
2
= P E
1
∣ E
2
Gli eventi non sono indipendenti.
- Appello del 4 Febbraio 2011 -
Svolgimento - Fila B
Esercizio 1)
a) Determinare la tipologia del carattere.
Il carattere è di tipo qualitativo (in quanto non espresso da numeri) ordinabili (in quanto e possibile fissare
un ordine fra le modalità)
b) Tutti gli indici sintetici di posizione possibili da calcolare.
Un carattere di tipo qualitativo ordinabile ammette due indici sintetici di posizione: la moda e la mediana.
La moda è che la modalità con la frequenza maggiore: pertanto la moda è "Insufficiente"
Per calcolare la mediana si deve valutare la numerosità della popolazione (N=17) facilmente ottenibile comulando
le frequenze assolute
Gradimento Ottimo Buono Discreto Sufficiente Insufficiente Gravemente Insufficiente
Frequenza 3 2 1 4 5 2
Cumulata 3 5 6 10 15 17
Dopo di che, la mediana è il valore che bipartisce la popolazione, ovvero, una volta ordinate le osservazioni si
ricerca quella che lascia alla sua destra (N-1)/2 = 8 elementi; ovvero il nono elemento. Analizzando le frequenze
cumulate si ottiene che la mediana indicherà la modalità "Sufficiente" (che infatti raccoglie le osservazioni dal 7°
al 10 ° posto).
c) Tutti gli indici sintetici di posizione possibili da calcolare.
Un carattere di tipo qualitativo non ammette alcun indici sintetici di variabilità.
d) Una rappresentazione grafica adeguata.
Un carattere di tipo qualitativo ordinabile le cui le modalità
abbiano frequenze superiori all'unità viene solitamente
rappresentato mediante un diagramma a barre.
Questo diagramma è composto da barre orizzontali (o verticali)
inserite in un piano cartesiano. Il grafico riposta una barra per
ogni modalità, la cui base (o altezza) viene fissata e centrata nel
valore della modalità corrispondente mentre la sua altezza (o
base) raggiunge la relativa frequenza assoluta.
A lato si riporta il digramma a barre ricavato dalla distribuzione
in esame
Esercizio 2)
a) Indicare e fornire una rappresentazione grafica adeguata.
Per serie bivariate continue o discrete, cui le frequenze non siano
particolarmente alte, si usa rappresentare la serie mediante diagrammi a
dispersione. Un diagramma a dispersione è rappresentato in un piano
cartesiano dove le modalità dei due caratteri vengono posti sui due assi ed
ogni osservazione viene rappresentata da un punto.
A lato si mostra il diagramma a dispersione ottenuto dai dati
forniti.
Ottimo
Buono
Discreto
Sufficiente
Insufficiente
Gravemente Insufficiente
0 1 2 3 4 5 6
20 30 40 50 60 70 80 90 100
0
10
20
30
40
50
60
70
Profitto
Spese
b) Se possibile, indichi e calcoli un opportuno indice di variabilità
Per serie bivariate continue o discrete l'indice di variabilità migliore è dato dalla matrice
varianza/covarianza. Questa matrice si compone di 3 distinti valori le due varianze dei distinti caratteri e la
covarianza, della serie bivariata.
Si seguito riportiamo i calcoli per le due varianze per i singoli caratteri:
X: Profitto realizzato dall'aziende
x =
N
∑
i = 1
n
x
i
x
2
N
∑
i = 1
n
x
i
2
x
2
Y: Spesa per ammodernamento effettuata dall'aziende
y =
N
∑
i = 1
n
y
i
x
2
N
∑
i = 1
n
y
i
2
y
2
La covarianza si ottiene
xy
N
∑
i = 1
n
x
i
x y
i
y
I cui conti sono ripostati in tabella
Per tanto la matrice varianza covarianza risulta essere
[
]
c 1) Ipotizzando un legame di tipo lineare, si calcoli l'opportuna regressione
La retta di regressione ha equazione
y =
xy
x
2
x
y −
xy
x
2
x y =
x 35 −
60 y =0.68 x −5.
c 2) Ipotizzando un legame di tipo lineare, si ipotizzi quale sarebbe l'investimento previsto nel caso
si riscontrasse un profitto di 100 mila euro
La risposta a questo quesito si ottiene applicando la retta nel punto x= 100. si ottiene quindi un investimento
previsto di 62.2 mila euro.
X Y
somma 360 210 2210
x – x y - y (x – x) (y -y)
Esercizio 4)
a) Il candidato calcoli le seguenti Probabilità: P(E
1
); P(E
2
); P(E
1
U E
2
) P(E
1
| E
2
Essendo gli eventi elementari equiprobabili, le probabilità degli eventi E
1
ed E
2
e dell'evento intersezione (estrarre
un'azienda che spenda e ricavi oltre 45 mila euro) possono essere ricavate utilizzando la definizione classica;
secondo la quale la probabilità è il rapporto dei casi favorevoli sui casi totali. Pertanto si ha che:
P E
2
=0.667 P E
1
=0.5 P E
1
∩ E
2
Le restanti probabilità possono essere ricavate utilizzando la definizione assiomatica
P E
1
∪ E
2
= P E
1
P E
2
− P E
1
∩ E
2
=0.833 P E
1
∣ E
2
= P
E
1
∩ E
2
P E
2
b) Il candidato indichi se i due eventi E
1
ed E
2
sono indipendenti.
Se due eventi sono indipendenti si ha che la probabilità condizionata è data dal prodotto delle probabilità, pertanto
essendo
P E
1
P E
2
=0.5≠0.667= P E
1
∣ E
2
Gli eventi non sono indipendenti.
- Appello del 18 Febbraio 2011 - Fila A
Esercizio 1)
Si vuole valutare il tempo di incubazione (espresso
in giorni) di un agente virale. Da un osservazione su
di una popolazione di 20 elementi si sono ottenute le
frequenze assolute indicate nella tabella a lato.
Il candidato
a) Determini la tipologia del carattere.
b) Se possibile, tracci l'istogramma.
c) Se possibile, calcoli la mediana.
d) Se possibile, calcoli la varianza.
N.b. L'estremo superiore delle varie classi di
modalità è da ritenersi escluso
Esercizio 2)
I dati raccolti nel precedente esercizio sono stati organizzati tenendo conto del diverso genere del
soggetto che ha contratto il virus, ottenendo la seguente tabella.
Y:tempo di incubazione
fino a 12 gg
da 12 a 16 gg
(16 escluso)
da 16 a 20 gg
(20 esluso)
da 20 a 24 gg
(24 escluso)
24 gg e oltre
X:Genere
Maschile 1 2 2
Femminile 2 1
Il candidato
a) Completi la tabella con i dati mancanti.
b) Se possibile, indichi e calcoli per la serie ottenuta un opportuno indice di posizione
c) Se possibile, indichi e calcoli per la serie ottenuta un opportuno indice di variabilità
d) Se possibile, verifichi, ad un opportuno livello di significatività, se i due caratteri si
possono dire indipendenti.
Esercizio 3)
Un laboratorio di ricerca vuole stimare la varianza di un microscopio elettronico. Per fare questo
effettuate 11 misure di un campione di lunghezza nota 5 nm. Le misure (espresse in nm) ottenute
sono:
Il candidato stimi puntualmente e per intervallo lo scarto quadratico medio delle misurazioni.
Esercizio 4)
Si considerino i due eventi E
1
ed E
2
. Sapendo che i due eventi sono indipendenti e P(E
1
P(E
2
) = 1/3. Il candidato calcoli le probabilità dei seguenti eventi
a) evento E
2
condizionato E
1
b) evento E
1
intersezione E
2
c) evento E
2
unito E
1
inf
i
sup
i
n
i
nell'esercizio 1. Si noti che nella nuova formulazione alcune classi di modalità sono state aggregate.
Y:tempo di incubazione
fino a 12 gg
da 12 a 16 gg
(16 escluso)
da 16 a 20 gg
(20 esluso)
da 20 a 24 gg
(24 escluso)
24 gg e oltre
X:Genere
Maschile 1 2 2 3 2
Femminile 2 3 2 2 1
b) Se possibile, indichi e calcoli per la serie ottenuta un opportuno indice di posizione
Una serie bivariata ottenuta misurando almeno un carattere qualitativo non ordinabile ammette un solo
indice sintetico di posizione: la moda. La moda di una bi-variata si ottiene valutando la o le modalità della serie
corrispondenti alla frequenza (assoluta o relativa) maggiore. Nel caso in esame la frequenza assoluta maggiore è 3
cui corrispondono due modalità (distribuzione bi-modale)
(Maschile; Da 20 a 24 gg ) e (Femminile; Da 12 a 16 gg )
c) Se possibile, indichi e calcoli per la serie ottenuta un opportuno indice di variabilità
Una serie bivariata ottenuta misurando almeno un carattere qualitativio non ordinabile non ammette
indice sintetici di variabilità in quanto non è possibile ottenere il concetto di distanza in maniera oggettiva.
d) Verifichi, ad un opportuno livello di significatività, se i due caratteri si possono dire
indipendenti.
Per verificare se i due caratteri sono indipendenti si può effettuare un test di ipotesi volto a verificare se le
frequenze delle osservazioni rilevate nel campione sono sufficientemente vicine (ad un determinato livello di
significatività) a quelle teoriche ottenute dall'ipotesi di indipendeza. Il test viene fatto sfruttando la distribuzione
limite dello stimatore di Pizzetti Pearson che viene ad essere un chi quadrato avente gradi di libertà pari a quelli
del numero di parametri liberi della distribuzione teorica.
Il primo punto di questa procedura consiste nel calcolo delle frequenze teoriche ricavate dalle frequenze
marginali ottenute orlando la tabella delle frequenze.
n
i , j
= n p
i , j
n
i ,
n
, j
n
∀ i , j
nella tabella si ripotano le frequenze marginali e quelle teoriche fra parentesi
Y:tempo di incubazione
fino a 12 gg
da 12 a 16
gg (
escluso)
da 16 a 20
gg (
esluso)
da 20 a 24
gg (
escluso)
24 gg e
oltre
Totali
X:Genere
Maschile 1 (1.5) 2 (2.5) 2 (2) 3 (2.5) 1 (1.5) 10
Femminile 2 (1.5) 3 (2.5) 2 (2) 2 (2.5) 2 (1.5) 10
Totali 3 5 4 5 3 20
A questo punto è possibile valutare la convergenza dello stimatore di Pizzetti Pearson, possibile solo se tutte le
frequenze teoriche sono superiori a 5. Constatato che la condizione non è verificata si può concludere che non è
possibile ricevare l'informazione richiesta dalle osservazioni fornite.
Esercizio 3)
Nel testo si effettuano diverse misure di una grandezza nota. Possiamo modellare questo problema come
l'estrazione di una variabile casuale X avente distribuzione ignota e valore atteso 5.
Si sono effettuate N= 11 estrazioni aventi M=4 modalità
a) stimare puntualmente la varianza.
Continuando con il modello precedentemente fatto il punto richiede di stimare lo scarto quadratico medio ovvero
la radice quadrata di Var[X]. Questa stima può essere effettuata ricordando che la varianza viene stimata
correttamente mediante la varianza campionaria ( s
2
). Il calcolo di s
2
in presenza di osservazioni ripetute,
(frequenze assolute maggiori di uno) è dato dalla seguente:
s
2
i = 1
M
n
i
x
i
x
2
N − 1
=0.00008⇒ S =0.
Il calcolo della varianza è stato fatto utilizzando la seguente tabella
b) stimare per intervallo la varianza.
La stima della varianza per intervallo si ha considerando la distribuzione di partenza gaussiana ed n grande. Nel
caso in esame considerare la distribuzione di partenza gaussiana non introduce un errore elevato (trattasi di errori
di misura quindi nello specifico simmetrici) per quanto riguarda la dimensione del campione è possibile ritenere n
= 11 una dimensione sufficiente.
Validate le ipotesi si ha che la stima per intervallo della varianza è data dalla
[
n − 1 s
2
1 −
2
2
n − 1
n − 1 s
2
2
2
n − 1
]
ponendo un livello del 5 % si ha che:
Var [ X ]∈
[
]
=[ 0.000039 ; 0.000246 ]
Pertanto l'intevallo richiesto è:
sqm =
Var [ X ]∈
[
] =[ 0.0062 ; 0.01569]
Esercizio 4)
Si noti come l'esercizio fissa la probabilità degli eventi elementari e richiede il computo delle probabilità di eventi
complessi, pertanto richiede l'applicazione della definizione assiomatica di probabilità.
a) Il candidato calcoli Probabilità dell' evento E
2
condizionato E
1
La probabilità richiestà P(E
2
| E
1
) viene calcota immediatamente ricordando che gli eventi statisticamente
indipendenti sono quelli per cui il verificarsi di un evento non altera la probabilità di verificarsi dell'altro. Pertanto
si ha che P(E
2
| E
1
)=P(E
2
b) Il candidato calcoli Probabilità dell'evento E
1
intersezione E
2
La probabilità dell'evento intersezione di due eventi indipendenti (ovvero che i due eventi si verifichino
entrambi) è data dal prodotto delle due probabilità. Si ha infatti
P E
1
∩ E
2
= P E
1
P E
2
Si noti come lo stesso risultato poteva essere raggiunto elaborando la definzione di probabilità condizionata:
P E
2
∣ E
1
= P
E
1
∩ E
2
P E
1
⇒ P E
2
∣ E
1
P E
1
= P E
1
∩ E
2
E
1,
E
2
indip.
P E
2
P E
1
= P E
1
∩ E
2
c) Il candidato calcoli la Probabilità dell'evento E
1
unito E
2
Note le probabilità degli eventi elementari e dell'evento intersezione si ha che
P E
1
∪ E
u
= P E
1
P E
2
− P E
1
∩ E
2
i
Totali 11 55,0000 0,
x
i
n
i
x
i
n
i
x
i
- x (x
i
- x)
2
n
i
(x
i
- x)
2
- Appello del 18 Febbraio 2011 -
Svolgimento - Fila B
Esercizio 1)
a) Determini la tipologia del carattere.
Il carattere è di tipo quantitativo (in quanto espresso da numeri) continuo (in quanto si vuole monitorare
un tempo che concettualemente è continuo).
b) Fornisca una rappresentazione tabellare dei dati.
L'istogramma è una rappresentazione comunemente utilizzata quando si tratta un dato quantitativo
continuo che viene, per diverse esigenze, raccolto in classi di modalita c
i
. Il grafico riporta le modalità sull'asse
delle ascisse e sulle ordinate la densità di frequenza di ogni classe. Esso si compone di un rettangolo per ogni
classe. I rettangoli sono fra di loro adiacenti e dalle loro basi si ricavano gli estremi della classe corrispondente
( sup
i
e inf
i
) mentre l'altezza coincide con la densità di frequenza ( d
i
). Quindi l'area di ogni rettangolo sarà uguale
alla frequenza relativa della classe ( f
i
= d
i
.*( sup
i
e inf
i
)). Pertanto, la frequenza assoluta può essere ottenuta
moltiplicando l'area del rettangolo per la dimensione del campione (N=20). Applicando quanto descritto è
possibile ottenere la seguente rappresentazione tabellare.
i di
Totali
inf
i
sup
i
sup
i
-inf
i
f
i
n
i
F
i
c
i
c
i
f
i
c
i
2
c
i
2
f
i
c) Se possibile, calcoli la mediana.
La mediana è il valore che bipartisce la popolazione, ovvero, una volta ordinate le osservazioni si ricerca
quella che lascia alla sua destra la metà delle osservazioni meno una. Nel caso in esame non vi sono le
osservazioni, in quanto queste sono raccolte in classi, pertanto la mediana si indica come il valore che bipartisce
l'area dell'istogramma. Dal calcolo delle frequenze cumulate (F
i
) si vede come la mediana cada all'estremità
superiore della classe 3. Pertanto si può asserrire q
2
d) Se possibile, si calcoli la varianza.
La varianza nel caso siano presenti osservazioni raggruppate in classi si calcola utilizzando come
modalità i valori centrali delle classi (c
i
). Nella tabella alla fine del punto b) è stato riportato il calcolo della
varianza utilizzando la formula abbreviata.
2
∑
i = 1
M
c
i
2
∗ f
i
∑
i = 1
M
c
i
∗ f
i
2
2
Il risultato è stato ottenuto calcolando la media (somma colonna c
i
f
i
) e della media dei quadrati dei valori
centrali (ultime due colonne della tabella).
Esercizio 2)
a)Completi la tabella con i dati mancanti.
La tabella si completa tenendo conto che la somma delle colonne e delle righe deve coincidere con le
distribuzioni marginali e con il totale delle osservazioni ( N = 100 ).
Y: anni fuori corso laurea triennale
0 1 2 3 Totali
X:Anni
fuori corso
magistrale
Totali 10 40 30 20 100
b) Se possibile, indichi e calcoli un opportuno indice di posizione
La bivariata è composta da due caratteri quantitativi discreti. Pertanto è possibile calcolare la media come indice
di poszione. In una bi-variata la media può essere calcolata raccogliendo in un vettore le medie dei due caratteri
calcolate separatamente a partire dalle rispettive marginali.
x =
N
∑
i = 1
M
x
n
i ,
⋅ x
i
y =
N
∑
j = 1
M
y
n
, j
⋅ y
j
da cui si ricava che la media è (1.3; 1.6).
c) Se possibile, indichi e calcoli un opportuno indice di variabilità
Per serie bivariate continue o discrete l'indice di variabilità migliore è dato dalla matrice
varianza/covarianza. Questa matrice si compone di 3 distinti valori, le due varianze dei distinti caratteri e la
covarianza, della serie bivariata.
Si seguito riportiamo i calcoli per le due varianze per i singoli caratteri:
X : Anni fuori corso durante la laurea triennale
x
2
∑
i = 1
M
x
n
i ,
x
i
2
N
x
2
2
2
2
2
Y : Anni fuori corso durante la laurea magistrale
y
2
∑
j = 1
M y
n
, j
y
j
2
N
y
2
2
2
2
2
2
La covarianza si ottiene
xy
N
∑
i = 1
M
x
∑
j = 1
M
y
n
i , j
x
i
x y
j
y =0.
Pertanto la matrice varianza covarianza risulta essere
[
]
d) Verifichi, ad un opportuno livello di significatività, se i due caratteri si possono dire
indipendenti.
Per verificare se i due caratteri sono indipiendeti si può effettuare un test di ipotesi volto a verificare se le
frequenze delle osservazioni rilevate nel campione sono sufficiente mente vicine (ad un determinato livello di
significatività) a quelle teoriche ottenute dall'ipotesi di indipendeza. Il test viene fatto sfruttando la distribuzione
limite dello stimatore di Pizzetti Pearson che viene ad essere un chi quadranto avente gradi di libertà pari a quelli
del numero di parametri liberi della distribuzione teorica.
Il primo punto di questa procedura consiste nel calcolo delle frequenze teoriche ricavate dalle frequenze
marginali ottenute orlando la tabella delle frequenze.
n
i , j
= n p
i , j
n
i ,
n
, j
n
∀ i , j
nella tabella a doppia entrata indicata al punto a) si ripotano le frequenze teoriche fra parentesi
A questo punto è possibile valutare la convergenza dell stimatore di Pizzetti Pearson, possibile solo se tutte le
frequenze teoriche sono superiori a 5. Constatato che la condizione non è verificata si può concludere che non è
possibile ricevare l'informazione richiesta dalle osservazioni fornite.