Docsity
Docsity

Prepara i tuoi esami
Prepara i tuoi esami

Studia grazie alle numerose risorse presenti su Docsity


Ottieni i punti per scaricare
Ottieni i punti per scaricare

Guadagna punti aiutando altri studenti oppure acquistali con un piano Premium


Guide e consigli
Guide e consigli


Simulazione Esame di Statistica: Esercizi con Soluzioni (2017-18), Prove d'esame di Statistica

prova esame luiss dell'anno accademico 2017-18

Tipologia: Prove d'esame

2019/2020

Caricato il 13/03/2020

lorenzo-fiorito-3111
lorenzo-fiorito-3111 🇮🇹

5

(3)

2 documenti

1 / 8

Toggle sidebar

Questa pagina non è visibile nell’anteprima

Non perderti parti importanti!

bg1
STATISTICA
Prova scritta del 25 gennaio 2017
Soluzioni
Quesito 1.
Si ipotizzi di aver rilevato su 10 famiglie l’importo mensile speso per l’abbonamento ADSL:
Famiglia 12345678910
Importo speso 20 40 30 40 20 35 20 15 30 40
Ipotizzare, inoltre, di aver rilevato sulle stesse famiglie l’et`a del capofamiglia (variabile denominata Y) e di
conoscere le seguenti quantit`a:
10
i=1yi= 460 ; 10
i=1y2
i= 25478
a) Costruire la distribuzione di frequenza e determinare quindi media, moda e mediana:
Si avr`a:
xinifiNi Fi
15 1 0.1 1 0.1
20 3 0.3 4 0.4
30 2 0.2 6 0.6
35 1 0.1 7 0.7
40 3 0.3 10 1.0
Totale 10 1.00
L’importo medio si ottiene come:
x=1
nk
i=1xini=290
10 = 29
La moda `e individuata nella modalit`a a cui `e associata la pi`u elevata frequenza assoluta (o relativa).
Nella distribuzione si osservano due modalit`a a cui corrisponde frequenza assoluta pari a 3 (e frequenza
relativa pari a 0.3). Si ha quindi una distribuzione bimodale, in corrispondenza delle modalit`a 20 e
40.
La mediana `e il valore centrale di una distribuzione. Essendo la numerosit`a delle osservazioni pari, la
profondit`a della mediana non `e un numero intero e la mediana si ottiene come media delle osservazioni
che occupano la posizione n/2 e n/2 +1 e cio`e le posizioni 5 e 6. Il valore mediano sar`a pertanto:
1
pf3
pf4
pf5
pf8

Anteprima parziale del testo

Scarica Simulazione Esame di Statistica: Esercizi con Soluzioni (2017-18) e più Prove d'esame in PDF di Statistica solo su Docsity!

STATISTICA

Prova scritta del 25 gennaio 2017

Soluzioni

Quesito 1.

Si ipotizzi di aver rilevato su 10 famiglie l'importo mensile speso per l'abbonamento ADSL:

Famiglia 1 2 3 4 5 6 7 8 9 10 Importo speso 20 40 30 40 20 35 20 15 30 40

Ipotizzare, inoltre, di aver rilevato sulle stesse famiglie l'eta del capofamiglia (variabile denominata Y ) e di conoscere le seguenti quantita:

∑ 10 i=1yi^ = 460^ ;^

i=1y

2 i = 25478

 a) Costruire la distribuzione di frequenza e determinare quindi media, moda e mediana:

Si avra:

xi ni fi N i Fi 15 1 0.1 1 0. 20 3 0.3 4 0. 30 2 0.2 6 0. 35 1 0.1 7 0. 40 3 0.3 10 1. Totale 10 1.

L'importo medio si ottiene come:

x =

n

∑k i=1xini^ =

La moda e individuata nella modalita a cui e associata la piu elevata frequenza assoluta (o relativa). Nella distribuzione si osservano due modalita a cui corrisponde frequenza assoluta pari a 3 (e frequenza relativa pari a 0.3). Si ha quindi una distribuzione bimodale, in corrispondenza delle modalita 20 e

La mediana e il valore centrale di una distribuzione. Essendo la numerosita delle osservazioni pari, la profondita della mediana non e un numero intero e la mediana si ottiene come media delle osservazioni che occupano la posizione n/2 e n/2 +1 e cioe le posizioni 5 e 6. Il valore mediano sara pertanto:

M e = 30

 b) Determinare la differenza interquartile.

Per calcolare la Differenza Interquartile (DQ) e necessario dapprima determinare il primo e il terzo quartile. Per la determinazione del primo e del terzo quartile si procede in modo analogo a quanto visto per la determinazione della mediana, sia con riferimento alle frequenze assolute cumulate, individuando la posizione occupata dal primo e dal terzo quartile, che alle frequenze relative, tenendo presente che il primo quartile Q 1 si lascia a sinistra il 25% dei dati e il terzo quartile il 75% delle osservazioni. Il primo quartile risulta Q 1 = 20 mentre il terzo quartile Q 3 = 40 da cui:

DQ = 40 20 = 20

 c) E' corretto affermare che la distribuzione dell'importo speso presenta minore variabilita rispetto alla distribuzione dell'eta? Giusti care la risposta attraverso il calcolo di un indice opportuno.

La variabilita delle due distribuzioni si confronta attraverso il coefficiente di variazione. A riguardo della distribuzione dell'importo speso, avendo gia determinato il valore medio, occorre calcolare la deviazione standard. Si avra:

s^2 = 101

[

(15 29)^2  1 + (20 29)^2  3 + ... + (40 29)^2  3

]

da cui si ottiene:

s =

p s^2 = 9. 17

Il coefficiente di variazione si determinera quindi come:

CVimpspeso =

Per la distribuzione dell'eta, si possono utilizzare le informazioni a disposizione come segue. Si determina dapprima il valore medio:

y =

i=1yi 10

La varianza si puo determinare come:

s^2 =

∑ 10 i=1 y i^2 10 ^ (y)

10 ^ (46)

s =

p s^2 = 20. 78

Il coefficiente di variazione per la distribuzione dell'eta si determinera quindi come:

CVet`a =

In base al confronto dei valori del CV, e corretto affermare che la distribuzione dell'importo speso presenta minore variabilita rispetto alla distribuzione dell'eta.

dove XRE indica la variable casuale \Peso della confezione impacchettata a Reggio Emilia". Analogamente, la probabilita che una confezione impacchettata a Parma risulti difettosa, P (DjP R), puo essere calcolata come:

P (DjP R) = P (XP R <

)+P (XP R >

Pertanto, la probabilita che una confezione scelta a caso tra tutte quelle prodotte dall'azienda alimentare risulti difettosa e:

P (D) = P (DjRE)  P (RE) + P (DjP R)  P (P R) = 0. 05  0 .60 + 0. 16  0 .40 = 0. 09

b) Si acquista una confezione di pasta e si nota che il suo peso effettivo non rientra negli standard qualitativi dell'azienda alimentare. E' piu probabile che essa provenga dallo stabilimento di Parma o da quello di Reggio Emilia?

Viene richiesto di determinare la maggiore tra P (REjD) e P (P RjD), che possono essere calcolate utilizzando il teorema di Bayes:

P (REjD) =

P (DjRE)  P (RE) P (D)

=

P (P RjD) =

P (DjP R)  P (P R) P (D)

=

= 1 P (REjD).

La confezione di pasta difettosa e piu probabile che arrivi dallo stabilimento di Parma.

c) Si consideri ora la variabile casuale Y , che assume valore 1 se la confezione di pasta e da considerarsi difettosa e 0 altrimenti. Come si distribuisce Y? Quali sono il suo valore atteso e la sua varianza?

La variabile dicotomica Y e modellabile secondo una distribuzione Bernulliana, con probabilita di successo π = 0. 09. Pertanto E(Y ) = π = 0. 09 e V (Y ) = π  (1 π) = 0. 09  0 .91 = 0. 08.

d) Si acquistano 10 confezioni di pasta. Assumendo che il peso effettivo di ciascuna confezione sia indipendente da quello delle altre, si calcoli la probabilita che al piu 1 delle confezioni acquistate sia considerata difettosa.

Data l'assunzione di indipendenza, le 10 confezioni rappresentano delle prove indipedenti, e la variabile N =

i=1 Yi^ ha distribuzione Binomiale di parametri^ n^ = 10, π^ = 0.^09.

La probabilita richiesta e P (N  1) = P (N = 0) + P (N = 1) e puo essere calcolata sfruttando la funzione di probabilita della distribuzione Binomiale:

P (N = x) =

n x

πx(1 π)n−x

P (N = 0) + P (N = 1) =

0. 090 (1 0 .09)(10−0)^ +

0. 091 (1 0 .09)(10−1)^ = 0.39 + 0.39 = 0. 78

e) Un supermercato riceve una consegna di 200 confezioni di pasta. Si indichi il numero di confezioni che ci si attende avere un peso fuori dal range indicato dagli standard di qualita dell'azienda produttrice.

Poiche se N  Bin(n, π) ) E(N ) = nπ, il numero atteso di confezioni difettose sara 200  0 .09 = 18.

Quesito 3.

Siete interessati a studiare la relazione tra eta (Age) e guadagno settimanale (Income) del capofamiglia. I dati i tabella mostrano le frequenze assolute supponendo di aver rilevato i due caratteri su un campione.

Income - Age 16-j 20 20-j 25 25-j 45 45-j 65 65 and more 0-j 200 80 76 130 86 24 200-j 400 13 90 346 140 8 400-j 600 1 19 251 101 6 600-j 800 1 11 110 55 1 800 and more 1 1 108 84 2

Table 1: Frequenze congiunte assolute di Age e Income, 1745 Capofamiglia

Come valore di riferimento per le classi prendere il valore centrale per le classi chiuse; il valore di riferimento (mediana) della classe 800 and more e 1050 euro.

a) Veri care utilizzando le opportune distribuzioni condizionate che la variabile Income non sia indipendente da Age; La veri ca puo essere effettuata confrontando le distribuzioni condizionate con la distribuzione marginale. Ad esempio la distribuzione di Income condizionata a Age 16-j20 risulta diversa dalla marginale, con probabilita stimate maggiori della marginale nelle bassi classi di guadagno:

Income - Age 16-j 20 20-j 25 25-j 45 45-j 65 65 and more marginale 0-j 200 0,83 0,38 0,14 0,18 0,58 0, 200-j 400 0,14 0,46 0,37 0,30 0,20 0, 400-j 600 0,01 0,10 0,26 0,22 0,15 0, 600-j 800 0,01 0,05 0,12 0,12 0,02 0, 800 and more 0,01 0,01 0,11 0,18 0,05 0, tot 1,00 1,00 1,00 1,00 1,00 1,

b) veri care l'ipotesi che nella popolazione la proporzione dei capofamiglia con Income minore o uguale a 400 euro sia 0,5 con livello di signi cativita α = 0, 05, calcolare il pvalore, rappresentare gra camente le zone di Accettazione di Ri uto; Il modello di generazione dei dati e Bernoulli con parametro π incognito. La stima campionaria della proporzione dei capofamiglia con Income minore o uguale a 400 euro risulta 0,23+0,34=0,

d) calcolare la stima puntuale del valore atteso di Income nella classe 16-j20 e commentare il risultato;

La media campionaria e utilizzata al ne di stimare il valore atteso incognito di Income nella popolazione dei capofamiglia nella classe 16-j 20 :

X =^1

n

∑^ n

i=

Xi

Dalla tabella X assume i valori seguenti:

X^ Income 16 −| 20 = 100  0 , 83 + 300  0 , 14 + 500  0 , 01 + 700  0 , 01 + 1050  0 , 01 = 147, 40 euro

e) fornire una giusti cazione delle tecniche di inferenza utilizzate. Dato che la popolazione si distribuisce come una Bernoulli di parametro π, sotto l'ipotesi nulla, poiche la numerosita e elevata (1745), possiamo sfruttare il Teorema del Limite Centrale per derivare la distribuzione asintotica della statistica test. Per il Teorema del Limite Centrale, sotto l'ipotesi nulla π = π 0 , la media campionaria standardizzata per una popolazione di Bernoulli converge ad una distribuzione normale standard, quindi la distribuzione approssimata della statistica test e una distribuzione normale standard. Analoghe considerazioni valgono per la costruzione dell'intervallo di con denza con la differenza nella stima della varianza che utilizza la stima campionaria della proporzione e non il valore ipotizzato nell'ipotesi nulla.

Quesito 4.

 Un broker ritiene che il rendimento di un titolo y sia fortemente in uenzato da quello di un altro titolo x. Disponendo di n = 200 osservazioni giornaliere dei loro rendimenti, espressi in termini percentuali, il broker applica il metodo dei minimi quadrati e ottiene la seguente retta di regressione stimata:

byi = 0. 44 [0.13]

[0.04]

xi

dove xi indica la i-sima osservazione del rendimento del titolo x, ybi indica il valore stimato della i -sima osservazione del rendimento del titolo y e le quantita tra parentesi quadre sotto le stime dell'intercetta α e della pendenza β indicano i rispettivi errori standard.

a) Effettuare i test di signi cativita sui parametri α e β ad un livello di signi cativita dell'1%

Le statistiche della t per i parametri α e β risultano rispettivamente pari a:

α b ES(αb)

β^ b

ES( βb)

Confrontando i valori assunti dalle statistiche test con quelli desunti dalle tavole della curva normale, possiamo concludere che sia la stima di α che quella di β sono signi cativamente diverse da 0 all '1%.

b) Sapendo che la devianza totale e pari a 596.16 e quella quella residua e pari 176.70, qual e la percentuale di variabilita spiegata dal modello empirico?

Possiamo calcolare rapidamente l'R^2 come segue:

R^2 = 1

Devianza residua Devianza totale

c) Stimare il coefficiente di correlazione tra i rendimenti dei due titoli.

Possiamo far uso della relazione

rXY = 

p 2 R^2 = 

p 2 0 .70 =  0. 84

Poiche la stima della pendenza nel modello empirico e positiva, sappiamo che anche la covarianza tra le due variabili e positiva. Quindi, il coefficiente di correlazione stimato e pari 0. 84.

d) Il broker vuole sapere quale dei due titoli e piu rischioso. A tale ne, calcolare le stime corrette delle varianze dei due titoli.

La stima corretta della varianza del rendimento del titolo y si ottiene immediatamente come:

bσ^2 y =

Devianza totale n 1

Per quanta riguarda la stima della varianza del rendimento del titolo x, dobbiamo in primo luogo procedere al calcolo della devianza spiegata in base alla relazione seguente:

Devianza totale = Devianza spiegata + Devianza residua

dalla quale si ricava immediatamente

Devianza spiegata = 596. 16 176 .70 = 419. 46

In ne, sappiamo che la devianza spiegata e legata a quella della variabile dipendente dalla relazione:

Devianza spiegata = βb^2

∑^ n

i=

(xi x)^2

dalla quale ricaviamo

bσ^2 x =

∑^ n

i=

(xi x)^2

n 1

e) Il broker vuole anche sapere quale dei due titoli ha il rendimento medio piu alto. Sapendo che il rendimento del titolo y e pari al 2.8%, qual e il rendimento medio del titolo x?

Sappiamo che la media dei residui e nulla e che, pertanto, vale la seguente relazione

y = αb + βxb

dalla quale e immediato ricavare:

x =

y bα

β^ b

f) Tenendo a mente le equazioni normali, a quanto e pari la correlazione tra i rendimenti del titolo x e i residui del modello empirico?

Tale correlazione e nulla, si veda il capitolo 18.3 del libro di testo.