Docsity
Docsity

Prepara i tuoi esami
Prepara i tuoi esami

Studia grazie alle numerose risorse presenti su Docsity


Ottieni i punti per scaricare
Ottieni i punti per scaricare

Guadagna punti aiutando altri studenti oppure acquistali con un piano Premium


Guide e consigli
Guide e consigli


Esempio assignment statistica sociale, Prove d'esame di Statistica Sociale

Assignment di statistica sociale, con valutazione 3/3

Tipologia: Prove d'esame

2020/2021

Caricato il 13/10/2023

silviamaurii
silviamaurii 🇮🇹

4.8

(16)

24 documenti

1 / 2

Toggle sidebar

Questa pagina non è visibile nell’anteprima

Non perderti parti importanti!

bg1
MAURI SILVIA
MATRICOLA: 5103196
ASSIGNMENT B
1. Nella seguente matrice dati, sono state riportate informazioni relative all’osservazione di 20 unità statistiche,
ciascuna delle quali identifica uno studente/essa iscritto/a ad un corso di laurea in sociologia. Sull’intero collettivo
di riferimento, sono stati rilevati 11 caratteri statistici differenti:
4 caratteri qualitativi sconnessi: i caratteri G, FS, Y, Z ciascuno di questi può anche essere identificato con
una variabile statistica dicotomica -;
2 caratteri qualitativi ordinali: i caratteri SQ, SM;
5 caratteri quantitativi discreti: i caratteri H, X, NF, S, V.
2. Per descrivere le variabili statistiche Y e Z (entrambe mutabili sconnesse), l’unico indice di posizione opportuno è
la moda. La moda è la modalità del carattere cui corrisponde la numerosità ni o la frequenza fi più elevata e può
essere calcolata per qualsiasi variabile statistica, a differenza degli altri 2 indici di posizione: la media (calcolabile
solo per v.s. quantitative) e la mediana (solo per v.s. ordinabili). La moda della v.s. Y corrisponde alla modalità
“NO” (lo studente non è intenzionato a trascorrere un periodo di studio all’estero), avendo ni=15; fi=0,75. La
moda della v.s. Z, ancora, corrisponde alla modalità “NO” (lo studente non ha effettuato in passato un periodo di
studio all’estero) (ni=11; fi=0,55).
3. Variabile statistica NF “numero di persone nel nucleo famigliare”
Il quantile 0,1 corrisponde al 10° percentile oppure al 1° decile. Il
1° decile 10Q1(X) è la modalità xi la cui frequenza cumulata Fk è la
prima a raggiungere o superare il valore 0,10 10Q1(X)=2.
Pertanto, il 20% degli studenti ha un nucleo famigliare composto al
più da 2 persone. Analogamente, il quantile 0,9 corrisponde al 90°
percentile oppure al 9° decile 10Q9(X)=4. Pertanto, il 95% degli
studenti ha un nucleo famigliare composto al massimo da 4
persone.
4. Si analizzino congiuntamente le variabili Y: “intenzione di trascorrere un periodo di studio all’estero” e Z:
effettuato in passato un periodo di studio all’estero. Per studiare la relazione funzionale che lega le due
variabili, si calcoli l’indice χ2 , che misura il loro grado di connessione. Si riporti la distribuzione di frequenza
congiunta in una tabella a doppia entrata, poi si calcoli χ2 con la sua formula operativa:
χ2=N[∑ (nyz°)2
ny⋅𝑛∗𝑧
r,s
y=1,z=1 ] χ2=20 [1,03031]=0,606
Per capire il grado di connessione osservato, si normalizzi chi-quadrato: 𝜒2=𝜒2
𝜒 𝑚𝑎𝑥
2=0,606
20 =0,0303 dove
𝜒 𝑚𝑎𝑥
2 = 𝑁[𝑚𝑖𝑛{𝑟;𝑠}1] = 20[21]. Osservando i risultati ottenuti, emerge che c’è una bassissima
connessione statistica (3,0%) tra l’intenzione di trascorrere un periodo di studio all’estero e l’averne effettuato uno
in passato. Anche calcolando le distribuzioni e le rispettive frequenze condizionate 𝑓𝑧|𝑦=𝑛𝑦𝑧
𝑛𝑦 o 𝑓𝑦|𝑧=𝑛𝑦𝑧
𝑛∗𝑧, si può
osservare che, indipendentemente dalla variabile di risposta scelta, non c’è perfetta corrispondenza tra i due
fenomeni (l’intenzione di trascorrere un periodo di studio all’estero non viene quasi per nulla condizionata
dall’esperienza precedente e viceversa).
5. Si analizzino congiuntamente le due variabili Y e FS studente fuori sede. Si ricavi la distribuzione
di frequenza congiunta della variabile statistica doppia, poi si calcoli χ2: χ2=20 [11]=200=0 .
Il risultato ottenuto dimostra che c’è perfetta assenza di connessione (quindi siamo in un caso di indipendenza
stocastica) tra il fatto di essere uno studente fuori sede e il voler trascorrere un periodo di studio all’estero. Anche
calcolando le distribuzioni e rispettive frequenze condizionate 𝑓𝑦|𝑓𝑠=𝑛𝑦𝑓𝑠
𝑛𝑓𝑠 o 𝑓𝑓𝑠|𝑦=𝑛𝑦𝑓𝑠
𝑛∗𝑦, dai risultati ottenuti si
può osservare che le distribuzioni per riga e le distribuzioni per colonna sono uguali tra di loro, oltre che 𝑛𝑦𝑓𝑠=
𝑛𝑦𝑓𝑠. Ciò attesta quindi che ci si trova in un caso di indipendenza stocastica.
- Si analizzino congiuntamente le due variabili Z e FS e si calcoli χ2: χ2=20 [1,0151]=0,3.
Si normalizzi chi-quadrato: 𝜒2=𝜒2
𝜒 𝑚𝑎𝑥
2=0,3
20 =0,015.
A (2;4)
B (3;7)
C (4;19)
D (5;20)
Xi
pf2

Anteprima parziale del testo

Scarica Esempio assignment statistica sociale e più Prove d'esame in PDF di Statistica Sociale solo su Docsity!

MAURI SILVIA

MATRICOLA: 5103196

ASSIGNMENT B

  1. Nella seguente matrice dati, sono state riportate informazioni relative all’osservazione di 20 unità statistiche ,

ciascuna delle quali identifica uno studente/essa iscritto/a ad un corso di laurea in sociologia. Sull’intero collettivo

di riferimento, sono stati rilevati 11 caratteri statistici differenti :

4 caratteri qualitativi sconnessi : i caratteri G , FS , Y , Z – ciascuno di questi può anche essere identificato con

una variabile statistica dicotomica - ;

2 caratteri qualitativi ordinali : i caratteri SQ , SM ;

5 caratteri quantitativi discreti : i caratteri H , X , NF , S , V.

  1. Per descrivere le variabili statistiche Y e Z (entrambe mutabili sconnesse), l’unico indice di posizione opportuno è

la moda. La moda è la modalità del carattere cui corrisponde la numerosità n i

o la frequenza f i

più elevata e può

essere calcolata per qualsiasi variabile statistica, a differenza degli altri 2 indici di posizione: la media (calcolabile

solo per v.s. quantitative) e la mediana (solo per v.s. ordinabili). La moda della v.s. Y corrisponde alla modalità

“NO” ( lo studente non è intenzionato a trascorrere un periodo di studio all’estero ), avendo n i

=15; f i

=0,75. La

moda della v.s. Z , ancora, corrisponde alla modalità “NO” ( lo studente non ha effettuato in passato un periodo di

studio all’estero ) (n i

=1 1 ; f i

  1. Variabile statistica NF “numero di persone nel nucleo famigliare”

Il quantile 0,1 corrisponde al 10° percentile oppure al 1° decile. Il

1° decile

10

Q

1

(X) è la modalità x i

la cui frequenza cumulata F k

è la

prima a raggiungere o superare il valore 0,10 →

10

Q

1

(X)= 2.

Pertanto, il 20% degli studenti ha un nucleo famigliare composto al

più da 2 persone. Analogamente, il quantile 0,9 corrisponde al 9 0°

percentile oppure al 9 ° decile →

10

Q

9

(X)= 4. Pertanto, il 95% degli

studenti ha un nucleo famigliare composto al massimo da 4

persone.

  1. Si analizzino congiuntamente le variabili Y : “ intenzione di trascorrere un periodo di studio all’estero ” e Z :

effettuato in passato un periodo di studio all’estero ”. Per studiare la relazione funzionale che lega le due

variabili, si calcoli l’indice χ

2

, che misura il loro grado di connessione. Si riporti la distribuzione di frequenza

congiunta in una tabella a doppia entrata, poi si calcoli χ

2

con la sua formula operativa:

χ

2

= N ⋅ [∑

(n

yz

°)

2

n y

∗⋅𝑛 ∗𝑧

r,s

y= 1 ,z= 1

] χ

2

= 20 ∗ [ 1 , 0303 − 1 ] = 0 , 606

Per capire il grado di connessione osservato, si normalizzi chi-quadrato: 𝜒

2

𝜒

2

𝜒 𝑚𝑎𝑥

2

0 , 606

20

= 0 , 0303 dove

𝑚𝑎𝑥

2

= 𝑁 ⋅ [𝑚𝑖𝑛{𝑟; 𝑠} − 1 ] = 20 ⋅ [ 2 − 1 ]. Osservando i risultati ottenuti, emerge che c’è una bassissima

connessione statistica (3,0%) tra l’intenzione di trascorrere un periodo di studio all’estero e l’averne effettuato uno

in passato. Anche calcolando le distribuzioni e le rispettive frequenze condizionate 𝑓

𝑧|𝑦

𝑛 𝑦𝑧

𝑛

𝑦

o 𝑓

𝑦|𝑧

𝑛 𝑦𝑧

𝑛

∗𝑧

, si può

osservare che, indipendentemente dalla variabile di risposta scelta, non c’è perfetta corrispondenza tra i due

fenomeni (l’intenzione di trascorrere un periodo di studio all’estero non viene quasi per nulla condizionata

dall’esperienza precedente e viceversa).

  1. Si analizzino congiuntamente le due variabili Y e FSstudente fuori sede ”. Si ricavi la distribuzione

di frequenza congiunta della variabile statistica doppia, poi si calcoli χ

2

: χ

2

[

]

Il risultato ottenuto dimostra che c’è perfetta assenza di connessione (quindi siamo in un caso di indipendenza

stocastica) tra il fatto di essere uno studente fuori sede e il voler trascorrere un periodo di studio all’estero. Anche

calcolando le distribuzioni e rispettive frequenze condizionate 𝑓

𝑦

| 𝑓𝑠

𝑛

𝑦𝑓𝑠

𝑛

𝑓𝑠

o 𝑓

𝑓𝑠

| 𝑦

𝑛

𝑦𝑓𝑠

𝑛

∗𝑦

, dai risultati ottenuti si

può osservare che le distribuzioni per riga e le distribuzioni per colonna sono uguali tra di loro, oltre che 𝑛

𝑦𝑓𝑠

𝑦𝑓𝑠

. Ciò attesta quindi che ci si trova in un caso di indipendenza stocastica.

  • Si analizzino congiuntamente le due variabili Z e FS e si calcoli χ

2

: χ

2

= 20 ∗ [ 1 , 015 − 1 ] = 0 , 3.

Si normalizzi chi-quadrato: 𝜒

2

𝜒

2

𝜒

𝑚𝑎𝑥

2

0 , 3

20

A (2;4)

B ( 3 ;7)

C (4;19)

D (5;20)

Xi

MAURI SILVIA

MATRICOLA: 5103196

ASSIGNMENT B

Il risultato ottenuto dimostra che c’è una bassissima connessione statistica tra l’aver effettuato in passato un

periodo di studio all’estero e l’essere uno studente fuori sede (grado di connessione pari a 1,5%) >> esito

avvalorato anche calcolando 𝑓

𝑓𝑠|𝑧

o 𝑓

𝑧|𝑓𝑠

  1. Per fornire una stima per la proporzione di coloro che, fra gli iscritti a sociologia, hanno effettuato in passato un

periodo di studio all’estero (v.s. Z ), occorre utilizzare la seguente formula:

1

𝑛

𝑖

𝑛

𝑖= 1

; 𝑝̂ = 9/20 = 0,45 = 45% → Si stima che il 45% degli studenti iscritti alla facoltà di sociologia

abbia effettuato in passato un periodo di studio all’estero.

Le proprietà principali della proporzione campionaria sono: non distorsione : E (P̂) = p ; consistenza : maggiore è

l’ampiezza del campione ( n ), minore sarà la varianza dello stimatore proporzione campionaria V(P̂); efficienza :

fra tutti gli stimatori non distorti per la proporzione, P̂ è lo stimatore più efficiente; distribuzione Normale : per il

TLC, al crescere del campione n , la distribuzione della proporzione campionaria tende a quella di una variabile

casuale Normale con media p e varianza

𝑝⋅( 1 −𝑝)

𝑛

  1. Fornire un IC (livello di confidenza 1 - α = 0,95) da associare alla stima 𝑝̂ = 0,
    • Errore standard:

𝑝̂ ( 1 −𝑝̂ )

𝑛

0 , 45 ( 1 − 0 , 45 )

20

  1. 2475

20

  • Valore critico: 𝑧

1 −

𝛼

2

= ± 1 , 96 ; IC: 𝑝̂ ± 𝑧

1 −

𝛼

2

𝑝̂ ( 1 −𝑝̂ )

𝑛

L’IC va dal 23,2% al 66,8% → estraendo un campione probabilistico, nel 95% dei casi, la probabilità che uno

studente abbia effettuato in passato un soggiorno di studio all’estero può variare tra il 23,2% e il 66,8%. La

precisione dell’intervallo di confidenza risulta bassa, quindi si ha un margine di errore considerevole nel calcolare

la stima relativa al fenomeno.

  • IC per 1-α = 0,99 Valore critico: 𝑧

1 −

𝛼

2

= ± 2 , 58 IC = 0,45±0,

L’IC va dal 16,4% al 73,6% → estraendo un campione probabilistico, nel 9 9 % dei casi, la probabilità che uno

studente abbia effettuato in passato un periodo di studio all’estero può variare tra il 16,4% e il 73,6%. Avendo

aumentato il livello di confidenza, l’ampiezza dell’intervallo è cresciuta ulteriormente. L’IC risulta pertanto

ancora meno preciso del caso precedente (con 1-α = 0,95).

  1. Si prendi in considerazione la variabile quantitativa H : “ ore dedicate allo studio nell’ultima settimana ” e si calcoli

un IC per la media (1-α = 0,95).

  • Media campionaria: 𝑥̅ =

1

𝑛

𝑖

𝑛

𝑖= 1

→ 𝑥̅ = 18 , 3 ≫ Essendo in presenza di un campione piccolo ( n <30) e

avendo varianza σ

2

e media μ ignote, occorre utilizzare la variabile casuale T di Student.

∑(𝑥

𝑖

−𝑥̅ )

2

𝑛− 1

10 , 01 = 3,164 quantile t di Student: t 19;0,

IC

0,

[

19 ; 0 , 975

𝑠

𝑛

19

𝑠

𝑛

]

= [ 16 , 819 ; 19 , 781 ] → estraendo un campione probabilistico, nel

95% dei casi, il numero di ore che uno studente ha dedicato allo studio nell’ultima settimana è compreso tra

1 6,819 (circa 17h) e 19, 781 (circa 20h). L’IC risulta pertanto abbastanza preciso.

  1. 1 - α = 0,95 p = 0,50 >> variabile statistica SQ : “ grado di sicurezza percepito nel proprio quartiere ”. Si testi

l’ipotesi nulla H 0

che la proporzione di studenti che si sentono sicuri nel proprio quartiere è pari a quella degli

studenti che non si sentono sicuri con il sistema di ipotesi: H 0

:p = 0,5 vs. H 1

:p ≠ 0,5.

Si utilizzi il test z e si calcoli 𝑝̂ per gli studenti che si sentono sicuri nel proprio quartiere [ 3 , 4 ](si potrebbe

calcolare equivalentemente 𝑝̂ per gli studenti che non si sentono sicuri [ 1 , 2 ]): 𝑝̂ = 9/20 = 0,45.

z oss

𝑝̂ −𝑝

0

𝑝

0

⋅( 1 −𝑝

0

)

𝑛

= |- 0,44 7 | = 0,44 7 → confrontando il valore z oss

= 0,44 7 con i valori teorici z 0,

= +1,96 e – z 0,

= - 1,96, si nota che esso cade entro l’area di accettazione delimitata dai valori critici − 1 , 96 ≤ ± 0 , 447 ≤ 1 , 96. A

livello di significatività 0,95, pertanto, si accetta l’ipotesi nulla H 0

  1. Considerando il test effettuato al punto precedente, poiché si accetta H 0

a livello di significatività 0,95, ci si

aspetterà un valore del p-value > 0, 05. Sarà quindi possibile dimostrare che c’è una certa evidenza empirica a

supporto di H 0

(i dati campionari suggeriscono che è molto probabile che H 0

sia vera). Le stime prodotte con i dati

campionari non risulteranno quindi statisticamente significative.