Docsity
Docsity

Prepara i tuoi esami
Prepara i tuoi esami

Studia grazie alle numerose risorse presenti su Docsity


Ottieni i punti per scaricare
Ottieni i punti per scaricare

Guadagna punti aiutando altri studenti oppure acquistali con un piano Premium


Guide e consigli
Guide e consigli


Analisi Statistica di Dataset Sociale: Calcoli di Covarianza e Media Campionaria - Prof. R, Prove d'esame di Statistica Sociale

L'analisi statistica di un dataset sociale composto da 20 unità statistiche, con 11 caratteristiche tra qualitative e quantitative. Vengono calcolate le mediane e modalità come indici di posizione, la covarianza e il coefficiente di correlazione tra variabili, e la stima puntuale della media con intervalli di confidenza. Il documento include anche l'analisi dei sessi e la proporzione campionaria.

Tipologia: Prove d'esame

2023/2024

In vendita dal 27/02/2024

vera-mzz
vera-mzz 🇮🇹

9 documenti

1 / 2

Toggle sidebar

Questa pagina non è visibile nell’anteprima

Non perderti parti importanti!

bg1
ASSIGNMENT STATISTICA SOCIALE (VERSIONE A)
Borroni Giada Giulia – matricola n°5310456 e Mazzullo Vera – matricola n° 5310278
1. Il dataset è composto da 20 unità statistiche. Sul collettivo si rilevano 11 caratteri dei quali 2
quantitativi ordinali (SQ e SM), 6 quantitativi (H, NF, X, S, V) e 4 caratteri dicotomici (G, FS, Y,
Z).
2. Come indice di posizione per la variabile H abbiamo scelto la mediana. La mediana della
variabile H è 13. Abbiamo scelto come indice di posizione la mediana perché sintetizza il
centro della distribuzione. Come indice di posizione per la variabile NF abbiamo scelto la
moda in quanto essa ci fornisce la modalità più osservata del carattere, ossia la modalità che
presenta la più elevata numerosità. La moda del carattere NF è 3.
3. La variabile SQ è una variabile qualitativa ordinale che si presenta con 4 modalità. Il quantile di
ordine 0,25, ovvero la modalità che lascia a sinistra il 25% e a
destra il 75% è 2. Il 25% delle unità statistiche avranno un
grado di sicurezza inferiore o uguale a 2. Il quantile di ordine
0.75, ovvero la modalità che lascia a sinistra il 75% e a destra
il 25% è 3. Ciò significa che un altro 25% percepisce un grado
di sicurezza maggiore o uguale di 3. Di conseguenza nella
popolazione vi sono molti studenti che si sentono insicuri nel
proprio quartiere ma altrettanti che si sentono sicuri.
xi ni fi Fi
1 1 0.05 0.05
2 8 0.4 0.45
3 6 0.3 0.75
4 5 0.25 1
4. Dopo aver analizzato le variabili NF e H congiuntamente ed aver inserito i dati in
una tabella a doppia entrata abbiamo calcolato la covarianza. La covarianza è
risultata negativa e pari a -0.62; Il segno negativo ci dice che NF e H sono tra loro in
relazione inversa. Il calcolo del coefficiente di correlazione che è risultato – 0.151
indica una bassa correlazione lineare. Abbiamo riportato i dati su un diagramma a
dispersione ed abbiamo tracciato la nube dei punti per osservare che tra essi vi è una
grande dispersione. Il basso coefficiente di correlazione non indica che ci sia
dipendenza lineare tra le due variabili.
5. La relazione del punto precedente rispetto al gruppo dei maschi non varia molto, la covarianza
risulta - 1.29 e il coefficiente di correlazione -0.33. Nel
grafico osservando i punti di colore verde (“maschi”) si può
notare una situazione simile al grafico precedente, ossia
con una grande dispersione. Invece la covarianza del
gruppo delle femmine è cambiata e risulta 2.25, ciò
significa che la relazione non è più inversa bensì è diretta ed il
suo coefficiente di correlazione è pari a 1 (indice di alta
correlazione lineare). Osservando i punti rossi (“femmine”)
pf2

Anteprima parziale del testo

Scarica Analisi Statistica di Dataset Sociale: Calcoli di Covarianza e Media Campionaria - Prof. R e più Prove d'esame in PDF di Statistica Sociale solo su Docsity!

ASSIGNMENT STATISTICA SOCIALE (VERSIONE A)

Borroni Giada Giulia – matricola n°5310456 e Mazzullo Vera – matricola n° 5310278

  1. Il dataset è composto da 20 unità statistiche. Sul collettivo si rilevano 11 caratteri dei quali 2 quantitativi ordinali (SQ e SM), 6 quantitativi (H, NF, X, S, V) e 4 caratteri dicotomici (G, FS, Y, Z).
  2. Come indice di posizione per la variabile H abbiamo scelto la mediana. La mediana della variabile H è 13. Abbiamo scelto come indice di posizione la mediana perché sintetizza il centro della distribuzione. Come indice di posizione per la variabile NF abbiamo scelto la moda in quanto essa ci fornisce la modalità più osservata del carattere, ossia la modalità che presenta la più elevata numerosità. La moda del carattere NF è 3.
  3. La variabile SQ è una variabile qualitativa ordinale che si presenta con 4 modalità. Il quantile di ordine 0,25, ovvero la modalità che lascia a sinistra il 25% e a destra il 75% è 2. Il 25% delle unità statistiche avranno un grado di sicurezza inferiore o uguale a 2. Il quantile di ordine 0.75, ovvero la modalità che lascia a sinistra il 75% e a destra il 25% è 3. Ciò significa che un altro 25% percepisce un grado di sicurezza maggiore o uguale di 3. Di conseguenza nella popolazione vi sono molti studenti che si sentono insicuri nel proprio quartiere ma altrettanti che si sentono sicuri. xi ni fi Fi 1 1 0.05 0. 2 8 0.4 0. 3 6 0.3 0. 4 5 0.25 1
  4. Dopo aver analizzato le variabili NF e H congiuntamente ed aver inserito i dati in una tabella a doppia entrata abbiamo calcolato la covarianza. La covarianza è risultata negativa e pari a -0.62; Il segno negativo ci dice che NF e H sono tra loro in relazione inversa. Il calcolo del coefficiente di correlazione che è risultato – 0. indica una bassa correlazione lineare. Abbiamo riportato i dati su un diagramma a dispersione ed abbiamo tracciato la nube dei punti per osservare che tra essi vi è una grande dispersione. Il basso coefficiente di correlazione non indica che ci sia dipendenza lineare tra le due variabili.
  5. La relazione del punto precedente rispetto al gruppo dei maschi non varia molto, la covarianza risulta - 1.29 e il coefficiente di correlazione -0.33. Nel grafico osservando i punti di colore verde (“maschi”) si può notare una situazione simile al grafico precedente, ossia con una grande dispersione. Invece la covarianza del gruppo delle femmine è cambiata e risulta 2.25, ciò significa che la relazione non è più inversa bensì è diretta ed il suo coefficiente di correlazione è pari a 1 (indice di alta correlazione lineare). Osservando i punti rossi (“femmine”)

nel grafico è evidente che questi si dispongono vicini tra loro, con una dispersione nettamente inferiore rispetto ai punti verdi.

  1. La stima puntuale per la media del carattere S è di 89.5 euro ed è stata realizzata con lo stimatore media campionaria. Tale stimatore serve per stimare l’ignota media di una variabile statistica misurabile su un intera popolazione e gode delle seguenti proprietà: non distorsione (la media dello stimatore media campionaria è uguale alla media della popolazione), consistenza (al crescere dell’ampiezza del campione diminuisce la varianza dello stimatore) ed efficienza (tra più stimatori non distorti si preferisce quello con varianza minore, per questa ragione lo stimatore media campionaria si preferisce agli altri).
  2. Premettendo che si tratta di un campione casuale e le osservazioni sono indipendenti e seguono una distribuzione normale, l’intervallo di confidenza per la media con livello di confidenza pari a 0.95 è di 76.76≤ μ ≤102.24. Il 95% è la prefissata probabilità che l’intervallo contenga il parametro μ mentre il restante 5% è la probabilità che μ sia esterno all’intervallo. Spostando il livello di confidenza a 0.99 l’intervallo di confidenza che otteniamo cambia rispetto a quello precedente. Il primo (1 - 𝛂= 0.95) è più ampio poiché 𝛂 è maggiore e contiene il secondo (1- 𝛂=0.99). Il secondo intervallo di confidenza. Infatti, deve contenere il parametro ignoto con maggiore probabilità.
  3. La proporzione campionaria, ossia la percentuale di casi favorevoli del carattere Y risulta pari a 0.65, quindi il 65% delle persone appartenenti al campione casuale e indipendente è intenzionata a trascorrere un periodo di studio all’estero mentre la percentuale degli insuccessi è del 35%. L’intervallo di confidenza per la proporzione del carattere Y con un livello di confidenza pari a 0.95 è compreso tra 0.443 e 0.857, va quindi dal 44.3% all’85.7%. La probabilità che p sia incluso nell’intervallo è pari al 95%.
  4. Effettuando il test di ipotesi a livello di significatività 0.95 si è potuto notare che non c’è la stessa proporzione di studenti che si sentono sicuri a prendere i mezzi pubblici e che non si sentono sicuri, rifiutiamo quindi l’ipotesi nulla (H0) per cui ci sarebbe stata la stessa proporzione per le persone sicure e quelle non sicure a prendere i mezzi. Questo perché i due intervalli di confidenza non si sovrappongono, infatti l’intervallo di confidenza per gli studenti che si sentono sicuri corrisponde a [0.711, 0.889] mentre l’intervallo di confidenza per gli studenti che non si sentono sicuri corrisponde a [0.111, 0.289], quindi rifiutiamo H0.