Docsity
Docsity

Prepara i tuoi esami
Prepara i tuoi esami

Studia grazie alle numerose risorse presenti su Docsity


Ottieni i punti per scaricare
Ottieni i punti per scaricare

Guadagna punti aiutando altri studenti oppure acquistali con un piano Premium


Guide e consigli
Guide e consigli


Statistica univariata - intro, Schemi e mappe concettuali di Statistica

Riassunti appunti lezione su analisi statistica univariata, corso Neri, Statistica per le indagini sociali (EAS).

Tipologia: Schemi e mappe concettuali

2022/2023

Caricato il 22/10/2023

laura-seghi
laura-seghi 🇮🇹

5

(1)

8 documenti

1 / 3

Toggle sidebar

Questa pagina non è visibile nell’anteprima

Non perderti parti importanti!

bg1
ANALISI DEI DATI:
Ci troviamo nell’ambito della 4 fase del processo di produzione dei dati.
Segue la terza fase, di elaborazione, in cui vengono applicate delle tecniche
per il contenimento dell’errore totale (dato dall’errore campionario e non
campionario).
La fasi di analisi può svilupparsi secondo numerosi approcci, riassumibili in 2
categorie:
1. Statistica descrittiva ed esplorativa
Si deve fare una distinzione tra le 2: la descrittiva rappresenta in
maniera sintetica alcuni degli aspetti principali di una
distribuzione; l’esplorativa, oltre a ciò, cerca anche di individuare potenziali
pattern e relazioni, individuare variabili latenti, creare modelli.
2. Statistica inferenziale
Statistica descrittiva univariata (non grafica):
Essa si focalizza su tre aspetti:
1. La distribuzione, le misure di tendenza centrale e le misure di posizione;
a. Rappresentazione della distribuzione in forma tabellare, mediante
frequenze assolute, relative e percentuali.
b. Le misure di tendenza centrale sono principalmente tre, la moda (il
valore o la categoria con maggiore densità di frequenza); la mediana
(un indice robusto, dal momento che non risente della presenza di
eventuali outliers e che divide in due parti uguali il campione ordinato
in maniera crescente); la media aritmetica (un indice analitico che, a
differenza della mediana, risente della presenza di valori estremi e che
si calcola sommando i valori osservati e dividendo tale risultato per il
numero di osservazioni).
c. Infine, si hanno le misure di posizione: in primo luogo i quantili, che
sono valori che dividono la distribuzione di una determinata variabile
in un numero di gruppi ordinati e di uguale numerosità. Tra i vari
quantili ritroviamo la mediana, che corrisponde al secondo quartile; i
quartili che dividono in quattro gruppi la distribuzione (primo
secondo e terzo); i quantili dividono in 10 gruppi la distribuzione, noti
come decili e quantili dividono in 100 gruppi, ovvero i percentili.
2. La dispersione;
a. Riallacciandosi all'ultima delle misure di posizione viste sopra,
ritroviamo la distanza interpartitica, ovvero il range che si trova fra
il primo e il terzo quartile, meno soggetto agli estremi.
b. Poi, troviamo il range, ovvero la distanza fra il valore massimo e il
minimo e che risente soprattutto, se non unicamente dei valori
estremi.
c. La deviazione standard, che misura la variabilità attorno alla media
e che si calcola come la radice quadrata dello scarto quadratico
medio, o varianza. Quest'ultima si calcola come il rapporto fra la
sommatoria della differenza al quadrato del scarto di ogni
osservazione rispetto al valore medio e la numerosità delle
osservazioni, che è pari a n -1 nel caso di campioni.
d. Poi si calcola anche il coefficiente di variazione, CV, che
rappresenta un indice non assoluto, dato dal rapporto fra la
deviazione standard e la media, moltiplicato per 100. Questa misura
permette anche di fare i confronti fra distribuzioni diverse: la
distribuzione che presenta CV più elevato presenta anche maggiore
variabilità del carattere.
e. Infine sia l'indice di eterogeneità di Gini, che misura l'eterogeneità
con cui un dato carattere si presenta all'interno di un dato
campione.si può misurare su tutti i tipi di variabili e si misura a
partire dalle frequenze relative. La formula è la seguente:
In cui f corrisponde alla frequenza relativa.
È un indice assoluto, che può assumere valori compresi tra 0 e il valore
massimo, pari a: .
Da questo è possibile calcolare l'indice relativo, dato dalla presente
formula:
, ovvero .
E1= 1 Σ f2
(K1)/ K
e1=E1/((K1)/K)
e1=E1.K/(K1)
1
pf3

Anteprima parziale del testo

Scarica Statistica univariata - intro e più Schemi e mappe concettuali in PDF di Statistica solo su Docsity!

ANALISI DEI DATI:

Ci troviamo nell’ambito della 4 fase del processo di produzione dei dati. Segue la terza fase, di elaborazione, in cui vengono applicate delle tecniche per il contenimento dell’errore totale (dato dall’errore campionario e non campionario). La fasi di analisi può svilupparsi secondo numerosi approcci, riassumibili in 2 categorie :

1. Statistica descrittiva ed esplorativa Si deve fare una distinzione tra le 2: la descrittiva rappresenta in maniera sintetica alcuni degli aspetti principali di una distribuzione; l’esplorativa, oltre a ciò, cerca anche di individuare potenziali pattern e relazioni, individuare variabili latenti, creare modelli. 2. Statistica inferenziale Statistica descrittiva univariata (non grafica): Essa si focalizza su tre aspetti:

  1. La distribuzione, le misure di tendenza centrale e le misure di posizione; a. Rappresentazione della distribuzione in forma tabellare, mediante frequenze assolute, relative e percentuali. b. Le misure di tendenza centrale sono principalmente tre, la moda (il valore o la categoria con maggiore densità di frequenza); la mediana (un indice robusto, dal momento che non risente della presenza di eventuali outliers e che divide in due parti uguali il campione ordinato in maniera crescente); la media aritmetica (un indice analitico che, a differenza della mediana, risente della presenza di valori estremi e che si calcola sommando i valori osservati e dividendo tale risultato per il numero di osservazioni). c. Infine, si hanno le misure di posizione: in primo luogo i quantili , che sono valori che dividono la distribuzione di una determinata variabile in un numero di gruppi ordinati e di uguale numerosità. Tra i vari quantili ritroviamo la mediana, che corrisponde al secondo quartile; i quartili che dividono in quattro gruppi la distribuzione (primo secondo e terzo); i quantili dividono in 10 gruppi la distribuzione, noti come decili e quantili dividono in 100 gruppi, ovvero i percentili.
  2. La dispersione; a. Riallacciandosi all'ultima delle misure di posizione viste sopra, ritroviamo la distanza interpartitica, ovvero il range che si trova fra il primo e il terzo quartile, meno soggetto agli estremi. b. Poi, troviamo il range, ovvero la distanza fra il valore massimo e il minimo e che risente soprattutto, se non unicamente dei valori estremi. c. La deviazione standard, che misura la variabilità attorno alla media e che si calcola come la radice quadrata dello scarto quadratico medio, o varianza. Quest'ultima si calcola come il rapporto fra la sommatoria della differenza al quadrato del scarto di ogni osservazione rispetto al valore medio e la numerosità delle osservazioni, che è pari a n -1 nel caso di campioni. d. Poi si calcola anche il coefficiente di variazione, CV, che rappresenta un indice non assoluto, dato dal rapporto fra la deviazione standard e la media, moltiplicato per 100. Questa misura permette anche di fare i confronti fra distribuzioni diverse: la distribuzione che presenta CV più elevato presenta anche maggiore variabilità del carattere. e. Infine sia l'indice di eterogeneità di Gini, che misura l'eterogeneità con cui un dato carattere si presenta all'interno di un dato campione.si può misurare su tutti i tipi di variabili e si misura a partire dalle frequenze relative. La formula è la seguente: In cui f corrisponde alla frequenza relativa. È un indice assoluto, che può assumere valori compresi tra 0 e il valore massimo, pari a:. Da questo è possibile calcolare l'indice relativo, dato dalla presente formula: , ovvero.

E 1 = 1 − Σ f^2

( K − 1 )/ K

e 1 = E 1 /(( K − 1 )/ K ) e 1 = E 1. K /( K − 1 )

e1 pari a 0 vuol dire max omogeneità => tutte le unità hanno la stessa modalità; viceversa per 1. f. BOX PLOT: rappresenta una sintesi di misure di posizione e variabilità.esso include la mediana, i quartili, il massimo, il minimo e anche la media.

  1. La forma della distribuzione.
    1. ASIMMETRIA

2. CURTOSI:

INDICI E INDICATORI:

Indici e indicatori sono molto diversi tra loro, per quanto si tendano a usare in maniera intercambiabile. Gli indici si usano per misurare fenomeni direttamente osservabili => si formano a partire da un rapporto tra due quantità. Gli indicatori, al contrario, sono strumenti di misura di fenomeni non direttamente osservabili => ci si avvale di fenomeni simili o correlati a quello di interesse, che siano direttamente misurabili. Come si creano gli indicatori: Si parte da un modello concettuale, con cui definiamo il costrutto teorico che vogliamo analizzare (benessere, p o v e r t à ). I l c o s t r u t t o d i p e n d e dall'obiettivo dello studio, dall'ambito spaziale e temporale, dai livelli di a g g r e g a z i o n e e d a i m o d e l l i d i interpretazione e valutazione.