Statistica univariata - intro | Schemi e mappe concettuali di Statistica

ANALISI DEI DATI:

Ci troviamo nell’ambito della 4 fase del processo di produzione dei dati.

Segue la terza fase, di elaborazione, in cui vengono applicate delle tecniche

per il contenimento dell’errore totale (dato dall’errore campionario e non

campionario).

La fasi di analisi può svilupparsi secondo numerosi approcci, riassumibili in 2

categorie:

1. Statistica descrittiva ed esplorativa

Si deve fare una distinzione tra le 2: la descrittiva rappresenta in

maniera sintetica alcuni degli aspetti principali di una

distribuzione; l’esplorativa, oltre a ciò, cerca anche di individuare potenziali

pattern e relazioni, individuare variabili latenti, creare modelli.

2. Statistica inferenziale

Statistica descrittiva univariata (non grafica):

Essa si focalizza su tre aspetti:

1. La distribuzione, le misure di tendenza centrale e le misure di posizione;

a. Rappresentazione della distribuzione in forma tabellare, mediante

frequenze assolute, relative e percentuali.

b. Le misure di tendenza centrale sono principalmente tre, la moda (il

valore o la categoria con maggiore densità di frequenza); la mediana

(un indice robusto, dal momento che non risente della presenza di

eventuali outliers e che divide in due parti uguali il campione ordinato

in maniera crescente); la media aritmetica (un indice analitico che, a

differenza della mediana, risente della presenza di valori estremi e che

si calcola sommando i valori osservati e dividendo tale risultato per il

numero di osservazioni).

c. Infine, si hanno le misure di posizione: in primo luogo i quantili, che

sono valori che dividono la distribuzione di una determinata variabile

in un numero di gruppi ordinati e di uguale numerosità. Tra i vari

quantili ritroviamo la mediana, che corrisponde al secondo quartile; i

quartili che dividono in quattro gruppi la distribuzione (primo

secondo e terzo); i quantili dividono in 10 gruppi la distribuzione, noti

come decili e quantili dividono in 100 gruppi, ovvero i percentili.

2. La dispersione;

a. Riallacciandosi all'ultima delle misure di posizione viste sopra,

ritroviamo la distanza interpartitica, ovvero il range che si trova fra

il primo e il terzo quartile, meno soggetto agli estremi.

b. Poi, troviamo il range, ovvero la distanza fra il valore massimo e il

minimo e che risente soprattutto, se non unicamente dei valori

estremi.

c. La deviazione standard, che misura la variabilità attorno alla media

e che si calcola come la radice quadrata dello scarto quadratico

medio, o varianza. Quest'ultima si calcola come il rapporto fra la

sommatoria della differenza al quadrato del scarto di ogni

osservazione rispetto al valore medio e la numerosità delle

osservazioni, che è pari a n -1 nel caso di campioni.

d. Poi si calcola anche il coefficiente di variazione, CV, che

rappresenta un indice non assoluto, dato dal rapporto fra la

deviazione standard e la media, moltiplicato per 100. Questa misura

permette anche di fare i confronti fra distribuzioni diverse: la

distribuzione che presenta CV più elevato presenta anche maggiore

variabilità del carattere.

e. Infine sia l'indice di eterogeneità di Gini, che misura l'eterogeneità

con cui un dato carattere si presenta all'interno di un dato

campione.si può misurare su tutti i tipi di variabili e si misura a

partire dalle frequenze relative. La formula è la seguente:

In cui f corrisponde alla frequenza relativa.

È un indice assoluto, che può assumere valori compresi tra 0 e il valore

massimo, pari a: .

Da questo è possibile calcolare l'indice relativo, dato dalla presente

formula:

, ovvero .

E1= 1 − Σ f2

(K−1)/ K

e1=E1/((K−1)/K)

e1=E1.K/(K−1)

Anteprima parziale del testo

Scarica Statistica univariata - intro e più Schemi e mappe concettuali in PDF di Statistica solo su Docsity!

ANALISI DEI DATI:

Ci troviamo nell’ambito della 4 fase del processo di produzione dei dati. Segue la terza fase, di elaborazione, in cui vengono applicate delle tecniche per il contenimento dell’errore totale (dato dall’errore campionario e non campionario). La fasi di analisi può svilupparsi secondo numerosi approcci, riassumibili in 2 categorie :

1. Statistica descrittiva ed esplorativa Si deve fare una distinzione tra le 2: la descrittiva rappresenta in maniera sintetica alcuni degli aspetti principali di una distribuzione; l’esplorativa, oltre a ciò, cerca anche di individuare potenziali pattern e relazioni, individuare variabili latenti, creare modelli. 2. Statistica inferenziale Statistica descrittiva univariata (non grafica): Essa si focalizza su tre aspetti:

La distribuzione, le misure di tendenza centrale e le misure di posizione; a. Rappresentazione della distribuzione in forma tabellare, mediante frequenze assolute, relative e percentuali. b. Le misure di tendenza centrale sono principalmente tre, la moda (il valore o la categoria con maggiore densità di frequenza); la mediana (un indice robusto, dal momento che non risente della presenza di eventuali outliers e che divide in due parti uguali il campione ordinato in maniera crescente); la media aritmetica (un indice analitico che, a differenza della mediana, risente della presenza di valori estremi e che si calcola sommando i valori osservati e dividendo tale risultato per il numero di osservazioni). c. Infine, si hanno le misure di posizione: in primo luogo i quantili , che sono valori che dividono la distribuzione di una determinata variabile in un numero di gruppi ordinati e di uguale numerosità. Tra i vari quantili ritroviamo la mediana, che corrisponde al secondo quartile; i quartili che dividono in quattro gruppi la distribuzione (primo secondo e terzo); i quantili dividono in 10 gruppi la distribuzione, noti come decili e quantili dividono in 100 gruppi, ovvero i percentili.
La dispersione; a. Riallacciandosi all'ultima delle misure di posizione viste sopra, ritroviamo la distanza interpartitica, ovvero il range che si trova fra il primo e il terzo quartile, meno soggetto agli estremi. b. Poi, troviamo il range, ovvero la distanza fra il valore massimo e il minimo e che risente soprattutto, se non unicamente dei valori estremi. c. La deviazione standard, che misura la variabilità attorno alla media e che si calcola come la radice quadrata dello scarto quadratico medio, o varianza. Quest'ultima si calcola come il rapporto fra la sommatoria della differenza al quadrato del scarto di ogni osservazione rispetto al valore medio e la numerosità delle osservazioni, che è pari a n -1 nel caso di campioni. d. Poi si calcola anche il coefficiente di variazione, CV, che rappresenta un indice non assoluto, dato dal rapporto fra la deviazione standard e la media, moltiplicato per 100. Questa misura permette anche di fare i confronti fra distribuzioni diverse: la distribuzione che presenta CV più elevato presenta anche maggiore variabilità del carattere. e. Infine sia l'indice di eterogeneità di Gini, che misura l'eterogeneità con cui un dato carattere si presenta all'interno di un dato campione.si può misurare su tutti i tipi di variabili e si misura a partire dalle frequenze relative. La formula è la seguente: In cui f corrisponde alla frequenza relativa. È un indice assoluto, che può assumere valori compresi tra 0 e il valore massimo, pari a:. Da questo è possibile calcolare l'indice relativo, dato dalla presente formula: , ovvero.

E 1 = 1 − Σ f^2

( K − 1 )/ K

e 1 = E 1 /(( K − 1 )/ K ) e 1 = E 1. K /( K − 1 )

e1 pari a 0 vuol dire max omogeneità => tutte le unità hanno la stessa modalità; viceversa per 1. f. BOX PLOT: rappresenta una sintesi di misure di posizione e variabilità.esso include la mediana, i quartili, il massimo, il minimo e anche la media.

La forma della distribuzione.
1. ASIMMETRIA

2. CURTOSI:

INDICI E INDICATORI:

Indici e indicatori sono molto diversi tra loro, per quanto si tendano a usare in maniera intercambiabile. Gli indici si usano per misurare fenomeni direttamente osservabili => si formano a partire da un rapporto tra due quantità. Gli indicatori, al contrario, sono strumenti di misura di fenomeni non direttamente osservabili => ci si avvale di fenomeni simili o correlati a quello di interesse, che siano direttamente misurabili. Come si creano gli indicatori: Si parte da un modello concettuale, con cui definiamo il costrutto teorico che vogliamo analizzare (benessere, p o v e r t à ). I l c o s t r u t t o d i p e n d e dall'obiettivo dello studio, dall'ambito spaziale e temporale, dai livelli di a g g r e g a z i o n e e d a i m o d e l l i d i interpretazione e valutazione.

Statistica univariata - intro, Schemi e mappe concettuali di Statistica

Documenti correlati

Anteprima parziale del testo

Scarica Statistica univariata - intro e più Schemi e mappe concettuali in PDF di Statistica solo su Docsity!

ANALISI DEI DATI:

E 1 = 1 − Σ f^2

( K − 1 )/ K

e 1 = E 1 /(( K − 1 )/ K ) e 1 = E 1. K /( K − 1 )

2. CURTOSI:

INDICI E INDICATORI: