Docsity
Docsity

Prepara i tuoi esami
Prepara i tuoi esami

Studia grazie alle numerose risorse presenti su Docsity


Ottieni i punti per scaricare
Ottieni i punti per scaricare

Guadagna punti aiutando altri studenti oppure acquistali con un piano Premium


Guide e consigli
Guide e consigli


DISPENSA STATISTICA MODULO 1, prof Paroli, Dispense di Statistica

Dispensa di statistica da frequentante, composta da appunti presi a lezione e slide caricate dal prof

Tipologia: Dispense

2022/2023

In vendita dal 10/11/2022

federica-broggi
federica-broggi 🇮🇹

4

(14)

12 documenti

1 / 30

Toggle sidebar

Questa pagina non è visibile nell’anteprima

Non perderti parti importanti!

bg1
Capitolo 1: introduzione!
La statistica si divide in:
-Statistica descrittiva: insieme di indici e grafici che descrivono i dati completi; è quel genere di
analisi che si limita ad osservare la regolarità dei fenomeni. !
-Statistica probabilistica: studio del meccanismo generatore delle relazioni campionarie
(possibili risultati: modelli teorici da cui provengono i nostri dati); si descrive il comportamento
della popolazione in condizioni di incertezza. !
-Statistica inferenziale: permette, attraverso metodi probabilistici, di trarre conclusioni generali
a parte dall’esame di un campione di osservazioni (dal campione al suo modello generatore). È
un processo che studia il comportamento della popolazione in condizioni di incertezza tramite
l’analisi del campione, come stima, verifica di ipotesi e previsione. "
Campione rappresentativo: miniatura della popolazione !
Campione casuale: tutte le unità hanno una probabilità di entrare a far parte del campione;
permette di quantificare un errore !
Nb: sondaggi campioni statistici !
FASI RICERCA STATISTICA
-Definizione degli obiettivi !
-Astrazione: individuazione variabili !
-Individuazione della popolazione !
-Rilevazione !
-Registrazione dati !
-Elaborazione (sintesi, interpretazione e inferenza)!
Prima di applicare qualunque indagine statistica è necessario verificare le fonti da cui provengono
i dati, la qualità e la creazione della matrice dei dati (database: tabella formata da tutti i dati
rilevanti per ogni elemento e caratteristica oggetto dell’indagine). !
-righe (giallo): unità statistiche, supporto fisico/materiale su cui si manifesta il fenomeno!
-colonne (rosso): caratteri, proprietà qualitative e quanti tritati e dell’unità sperimentali!
-Popolazione/universo. Si intende la totalità dei casi, ovvero delle unità sulle quali è possibile
rilevare una variabile di interesse !
-Campione. Si intende un insieme finito di n unità che si può ritenere rappresentativo dell’intera
popolazione "
La matrice dei dati contiene
tutte le informazioni analitiche
di ciascuna unità statistica. !
I CARATTERI
Proprietà dell’unità statistiche/sperimentali; è il risultato di un’operazione compiuta sulle unità
statistiche ed è in definitiva un’informazione che si vuole studiare, dunque la caratteristica oggetto
di studio. !
Le modalità del carattere sono le diverse intensità (numero che esprime l’ammontare, la misura di
un carattere quantitativo di una unità statistica) o i diversi attributi che un carattere può assumere.
È il numero (per i caratteri quantitativi) o attributo (per i caratteri qualitativi) che l’unità statistica
manifesta:!
-attributi per caratteri qualitativi !
-misure per caratteri quantitativi: sono espresse da numeri risultanti da misurazioni!
1
pf3
pf4
pf5
pf8
pf9
pfa
pfd
pfe
pff
pf12
pf13
pf14
pf15
pf16
pf17
pf18
pf19
pf1a
pf1b
pf1c
pf1d
pf1e

Anteprima parziale del testo

Scarica DISPENSA STATISTICA MODULO 1, prof Paroli e più Dispense in PDF di Statistica solo su Docsity!

Capitolo 1: introduzione

La statistica si divide in:

Statistica descrittiva : insieme di indici e grafici che descrivono i dati completi; è quel genere di

analisi che si limita ad osservare la regolarità dei fenomeni.

Statistica probabilistica : studio del meccanismo generatore delle relazioni campionarie

(possibili risultati: modelli teorici da cui provengono i nostri dati); si descrive il comportamento

della popolazione in condizioni di incertezza.

Statistica inferenziale : permette, attraverso metodi probabilistici, di trarre conclusioni generali

a parte dall’esame di un campione di osservazioni (dal campione al suo modello generatore). È

un processo che studia il comportamento della popolazione in condizioni di incertezza tramite

l’analisi del campione, come stima, verifica di ipotesi e previsione.

Campione rappresentativo: miniatura della popolazione

Campione casuale: tutte le unità hanno una probabilità di entrare a far parte del campione;

permette di quantificare un errore

Nb: sondaggi ≠ campioni statistici

FASI RICERCA STATISTICA

  • Definizione degli obiettivi
  • Astrazione: individuazione variabili
  • Individuazione della popolazione
  • Rilevazione
  • Registrazione dati
  • Elaborazione (sintesi, interpretazione e inferenza)

Prima di applicare qualunque indagine statistica è necessario verificare le fonti da cui provengono

i dati, la qualità e la creazione della matrice dei dati (database: tabella formata da tutti i dati

rilevanti per ogni elemento e caratteristica oggetto dell’indagine).

  • righe (giallo): unità statistiche, supporto fisico/materiale su cui si manifesta il fenomeno
  • colonne (rosso): caratteri, proprietà qualitative e quanti tritati e dell’unità sperimentali
  • Popolazione/universo. Si intende la totalità dei casi, ovvero delle unità sulle quali è possibile

rilevare una variabile di interesse

  • Campione. Si intende un insieme finito di n unità che si può ritenere rappresentativo dell’intera

popolazione

La matrice dei dati contiene

tutte le informazioni analitiche

di ciascuna unità statistica.

I CARATTERI

Proprietà dell’unità statistiche/sperimentali; è il risultato di un’operazione compiuta sulle unità

statistiche ed è in definitiva un’informazione che si vuole studiare, dunque la caratteristica oggetto

di studio.

Le modalità del carattere sono le diverse intensità (numero che esprime l’ammontare, la misura di

un carattere quantitativo di una unità statistica) o i diversi attributi che un carattere può assumere.

È il numero (per i caratteri quantitativi) o attributo (per i caratteri qualitativi) che l’unità statistica

manifesta:

  • attributi per caratteri qualitativi
  • misure per caratteri quantitativi: sono espresse da numeri risultanti da misurazioni

I caratteri qualitativi si dividono in:

  • sconnessi: scala nominale, non è possibile ordinarle (es: tipo di industria, sesso, comune di

residenza,…)

  • ordinati: scala ordinale, è possibile ordinarli secondo un criterio cronologico (es: titolo di studio,

risultato di un esame,…)

I caratteri quantitativi si dividono a loro volta in:

  • discreti: le modalità sono dei numeri che appartengono ad un insieme finito o numerabile, che

esprime numeri interi

  • continui: modalità soggette a misurazioni; insieme di numeri infiniti o reali

La statistica descrittiva univariata si occupa di tuti gli strumenti descrittivi per l’analisi di un solo

carattere estratto dalla matrice dei dati.

LA DISTRIBUZIONE DI FREQUENZA

Per organizzare i dati elementari in prospetti sintetici delle osservazioni è utile costruire una

distribuzione o tabella utilizzando la nozione fondamentale di frequenza.

  • v j

= singoli valori (j = 1, 2, ..., n) dove n è il numero di unità statistiche

  • x i

= modalità distinte (manifestazione del carattere/variabile)

  • n i = frequenze (i = 1, 2, ..., k) dove k è un numero di modalità differenti

La frequenza è il numero che esprime quante volte una data modalità del carattere si presenta

nella totalità delle unità rilevate.

I tipi di frequenza sono:

assoluta: s’intende il numero di unità statistiche che presentano una data modalità n i; sono

numeri interi, positivi e la somma da n:

n i ≥ 0 interi e ∑ n i = n (finisci formula)

relativa : numero di unità statistiche sul totale che presentano una data modalità f i

. sono

positive e la somma da 1:

Fi = n i /n 0 <= f i <= 1 e ∑f i

moltiplicando per cento f i si ottengono le frequenze percentuali p i = f i

cumulata : numero N i o frazione F i di unità statistiche che presentano una data modalità minore

o uguale alla corrente (N i

o F i

  • F.C. assolute = N
  • F.C: relative = F

Nb. ha senso calcolare le frequenze cumulate solo per caratteri che presentano un ordinamento.

Si calcolano quindi per caratteri qualitativi ordinati e quantitativi (discreti e continui). Non si

calcolano per i caratteri sconnessi

Per i caratteri quantitativi continui (o discreti con modalità in classi)

istogrammi. In corrispondenza ad ogni classe si disegna un rettangolo con base proporzionale

all’ampiezza della classe e altezza proporzionale alla frequenza o alla densità se le classi sono

di diversa ampiezza

ASSE ORDINATE: frequenze assolute, relative e densità

ASSE ASCISSE: modalità

In statistica gli assi usano unità di misura differenti l’uno con altro,

per definire al meglio le frequenze.

CASO A: nel caso in cui le classi abbiano ampiezza diversa, le altezze dei rettangoli sono uguali

alla densità di frequenza.

CASO B: il grafico cartesiano per la rappresentazione dell’andamento dei valori delle frequenze

cumulate assolute o relative (N i o F i ). Sull’asse delle x vengono poste le modalità, mentre sull’asse

delle y vengono collocate le frequenze cumulate. Si viene a creare un grafico a gradini. Nel caso in

cui il carattere sia quantitativo in classi, la funzione a gradini è approssimata ipotizzando che le

unità statistiche siano equipartite dentro la classe.

CASO C: nelle serie dipendenti dal tempo, il grafico in coordinate cartesiane ortogonali in cui il

tempo t, è sull’asse delle ascisse, mentre i valori della serie sono sull’asse delle ordinate. Nel caso

in cui il carattere sia quantitativo in classi, la funzione a gradini è approssimata ipotizzando che le

unità statistiche siano equipartite dentro la classe.

VARIABILI STATISTICHE DOPPIE

La variabile statistica doppia è lo studio di 2

caratteri osservati congiuntamente, è data da

coppie elementari {x r

,y r

} con (r= 1, 2, ..., n)

Le tipologie di frequenze che in questo caso troviamo sono:

frequenza congiunta (nij): definisce il numero di unità statistiche che possiedono

contemporaneamente la modalità i del carattere X e la modalità j del carattere Y. È il numero di

unità statistiche che presentano la coppia di modalità (xi,yj)

  • frequenza marginale (n i):

definisce il numero di unità statistiche che possiedono la modalità i

del carattere X

frequenza marginale (nj): definisce il numero di unita statistiche che possiedono la modalità j

del carattere Y

Ni: numero di unità statistiche che possiedono la modalità i del carattere X (somma frequenze

di riga)

Nj: numero di unità statistiche che possiedono la modalità j del carattere Y (somma frequenze

colonna)

VARIABILI STATISTICHE MARGINALI E CONDIZIONATE

Dalla tabella a doppia entrata si ricavano due tipi di variabile statistica univariate, dette marginali e

condizionate:

Capitolo 2: indici di posizione

Gli indici di posizione sono indici sintetici che evidenziano le caratteristiche essenziali della

distribuzione del carattere. Attraverso gli indici di posizione è possibile confrontare statistiche che

rappresentano i livelli/valori tipici di due diverse distribuzioni (misurazione media).

Date n osservazioni v 1

, v 2

, ..., v n

o la variabile statistica X, un indice di posizione (o statistica o

media) è una funzione dei dati. α = α (v 1

, v 2

, ..., v n

) = α (X i

, n i

) = α(X) che gode di alcune proprietà:

Internalità (condizione di Cauchy): l’indice deve essere compreso tra il minimo e il massimo

valore osservato Xmin ≤ a(X) ≤ Xmax

Monoticità: se una variabile statistica ha tutte le modalità minori o uguali a quelle di un’altra

variabile (X ≤ Y) allora la stessa relazione vale sugli indici di posizione se X ≤ Y → a(X) ≤ a(Y)

Moltiplicablilità: se le modalità di una variabile statistica X sono tutte moltiplicate per una

costante allora il valore dell’indice di posizione della nuova variabile si può ottenere

moltiplicando per la costante l’indice di posizione di X a(cX) = c a(X) → modalità c = cindice di

posizionamento, dove c è costante.

La proprietà 1, è irrinunciabile e vale per ogni tipologia di carattere. Nel caso di caratteri qualitativi

si deve interpretare nel senso che l’indice di posizione deve coincidere con una delle modalità

osservate sul carattere.

Se oltre alla 1, valgono anche le proprietà 2 e 3 si ha un indice di posizione (media) in senso

stretto.

Se almeno una delle proprietà 2 o 3, NON valgono si ha un indice di posizione (media) in senso

lato.

Gli indici tipici si dividono in:

indici non analitici (non si calcolano ma si individuano): moda, percentuali di ordine p, mediana

Indici analitici (calcolabili): aritmetica, armonica, geometrica e quadratica

Moda

La moda è la modalità/valore cui è associata la massima frequenza.

Ci sono diversi metodi di calcolo a seconda della tipologia del carattere:

CARATTERI QUALITATIVI/QUANTITATIVI DISCRETI: x= Mo (X) = {x j : n j = max n i*

Operativamente bisogna prima individuare la massima frequenza (assoluta o relativa); la

moda sarà uguale alla modalità corrispondente

Nella pratica: devo guardare la casella a destra (ni) e selezionare il valore più alto

CARATTERI QUANTITATIVI CONTINUI/DISCRETI DEFINITI DA CLASSI DI MEDESIMA AMPIEZZA

(classe modale): x= Mo (X) = {x jc : n j = max n i*

Operativamente bisogna individuare la classe modale (con massima frequenza) e poi riscontrare

la moda che equivale al valore centrale della classe modale (prendo i due valori con maggiore

frequenza e poi divido per due)

Esempio

La classe modale (xi), ossia quella a viene associato il numero di

frequenza piu elevato, è 11 -| 13

Mo(X) = (11+13)/2 = 12 (punto centrale)

xi ni

4

5

15

14


38

Percentili e mediana

I percentili sono la modalità (xi)°/valori che dividono la distribuzione di frequenza ordinata in più

parti. Percentili vuol dire che dividono in 100 parti la distribuzione. Non esistono solo i percentili,

ma anche i quartili che dividono in 4 parti la distribuzione, e i decili che dividono in 10 parti la

distribuzione.

In generale, il percentile x p

di ordine p (0 < p < 1) è quella modalità che è:

  • Preceduta da almeno p * 100% dei casi
  • Superata da almeno (1-p)* 100% dei casi

Quindi i quartili sono formati da percentili di ordine 0.25 – 0.50 - 0.75, i decili sono composti da

percentili di ordine 0.1 – 0.2 - ... - 0.9, mentre i percentili sono formati da percentili di ordine 0.01 –

La mediana è la modalità/valore che occupa la posizione centrale nella distribuzione ordinata dei

dati (nella scala si trova in mezzo) → è il 2° quartile. Essa è:

  • Preceduta da almeno 50% dei casi
  • Superata da almeno 50% dei casi

Per individuare la mediana è necessario innanzitutto calcolare la posizione centrale, la cui

individuazione dipende dalla numerosità totale n:

Nel caso in cui n = dispari: la posizione centrale è una ed è data da (n+1)/2 da cui mediana è

data da x(n+1)/2 (il risultato deve essere ovviamente intero).

Nel caso in cui n = pari: le posizioni centrali sono due e sono n/2 e n/2+1; a questo segue che

le mediane sono xn/2 e xn/2 + 1

Per individuare le posizioni (n+1)/2, n/2, n/2+1 bisogna guardare la colonna delle frequenze

cumulate e individuare la prima frequenza cumulata maggiore o uguale alla posizione cercata

Esempio: caratteri quantitativi discreti con numeri dispari

  1. A partire dalla definizione di mediana: 0 0 1 1 2 3 3 3 4

Me = 2

  1. Utilizzando le formule di riferimento

n = 9 dispari → la posizione centrale: (9+1)/2 = 5

La quinta unità statistica si trova in terza posizione su Ni → Me = x5 = 2

Per individuare le posizioni n/2, n/2+1, (n+1)/2 sulle distribuzioni di frequenza si utilizzano le

frequenze cumulate.

Si individua la prima frequenza cumulata maggiore o uguale della posizione centrale

Esempio: caratteri quantitativi discreti con numeri pari

  1. A partire dalla definizione di mediana: 0 0 1 1 1 1 1 1 1 2 2 2 2 3 3 4

Me = 1

  1. Utilizzando le formule di riferimento

n = 16 pari → le posizioni centrali sono: 16/2 = 8 e 16/2+1 = 9

L’ottava e la nona unità statistica si trovano tra la seconda e la nona posizione

su Ni → Me = (x8 + x9)/2 = (1+1)/2 → essendo caratteri quantitativi posso

usare la semi somma.

xi ni Ni

0

1

2

3

4

2

2

1

3

1


9

2

4

5

8

9

xi ni Ni

0

1

2

3

4

2

7

4

2

1


16

2

9

13

15

16

Esempio: caratteri qualitativi con numeri pari

  1. A partire dalla definizione di mediana:

GI GI I I I I I I S S S S S B B O → Me = I e S

  1. Utilizzando le formule di riferimento

n = 16 pari → le posizioni centrali sono: 16/2 = 8 e 16/2+1 = 9

Non essendo un carattere quantitativo non posso fare la

semi somma, quindi la Me = insufficiente e sufficiente

NB. la mediana non è influenzata dai valori estremi della distribuzione, infatti si dice che è robusta

rispetto a variazioni dei valori minimo e massimo della distribuzione di frequenza. La mediana è la

stessa anche se le due distribuzioni sulle code si comportano in maniera diversa.

La mediana può essere solo calcolata per i caratteri quantitativi e qualitativi ordinati. Non si può

calcolare per i caratteri qualitativi sconnessi

Caratteri quantitativi raggruppati in classi

  1. Si trova un intervallo mediano per cui tutti i suoi valori [h i-

, h i

] soddisfano la definizione

  1. Si calcola la mediana attraverso la formula: Me (X) = h i-

+ (P - N

i-

) a i

/n i

Dove

  • h i- = limite inferiore della classe mediana
  • P = posizione mediana

n pari = n/2 e n/2+1 n dispari = (n+1)/2 N i-

= frequenza cumulata della classe precedente alla

classe mediana

  • a i = ampiezza classe mediana

n i

= frequenza assoluta classe mediana

Esempio: mediana con carattere quantitativo continuo caso dispari X = voto verifica

n = 19 dispari → la posizione centrale: (19+1)/2 = 10

Classe media = 4 -| 6

Mediana = Me(X) = 4 + (10-4)*2/8 = 5.5 (il valore deve essere dentro la

classe mediana, ossia tra 4 e 6 in questo caso)

Esempio: mediana con carattere quantitativo continuo caso pari X = altezza

n = 330 pari → le posizioni centrali: 330/2 = 165 e 330/2+1 =

Classe media = 11.5 -| 15.5 (devi guardare dove entrano in Ni)

Mediane: Me(X)1 = 11.5 + (165-11.5)*4/120 = 14.

Me(X)2 = 11.5 + (166-11.5)*4/120 = 14.

Mediana: (Me(X)1 + Me(X)2)/2 = 14.

Mediana con le frequenze relative

La mediana si può calcolate anche con le frequenze relative, cioè si può ragionare sulle frequenze

relative anziché sulle assolute. Ciò avviene per:

Caratteri qualitativi/quantitativi discreti: la mediana è la modalità cui corrisponde la prima

frequenza relativa cumulata maggiore o uguale a 0.

xi: giudizio ni: studenti Ni

Grav. Insuff

Insuff

Suff

Buono

Ottimo

2

6

5

2

1


16

2

8

13

15

16

xi ni Ni

0 -| 4

4 -| 6

6 -| 7

7-| 10

4

8

5

2


19

4

12

17

19

xi ni Ni

7.5 -| 9.

9.5 -| 11.

11.5 -| 15.

15.5-| 21.

40

25

120

145


330

40

65

185

330

r = 1 media aritmetica: μ

(1) = μ = 1/n ∑ xi ni con le frequenze relative μ

(1) = μ = ∑ xi fi

  • positività di x è inessenziale -i

r = - 1 media armonica: μ

(- 1) = n / [∑ (1/xi) ni] con le frequenze relative μ

(- 1) = 1 / [∑ (1/xi) fi]

  • xi = 0 toglie significato quindi xi ≠ 0
  • Valori positivi e negativi potrebbero condurre a denominatore nullo

r = 2 media quadratica: μ

(2) = (∑ xi

2 ni/ n)

1/ con frequenze relative

  • positività di x è inessenziale
  • r → 0 media geometrica: μ

(0) = (Πxi

ni )

1/n

  • per r = 0 la media non è definita (forma 1

∞ )

  • si ottiene μ

(0) per continuità (limite)

Nb: la media geometrica:

  • contiene una produttoria e non una sommatoria
  • la radice non è quadrata, ma n-esima (n = numero dei dati)
  • le frequenze sono alla potenza e non moltiplicate alle modalità

Quindi i calcoli a volte risultano pesantissimi e nemmeno la calcolatrice supporta numeri cosi

grandi; operativamente parlando conviene calcolare la media geometrica attraverso i logaritmi: 1.

  • Calcolare il logaritmo della media geometrica come media aritmetica dei logaritmi:

logμ

(0) =1/n∑(ln xi)ni

  • Ricavare la media geometrica dal precedente passo, calcolando la funzione inversa del

logaritmo: μ

(0) = e

ln μ(0)

il teorema fondamentale delle medie potenziate, dice che la funzione, con xi positivi e distinti, è:

μ

(r) = (∑ xi

r fi)

1/r

  • monotona non decrescente: se r ≤ s allora μ

(r) ≤ μ

(s)

  • limμ

(r) =xmin limμ

(r) =xmax

r→ - ∞ r→ + ∞

  • ogni μ

(r) è una media in senso stretto

In particolare : μ

(-1) ≤μ

(0) ≤μ ≤μ

(2) , quindi media armonica ≤ media geometrica ≤ media aritmetica ≤

media quadratica ciò è valido se vale l’eguaglianza delle xi

Proprietà della media aritmetica

Proprietà 1: la media aritmetica rende nulla la somma degli scarti (differenza) di ogni valore da

un indice di posizione ∑(xi-α) ni = 0 se α = μ → M(X- μ) = 0

Proprietà di minimo: la media aritmetica minimizza la somma dei quadrati degli scarti di ogni

valore da un indice di posizione D = ∑(xi-α)

2 ni =minimo se α = μ

Operatore media aritmetica: assegna ad ogni X la sua media aritmetica M(X) = μx = 1/n ∑xini

= ∑xifi è utile quando la media aritmetica compare in formule matematiche più complesse. Con

le seguenti proprietà:

  1. M(c) = M(costante) = c
  2. M(cX) = c M(X)

3. M(X ± Y) = M(X) ± M(Y)

  1. M(X) è un operatore lineare cioè se Y=aX+b allora M(Y) = aM(X)+b

Proprietà associativa della media aritmetica: l’ipotesi, che i dati elementari siano riuniti in h

gruppi di cui si conoscono le medie e le rispettive numerosità. Si suppone cioè che di un

insieme di dati non si conoscano i valori assunti dal carattere X singolarmente su ciascuna unità

statistica, ma si abbia la conoscenza solo di alcuni risultati già in forma aggregata: si conosca

cioè il valor medio di X e la numerosità in ciascuno degli h gruppi in cui l’insieme è stato

suddiviso.

La media totale = media delle medie parziali. La media totale è uguale alla media delle medie

ciascun gruppo, ponderate per la rispettiva numerosità

In sintesi:

FORMULE

  • M. Aritmetica: (xi*ni)/ni
  • M. Quadratica: [(xi

2 *ni)/ni)]

1/

  • M. Armonica: ni/[(ni*(1/xi)]
  • M. Geometrica: prodotto

1/ni oppure uso la formula

dei logaritmi

Arm ≤ geo ≤ arid ≤ quad

Capitolo 3: varianza e indici di forma

Gli indici di posizione sono indici che sostituiscono alle diverse modalità del carattere un’unica

modalità che possa ritenersi rappresentativa di tutte le altre. Da solo l’indice di posizione risulta

insufficiente per descrivere un fenomeno.

La sintesi comporta la perdita di informazioni, due distribuzioni possono avere la stessa media ma

essere tra loro molto diverse. Da qui, la necessità di introdurre e affiancare agli indici di posizione

anche degli indicatori di variabilità, cioè indicatori della diversità/molteplicità dei valori di un

carattere.

La variabilità è l’attitudine del carattere ad assumere modalità differenti (valori diversi); in base alle

differenti tipologie di carattere si parla più propriamente:

indici di mutabilità o eterogenità: per caratteri qualitativi

  • indice di eterogeneità di Gini
  • indice di eterogeneità di Gini normalizzato

indici di variabilità o dispersione: per caratteri quantitativi

  • varianza e scarto quadratico medio. coefficiente di variazione
  • varianza normalizzata

A prescindere dal carattere, tutti gli indici di variabilità devono soddisfare le seguenti proprietà

generali. Un indice di variabilità v(X) gode delle proprietà seguenti:

1. NON NEGATIVITÀ: v(X) ≥ 0

un indice di variabilità deve essere sempre maggiore o uguale a zero. v(X) = 0 se e solo se tutte le

modalità della distribuzione sono uguali, è il caso di una distribuzione degenere, ovvero quando

tutte le unità statistiche assumono la stessa modalità del carattere

Per CARATTERI QUALITATIVI SCONNESSI si può calcolare solo la moda

Per CARATTERI QUALITITIVI ORDINABILI si possono calcolare la moda e la mediana,

percentili

Per CARATTERI QUANTITATIVI DISCRETI/ CONTINUI si possono calcolare tutti gli indici

(moda, mediana, media)

Se gli indici sono tutti calcolabili quale scegliere?

MODA se la distribuzione è unimodale e se vuole mettere in evidenza la modalità più

rappresentativa

MEDIANA se si è presenza di valori anomali e si vuole un indice di posizione che non risenta di

questi valori sulle code

MEDIA POTENZIATA se si vuole un indice analitico

MEDIA ARITMETICA è sensibile ai valori anomali

MEDIA GEOMETRICA è opportuna quando si voglia fare la media di quantità espresse attraverso

i rapporti ed è poco sensibile alla presenza di valori anomali

MEDIA QUADRATICA ha utilità indiretta, ovvero che viene usata per la definzione della varianza e

sarà utile nella regressione

Un’altra misura di variabilità che vedremo al termine di questo capitolo, quando faremo i box-plot,

è invece la differenza interquartile (Q3 – Q1), cioè la differenza tra il terzo e il primo quartile.

È possibile però ottenere anche indici più elaborati. Esistono due impostazioni basate sul

differente modo di calcolare tali distanze:

  • le distanze di ogni modalità da tutte le altre
  • le distanze di ogni modalità da una particolare, scelta ad hoc

Le misure di variabilità si basano sulla nozione di distanza. Consideriamo in particolare due

tipologie di indicatori elementari:

a. indicatori globali δij: la distanza tra le modalità assunte da due generiche unità statistiche. È la

distanza da tutte le altre. Ogni unità statistica viene confrontata con tutte le altre Matrice nxn –

simmetria – diagonale di zeri

b. indicatori di dispersione δi: la distanza tra la modalità assunta da una generica unità statistica

e un centro c, dove c è il centro di riferimento. È la distanza di ogni modalità da una

particolare o rappresentativa di X. Ogni unità statistica viene confrontata con un centro.

La varianza è il quadrato dello scarto quadratico medio. Esso corrisponde alla media degli

scarti della media al quadrato: D 2 (μ)

2 = ơ

2 = Var(X) = ơ

2 (X) = M [(X- μx)

2 ] con Var(X) ≥ 0.

Lo scarto quadratico medio è la radice della varianza (ơ)

  • r=1 (dalla mediana): D1(Me) = 1/n* ∑ |xi-Me|ni
  • r=2 (dalla media): D2(μ) = (1/n* ∑ (xi*μ)

2 )

1/n

FORMULA OPERATIVA DELLA VARIANZA: Var(X) = M(X)

2

  • μ

2 = (xi

2 ni)/ni - μ

2

Come per l’indice di mutabilità di Gini, dobbiamo definire le due situazioni estreme usate Per

calcolare le espressioni della varianza minima e massima da cui definire la varianza normalizzata.

Le due condizioni estreme sono:

Minima variabilità: si verifica quando la variabile statistica è caratterizzata da una distribuzione

degenere (costante), cioè tutte le unità statistiche assumono lo stesso valore le modalità xi = xj

= c ꓱ i ≠ j, con i, j = 1,…,k tutti gli indici assumono valore 0, anche la varianza assume il suo

valore minore → varianza = VAR(X)

Massima variabilità: nella distribuzione di max variabilità le unità statistiche si distribuiscono

intorno ai valori estremi delle modalità della variabile in studio. La variabilità aumenta se

aumenta la distanza dalle modalità dalla media fissa (centro). In altre parole, mantenendo fissa

la media, la variabilità aumenta se aumentano le distanze tra le modalità (proprietà di

monotonicità), quindi bisogna spostare valori e frequenze verso gli estremi o oltre.

Per confrontare la variabilità di due variabili si preferisce utilizzare un indice di variabilità relativo,

come il coefficiente di variazione. Il coefficiente di variazione è un indice di variabilità relativo:

  • Numero puro che non dipende dall’unità di misura delle modalità ma non è normalizzato (non è

compreso tra 0 e 1)

  • Utile per effettuare confronti

CV = s.q.m / media = ơ/μ e il CV deve essere sempre ≥ 0

Nb: la varianza risente al quadrato l’unità di misura!!!

μ = (xini)/ni*

ơ = ((xi-μ)

2 ni)/ni

Come per la media aritmetica, che è l’indice di posizione più utilizzato, anche la varianza gode di

alcune proprietà. Le proprietà della varianza sono:

1. OPERATORE VARIANZA: l’operatore Var(*) associa ad ogni variabile la sua varianza

  • Var(a) = 0 (varianza di una costante)
  • Var(aX) = a2 Var(X)
  • Var (X + b) = Var(X) (invarianza per traslazioni)
  • Var(aX + b) = a

2 Var(X) (non linearità)

  • Var(X+Y) = Var(X) + Var(Y) + termine ≠ 0 2. TEOREMA DI SCOMPOSIZIONE DELLA VARIANZA (I versione)

Questo teorema afferma che la varianza totale (ơ

2 ) è ottenibile dalla somma di due varianze, la

varianza between ovvero tra i gruppi (ơ

2 B) e la varianza within ovvero entro i gruppi (ơ

2 w). Quindi:

ơ

2 = ơ

2 W + ơ

2 B

VARIANZA TOTALE = VARIANZA WITHIN + VARIANZA BETWEEN

W = varianza within “entro i gruppi ” = ơ

2 W =1/n∑ [∑(xij -μj)2 /nj ]nj

B = varianza between “tra i gruppi” = ơ

2 B =1/n∑(μj -μ)2 nj

NB. nel caso in cui non si conoscano i valori assunti da un carattere su tutte le unità statistiche,

ma di ogni sottogruppo in cui è suddivisa la popolazione siano noti:

  • Numerosità dei gruppi (nj )
  • Media dei gruppi (μj )
  • Varianza dei gruppi (ơ

2 j)

È possibile ricavare la media generale , tramite l’applicazione della proprietà associativa, e la

varianza tramite il teorema di scomposizione della varianza.

Nb: la distribuzione delle varianze dei gruppo (ơj)

vengono date dal testo, io dovrò elevarlo alla

seconda cosi da poter calcolare la varianza

whitin.

Il box plot visto come grafico che riassume le caratteristiche di una distribuzione di frequenza

perché è basato sui quartini, ci dà indicazione sia sulla indice di posizione, sulla variabilità, sui

possibili outliers, su come è distribuite, distribuite, su come sono distribuite le unità statistiche,

cioè le frequenze rispetto alle modalità.

Inoltre ci da adesso vedremo indicazione di una particolare forma indice di forma che è la

simmetria di una distribuzione.

Indice di forma: la simmetria

La descrizione di un carattere statistico non si esaurisce nello studio degli indici di posizione e di

variabilità ma ci sono molti altri aspetti che possono essere studiati e misurati con svariati indici.

Essi prendono il nome di indice di forma e sono definiti tramite i cosiddetti momenti di una

variabile statistica.

I due aspetti che sono comunemente studiati sono:

  • Simmetria
  • Curtosi

Gli indici di forma sono definiti tramite i momenti di una variabile statistica e sono calcolati per

caratteri quantitativi. Attraverso tali indici possiamo valutare altre caratteristiche di una

distribuzione di frequenza oltre alla media e alla variabilità.

I momenti di una variabile statistica sono:

i momenti centrali (o della media) di ordine s ≥ 1 →

i momenti dall’origine di ordine s ≥ 1 →

In generale, una funzione f(x) si dice simmetrica rispetto a un polo di simmetria (centro) c, se per

ogni k > 0 vale f (c - k) = f(c + k)

Una variabile è simmetrica rispetto ad un

centro c se:

Per ogni xi = c - k

Esiste un xj = c + k (simmetrico)

Con la stessa frequenza: f (xi) = f(xj)

Le proprietà di una variabile simmetrica:

MEDIA = MEDIANA = c

Momenti della media di origine dispari sono nulli, perché gli scarti della media si compensano,

le modalità stanno alla frequenza distanza dalla media e hanno la stessa frequenza. Infatti per la

simmetria, gli scarti della media (centro) sono a due a due uguali in valore, ma opposti di segno

e con la stessa frequenza

NB. se la distribuzione è simmetrica unimodale, allora moda, media, mediana coincidono e sono

uguali al centro di simmetria c. Mo = Me = μ = c

Asimmetria positiva Media > mediana Asimmetria negativa Media < mediana

Mo < Me < μ Mo <Me < μ

L’indice di Fisher o di Skewness è un indice di simmetria:

Se la distribuzione ha simmetria positiva > 0 → ƴ1 > 0

Se la distribuzione ha simmetria negativa < 0 → ƴ1 < 0

Se la distribuzione è simmetrica = 0 → ƴ1 = 0

NB: Asimmetria a sinistra = asimmetria positiva Asimmetria a destra = asimmetria negativa

Confronto tra media e mediana:

μ > Me asimmetria positiva

μ < Me asimmetria negativa

μ = Me simmetria

NB. se l’indice è uguale a 0 è solo sintomo di simmetria

Esempio: fatturato medio annuo di un’impresa

Analisi: serie storica lunga di 5t

Per trovare la colonna di NIBF con anno base 1989 devo

semplicemente prende i valori xt dei singoli anno e

rapportarli a quello dell’anno base, che in questo caso è

Nel 1988 c’è stato un decremento, nel 1989 essendo

l’anno base il valore è uguale ad 1, mentre gli altri anni

hanno tutti subito un incremento

Per calcolare l’incremento basta che prendo il valore e lo sottraggo ad 1, viceversa per il

decremento.

I NUMERI INDICI SEMPLICI A BASE MOBILE (NIBM)

Detti anche concatenati, si definiscono come numeri indici a base mobile al tempo t

It,t-1= xt / xt-

È dato dal rapporto tra il dato al tempo t (xt) e il dato al tempo precedente t-1 (xt-1)

Si trovano come valori:

Unitari/percentili: incremento o decremento rispetto al valore dell’anno precedente

  • < 1 → DECREMENTO

It,t-1 = (xt / xt-1)*100 = 1 Tasso di variazione: tv = I

t,t-

> 1 → INCREMENTO

Esempio: fatturato medio annuo di un’impresa

Devo semplicemente dividere xt con il valore precedente

(xt-1)

RELAZIONE TRA NIBF E NIBM

Se si moltiplicano tra loro tutti i NIBM unitari si ottiene l’ultimo NIBF con base il primo anno (It,1);

da tale proprietà segue la definizione di variazione relativa media e di tasso medio di variazione

della serie storica.

VARIAZIONE RELATIVA MEDIA (VRM) DELLA SERIE STORICA IN TUTTO L’INTERVALLO

Dove T-1 corrisponde al numero di NIBM di cui si fa il prodotto

Il VRM è la media geometrica dei NIBM, oppure la radice (T-1) ma del NIBF

unitario al tempo T con base 1 (primo elemento della serie)

TASSO MEDIO DI VARIAZIONE

È il tasso medio di incremento o decremento della serie storica in tutto l’intervallo

TM = VRM -1 e TM % = (VRM -1) * 100

La variazione su un sottoinsieme della serie è una variazione relativa media (VRM) della serie

storica in un sottoinsieme della serie (da h a k)

VRM = k-h √Ik,h

VRM è la media geometrica dei NIBM, oppure la radice (k-h) ma del NIBF unitario al tempo k con

base h

Nb: quando si ha a che fare con dei rapporti la

media da usare è sempre quella geometrica.

Problemi tipici

1. SLITTAMENTO DELLA BASE PER NIBF

si costruisce una nuova serie di NIBF in cui la base slitta da un anno all’altro. Impostando la

seguente proporzione:

1/In,v =It,n/It,v → It,n =It,v /In,v dove v è la base vecchia, mentre n è la base nuova

Esempio: dati i seguenti NIBF con base t=1 (It,1) calcolare i NIBF con base t=

Adesso la nuova base slitta da t=1 a t=

La proporzione da impostare è 1: I2,1 = It,2 : I2,1 → It,2 = It,1/I2,

Ad esempio 0,8003 lo troviamo facendo

1/1,2495 e cosi via…

2. RIUNIONE DI 2 SERIE DI NIBF

si ricostruiscono due serie di NIBF in cui le basi sono differenti. Si ha un solo anno (t*)in cui si

conosce il valore dell’indice per entrambe le serie, sul quale si imposta la seguente proporzione:

I

t,*

:I

t,*

=I

t,

:I

t,

Che va risolta rispetto a I t,

o I t,

a seconda che si voglia completare la prima o la seconda serie