Docsity
Docsity

Prepara i tuoi esami
Prepara i tuoi esami

Studia grazie alle numerose risorse presenti su Docsity


Ottieni i punti per scaricare
Ottieni i punti per scaricare

Guadagna punti aiutando altri studenti oppure acquistali con un piano Premium


Guide e consigli
Guide e consigli


Introduzione alla Statistica: Variabili, Distribuzioni e Probabilità, Dispense di Statistica

. - . - . - .

Tipologia: Dispense

2011/2012

Caricato il 25/06/2012

sabrina.salamone
sabrina.salamone 🇮🇹

2 documenti

1 / 38

Toggle sidebar

Questa pagina non è visibile nell’anteprima

Non perderti parti importanti!

bg1
Statistica Metodologica
Appunti ad uso degli studenti
Prima parte:
Statistica Descrittiva e Probabilita’
Silvia Figini
1. Introduzione
La statistica e’ la scienza che ha come fine lo studio quantitativo e qualitativo di un
collettivo. Studia i modi (descritti attraverso formule matematiche) in cui una realta’
fenomenica - limitatamente ai fenomeni collettivi - puo’ essere sintetizzata e quindi com-
presa.
La scienza statistica e’ comunemente suddivisa in tre branche principali:
1. Descrittiva: sintetizzare i dati attraverso i suoi strumenti grafici e misure di tendenza
centrale, variabilita’, eterogeneita’, concentrazione, correlazione, connessione.
2. Probabilita’: esprimere attraverso opportuni calcoli il grado di fiducia circa il veri-
ficarsi di un evento.
3. Inferenza: fare stime e previsioni, con una possibilit di errore controllata, riguardo
la natura teorica del fenomeno che si osserva (si pensi, ad esempio, che quando
pf3
pf4
pf5
pf8
pf9
pfa
pfd
pfe
pff
pf12
pf13
pf14
pf15
pf16
pf17
pf18
pf19
pf1a
pf1b
pf1c
pf1d
pf1e
pf1f
pf20
pf21
pf22
pf23
pf24
pf25
pf26

Anteprima parziale del testo

Scarica Introduzione alla Statistica: Variabili, Distribuzioni e Probabilità e più Dispense in PDF di Statistica solo su Docsity!

Statistica Metodologica

Appunti ad uso degli studenti

Prima parte:

Statistica Descrittiva e Probabilita’

Silvia Figini

e-mail: [email protected]

1. Introduzione

La statistica e’ la scienza che ha come fine lo studio quantitativo e qualitativo di un collettivo. Studia i modi (descritti attraverso formule matematiche) in cui una realta’ fenomenica - limitatamente ai fenomeni collettivi - puo’ essere sintetizzata e quindi com- presa. La scienza statistica e’ comunemente suddivisa in tre branche principali:

  1. Descrittiva: sintetizzare i dati attraverso i suoi strumenti grafici e misure di tendenza centrale, variabilita’, eterogeneita’, concentrazione, correlazione, connessione.
  2. Probabilita’: esprimere attraverso opportuni calcoli il grado di fiducia circa il veri- ficarsi di un evento.
  3. Inferenza: fare stime e previsioni, con una possibilit di errore controllata, riguardo la natura teorica del fenomeno che si osserva (si pensi, ad esempio, che quando

si dice che l’inflazione il prossimo anno avr una certa entita’ deriva dal fatto che esiste un modello dell’andamento dell’inflazione derivato da tecniche inferenziali). La statistica inferenziale fortemente legata alla teoria della probabilita’.

interi). Un caso particolare di variabile quantitativa e’ rappresentata dal reddito. In particolare si dice che il reddito e’ un carattere trasferibile, nel senso che e’ coerente immaginare che una unita’ statistica possa cedere tutto o parte del carattere posseduto a una altra unita’ statistica. A seconda del tipo di variabile esistono misure e strumenti grafici opportune di sintesi. Per quanto concerne le misure di sintesi, studieremo:

  • Misure di tendenza centrale (media, mediana, moda)
  • Misure di variabilita’ (varianza, range, differenza interquartile)

Nelle variabili qualitative, invece, useremo le distribuzioni di frequenza (assolute e rela- tive) e strumenti grafici quali il diagramma a torta e l’istogramma a barre; analizzeremo la variabilita’ delle variabili qualitative con lo studio di misure di eterogeneita’. Quando si analizza una singola variabile alla volta con strumenti descrittivi o esplorativi, si parla di analisi univariata, mentre se le variabili vengono analizzate a coppie si parla di analisi bivariata. Nella trattazione inizieremo ad affrontare le misure di sintesi per le variabili qualitative e poi passeremo alle variabili quantitative.

3. Strumenti statistici per variabili qualitative

Iniziamo ad analizzare le variabili qualitative attraverso il concetto di distribuzione di un carattere. Definiamo distribuzione unitaria semplice di un carattere l’elencazione delle modalita’ osservate nel collettivo statistico preso in esame. Indichiamo con il termine frequenza assoluta di una modalita’ di un carattere, il numero di volte che questa viene osservata nel collettivo. La distribuzione di frequenza semplice associa alle modalita’ che puo’ assumere un carat- tere X le corrispondenti frequenze assolute (FA). Partendo dalla tabella 1, possiamo costruire le frequenze relative (rapporto tra la fre- X FA x 1 n 1 x 2 n 2

xk nk totale N

Table 1: Distribuzione di frequenza semplice

quenza assoluta e il numero totale di unita’ statistiche osservate) e le frequenze percentuali (frequenza relativa moltiplicata per 100). Provate a rispondere alle seguenti domande:

  1. Quanto vale la somma sulle k modalita’ delle frequenze assolute? (∑ki=1 ni =?)
  2. Quanto vale la somma sulle k modalita’ delle frequenze relative? (∑ki=1 fi =?)

X FAC FRC FRPC

x 1 N 1 F 1 P 1 x 2 N 2 F 2 P 2

............ xj Nj Fj Pj ............ xk Nk Fk Pk

Table 3: Frequenze assolute, relative e percentuali cumulate

Eta’ FA FR FRC da 30 a 50 anni 6 0.3 0. da 51 a 70 anni 7 0.35 0. da 71 a 75 anni 4 0.2 0. da 76 a 80 anni 3 0.15 1

Table 4: Esempio numerico per distribuzione di frequenza

4. Misure di tendenza centrale per variabili quantitative

Le misure di tendenza centrale per variabili quantitative sono la media aritmetica, la media geometrica, la mediana, la moda e i percentili.

4.1 Media aritmetica

La media aritmetica μ di un insieme di n valori osservati x 1 ,... , xn di un carattere quan- titativo X e’ pari alla somma dei valori osservati divisa per il loro numero:

μ =^1 n(x 1 +... + xn) = n^1 ∑ i=1^ n xi. (1)

Se X e’ un carattere quantitativo discreto e conosciamo la sua distribuzione di frequenza, possiamo calcolare la media nel modo seguente: μ = (^1) n^ ∑kj=1 xj nj , dove nj sono le fre- quenze assolute oppure μ = ∑kj=1 xj fj , dove fj sono le frequenze assolute. Le proprieta’ principali della media aritmetica sono le seguenti:

  1. La somma dei valori x 1 ,... , xn assunti da un insieme di n unita’ statistiche e’ uguale al valore medio moltiplicato per il numero di unita’: ∑ni=1 xi = nμ.
  2. La somma delle differenze tra i valori delle xi e la loro media μ e’ pari a zero: ∑ni=1(xi − μ) = 0.
  3. La somma degli scarti al quadrato dei valori xi da una costante c e’ minima quando c e’ uguale alla media aritmetica: ∑ni=1(xi − μ)^2 , minimo quando c = μ.
  4. Una media si dice consistente se, calcolata per le grandezze x 1 = x 2 =... = xn = a, vale a.

4.2 Media geometrica

La media geometrica di un insieme di n valori positivi x 1 ,... , xn di un carattere quantita- tivo X e’ pari alla radice n−esima del prodotto dei singoli valori: μg = √nx 1 ×... × xn = √ n∏ni=1 xi.

Il prodotto della media geometrica e’ uguale alla media aritmetica dei logaritmi.

4.3 Mediana

La mediana (Me) di un insieme di unita’ ordinate (secondo un carattere ordinabile) e’ la modalita’ presentata dall’unita’ centrale (unita’ che divide il collettivo in due parti di uguale numerosita’). Calcoliamo la mediana per l’insieme di valori: 2 , 3 , 4 , 5 , 7 , Me=4. Calcoliamo la mediana per l’insieme di valori: 4 , 2 , 6 , 10 , 7. In questo caso bisogna fare attenzione. Per prima cosa bisogna ordinare i valori dal piu’ piccolo al piu’ grande: 2 , 4 , 6 , 7 , 10 e poi Me=6. Consideriamo ora 1 , 4 , 5 , 6. Quanto vale la mediana? La mediana cadrebbe esattamente tra 4 e 5, convenzionalmente si prende la media tra i due valori, pertanto, Me=4.5. Da questi esempi deduciamo che per un insieme ordinato di valori se n e’ dispari la mediana e’ corrispondente al valore che divide in due parti uguali la distribuzione; mentre convenzionalmente e’ pari alla media quando n e’ pari. La mediana, rispetto alla media, e’ piu’ robusta, cioe’ risente meno di possibili valori

anomali (outliers).

4.4 Moda

La moda e’ la mdoalita’ della distribuzione che si presenta con la massima frequenza (assoluta, relativa o percentuale). Una distribuzione si dice unimodale se presenta un solo picco e bimodale se presenta due picchi di medesima altezza, ovvero due modalita’ o valori che presentano uguale frequenza massima.

4.5 Percentili

Definiamo percentili quei valori che dividono la distribuzione in cento parti di uguale numerosita’. Nelle esercitazioni ci saranno utili esercizi per capire bene quanto visto fino ad ora.

  • Varianza e scarto quadratico medio;
  • Campo di variazione o range;
  • Coefficiente di variazione (indice di variabilit relativa).

5.1 Campo di variazione o range

Il range si calcola nel modo seguente. Si ordinano le n unita’ statistiche di un carattere quantitativo continuo in modo crescente e calcolando la differenza tra il massimo e il minimo si ottiene il range. Considerando ad esempio il carattere X e ordinando in modo crescente x 1 < x 2 <... < xn, dove x 1 = min(x 1 ,... , xn) e xn = M ax(x 1 ,... , xn), il range si calcola come:

Range(X) = R(X) = xn − x 1 (2)

I limiti del campo di variazione sono: troppo influenzato dai valori estremi; tiene conto dei due soli valori estremi, trascurando tutti gli altri; tende ad aumentare con laumento del numero di osservazioni. Nelle misure di variabilita’ esiste anche il range interquartile, utile per l’identificazione di osservazioni anomale, calcolato come: Q 3 − Q 1 , dove Q 3 e Q 1 sono rispettivamente il primo e il terzo quartile della distribuzione.

5.2 Devianza

E’ la somma dei quadrati degli scarti dalla media aritmetica:

Devianza(X) = D(X) =∑ i=1^ n (xi − μ)^2 , (3)

dove μ = (^1) n^ ∑ni=1 xi. Il limite della Devianza come misura di dispersione quello di aumentare con il numero di osservazioni. Per ottenere una misura che non dipenda dalla numerosit si pu dividere la devianza per il numero n. di dati, ottenendo la varianza.

5.3 Varianza

La varianza si ottiene dividendo la devianza per n, totale delle osservazioni. In pratica il denominatore n quasi sempre sostituito da (n − 1) in modo da ottenere una stima corretta della dispersione della variabile nella popolazione da cui il campione in esame stato estratto.

V arianza(X) = σ^2 (X) = n^1 ∑ i=1^ n (xi − μ)^2. (4)

Il limite della varianza come misura di dispersione quella di avere una unit di misura espressa al quadrato rispetto all’unit di misura originale, per cui si utilizza la deviazione standard σ equivalente alla radice quadrata della varianza. Una importante proprieta’ della varianza e’ la seguente: la varianza di una variabile Y ottenuta attraverso una trasformazione lineare Y = a + bX di una variabile X, con media M (X) = μ(X) e varianza V (X) = σ^2 (X), e’ pari a: V (Y ) = b^2 V (X). Attraverso questa proprieta’ evidenziamo il fatto che la varianza e’ un operatore quadratico e non lineare come la media aritmetica. Inoltre, per fini computazionali, ricordiamo che una forma equivalente per il calcolo della varianza e’ la seguente:

V arianza(X) = σ^2 (X) = n^1 ∑ i=1^ n x^2 i − μ^2 x. (5)

6. Misure di eterogeneita’ per variabili qualitative

L’indice di eterogeneita’ di Gini e’ un indicatore di variabilita’ (mutabilita’) statistica per variabili qualitative. Esso offre una misura della eterogeneita’ (omogeneita’) di una dis- tribuzione statistica a partire dai valori delle frequenze relative associate alle k modalita’ di una generica variabile X (si ricordi che questo indice e’ usato nella statistica descrittiva univariata, dove si considera una sola variabile). Cio’ vuol dire che se i dati sono distribuiti in modo eterogeneo su tutte le k modalita’ di X (cioe’, se le modalita’ hanno numerosita’ simili o, nel caso di massima eterogeneita’, uguali), l’indice di Gini e’ elevato, viceversa, in caso di distribuzione di frequenza omogenea l’indice sara’ (percentualmente) piuttosto basso. L’indice di Gini e’ cos definito:

I = 1 −∑ i=1^ k p^2 i. (7)

In caso di minima eterogeneita’ (massima omogeneita’) i dati sono tutti distribuiti su una modalit, mentre in caso di massima eterogeneita’(minima omogeneita’) i dati sono equamente distribuiti nelle k modalita’. Al fine di ottenere l’indice relativo di Gini, bisogna dividere I per il suo valore massimo possibile. L’indice relativo di Gini e’ il seguente:

I∗^ = (^) k −I 1 /k , I∗^ ∈ [0, 1]. (8)

L’indice I∗^ avra’ valori pari a zero nel caso di massima omogeneita’ e pari a uno nel caso di massima eterogeneita’ (minima omogeneita’).

7. Analisi bivariata

L’analisi bivariata comprende una serie di indici e misure statistiche per lo studio della relazione tra coppie di variabili.

7.1 Analisi bivariata per variabili qualitative

Date due variabili qualitative X e Y , definiamo tabella di frequenze a doppia entrata o distribuzione doppia di frequenze l’insieme delle frequenze congiunte nij , ovvero le fre- quenze assolute delle unita’ che presentano congiuntamente la modalita’ i − esima del primo carattere e j − esima del secondo carattere. La generica tabella a doppia entrata dei caratteri X e Y , rispettivamente con H e K modalita’ e’ la seguente: L’ultima colonna e l’ultima riga della tabella sono dette dis- tribuzioni marginali, mentre all’interno della tabella vengono riportate le distribuzioni congiunte. La somma delle frequenze congiunte e’ pari alla somma delle frequenze marginali di riga o di colonna e restituisce N , cioe’ il totale delle unita’ statistiche. Piu’ precisamente: N = ∑Hi=1^ ∑Kj=1 nij = ∑Hi=1 ni = ∑Kj=1 nj. Anche in questo caso possiamo costruire le frequenze marginali e congiunte relative div- idendo ogni frequenza associata per N. In questo caso, 1 = ∑Hi=1^ ∑Kj=1 pij = ∑Hi=1 pi = ∑Kj=1 pj , dove pij = nij /N , pi = ni/N e pj = nj /N.

Proponiamo un esempio di tabella a doppia entrata: Provate a calcolare, sulla base della tabella che riporta gli indici di rischio per settori

A Io Ic Ir

  • B 0.01 0.01 0.
  • C 0.01 0.02 0.
  • D 0.01 0.03 0.
    • E 0.01 0.04 0.
    • F 0.05 0.01 0.
  • G 0.05 0.03 0.
  • H 0.04 0.06 0. - I 0.07 0.04 0.
    • L 0.07 0.05 0.
  • M 0.05 0.08 0.
    • N 0.08 0.15 0.
    • O 0.13 0.12 0.
      • P 0.13 0.12 0.
    • Q 0.12 0.19 0.
    • R 0.18 0.17 0.
      • S 0.26 0.17 0.
      • T 0.24 0.19 0.
    • U 0.36 0.55 0.

corrispondente alla i − esima modalita’ di X e alla j − esima modalita’ di Y deve essere uguale a: nij = ni. Nn .j. Le frequenze assolute di una tabella di contingenza ottenute nell’ipotesi di indipendenza tramite la definizione precedente, saranno dette frequenze teoriche di indipendenza (o piu’ semplicemente frequenze teoriche o frequenze attese) e per distinguerle dalle altre (dette anche frequenze osservate) le indicheremo con n′ ij. Diremo che un carattere Y dipende perfettamente da X quando ad ogni modalita’ di X e’ associata una sola modalita’ di Y , cioe’ quando in una tabella a doppia entrata per ogni i c’e’ un solo j per il quale nij 6 = 0. Invece, tra due caratteri sussiste interdipendenza perfetta se a ogni modalita’ di uno dei due caratteri corrisponde una e una sola modalita’ dell’altro carattere e viceversa. Per misurare il grado di dipendenza tra due caratteri qualitativi, ad esempio, tra X e Y , si usa l’indice di chi-quadrato di Pearson definito come:

χ^2 =∑ i^ H=1∑ j^ K=1 n^ c^2 ij′ ij , (9)

dove c^2 ij sono le contingenze al quadrato (differenze tra le frequenze osservate e quelle teoriche). Seguendo la notazione introdotta precedentemente, cij = nij − n′ ij. Per costruzione χ^2 ≥ 0 ; inoltre il valore di χ^2 aumenta al crescere di N. In generale e’ bene usare indici relativi. Per non fare dipendere il χ^2 dal numero totale di osservazioni N , si usa l’indice di contingenza media: φ^2 = χ^2 /N. Nel caso di indipendenza, φ^2 = 0. Siccome φ^2 ha valore massimo pari a min[(H − 1), (K − 1)], dove H e K sono rispettiva- mente il numero di righe e di colonne della tabella di contingenza, l’indice normalizzato (indice V di Cramer) e’ dato da:

V =

√√√ √ (^) min[(H −φ 1)^2 , (K − 1)]. (10)