Docsity
Docsity

Prepara i tuoi esami
Prepara i tuoi esami

Studia grazie alle numerose risorse presenti su Docsity


Ottieni i punti per scaricare
Ottieni i punti per scaricare

Guadagna punti aiutando altri studenti oppure acquistali con un piano Premium


Guide e consigli
Guide e consigli


CONCENTRAZIONE STATISTICA, Dispense di Statistica

Dispensa sulla concentrazione Statistica Gini e Lorenz

Tipologia: Dispense

2019/2020

Caricato il 23/04/2020

giacomo.crielesi
giacomo.crielesi 🇮🇹

4.6

(23)

26 documenti

1 / 15

Toggle sidebar

Questa pagina non è visibile nell’anteprima

Non perderti parti importanti!

bg1
Corso di Statistica (canale A – D) Dott.ssa P. Vicard
1
LA CONCENTRAZIONE
Fissiamo l’attenzione sui caratteri quantitativi trasferibili.
Ricordo che un carattere è trasferibile se possiamo immaginare che un’unità possa
cedere parte del carattere che possiede ad un’altra unità.
Sono esempi di carattere trasferibile: reddito, fatturato, numero addetti, audience
televisiva, clienti.
Sono esempi di carattere non trasferibile: altezza e peso.
Supponiamo per esempio di rilevare il reddito delle famiglie italiane. Ci interessa
sapere se il reddito complessivo è equidistribuito tra le famiglie oppure se una grossa
parte dell’ammontare complessivo del reddito è posseduto da un numero esiguo di
famiglie.
 Nel caso in cui tutte le famiglie detengano lo stesso ammontare di reddito, si
parla di equidistribuzione;
 nel caso in cui tutto il reddito sia posseduto da una sola famiglia mentre tutte
le altre hanno zero reddito, si parla di massima concentrazione.
Nella realtà ci troviamo sempre in situazioni intermedie e vogliamo misurare il grado
di concentrazione del carattere nella nostra popolazione.
L’importanza di un’analisi di questo tipo è soprattutto riferita allo studio della povertà
e quindi continua a caratterizzarsi per la sua attualità visto che sembra allargarsi il
divario tra i “molto ricchi” e i “poveri”.
L’analisi della concentrazione è importante anche in studi di tipo demografico. Posso,
ad esempio, analizzare la distribuzione degli italiani negli oltre 8000 comuni della
nazione. In questo modo si può determinare il grado di concentrazione della
popolazione nelle grandi città (ovvero studiare il livello di urbanizzazione spesso
legato al tipo di attività lavorativa svolta dalle persone).
L’analisi della concentrazione è anche importante internamente all’azienda. Per
un’azienda è importante determinare il livello di rischio della propria attività. Un tipo
di rischio da tenere sotto controllo è legato all’eventuale concentrazione del suo
fatturato per prodotto o per cliente. L’azienda potrebbe, infatti, rendersi conto che il
suo fatturato è fortemente legato alla vendita di un solo prodotto: questa cosa la
renderebbe a rischio.
Supponiamo che l’azienda operi nel settore tecnologico. Il superamento tecnologico
del prodotto di punta porterebbe ad una serie crisi dell’azienda! Per un’azienda è
anche rischioso avere una situazione in cui il suo fatturato è legato a pochi grandi
clienti. La perdita di uno di questi ridurrebbe, infatti, di molto il fatturato.
Per evitare situazioni di questo tipo, occorre analizzare se il fatturato è dovuto in
egual misura a tutti i prodotti (cioè se si ha equidistribuzione) oppure se il suo
fatturato deriva in gran misura dalla vendita di pochi prodotti (caso di
concentrazione).
pf3
pf4
pf5
pf8
pf9
pfa
pfd
pfe
pff

Anteprima parziale del testo

Scarica CONCENTRAZIONE STATISTICA e più Dispense in PDF di Statistica solo su Docsity!

LA CONCENTRAZIONE

Fissiamo l’attenzione sui caratteri quantitativi trasferibili. Ricordo che un carattere è trasferibile se possiamo immaginare che un’unità possa cedere parte del carattere che possiede ad un’altra unità. Sono esempi di carattere trasferibile: reddito, fatturato, numero addetti, audience televisiva, clienti. Sono esempi di carattere non trasferibile: altezza e peso.

Supponiamo per esempio di rilevare il reddito delle famiglie italiane. Ci interessa sapere se il reddito complessivo è equidistribuito tra le famiglie oppure se una grossa parte dell’ammontare complessivo del reddito è posseduto da un numero esiguo di famiglie.

 Nel caso in cui tutte le famiglie detengano lo stesso ammontare di reddito, si parla di equidistribuzione ;  nel caso in cui tutto il reddito sia posseduto da una sola famiglia mentre tutte le altre hanno zero reddito, si parla di massima concentrazione.

Nella realtà ci troviamo sempre in situazioni intermedie e vogliamo misurare il grado di concentrazione del carattere nella nostra popolazione.

L’importanza di un’analisi di questo tipo è soprattutto riferita allo studio della povertà e quindi continua a caratterizzarsi per la sua attualità visto che sembra allargarsi il divario tra i “molto ricchi” e i “poveri”. L’analisi della concentrazione è importante anche in studi di tipo demografico. Posso, ad esempio, analizzare la distribuzione degli italiani negli oltre 8000 comuni della nazione. In questo modo si può determinare il grado di concentrazione della popolazione nelle grandi città (ovvero studiare il livello di urbanizzazione spesso legato al tipo di attività lavorativa svolta dalle persone).

L’analisi della concentrazione è anche importante internamente all’azienda. Per un’azienda è importante determinare il livello di rischio della propria attività. Un tipo di rischio da tenere sotto controllo è legato all’eventuale concentrazione del suo fatturato per prodotto o per cliente. L’azienda potrebbe, infatti, rendersi conto che il suo fatturato è fortemente legato alla vendita di un solo prodotto: questa cosa la renderebbe a rischio. Supponiamo che l’azienda operi nel settore tecnologico. Il superamento tecnologico del prodotto di punta porterebbe ad una serie crisi dell’azienda! Per un’azienda è anche rischioso avere una situazione in cui il suo fatturato è legato a pochi grandi clienti. La perdita di uno di questi ridurrebbe, infatti, di molto il fatturato. Per evitare situazioni di questo tipo, occorre analizzare se il fatturato è dovuto in egual misura a tutti i prodotti (cioè se si ha equidistribuzione) oppure se il suo fatturato deriva in gran misura dalla vendita di pochi prodotti (caso di concentrazione).

Analisi statistica della concentrazione

In generale abbiamo che un carattere è tanto più concentrato quanto maggiore è la frazione dell’ammontare complessivo del carattere che spetta alla frazione di unità più ricche.

Ci aspettiamo che un indice che misura la concentrazione  sia nullo quando il carattere è equidistribuito tra tutte le unità;  sia massimo quando una sola unità detiene tutto l’ammontare del carattere.

Consideriamo una distribuzione per unità

a 1 , a 2 , ..., an

e supponiamo che le ai siano già ordinate in modo non decrescente, cioè tale che

a 1 ≤ a 2 ≤ ... ≤ an-1 ≤ an

  • Indichiamo con

A = a 1 + a 2 + ... + an = (^) 

n

i

ai 1 l’ ammontare complessivo di carattere nel collettivo.

  • Indichiamo con

Ai = a 1 + a 2 + ... + ai = (^) 

i

j

aj 1

l’ ammontare di carattere posseduto dalle i unità più povere, ovvero dalle prime i unità statistiche (ricordate che le unità sono ordinate dalla più povera alla più ricca).

  • Indichiamo con

A

A

Q (^) i = i

la frazione di ammontare del carattere, sull’ammontare complessivo, posseduto dalle i unità più povere.

Quindi

1 1

n

n n n (^) a a

a a A

A

Q

→ Indichiamo con

n

i Pi =

la frazione, sul totale delle unità, delle i unità più povere.

i = i i i

a a a i

A

μ

media dei primi i termini della distribuzione. In altre

parole μi è l’ammontare medio di carattere posseduto dalle i unità più povere.

  1. = =

n = n n n

a a a n

A

μ

media di tutti i termini della distribuzione. In altre

parole μn è l’ammontare medio di carattere posseduto dalle unità.

Dal momento che la distribuzione è ordinata si ha (per la proprietà di monotonia della media aritmetica)

μi ≤ μ n

dove il segno di uguaglianza vale solo se a 1 = a 2 = ... = an-1 = an.

La nostra dimostrazione riguarda il caso in cui non c’è equidistribuzione e quindi

μi < μ n

che può essere scritta

n

A

n

A

i

A (^) i n < =.

Attraverso una semplice operazione algebrica troviamo

n

i A

A

n

i

Q (^) i Pi

E quindi Qi → Se c’è massima concentrazione allora

Qi = 0, i = 1, ..., n-1 e quindi = (^) 

=

1

1

n

i

C Pi

→ Nei casi intermedi C assume valori compresi tra 0 e 

=

1

1

n

i

Pi , cioè

1 1

n i

C Pi

Un indice così calcolato non è di immediata interpretazione, visto che ne dobbiamo calcolare il massimo valore assumibile nel caso della nostra distribuzione.

Allora calcoliamo l’indice relativo.

In sostanza dividiamo C per il suo massimo che è 

=

1

1

n

i

Pi.

In questo modo si ottiene il rapporto di concentrazione di Gini.

( )



=

=

= −

=

= 1

1

1

1

1

1 1

1

1

1 n

i

i

n

i

i

n

i

i n

i

i

n

i

i i

P

P Q

P

P Q

g

=

= 1

1

1

1 1 n

i

i

n

i

i

P

Q

Osserviamo che 2

1

1

1

1

1

=

=

=

n n

n n i n n

i P

n

i

n

i

n

i

i

Perché sappiamo che 2

1 1

n n i

nn i

n

i

n

i

= =

Pertanto il apporto di concentrazione di Gini si può anche scrivere

=

1 (^11)

n

i

g (^) n Qi (2)

Osservazione : l’indice di concentrazione che abbiamo visto è calcolabile a partire dai dati sotto forma di distribuzione per unità.

Passiamo ad illustrare un altro modo di misurare la concentrazione. Questa metodologia può essere usata sia per i dati in forma di distribuzione unitaria sia per i dati in forma di distribuzione di frequenze.

LA CURVA DI LORENZ

Fino ad ora abbiamo visto che, una volta ordinate in modo non decrescente le nostre osservazioni, associamo ad ogni unità due numeri: Pi e Qi.

Rappresentiamo graficamente le coppie di punti (Pi, Qi).

A tal fine consideriamo il piano cartesiano e poniamo:

  • Pi sull’asse delle ascisse
  • Qi sull’asse delle ordinate

Abbiamo visto che

  1. 0 ≤ Pi ≤ 1 per ogni i
  2. 0 ≤ Qi ≤ 1 per ogni i

Disegnamo la curva di Lorenz (o spezzata di concentrazione) unendo i punti di coordinate (P 0 , Q 0 ), (P 1 , Q 1 ), ..., (Pn, Qn)

Poiché P 0 = Q 0 = 0 e Pn = Qn = 1

abbiamo che

 il punto di coordinate (P 0 , Q 0 ) è (0, 0)

 il punto di coordinate (Pn, Qn) è (1, 1)

Curva di Lorenz dell'esempio delle reti TV

(0.33,0.14)

(0.5,0.23)

(0.67,0.34)

(0.83,0.6)

(1,1)

(0.17,0.06)

(0,0) 0.17 0.33 0.5 0.67^ 0.

0

1

0 1 P

Q

Spezzata di concentrazione Segmento di equidistribuzione

Figura 1

Alcune proprietà:

i) la curva di Lorenz è interamente contenuta nel triangolo di estremi (0,0), (1,0) e (1,1). Ciò è dovuto al fatto che Qi ≤ Pi.

ii) La curva di Lorenz è non decrescente perché Qi −^ Qi-1 ≥^ 0.

Vediamo la dimostrazione:

− (^) − 1 =^1 +^2 + + −^1 + −^1 +^2 +^ + −^1 = ≥ 0 A

a A

a a a A

Q Q a a ai ai i i i i

Il segno di uguaglianza vale solo se le prime i osservazioni sono nulle (cioè se le prime i unità non possiedono nulla del carattere).

iii) La curva di Lorenz è convessa (cioè ha incrementi non decrescenti).

Vediamo la dimostrazione: Dobbiamo dimostrare che (Qi+1 − Qi) − (Qi − Qi-1)≥ 0. Seguendo la procedura vista sopra troviamo

Vediamo che la spezzata rimane sempre pari a 0 e inizia a crescere solo a partire dalla 5° unità (cioè, in generale, la (n−1)-esima unità) perché le prime n−1 unità non possiedono nulla e possiede tutto l’ultima unità. Quindi nel caso di massima concentrazione la curva di Lorenz unisce i punti di coordinate (0,0), (P 1 ,0), ..., (Pn-1, 0) e (1,1), cioè coincide con l’asse delle ascisse fino all’unità n−1 e poi raggiunge il punto (1,1).

Come leggere il grafico della curva di Lorenz?

Da quanto visto sopra si evince che la spezzata di concentrazione è:

 Tanto più vicina al segmento di equidistribuzione quanto minore è la concentrazione

 Tanto più lontana dal segmento di equidistribuzione (e quindi più vicina all’asse delle ascisse) quanto maggiore è la concentrazione.

Osservazione : dalla Figura1 vediamo che i punti di coordinate

C 1 = (0,17, 0.06), C 2 = (0.33, 0.14) e C 3 = (0.5, 0.23) sono allineati. In particolare C 2 e C 3 si riferiscono alle unità RAI 2 e Rete4 che hanno lo stesso numero di telespettatori (cioè presentano la stessa modalità). Il fatto che C 1 C 2 e C 3 siano allineati ci indica che per disegnare il tratto della spezzata che va da C 1 a C 3 , C 2 non occorre perché giace esattamente su quel tratto di spezzata. Quindi per disegnare la spezzata possiamo anche considerare la distribuzione di frequenze (invece della distribuzione di unità) che è

telespettatori ni^ Pi^ (=Fi)^ Ai^ Qi

2 (= x 1 ) 1 0.17 2 0.

3 (= x 2 ) 2 0.50 2+3⋅2=8 0.

4 (= x 3 ) 1 0.67 8+4=12 0.

9 (= x 4 ) 1 0.83 12+9=21 0.

14 (= x 5 ) 1 1 21+14=35 1

In generale per costruire la curva di Lorenz non è necessario determinare tutti i punti (uno per ogni unità) ma solo gli estremi dei segmenti le cui coordinate si ricavano dalla distribuzione di frequenze. Data una distribuzione di frequenze

xi x 1 x 2 … xk

ni n 1 n 2 … nk

I punti necessari per costruire la curva di Lorenz quindi sono:

  • (0,0)

=

= = k i

i i

i

j

j j i

i

j

i j n x

nx n Q n

P

1

1 1

, i = 1, ..., k – 1

A partire dalla curva di Lorenz è possibile determinare un indice di concentrazione.

Abbiamo detto che, quanto più la curva di Lorenz è lontana dal segmento di equidistribuzione, tanto più forte è la concentrazione.

Quindi possiamo prendere come misura assoluta della concentrazione l’area compresa tra il segmento di equidistribuzione e la curva di Lorenz. Come linea guida abbiamo che

 Quanto minore è l’area tra il segmento di equidistribuzione e la curva di Lorenz, tanto minore è la concentrazione

 Quanto maggiore è l’area tra il segmento di equidistribuzione e la curva di Lorenz, tanto maggiore è la concentrazione.

Torniamo al nostro esempio e consideriamo la sua distribuzione di frequenze (vista sopra)

Curva di Lorenz dell'esempio delle reti TV

S (= area di

concentrazione)

(1,1)

(0,0) 0.17 0.5^ 0.67^ 0.

0

1

0 1 P

Q

Spezzata di concentrazione Segmento di equidistribuzione

Quanto abbiamo visto con l’esempio (che ha una distribuzione di frequenze con 5 modalità) vale in generale.

Data una distribuzione di frequenze, la superficie di concentrazione S è data da

S ( )( )

=

− −

k

i

Qi Qi Pi Pi 1

Vediamo i casi estremi

→ Equidistribuzione

S = 0 perché la spezzata coincide con il segmento di equidistribuzione.

→ Massima concentrazione

S assume il suo valore massimo. Si veda il grafico seguente relativo al caso di massima concentrazione; la curva di Lorenz è pari a zero fino all’unità n- 1 compresa e poi va a congiungersi al punto (1,1).

(1,1)

(0,0) Pn- 1 =(n-1)/n

0

1

0 1 P

Q

Segmento di equidistribuzione Curva di Lorenz

L’area S è data dall’area del triangolo di vertici (0,0), (^)  

 −^1 , 0

n

n e (1,1).

Calcoliamo quest’area, come sopra, per differenza.

max(S) = area (triangolo di vertici (0,0), (1,0), (1,1)) – area (triangolo divertici

 

 −^1 , 0

n

n , (1,0), (1,1)) =

n

n

n n

n n n

n

Una volta calcolato max(S), possiamo calcolare l’indice relativo della concentrazione che indichiamo con R

max( S )

S

R =

e quindi

( )( ) ( )( )

=

− −

=

− − k

i

i i i i

k i

i i i i Q Q P P n

n

n

n

Q Q P P

R

1

1 1

1

1 1 1 (^11) 2

Abbiamo che  R = 0 se c’è equidistribuzione  R = 1 se c’è massima concentrazione

Nota : quando n è molto grande allora 1 1

n−

n

. Quindi

= − ( + )( − )

− −

k

i

R Qi Qi Pi Pi 1

Osservazione : si può dimostrare (non in questo corso) che R = g

Esempio: calcoliamo R nell’esempio dell’audience.

N° telespettatori ni^ Pi^ Qi^ Pi^ - Pi-1^ Qi^ + Qi-1^ (Pi^ - Pi-1) (Qi^ + Qi-1) 0 0 2 1 0.17 0.06 0.17-0=0.17 0.06+0=0.06 0. 3 2 0.50 0.23 0.5-0.17=0.33 0.23+0.06=0.29 0. 4 1 0.67 0.34 0.67-0.5=0.17 0.34+0.23=0.57 0. 9 1 0.83 0.6 0.83-0.67=0.16 0.6+0.34=0.94 0. 14 1 1 1 1-0.83=0.17 1+0.6=1.6 0. 6 0.

R =