






Studia grazie alle numerose risorse presenti su Docsity
Guadagna punti aiutando altri studenti oppure acquistali con un piano Premium
Prepara i tuoi esami
Studia grazie alle numerose risorse presenti su Docsity
Prepara i tuoi esami con i documenti condivisi da studenti come te su Docsity
Trova i documenti specifici per gli esami della tua università
Preparati con lezioni e prove svolte basate sui programmi universitari!
Rispondi a reali domande d’esame e scopri la tua preparazione
Riassumi i tuoi documenti, fagli domande, convertili in quiz e mappe concettuali
Studia con prove svolte, tesine e consigli utili
Togliti ogni dubbio leggendo le risposte alle domande fatte da altri studenti come te
Esplora i documenti più scaricati per gli argomenti di studio più popolari
Ottieni i punti per scaricare
Guadagna punti aiutando altri studenti oppure acquistali con un piano Premium
Una panoramica sui vari calcoli statistici utilizzati per descrivere la dispersione e la posizione di una distribuzione di dati. Vengono trattate le medie aritmetica, armonica e quadratica, la mediana, lo scarto quadratico medio, la varianza e l'indice di determinazione. Vengono inoltre presentate le relazioni tra queste grandezze e le loro applicazioni.
Tipologia: Appunti
1 / 10
Questa pagina non è visibile nell’anteprima
Non perderti parti importanti!







Le medie aritmetica, geometrica, quadratica e armonica sono medie di calcolo: soddisfano una
condizione di invarianza e si calcolano tenendo conto di tutti i valori della distribuzione.
● MEDIA ARITMETICA
La media aritmetica di n dati è quel valore che, sostituito a ciascuno dei dati, ne lascia invariata la
somma. Siano x 1
, x 2
, ..., x n
i valori osservati del carattere X in un collettivo di N elementi; per la
definizione, si ha:
x
1
x
2
... x
n
x
x ...
x da cui : =
i = 1
N
x
i
detta media aritmetica semplice.
Quando le s modalità distinte della X si presentano con una certa frequenza (o peso) è opportuno
calcolare la media aritmetica ponderata. La condizione di invarianza della somma diventa:
x
1
n
1
x
2
n
2
... x
s
n
s
x n
1
x n
2
x n
s
da cui : =
i = 1
s
x
i
n
i
La media aritmetica, lasciando invariato l'ammontare totale del carattere, soddisfa il principio di
equidistribuzione, ovvero dell'uniforme ripartizione del carattere tra le varie unità statistiche le collettivo.
Se la variabile statistica X è divisa in intervalli, ai fini del calcolo della media aritmetica, occorre
calcolare l'intensità totale moltiplicando i valori centrali delle classi (dati dalla semisomma dei limiti di
ciascuna classe) per la frequenza della classe e, sommando i risultati. La media aritmetica è espressa
nella stessa unità di misura adoperata per le singole classi. La sostituzione delle singole classi con il
valore centrale introduce un errore di approssimazione poco rilevante.
Proprietà della media aritmetica:
i = 1
s
x
1
x n
i
valore minimo rispetto alla somma dei quadrati degli scarti da un qualsiasi altro valore:
i = 1
s
x
1
− x
2
n
i
= min
della X un uguale numero di valori tutti uguali alla loro media, il valore medio rimane invariato.
aumentata della costante stessa.
risulta moltiplicata per la costante stessa.
● MEDIA GEOMETRICA
Data una serie di valori x i
, si definisce media geometrica quel valore costante che, sostituito alle x i
ne
lascia inalterato il prodotto:
x
1
. x
2
..... x
n
x
n
da cui
:
M
g
N
i = 1
N
x
i
Tale quantità si definisce media geometrica semplice. Nel caso di valori x i
con frequenze o pesi n s
, si
ha:
x
1
n 1
. x
2
n 2
. .... x
n
n s
x
n 1
n 2
n s
da cui
: M
g
N
i = 1
s
x
i
n i
La media geometrica si calcola facilmente ricorrendo ali logaritmi:
Log M g
=
log x
1
log x
2
...log x
N
per la media geometrica semplice;
Log M g
=
n
1
log x
1
... n
s
log x
s
per la media geometrica ponderata; risalendo al numero, si
ottiene,infatti, Mg.
Il logaritmo della media geometrica (semplice o ponderata) è, quindi, la media aritmetica (semplice o
ponderata) dei logaritmi dei valori della v.s.
Non si può calcolare la media geometrica se uno dei valori è zero, perché il prodotto sarebbe nullo per
qualunque valore assunto dagli altri. Inoltre, le x i
non possono essere negative.
● MEDIA ARMONICA
Siano assegnati dei valori non nulli e si assuma come funzione invariante la somma dei reciproci. La
media armonica è quel valore che, sostituito ai dati, mantiene invariata la somma dei reciproci:
x
1
x
2
x
n
x
x
x
x
da cui:
ar
i = 1
N
x
i
ovvero, la media armonica
semplice.
Se i valori hanno frequenza n s
diverse, si ha:
n
1
x
1
n
2
x
2
n
s
x
n
x
. n
1
n
2
... n
s
da cui: M
ar
i = 1
s
n
i
x
i
La media armonica è, quindi, uguale al valore reciproco della media aritmetica dei reciproci dei termini.
● MEDIA QUADRATICA
La media quadratica (media di potenze di indice 2) è uguale alla radice quadrata della media aritmetica
dei quadrati dei valori dei dati:
q
i = 1
N
x
i
2
media quadratica semplice;
q
i = 1
s
x
i
2
n
i
media quadratica ponderata.
Anche la media aritmetica e la media armonica sono medie di potenze, rispettivamente di indice 1 e di
indice – 1.
Per la famiglia delle medie di potenze vale la seguente relazione:
ar
g
q
● MEDIANA
La mediana è un indice di posizione e si definisce come quel valore che bipartisce la distribuzione
ordinata in senso non decrescente delle modalità di un carattere (nel senso che lascia ugual numero di
termini da una parte e dall'altra della distribuzione).
Se il numero dei termini (N) è dispari: M
e
= x
N 1
2
, ovvero, la mediana coincide con il valore che
occupa la posizione centrale (ossia, che occupa il posto (N+1)/2-esimo in graduatoria. Se il numero dei
termini (N) è pari: M
e
x
N
2
x
N
2
1
, ovvero, conviene assumere come mediana la semisomma
dei due valori centrali. Nel caso di distribuzioni con valori discreti, per individuare la mediana, occorre
calcolare le frequenze cumulate, che si ottengono associando ad ogni valore la somma della rispettiva
frequenza assoluta con tutte quello che la precedono.
Per le v.s. divise in intervalli non si definisce un valore mediano, ma una classe mediana, mediante le
frequenze assolute cumulate:
e
= x
i
x
i 1
− x
i
n
i
i − 1
dove: x i
è l'estremo inferiore della classe, x i+
è l'estremo superiore, n i
è la frequenza assoluta della
classe, N i-
è la frequenza accumulata della classe precedente.
● MODA
La moda, o valore modale, è il valore x i
che si presenta con la massima frequenza e s indica con M o
.
Se la v.s. è divisa in intervalli, il calcolo della moda presenta maggiori difficoltà:
Nel caso di distribuzione, invece:
i = 1
N
h = 1
N
∣ x
i
− x
h
∣ n
i
n
h
con i ≠ h per escludere le differenze del
tipo x i
che, essendo nulle, non modificano il valore del numeratore; il denominatore è dato da tutte
le possibili disposizioni semplici di n oggetti presi due a due (dove N è il numero dei termini presi in
considerazione).
● INDICE ANALITICO DI ASIMMETRIA
Il coefficienti di asimmetria di Pearson, pari a:
3
i = 1
N
x
i
3
3
in caso di serie ;
3
i = 1
s
x
i
3
n
i
3
, invece, in caso di v.s. Se la distribuzione si espande maggiormente a destra
della media (asimmetria positiva),
3
è positivo, perché tra gli scarti grandi in valore assoluto, che
sono quelli che hanno maggior rilievo, prevalgono gli scarti positivi su quelli negativi, entrambi al cubo;
3
è negativo, invece, nel caso in cui la distribuzione si espande maggiormente a sinistra
(asimmetria negativa). In caso di perfetta simmetria 3
= 0.
La presenza al denominatore dello s.q.m. al cubo scaturisce dalla necessità di ottenere una misura
relativa della asimmetria, indipendente sia dall'unità di misura in cui è espresso il fenomeno che dalla
sua variabilità.
● INDICE DI CURTOSI
La curtosi è il peso sulle code della distribuzione di una variabile quantitativa unidimensionale, avendo
come riferimento la distribuzione normale. L'indice più usato è il coefficiente di eccesso o di curtosi di
Pearson:
4
i = 1
N
x
i
4
4
in caso di serie;
4
i = 1
s
x
i
4
n
i
4
invece, in caso di v.s.
Per una distribuzione normale, 4
= 0, indipendentemente dai valori della media e della varianza.
Quando 4
0, la distribuzione dà molto peso alle code (è leptocurtica, ovvero, è più alta della
curva normale al centro e nelle code, mentre risulta più bassa ai fianchi), mentre per
4
< 0, la
distribuzione dà poco peso alle code (è platicurtica, ovvero, è più bassa della curva normale al centro e
nelle code, mentre risulta più spessa nei fianchi).
● INDIPENDENZA STATISTICA
Esiste indipendenza statistica quando le distribuzioni parziali di un carattere, ad esempio Y, non si
modificano al variare delle modalità x i
di X. Poiché le distribuzioni parziali possono avere diversa
numerosità, basta che le distribuzioni parziali relative del carattere (ad es. Y), ossia basta che le
distribuzioni parziali siano somiglianti; quindi, per ogni coppia di valori i e j, deve verificarsi:
n
ij
n
i.
n
. j
n
..
da cui e
ij
n
i.
n
. j
n
..
. Si usa il simbolo e ij
per sottolineare che si tratta di frequenze
teoriche corrispondenti all'ipotesi di indipendenza statistica.
E' opportuno precisare che l'indipendenza è reciproca rispetto ai caratteri, nel senso che, se X è
indipendente da Y anche Y è indipendente da X.
Se si registrano delle differenze tra i valori empirici e quei teorici, si esclude l'ipotesi di indipendenza
statistica e si procede con il calcolo di un indice di dipendenza, quale, il chi-quadrato:
2
i
s
j
t
n
ij
− e
ij
e
ij
. L'indice è nullo se i due caratteri sono indipendenti; l'indice , invece, è positivo
se vi è dipendenza e il suo valore aumenta via via che aumentano gli scarti tra frequenze teoriche e
frequenze osservata.
Indici relativi basati sul
2
sono: l'indice di contingenza quadratica media:
2
n
, l'indice di
contingenza di Cramer:
i
min s −1, t − 1
; l'indice di contingenza di Pearson:
c
2
2
n
C i
e I c
assumono valori compresi tra 0 e 1.
● INDIPENDENZA IN MEDIA
A fondamento dello studio della correlazione c'è il concetto di indipendenza.
Quando uno dei due caratteri (ad es. Y) è quantitativo, è possibile confrontare le distribuzioni
condizionate di Y tramite le medie condizionate. Per l' i-esima modalità di X (x i
) la media condizionata di
Y è data da:
y ∣ x
i
j = 1
t
y
j
n
ij
n
i.
con i = 1, 2, ... , s.
Il carattere Y si dice indipendente in media da X quando X non influenza la media di Y; quindi, quando le
medie aritmetiche delle distribuzioni condizionate di Y sono uguali tra loro e, perciò, uguali alla media della
distribuzione marginale
y =
j = 1
t
y
j
n
.
j
n
..
.
L'indipendenza statistica implica indipendenza in media; infatti, se le distribuzioni parziali sono tra loro simili,
esse hanno anche valori medi uguali. Non vale, però, il contrario, perché a valori medi uguali tra loro
possono corrispondere distribuzioni molto diverse.
L'indipendenza in media, inoltre, non è reciproca, cioè se la Y è indipendente in media dalla X, non è detto
che la X sia indipendente in media dalla Y.
Le misure di indipendenza in media si fondano sulle proprietà di scomponibilità della devianza: la devianza
della distribuzione marginale di Y, si può ottenere come somma delle devianze "entro" le distribuzioni
condizionate ( Dev e =
i = 1
s
j = 1
t
y
j
y ∣ x
i
2
n
ij
) e della devianza "tra" le medie delle distribuzioni
condizionate e quella della distribuzione marginale (
Dev C =
i = 1
s
y ∣ x
i
y
2
n
i.
).
La radice del rapporto della devianza di connessione alla devianza totale si denomina "indice quadratico di
connessione del carattere y al carattere x" :
yx
Dev C
Dev Y
i = 1
s
y ∣ x
i
− y
2
n
i.
j = 1
t
y
j
y
2
n
.
j
; il suo quadrato,
invece, si denomina "rapporto di correlazione di Pearson" :
yx
2
Dev C
Dev Y
i = 1
s
y ∣ x
i
y
2
n
i.
j = 1
t
y
j
y
2
n
.
j
.Esso
misura quanta parte della devianza complessiva di Y è attribuibile alla dipendenza delle medie di Y da X ed
alla dispersione delle distribuzioni vincolate rispetto alla linea di regressione; è un indice di dipendenza e
varia tra 0 e 1. In caso di indipendenza in media: η = η
2
= 0.
● COEFFICIENTE DI CORRELAZIONE
Il coefficiente di correlazione (Bravais-Pearson):
r =
[ Codev X , Y ]
Dev X . Dev Y
è un indice relativo di
concordanza ed assume valori compresi tra -1 e +1: assume valori positivi via via crescenti al crescere
della concordanza fino al massimo +1, che si raggiunge nel caso di perfetta relazione lineare crescente
tra i due caratteri, che si ha quando le coppie (x i
, y i
) giacciono su una retta crescente; assume valori
negativi, via via decrescenti al crescere della discordanza fino al minimo -1 che si raggiunge quando le
coppie (x i
, y i
) giacciono tutte su una retta decrescente. Quando c'è indipendenza, r = 0, ma r = 0 anche
in caso di indifferenza, ovvero mancanza di concordanza o di discordanza. r è un numero puro in
quanto sia il suo numeratore che il suo denominatore sono espressi nella stessa unità di misura, pari al
prodotto di quelle dei due caratteri.
● RELAZIONE COEFFICIENTE DI REGRESSIONE E COEFFICIENTE DI CORRELAZIONE
Il coefficiente di regressione esprime di quanto varia in media il carattere dipendente al variare di
un'unità del carattere indipendente; esso è espresso da:
b
yx
Codev X , Y
Dev X
oppure b
xy
Codev X , Y
Dev Y
, secondo che si prenda per variabile
indipendente la X o la Y. La media geometrica di tali coefficienti coincide con il coefficiente di
correlazione;
infatti:
b
yx
. b
xy
Codev X ,Y
Dev X
Codev X ,Y
Dev Y
Codev X , Y
Dev X Dev Y
= r. Le rette di regressione
sono entrambe crescenti o decrescenti; nel primo caso b xy
e b yx
sono entrambi positivi e quindi r è
positivo; nel secondo caso b xy
e b yx
sono negativi, ma per r occorre prendere il valore negativo della
radice quadrata del loro prodotto (positivo) per mantenere il segno dei coefficienti. Quando le rette di
regressione sono parallele , rispettivamente all'asse x e all'asse y, b xy
= b yx
= 0 e, quindi, r = 0.
● COEFFICIENTE DI CORRELAZIONE LINEARE E INDICE DI DETERMINAZIONE
Il coefficiente di correlazione lineare, r, indica l'intensità del legame lineare tra le due variabili X e Y.
L'indice di determinazione lineare, R
2
, indica la quota di variabilità del fenomeno spiegata dal modello di
regressione lineare scelto.
Il quadrato del coefficiente di correlazione coincide con l'indice di determinazione:
2
[ Codev X , Y ]
2
Dev X . Dev Y
= r
2
; r
2
, pertanto, esprime quanta parte della devianza totale di Y (o di X) è
determinata o spiegata dalla rispettiva retta di regressione, supposta rappresentativa del fenomeno. r
2
misura la dispersione delle y i
intorno alla retta di regressione y
= a + bx, oppure la dispersione delle x i
intorno alla retta di regressione x
= a 1
y. A parità di s.q.m. o di varianza totale, quanto maggiore è
detta dispersione tanto minore è r
2
.
R
2
, pertanto, è un indice che misura il grado di accostamento del legame effettivo tra X e Y ad una
relazione lineare assumendo come variabile indipendente una volta la X e una volta la Y.
● CONCENTRAZIONE
Un particolare aspetto della variabilità di un fenomeno, in caso di caratteri trasferibili (un carattere è
trasferibile se ha senso immaginare che un'unità statistica possa cedere tutto o parte del carattere
posseduto ad un'altra unità statistica), è la concentrazione. Lo studio della concentrazione è utile per
vedere se il fenomeno è equamente distribuito fra tutte le unità statistiche oppure è concentrato in
poche unità.
Sono varie le misure della concentrazione; interessante è il metodo grafico di Lorenz applicato allo
studio della distribuzione della ricchezza.
Ordinando n individui per ordine crescente di x i
(es. la ricchezza) ed indicando con p i
= i/N la frazione
dei redditieri più poveri e con q i
= A i
/A N
la frazione del reddito globale posseduto dagli i redditieri più
poveri, si ottiene la retta di equidistribuzione quando p i
= q i
; in tal caso, infatti, una qualunque frazione
di redditieri possiede la stessa frazione del reddito totale.
Un fenomeno, invece, è tanto più concentrato quanto maggiori sono le differenze p i
per i diversi
valori di i.
Rappresentando graficamente le coppie di valori p i
e q i
e congiungendo con una spezzata o una linea
continua i punti risultanti, si ottiene la curva di concentrazione; essa è sempre convessa verso l'asse
delle ascisse, perché a successivi incrementi uguali tra loro delle p i
corrispondono incrementi crescenti
delle q i
, avendo ordinato le x i
in senso non decrescente.
La concentrazione è tanto maggiore quanto più grandi sono le differenze tra la retta di equidistribuzione e la
curva di concentrazione.
Come misura della concentrazione si assume il rapporto di concentrazione di Gini, espresso da:
i = 1
N − 1
p
i
− q
i
i = 1
N − 1
p
i
dove il denominatore è il massimo del numeratore, giacché corrisponde al caso di
concentrazione massima. L’indice di Gini cresce al crescere del livello di concentrazione ed è sempre
compreso tra 0 (nel caso di equidistribuzione ) e 1 (nel caso di massima concentrazione ).
Ne caso di una variabile divisa in classi, le frazioni accumulate delle unità statistiche p i
sono date dalle
frequenze relative accumulate: p i
= N i
/N;
Le intensità globali del carattere di ciascuna classe (X i
) ,se non sono note, si calcolano moltiplicando i
valore centrale di ciascuna classe per la frequenza della stessa: X
i
x
i
x
i 1
n
i
; le frazioni
accumulate del carattere sono definite da q i
= A i
/A s.
Il rapporto di concentrazione, in tal contesto, è definito da: R = 1 −
i = 1
s
p
i
− p
i − 1
q
i
q
i − 1
;esso è
ottenuto approssimando l’area sotto la curva di concentrazione con il metodo dei trapezi: l'area di
concentrazione è approssimativamente uguale alla differenza tra l'area del triangolo di massima
concentrazione e la somma delle aree dei trapezi corrispondenti alle varie classi di intensità del
carattere.
● STIMATORE
Ai fini della stima statistica dei parametri di una popolazione, si rende necessario valutare un
parametro incognito θ; tale valutazione si effettua attraverso una funzione delle n osservazioni
campionarie, detta stimatore del parametro θ:
Uno stimatore è una variabile casuale, funzione delle determinazioni campionarie, utilizzata ai fini della
stima di un parametro incognito θ :
= h X
1,
2,
n
: la stima, invece, è il valore che lo
stimatore del parametro assume una volta che esso è valutato sul campione estratto.
Uno stimatore deve soddisfare una serie di condizioni:
campioni deve essere uguale al valore del parametro nella popolazione: E
della varianza ottenibile con altri stimatori: Var
= minimo
alla certezza verso il valore esatto del parametro al crescere della dimensione del campione:
lim
n ∞
Pr
n
dove ε è un valore positivo qualsiasi, e ci dice che, al crescere della dimensione del campione,
la differenza tra la stima ed il parametro tende in probabilità a risultare inferiore a un valore
arbitrariamente piccolo.
Quando uno stimatore è consistente è anche asintoticamente corretto:
lim
n ∞
n
e, al
tendere di n all'infinito, la sua varianza è uguale a zero:
lim
n ∞
var
n
variabilità generale è imputabile in parte alle differenze delle medie rispetto alla media generale
(variabilità tra i gruppi) e in parte alle differenze delle osservazioni rispetto alla propria media (variabilità
interna).
● COEFFICIENTE DI VARIAZIONE (*)
Il coefficiente di variazione è dato dal rapporto tra la deviazione standard e la media aritmetica; può
presentare valori superiori all'unità quando la deviazione standard è maggiore della media. Il
coefficiente di variazione perde di significato se il fenomeno può presentare valori positivi e negativi; in
questo caso la media può risultare molto prossima a zero.