






















Studia grazie alle numerose risorse presenti su Docsity
Guadagna punti aiutando altri studenti oppure acquistali con un piano Premium
Prepara i tuoi esami
Studia grazie alle numerose risorse presenti su Docsity
Prepara i tuoi esami con i documenti condivisi da studenti come te su Docsity
Trova i documenti specifici per gli esami della tua università
Preparati con lezioni e prove svolte basate sui programmi universitari!
Rispondi a reali domande d’esame e scopri la tua preparazione
Riassumi i tuoi documenti, fagli domande, convertili in quiz e mappe concettuali
Studia con prove svolte, tesine e consigli utili
Togliti ogni dubbio leggendo le risposte alle domande fatte da altri studenti come te
Esplora i documenti più scaricati per gli argomenti di studio più popolari
Ottieni i punti per scaricare
Guadagna punti aiutando altri studenti oppure acquistali con un piano Premium
Dispensa di statistica da frequentante, composta da appunti presi a lezione e slide caricate dal prof
Tipologia: Dispense
1 / 30
Questa pagina non è visibile nell’anteprima
Non perderti parti importanti!























La statistica si divide in:
Statistica descrittiva : insieme di indici e grafici che descrivono i dati completi; è quel genere di
analisi che si limita ad osservare la regolarità dei fenomeni.
Statistica probabilistica : studio del meccanismo generatore delle relazioni campionarie
(possibili risultati: modelli teorici da cui provengono i nostri dati); si descrive il comportamento
della popolazione in condizioni di incertezza.
Statistica inferenziale : permette, attraverso metodi probabilistici, di trarre conclusioni generali
a parte dall’esame di un campione di osservazioni (dal campione al suo modello generatore). È
un processo che studia il comportamento della popolazione in condizioni di incertezza tramite
l’analisi del campione, come stima, verifica di ipotesi e previsione.
Campione rappresentativo: miniatura della popolazione
Campione casuale: tutte le unità hanno una probabilità di entrare a far parte del campione;
permette di quantificare un errore
Nb: sondaggi ≠ campioni statistici
Prima di applicare qualunque indagine statistica è necessario verificare le fonti da cui provengono
i dati, la qualità e la creazione della matrice dei dati (database: tabella formata da tutti i dati
rilevanti per ogni elemento e caratteristica oggetto dell’indagine).
rilevare una variabile di interesse
popolazione
La matrice dei dati contiene
tutte le informazioni analitiche
di ciascuna unità statistica.
Proprietà dell’unità statistiche/sperimentali; è il risultato di un’operazione compiuta sulle unità
statistiche ed è in definitiva un’informazione che si vuole studiare, dunque la caratteristica oggetto
di studio.
Le modalità del carattere sono le diverse intensità (numero che esprime l’ammontare, la misura di
un carattere quantitativo di una unità statistica) o i diversi attributi che un carattere può assumere.
È il numero (per i caratteri quantitativi) o attributo (per i caratteri qualitativi) che l’unità statistica
manifesta:
I caratteri qualitativi si dividono in:
residenza,…)
risultato di un esame,…)
I caratteri quantitativi si dividono a loro volta in:
esprime numeri interi
La statistica descrittiva univariata si occupa di tuti gli strumenti descrittivi per l’analisi di un solo
carattere estratto dalla matrice dei dati.
Per organizzare i dati elementari in prospetti sintetici delle osservazioni è utile costruire una
distribuzione o tabella utilizzando la nozione fondamentale di frequenza.
= singoli valori (j = 1, 2, ..., n) dove n è il numero di unità statistiche
= modalità distinte (manifestazione del carattere/variabile)
La frequenza è il numero che esprime quante volte una data modalità del carattere si presenta
nella totalità delle unità rilevate.
I tipi di frequenza sono:
assoluta: s’intende il numero di unità statistiche che presentano una data modalità n i; sono
numeri interi, positivi e la somma da n:
n i ≥ 0 interi e ∑ n i = n (finisci formula)
relativa : numero di unità statistiche sul totale che presentano una data modalità f i
. sono
positive e la somma da 1:
Fi = n i /n 0 <= f i <= 1 e ∑f i
moltiplicando per cento f i si ottengono le frequenze percentuali p i = f i
cumulata : numero N i o frazione F i di unità statistiche che presentano una data modalità minore
o uguale alla corrente (N i
o F i
Nb. ha senso calcolare le frequenze cumulate solo per caratteri che presentano un ordinamento.
Si calcolano quindi per caratteri qualitativi ordinati e quantitativi (discreti e continui). Non si
calcolano per i caratteri sconnessi
Per i caratteri quantitativi continui (o discreti con modalità in classi)
istogrammi. In corrispondenza ad ogni classe si disegna un rettangolo con base proporzionale
all’ampiezza della classe e altezza proporzionale alla frequenza o alla densità se le classi sono
di diversa ampiezza
ASSE ORDINATE: frequenze assolute, relative e densità
ASSE ASCISSE: modalità
In statistica gli assi usano unità di misura differenti l’uno con altro,
per definire al meglio le frequenze.
CASO A: nel caso in cui le classi abbiano ampiezza diversa, le altezze dei rettangoli sono uguali
alla densità di frequenza.
CASO B: il grafico cartesiano per la rappresentazione dell’andamento dei valori delle frequenze
cumulate assolute o relative (N i o F i ). Sull’asse delle x vengono poste le modalità, mentre sull’asse
delle y vengono collocate le frequenze cumulate. Si viene a creare un grafico a gradini. Nel caso in
cui il carattere sia quantitativo in classi, la funzione a gradini è approssimata ipotizzando che le
unità statistiche siano equipartite dentro la classe.
CASO C: nelle serie dipendenti dal tempo, il grafico in coordinate cartesiane ortogonali in cui il
tempo t, è sull’asse delle ascisse, mentre i valori della serie sono sull’asse delle ordinate. Nel caso
in cui il carattere sia quantitativo in classi, la funzione a gradini è approssimata ipotizzando che le
unità statistiche siano equipartite dentro la classe.
La variabile statistica doppia è lo studio di 2
caratteri osservati congiuntamente, è data da
coppie elementari {x r
,y r
} con (r= 1, 2, ..., n)
Le tipologie di frequenze che in questo caso troviamo sono:
frequenza congiunta (nij): definisce il numero di unità statistiche che possiedono
contemporaneamente la modalità i del carattere X e la modalità j del carattere Y. È il numero di
unità statistiche che presentano la coppia di modalità (xi,yj)
definisce il numero di unità statistiche che possiedono la modalità i
del carattere X
frequenza marginale (nj): definisce il numero di unita statistiche che possiedono la modalità j
del carattere Y
Ni: numero di unità statistiche che possiedono la modalità i del carattere X (somma frequenze
di riga)
Nj: numero di unità statistiche che possiedono la modalità j del carattere Y (somma frequenze
colonna)
Dalla tabella a doppia entrata si ricavano due tipi di variabile statistica univariate, dette marginali e
condizionate:
Gli indici di posizione sono indici sintetici che evidenziano le caratteristiche essenziali della
distribuzione del carattere. Attraverso gli indici di posizione è possibile confrontare statistiche che
rappresentano i livelli/valori tipici di due diverse distribuzioni (misurazione media).
Date n osservazioni v 1
, v 2
, ..., v n
o la variabile statistica X, un indice di posizione (o statistica o
media) è una funzione dei dati. α = α (v 1
, v 2
, ..., v n
) = α (X i
, n i
) = α(X) che gode di alcune proprietà:
Internalità (condizione di Cauchy): l’indice deve essere compreso tra il minimo e il massimo
valore osservato Xmin ≤ a(X) ≤ Xmax
Monoticità: se una variabile statistica ha tutte le modalità minori o uguali a quelle di un’altra
variabile (X ≤ Y) allora la stessa relazione vale sugli indici di posizione se X ≤ Y → a(X) ≤ a(Y)
Moltiplicablilità: se le modalità di una variabile statistica X sono tutte moltiplicate per una
costante allora il valore dell’indice di posizione della nuova variabile si può ottenere
moltiplicando per la costante l’indice di posizione di X a(cX) = c a(X) → modalità c = cindice di
posizionamento, dove c è costante.
La proprietà 1, è irrinunciabile e vale per ogni tipologia di carattere. Nel caso di caratteri qualitativi
si deve interpretare nel senso che l’indice di posizione deve coincidere con una delle modalità
osservate sul carattere.
Se oltre alla 1, valgono anche le proprietà 2 e 3 si ha un indice di posizione (media) in senso
stretto.
Se almeno una delle proprietà 2 o 3, NON valgono si ha un indice di posizione (media) in senso
lato.
Gli indici tipici si dividono in:
indici non analitici (non si calcolano ma si individuano): moda, percentuali di ordine p, mediana
Indici analitici (calcolabili): aritmetica, armonica, geometrica e quadratica
La moda è la modalità/valore cui è associata la massima frequenza.
Ci sono diversi metodi di calcolo a seconda della tipologia del carattere:
CARATTERI QUALITATIVI/QUANTITATIVI DISCRETI: x= Mo (X) = {x j : n j = max n i*
(classe modale): x= Mo (X) = {x jc : n j = max n i*
Operativamente bisogna individuare la classe modale (con massima frequenza) e poi riscontrare
la moda che equivale al valore centrale della classe modale (prendo i due valori con maggiore
frequenza e poi divido per due)
xi ni
4
5
15
14
38
I percentili sono la modalità (xi)°/valori che dividono la distribuzione di frequenza ordinata in più
parti. Percentili vuol dire che dividono in 100 parti la distribuzione. Non esistono solo i percentili,
ma anche i quartili che dividono in 4 parti la distribuzione, e i decili che dividono in 10 parti la
distribuzione.
In generale, il percentile x p
di ordine p (0 < p < 1) è quella modalità che è:
Quindi i quartili sono formati da percentili di ordine 0.25 – 0.50 - 0.75, i decili sono composti da
percentili di ordine 0.1 – 0.2 - ... - 0.9, mentre i percentili sono formati da percentili di ordine 0.01 –
La mediana è la modalità/valore che occupa la posizione centrale nella distribuzione ordinata dei
dati (nella scala si trova in mezzo) → è il 2° quartile. Essa è:
Per individuare la mediana è necessario innanzitutto calcolare la posizione centrale, la cui
individuazione dipende dalla numerosità totale n:
Nel caso in cui n = dispari: la posizione centrale è una ed è data da (n+1)/2 da cui mediana è
data da x(n+1)/2 (il risultato deve essere ovviamente intero).
Nel caso in cui n = pari: le posizioni centrali sono due e sono n/2 e n/2+1; a questo segue che
le mediane sono xn/2 e xn/2 + 1
Per individuare le posizioni (n+1)/2, n/2, n/2+1 bisogna guardare la colonna delle frequenze
cumulate e individuare la prima frequenza cumulata maggiore o uguale alla posizione cercata
Esempio: caratteri quantitativi discreti con numeri dispari
Me = 2
n = 9 dispari → la posizione centrale: (9+1)/2 = 5
La quinta unità statistica si trova in terza posizione su Ni → Me = x5 = 2
Per individuare le posizioni n/2, n/2+1, (n+1)/2 sulle distribuzioni di frequenza si utilizzano le
frequenze cumulate.
Si individua la prima frequenza cumulata maggiore o uguale della posizione centrale
Esempio: caratteri quantitativi discreti con numeri pari
Me = 1
n = 16 pari → le posizioni centrali sono: 16/2 = 8 e 16/2+1 = 9
L’ottava e la nona unità statistica si trovano tra la seconda e la nona posizione
su Ni → Me = (x8 + x9)/2 = (1+1)/2 → essendo caratteri quantitativi posso
usare la semi somma.
xi ni Ni
0
1
2
3
4
2
2
1
3
1
9
2
4
5
8
9
xi ni Ni
0
1
2
3
4
2
7
4
2
1
16
2
9
13
15
16
Esempio: caratteri qualitativi con numeri pari
GI GI I I I I I I S S S S S B B O → Me = I e S
n = 16 pari → le posizioni centrali sono: 16/2 = 8 e 16/2+1 = 9
Non essendo un carattere quantitativo non posso fare la
semi somma, quindi la Me = insufficiente e sufficiente
NB. la mediana non è influenzata dai valori estremi della distribuzione, infatti si dice che è robusta
rispetto a variazioni dei valori minimo e massimo della distribuzione di frequenza. La mediana è la
stessa anche se le due distribuzioni sulle code si comportano in maniera diversa.
La mediana può essere solo calcolata per i caratteri quantitativi e qualitativi ordinati. Non si può
calcolare per i caratteri qualitativi sconnessi
Caratteri quantitativi raggruppati in classi
, h i
] soddisfano la definizione
i-
) a i
/n i
Dove
n pari = n/2 e n/2+1 n dispari = (n+1)/2 N i-
= frequenza cumulata della classe precedente alla
classe mediana
n i
= frequenza assoluta classe mediana
Esempio: mediana con carattere quantitativo continuo caso dispari X = voto verifica
n = 19 dispari → la posizione centrale: (19+1)/2 = 10
Classe media = 4 -| 6
Mediana = Me(X) = 4 + (10-4)*2/8 = 5.5 (il valore deve essere dentro la
classe mediana, ossia tra 4 e 6 in questo caso)
Esempio: mediana con carattere quantitativo continuo caso pari X = altezza
n = 330 pari → le posizioni centrali: 330/2 = 165 e 330/2+1 =
Classe media = 11.5 -| 15.5 (devi guardare dove entrano in Ni)
Mediane: Me(X)1 = 11.5 + (165-11.5)*4/120 = 14.
Me(X)2 = 11.5 + (166-11.5)*4/120 = 14.
Mediana: (Me(X)1 + Me(X)2)/2 = 14.
Mediana con le frequenze relative
La mediana si può calcolate anche con le frequenze relative, cioè si può ragionare sulle frequenze
relative anziché sulle assolute. Ciò avviene per:
Caratteri qualitativi/quantitativi discreti: la mediana è la modalità cui corrisponde la prima
frequenza relativa cumulata maggiore o uguale a 0.
xi: giudizio ni: studenti Ni
Grav. Insuff
Insuff
Suff
Buono
Ottimo
2
6
5
2
1
16
2
8
13
15
16
xi ni Ni
0 -| 4
4 -| 6
6 -| 7
7-| 10
4
8
5
2
19
4
12
17
19
xi ni Ni
7.5 -| 9.
9.5 -| 11.
11.5 -| 15.
15.5-| 21.
40
25
120
145
330
40
65
185
330
r = 1 media aritmetica: μ
(1) = μ = 1/n ∑ xi ni con le frequenze relative μ
(1) = μ = ∑ xi fi
r = - 1 media armonica: μ
(- 1) = n / [∑ (1/xi) ni] con le frequenze relative μ
(- 1) = 1 / [∑ (1/xi) fi]
r = 2 media quadratica: μ
(2) = (∑ xi
2 ni/ n)
1/ con frequenze relative
(0) = (Πxi
ni )
1/n
∞ )
(0) per continuità (limite)
Nb: la media geometrica:
Quindi i calcoli a volte risultano pesantissimi e nemmeno la calcolatrice supporta numeri cosi
grandi; operativamente parlando conviene calcolare la media geometrica attraverso i logaritmi: 1.
logμ
(0) =1/n∑(ln xi)ni
logaritmo: μ
(0) = e
ln μ(0)
il teorema fondamentale delle medie potenziate, dice che la funzione, con xi positivi e distinti, è:
μ
(r) = (∑ xi
r fi)
1/r
(r) ≤ μ
(s)
(r) =xmin limμ
(r) =xmax
r→ - ∞ r→ + ∞
(r) è una media in senso stretto
In particolare : μ
(-1) ≤μ
(0) ≤μ ≤μ
(2) , quindi media armonica ≤ media geometrica ≤ media aritmetica ≤
media quadratica ciò è valido se vale l’eguaglianza delle xi
Proprietà 1: la media aritmetica rende nulla la somma degli scarti (differenza) di ogni valore da
un indice di posizione ∑(xi-α) ni = 0 se α = μ → M(X- μ) = 0
Proprietà di minimo: la media aritmetica minimizza la somma dei quadrati degli scarti di ogni
valore da un indice di posizione D = ∑(xi-α)
2 ni =minimo se α = μ
Operatore media aritmetica: assegna ad ogni X la sua media aritmetica M(X) = μx = 1/n ∑xini
= ∑xifi è utile quando la media aritmetica compare in formule matematiche più complesse. Con
le seguenti proprietà:
Proprietà associativa della media aritmetica: l’ipotesi, che i dati elementari siano riuniti in h
gruppi di cui si conoscono le medie e le rispettive numerosità. Si suppone cioè che di un
insieme di dati non si conoscano i valori assunti dal carattere X singolarmente su ciascuna unità
statistica, ma si abbia la conoscenza solo di alcuni risultati già in forma aggregata: si conosca
cioè il valor medio di X e la numerosità in ciascuno degli h gruppi in cui l’insieme è stato
suddiviso.
La media totale = media delle medie parziali. La media totale è uguale alla media delle medie
ciascun gruppo, ponderate per la rispettiva numerosità
In sintesi:
2 *ni)/ni)]
1/
1/ni oppure uso la formula
dei logaritmi
Arm ≤ geo ≤ arid ≤ quad
Gli indici di posizione sono indici che sostituiscono alle diverse modalità del carattere un’unica
modalità che possa ritenersi rappresentativa di tutte le altre. Da solo l’indice di posizione risulta
insufficiente per descrivere un fenomeno.
La sintesi comporta la perdita di informazioni, due distribuzioni possono avere la stessa media ma
essere tra loro molto diverse. Da qui, la necessità di introdurre e affiancare agli indici di posizione
anche degli indicatori di variabilità, cioè indicatori della diversità/molteplicità dei valori di un
carattere.
La variabilità è l’attitudine del carattere ad assumere modalità differenti (valori diversi); in base alle
differenti tipologie di carattere si parla più propriamente:
indici di mutabilità o eterogenità: per caratteri qualitativi
indici di variabilità o dispersione: per caratteri quantitativi
A prescindere dal carattere, tutti gli indici di variabilità devono soddisfare le seguenti proprietà
generali. Un indice di variabilità v(X) gode delle proprietà seguenti:
1. NON NEGATIVITÀ: v(X) ≥ 0
un indice di variabilità deve essere sempre maggiore o uguale a zero. v(X) = 0 se e solo se tutte le
modalità della distribuzione sono uguali, è il caso di una distribuzione degenere, ovvero quando
tutte le unità statistiche assumono la stessa modalità del carattere
Per CARATTERI QUALITATIVI SCONNESSI si può calcolare solo la moda
Per CARATTERI QUALITITIVI ORDINABILI si possono calcolare la moda e la mediana,
percentili
Per CARATTERI QUANTITATIVI DISCRETI/ CONTINUI si possono calcolare tutti gli indici
(moda, mediana, media)
Se gli indici sono tutti calcolabili quale scegliere?
MODA se la distribuzione è unimodale e se vuole mettere in evidenza la modalità più
rappresentativa
MEDIANA se si è presenza di valori anomali e si vuole un indice di posizione che non risenta di
questi valori sulle code
MEDIA POTENZIATA se si vuole un indice analitico
MEDIA ARITMETICA è sensibile ai valori anomali
MEDIA GEOMETRICA è opportuna quando si voglia fare la media di quantità espresse attraverso
i rapporti ed è poco sensibile alla presenza di valori anomali
MEDIA QUADRATICA ha utilità indiretta, ovvero che viene usata per la definzione della varianza e
sarà utile nella regressione
Un’altra misura di variabilità che vedremo al termine di questo capitolo, quando faremo i box-plot,
è invece la differenza interquartile (Q3 – Q1), cioè la differenza tra il terzo e il primo quartile.
È possibile però ottenere anche indici più elaborati. Esistono due impostazioni basate sul
differente modo di calcolare tali distanze:
Le misure di variabilità si basano sulla nozione di distanza. Consideriamo in particolare due
tipologie di indicatori elementari:
a. indicatori globali δij: la distanza tra le modalità assunte da due generiche unità statistiche. È la
distanza da tutte le altre. Ogni unità statistica viene confrontata con tutte le altre Matrice nxn –
simmetria – diagonale di zeri
b. indicatori di dispersione δi: la distanza tra la modalità assunta da una generica unità statistica
e un centro c, dove c è il centro di riferimento. È la distanza di ogni modalità da una
particolare o rappresentativa di X. Ogni unità statistica viene confrontata con un centro.
La varianza è il quadrato dello scarto quadratico medio. Esso corrisponde alla media degli
scarti della media al quadrato: D 2 (μ)
2 = ơ
2 = Var(X) = ơ
2 (X) = M [(X- μx)
2 ] con Var(X) ≥ 0.
Lo scarto quadratico medio è la radice della varianza (ơ)
2 )
1/n
FORMULA OPERATIVA DELLA VARIANZA: Var(X) = M(X)
2
2 = (xi
2 ni)/ni - μ
2
Come per l’indice di mutabilità di Gini, dobbiamo definire le due situazioni estreme usate Per
calcolare le espressioni della varianza minima e massima da cui definire la varianza normalizzata.
Le due condizioni estreme sono:
Minima variabilità: si verifica quando la variabile statistica è caratterizzata da una distribuzione
degenere (costante), cioè tutte le unità statistiche assumono lo stesso valore le modalità xi = xj
= c ꓱ i ≠ j, con i, j = 1,…,k tutti gli indici assumono valore 0, anche la varianza assume il suo
valore minore → varianza = VAR(X)
Massima variabilità: nella distribuzione di max variabilità le unità statistiche si distribuiscono
intorno ai valori estremi delle modalità della variabile in studio. La variabilità aumenta se
aumenta la distanza dalle modalità dalla media fissa (centro). In altre parole, mantenendo fissa
la media, la variabilità aumenta se aumentano le distanze tra le modalità (proprietà di
monotonicità), quindi bisogna spostare valori e frequenze verso gli estremi o oltre.
Per confrontare la variabilità di due variabili si preferisce utilizzare un indice di variabilità relativo,
come il coefficiente di variazione. Il coefficiente di variazione è un indice di variabilità relativo:
compreso tra 0 e 1)
CV = s.q.m / media = ơ/μ e il CV deve essere sempre ≥ 0
Nb: la varianza risente al quadrato l’unità di misura!!!
μ = (xini)/ni*
ơ = ((xi-μ)
2 ni)/ni
Come per la media aritmetica, che è l’indice di posizione più utilizzato, anche la varianza gode di
alcune proprietà. Le proprietà della varianza sono:
1. OPERATORE VARIANZA: l’operatore Var(*) associa ad ogni variabile la sua varianza
2 Var(X) (non linearità)
Questo teorema afferma che la varianza totale (ơ
2 ) è ottenibile dalla somma di due varianze, la
varianza between ovvero tra i gruppi (ơ
2 B) e la varianza within ovvero entro i gruppi (ơ
2 w). Quindi:
ơ
2 = ơ
2 W + ơ
2 B
W = varianza within “entro i gruppi ” = ơ
2 W =1/n∑ [∑(xij -μj)2 /nj ]nj
B = varianza between “tra i gruppi” = ơ
2 B =1/n∑(μj -μ)2 nj
NB. nel caso in cui non si conoscano i valori assunti da un carattere su tutte le unità statistiche,
ma di ogni sottogruppo in cui è suddivisa la popolazione siano noti:
2 j)
È possibile ricavare la media generale , tramite l’applicazione della proprietà associativa, e la
varianza tramite il teorema di scomposizione della varianza.
Nb: la distribuzione delle varianze dei gruppo (ơj)
vengono date dal testo, io dovrò elevarlo alla
seconda cosi da poter calcolare la varianza
whitin.
Il box plot visto come grafico che riassume le caratteristiche di una distribuzione di frequenza
perché è basato sui quartini, ci dà indicazione sia sulla indice di posizione, sulla variabilità, sui
possibili outliers, su come è distribuite, distribuite, su come sono distribuite le unità statistiche,
cioè le frequenze rispetto alle modalità.
Inoltre ci da adesso vedremo indicazione di una particolare forma indice di forma che è la
simmetria di una distribuzione.
La descrizione di un carattere statistico non si esaurisce nello studio degli indici di posizione e di
variabilità ma ci sono molti altri aspetti che possono essere studiati e misurati con svariati indici.
Essi prendono il nome di indice di forma e sono definiti tramite i cosiddetti momenti di una
variabile statistica.
I due aspetti che sono comunemente studiati sono:
Gli indici di forma sono definiti tramite i momenti di una variabile statistica e sono calcolati per
caratteri quantitativi. Attraverso tali indici possiamo valutare altre caratteristiche di una
distribuzione di frequenza oltre alla media e alla variabilità.
I momenti di una variabile statistica sono:
i momenti centrali (o della media) di ordine s ≥ 1 →
i momenti dall’origine di ordine s ≥ 1 →
In generale, una funzione f(x) si dice simmetrica rispetto a un polo di simmetria (centro) c, se per
ogni k > 0 vale f (c - k) = f(c + k)
Una variabile è simmetrica rispetto ad un
centro c se:
Per ogni xi = c - k
Esiste un xj = c + k (simmetrico)
Con la stessa frequenza: f (xi) = f(xj)
Le proprietà di una variabile simmetrica:
MEDIA = MEDIANA = c
Momenti della media di origine dispari sono nulli, perché gli scarti della media si compensano,
le modalità stanno alla frequenza distanza dalla media e hanno la stessa frequenza. Infatti per la
simmetria, gli scarti della media (centro) sono a due a due uguali in valore, ma opposti di segno
e con la stessa frequenza
NB. se la distribuzione è simmetrica unimodale, allora moda, media, mediana coincidono e sono
uguali al centro di simmetria c. Mo = Me = μ = c
Asimmetria positiva Media > mediana Asimmetria negativa Media < mediana
Mo < Me < μ Mo <Me < μ
L’indice di Fisher o di Skewness è un indice di simmetria:
Se la distribuzione ha simmetria positiva > 0 → ƴ1 > 0
Se la distribuzione ha simmetria negativa < 0 → ƴ1 < 0
Se la distribuzione è simmetrica = 0 → ƴ1 = 0
NB: Asimmetria a sinistra = asimmetria positiva Asimmetria a destra = asimmetria negativa
Confronto tra media e mediana:
μ > Me asimmetria positiva
μ < Me asimmetria negativa
μ = Me simmetria
NB. se l’indice è uguale a 0 è solo sintomo di simmetria
Esempio: fatturato medio annuo di un’impresa
Analisi: serie storica lunga di 5t
Per trovare la colonna di NIBF con anno base 1989 devo
semplicemente prende i valori xt dei singoli anno e
rapportarli a quello dell’anno base, che in questo caso è
Nel 1988 c’è stato un decremento, nel 1989 essendo
l’anno base il valore è uguale ad 1, mentre gli altri anni
hanno tutti subito un incremento
Per calcolare l’incremento basta che prendo il valore e lo sottraggo ad 1, viceversa per il
decremento.
Detti anche concatenati, si definiscono come numeri indici a base mobile al tempo t
It,t-1= xt / xt-
È dato dal rapporto tra il dato al tempo t (xt) e il dato al tempo precedente t-1 (xt-1)
Si trovano come valori:
Unitari/percentili: incremento o decremento rispetto al valore dell’anno precedente
t,t-
Esempio: fatturato medio annuo di un’impresa
Devo semplicemente dividere xt con il valore precedente
(xt-1)
Se si moltiplicano tra loro tutti i NIBM unitari si ottiene l’ultimo NIBF con base il primo anno (It,1);
da tale proprietà segue la definizione di variazione relativa media e di tasso medio di variazione
della serie storica.
Dove T-1 corrisponde al numero di NIBM di cui si fa il prodotto
Il VRM è la media geometrica dei NIBM, oppure la radice (T-1) ma del NIBF
unitario al tempo T con base 1 (primo elemento della serie)
È il tasso medio di incremento o decremento della serie storica in tutto l’intervallo
TM = VRM -1 e TM % = (VRM -1) * 100
La variazione su un sottoinsieme della serie è una variazione relativa media (VRM) della serie
storica in un sottoinsieme della serie (da h a k)
VRM = k-h √Ik,h
VRM è la media geometrica dei NIBM, oppure la radice (k-h) ma del NIBF unitario al tempo k con
base h
Nb: quando si ha a che fare con dei rapporti la
media da usare è sempre quella geometrica.
Problemi tipici
si costruisce una nuova serie di NIBF in cui la base slitta da un anno all’altro. Impostando la
seguente proporzione:
1/In,v =It,n/It,v → It,n =It,v /In,v dove v è la base vecchia, mentre n è la base nuova
Esempio: dati i seguenti NIBF con base t=1 (It,1) calcolare i NIBF con base t=
Adesso la nuova base slitta da t=1 a t=
La proporzione da impostare è 1: I2,1 = It,2 : I2,1 → It,2 = It,1/I2,
Ad esempio 0,8003 lo troviamo facendo
1/1,2495 e cosi via…
si ricostruiscono due serie di NIBF in cui le basi sono differenti. Si ha un solo anno (t*)in cui si
conosce il valore dell’indice per entrambe le serie, sul quale si imposta la seguente proporzione:
t,*
t,*
t,
t,
Che va risolta rispetto a I t,
o I t,
a seconda che si voglia completare la prima o la seconda serie