Scarica Appunti per orale di statistica e più Appunti in PDF di Statistica solo su Docsity!
STATISTICA
La distribuzione statistica descrive il modo in cui uno o più caratteri, rappresentativi di un certo
fenomeno, si manifestano in una popolazione oggetto di studio.
L’elenco delle modalità osservate unità per unità costituisce una distribuzione unitaria.
Rappresenta il conteggio delle unità statistiche che presentano una certa modalità del carattere
in relazione alla numerosità del collettivo.
Le modalità sono organizzate in intervalli di valori detti classi, e le frequenze associate a ciascun
intervallo rappresentano il n° di unità sulle quali è osservato/misurato il fenomeno.
UNITÀI
SINGOLO
CARATTERE
> DISTRIBUZIONE UNITARIA
SEMPLICE
PIU' CARATTERI
DISTRIBUZIONE UNITARIA MULTIPLA
NOTAZIONE
N
COLLETTIVO ONUMEROTOTALEUNITÀ
f. POPOLAZIONE
vi
UNITÀ
STATISTICA
F-
CARATTERE
×
DISTRIBUZIONE
DI FREQUENZA
SI
CHIAMA
DISTRIBUZIONE
DI FREQUENZA
LOSCHEMACONCUISIASSOCIAADOGNIMODALITÀDELCARATTEREXLA RISPETTIVA
FRLQUTNZA
.
✗
MI ALL'
INTERNO DELLO SCHEMA SIPUÒNOTARECOME
:
K
✗
My
N
N=
Mèmttmztm
}
Mk
i
Ma
✗
3
M
}
FREQUENZA RELATIVA
fini
COSÌ
POSSIAMO
INDICARE /LPESOCHEQUELLAMODALITÀHA
NELLA
DESCRIZIONE
DEL
COLLETTIVO RISPETTO AL CARATTERE
.
FREQUENZE PERCENTUALI
MOLTIPLICANDO LE
FREQUENZE
RELATIVE
PER
OTTENIAMO LE
FREQUENZE
PERCENTUALI
.SI/NDlCAC0NlaN0TAZlONEPi.
f.
FREQUENZA
CUMULATA
ESSASICAKOLA ATTRAVERSO
LA
FORMULA
:
MENTRE LA FREQUENZA RELATIVA
CUMULATA
:
Ni
Nizhni
Fini
DISTRIBUZIONE INCASSI
ILNUMERODICLASSIÈDATODALLAFORMULADISTURGES
:
KE
11-3/3221-
/N
Per ottenere le frequenze relative da una tabella a doppia entrata è sufficiente dividere ogni
elemento della matrice per il gran totale n :
Consideriamo una variabile doppia (X,Y) e supponiamo di voler studiare la distr. della variabile Y
rispetto ad un prefissato valore di X=xi
Indica l’ammontare di carattere posseduto complessivamente da tutte le unità.
FREQUENZA
CONGIUNTA
RELATIVA
fi]
≤
1
FREQUENZE CONDIZIONATE
UNITA
'
3
INTENSITÀ
TOTALE
DEL FENOMENO
SI
PUÒ MISURARE COME
Le misure di centralità esprimono sinteticamente il centro ideale della distribuzione, ossia quel
valore intorno al quale tendono a gravitare i dati.
Le medie sono utili perché sono espresse nella stessa unità di misura del carattere osservato.
Secondo Cauchy (1821) è qualunque valore reale M intermedio tra il valore più piccolo della
distribuzione ordinata in senso crescente x(1) (minimo) e il valore più grande x(N) (massimo).
Tale criterio, viene definito di internalità.
Secondo Chisini (1929) è invece quel valore (interno) che rispetto ad una funzione sintetica lascia
inalterato il valore
Se il carattere X è quantitativo discreto e conosciamo la sua distribuzione di frequenza:
MISURE DI CENTRALITÀ
MEDIA
r
ARITMETICA
MEDIA
PONDERATA
MEDIA
L
GEOMETRICA
MODA
MEDIANA
MEDIA
ARITMETICA
M
Xn
COME
DEFINIZIONE GENERALE
:
LA MEDIA ARITMETICA
DI UNA DISTRIBUZIONE STATISTICA DI
S AGGREGATA
E
'
LA SOMMA DEI TERMINI
μ ,
✗ 2 ,
fu
DIVISA PER
"
N
"
.
ABBIAMO
DIVERSE FORMULE
PER CALCOLARE LA
MEDIA
ARITMETICA
IN
BASE ALLA
SITUAZIONE IN CUI
CI TROVIAMO
:
1 OSSERVAZIONI
DI
UN
CARATTERE QUANTITATIVO
Supponiamo di voler studiare la distribuzione condizionata Y|x con una tabella a doppia variabile.
Calcolare la media condizionata significa calcolare la media aritmetica di una sottopopolazione che
presenta un certo carattere di X o Y, infatti siamo interessati a vedere come si distribuisce nel
collettivo il carattere misurato dalla variabile Y fissato un certo valore della variabile X=xi, o
viceversa con Y=yj.
Attraverso la media ponderata è possibile valutare sinteticamente un fenomeno, inserendo anche
un sistema di pesi che tenga conto dell’importanza che le diverse manifestazioni dello stesso
hanno all’interno della popolazione oggetto di studio. Essa si calcola:
Essa si utilizza quando il carattere studiato si modifica mediante proporzioni(andamento geometrico)
MEDIA
CONDIZIONATA
MEDIA PONDERATA
MEDIA GEOMETRICA
PER
POTERLA
CALCOLARE E
'
NECESSARIO CHE
TUTTI I VALORI SIANO POSITIVI
.
MEDIE DI POSIZIONE
LE
MEDIE
DI
POSIZIONE
NON HANNO BISOGNO
DI CALCOLI
,
ESSE SONO :
La moda Mo è la modalità più frequente della distribuzione del carattere.
Può essere utilizzata sia per caratteri a quantitativi o qualitativi.
La moda potrebbe non essere unica: se si individuano due modalità con frequenza maggiore si
parla di distribuzione bimodale (due mode)
Se tutte le modalità del carattere presentano all’incirca le stesse frequenze, allora non ha senso
determinare la moda
E’ la modalità presentata dall’unità centrale del collettivo.
Divide il collettivo in due sottoinsiemi di uguale numerosità: uno con modalità di ordine più basso e
l’altro con modalità di ordine più alto.
Il calcolo della mediana è possibile solo per caratteri quantitativi o qualitativi ordinabili.
Il suo calcolo varia a seconda di N:
- Se n è dispari, la posizione è (n+1)/2 (la mediana è la modalità presentata dall’unità centrale)
- Se n è pari si hanno due unità centrali con posizione n/2 e n/2 +1 (si hanno due mediane date
dalle modalità delle due unità centrali: se il carattere è quantitativo, possiamo considerare come
mediana la semisomma dei valori delle due unità centrali).
Non è sensibile alla presenza di valori anomali!
La classe mediana è la classe xi-1 -| xi se la corrispondente frequenza cumulata relativa Fi è
maggiore o uguale a 0,50: una volta individuata la classe mediana, si può ottenere la mediana per
approssimazione lineare.
In generale il p-esimo percentile è la modalità che (in senso crescente) si trova nella posizione:
Alcuni percentili in particolare sono di interesse per la descrizione dei fenomeni
I quartili sono dei percentili che consentono di dividere la distribuzione in quattro parti uguali:
- Se p=25 allora abbiamo il 25° percentile (detto primo quartile, Q1), cioè la modalità che lascia
a sinistra il 25% delle unità
- Se p=75 allora abbiamo il 75° percentile (detto terzo quartile, Q3), cioè la modalità che lascia
a sinistra il 75% delle unità
MODA
MEDIANA
FREQUENZA
CURVATA CLASSE PRECEDENTE
A
QUELLA
MEDIANA
ESTREMO
INFERIORE CLASSE
MEDIANA
j
AMPIEZZA
CLASSE
MEDIANA
✓
FREQUENZA
CUMULATA CASSE MEDIANA
PERCENTILI
E
QUARTU
i.
[
in
È un indice interno nel quale si collocano il 50% delle osservazioni
Tanto più piccola è la differenza interquartile tanto più la metà delle osservazioni risulta
addensata intorno alla mediana.
Lo scostamento semplice ci indica di quanto in media le osservazioni si discostano dal valore
medio scelto. Possiamo trovare due casi:
Ovviamente è possibile in entrambe le tipologie di distribuzione utilizzare per il calcolo anche le
frequenze relative (ricordando che fi = ni/N)
Prendono in considerazione il quadrato degli scarti, il risultato è che a valori più distanti dal centro
si assegna un maggior peso mentre ai valori più vicini si assegna minor peso
L’indice più utilizzato nella famiglia degli scostamenti quadratici è la cosiddetta varianza
Quando tutti i valori della distribuzione sono uguali allora la varianza è nulla
Più si allontana dallo 0 più il fenomeno è variabile
La varianza è ottenuta come media degli scarti dalla media della distribuzione al quadrato
Il numeratore è chiamato devianza ed è utilizzato in alcuni casi come indice di variabilità al posto
della varianza
DIFFERENZA
INTER QUARTI
LE
APPROFONDIMENTO
OLTRE
AD
INDICI ASSOLUTI
E RELATIVI
,
TROVIAMO ANCHE
DIFFERENZE MEDIE E SCOSTAMENTI MEDI
:
DIFFERENZE MEDIE
: MISURANO A VARIABILITÀ RISPETTO ALLA DIFFERENZE TRA UNITA STATISTICHE
.
ES
. CAMPO
VARIAZIONE
;
DIFF .
INTER QUARTI
LE
SCOSTAMENTI
MEDI
:
MISURANO A VARIABILITÀ RISPETTO
AD
UN
CENTRO
RAPPRESENTATO. ES. SCOSTAMENTI SEMPLICI
,
SCOSTAMENTI QUADRKI
.
SCOSTAMENTO SEMPLICE
PRIMA
DI PARLARE
DI SCOSTAMENTI BISOGNA PARLARE DI
SCARTO
LO SCARTO È LA DIFF
. TRA SINGOLI VALORI DELLA DISTRIBUZIONE E
UN VALORE MEDIO
"
C
"
CHE SOLITAMENTE COINCIDE
CON LA MEDIA
(
×
,
c)
POSSIAMO
TROVARCI IN CASI DI
:
DISTRIBUZIONI DI FREQUENZA ASSOLUTA
CON A-
MEDIA
CON
LA
MEDIANA
CON A-
MEDIA CON
LA
MEDIANA
SCOSTAMENTI
QUADRKI
( VARIANZA)
→ SIGMA
→ È
La varianza presenta alcune peculiarità
1) dipende da tutte le modalità del carattere
2) assume solo valori non negativi: σ > 0
3) ènullaseesoloseilcarattereè“degenere”: sex1 =x2 =...=xN allora σ =
4) è sensibile ai valori anomali (poiché lo è la media aritmetica in essa contenuta)
5) è invariante per traslazioni del tipo Y = X + a: infatti si dimostra che σ = σ
Consideriamo una variabile doppia (X,Y) e supponiamo che sia stata organizzata in una tabella
che contiene sulle righe le r modalità di X e sulle colonne le c modalità di Y
Con lo stesso criterio già visto è possibile calcolare anche la varianza della distribuzione condizionata Y|x :
siamo interessati a studiare la variabilità nel collettivo del carattere misurato dalla variabile Y fissato un certo
valore della variabile X
Essi vengono utilizzati per confrontare la variabilità di fenomeni, con un diverso ordine di grandezza
o più fenomeni, espressi anche con diversa unità di misura
Possono essere costruiti rapportando l’indice di variabilità assoluto ad una media
Utilizzato per confrontare la variabilità di due distribuzioni
ANCHE
IN
QUESTO CASO POSSIAMO TROVARCI IN SITUAZIONI
DI
:
↓
DISTRIBUZIONE
INCASSI
PER RISOLVERE
IL
PROBLEMA DELLE
UNITÀ
DI MISURA CALCOLIAMO
LO
SCARTO QVADRKO
MEDIO
RADICE
DELLA DEVIANZA
PROPRIETÀ DELLA VARIANZA
=
2
i
i
VARIABILITÀ DI
VARIABILI DOPPIE
VARIANZA
CONDIZIONATA
DOVE
:
mi
= NUMEROSITÀ
GRUPPO
DEFINITO DA
✗ i
M (
Yk;)
=
MEDIA
DI Y
NEL
GRUPPO DEFINITO DA ✗
i
mig
= NUMEROSITÀ
GRUPPO
MODALITA
Y
INDICI
REATI
V O DI
VARIABILITÀ
(OEFFKENTE
DI
VARIABILITÀ
Possiamo ricorrere ai soli intervalli di variabilità per descrivere graficamente la distribuzione
La rappresentazione ottenuta è detta box plot (diagramma a scatola e baffi)
Il box-plot è un grafico caratterizzato da tre elementi:
1) un rettangolo (box) la cui dimensione indica la variabilità dei valori “prossimi” al centro della
distribuzione
2) una linea o punto, che indica la posizione del centro della distribuzione
3) due segmenti che partono dal rettangolo e i cui estremi sono determinati in base ai valori estremi
della distribuzione
Attraverso il box plot è possibile evidenziare la presenza di eventuali valori anomali. Abbiamo già
detto che un valore anomalo è un valore molto più piccolo o molto più grande rispetto ai valori
della distribuzione: per poter evidenziare tali modalità particolari è necessario calcolare
i cosiddetti valori minimo e massimo “teorici” e confrontarli con quelli effettivamente osservati
Nello studio dei fenomeni economici e sociali descritti attraverso caratteri quantitativi di tipo
trasferibile può essere interessante analizzare la cosiddetta concentrazione. Riguarda il modo in
cui un fenomeno trasferibile si ripartisce tra le unità, in particolare l’attitudine ad accentrarsi in un
numero di unità ridotto
Si parla di disuguaglianza distributiva e si considera la concentrazione come un eccesso di tale
particolare fenomeno
GRAFICAMENTE
BOX
PLOT
✗
NN X Max
Qi
Moo
Qs
UNITA
'
5
CONCENTRAZIONE
Data una distribuzione unitaria di n osservazioni di un carattere X, ordinati in senso crescentesi è
interessati a studiare come l’ammontare totale del carattere
sia ripartito fra le diverse unità statistiche che compongono il collettivo:
(1) equidistribuzione (assenza di concentrazione) ciascuna delle n unità possiede 1/n
dell’ammontare complessivo A del carattere, ossia:
(2) massima concentrazione l’intero ammontare del carattere è posseduto da una unità:
Per misurare la concentrazione di un carattere X in un collettivo è necessario considerare gli scarti
(differenze) tra frequenze relative cumulate delle unità statistiche e frazione cumulata
dell’ammontare di carattere posseduto:
La concentrazione totale nel collettivo è ottenuta sommando gli scarti
A-
Èi
Xi
ci
=
(
Pi
qi
)
SI TRATTA
DI
UNA MISURA
IN CUI IL
VALORE
:
=
O NEL CASO
DI
EQUI
DISTRIBUZIONE
O
NEL CASO DI CONCENTRAZIONE
SARA
'
!
Pi =
ME
PER
MAX CONCENTRAZIONE
In generale possiamo pensare che presi due caratteri ci sia una relazione di dipendenza o
indipendenza
Consideriamo una variabile doppia (X,Y) e supponiamo che sia stata organizzata in una tabella: sulle
righe le r modalità di X e sulle colonne le c modalità di Y
Possiamo osservare, a seconda del problema trattato,
diversi tipologie di relazione:
Consideriamo a tal proposito le distribuzioni condizionate della X rispetto alla Y:
se la distribuzione condizionata X|Y non si modifica al variare delle modalità di Y allora si parla di
indipendenza in distribuzione, e quindi le variabili sono sconnesse
L’indipendenza in distribuzione è una relazione simmetrica: se X è indipendente da Y allora anche Y
risulta essere indipendente da X
In generale se due variabili sono indipendenti in distribuzione è possibile allora ricostruire la tabella
doppia a partire dalle distribuzioni marginali di riga e colonna, avendo:
Si ha quando tra due caratteri logicamente indipendenti sia invece evidenziata una
relazione.
UNITA
'
RELAZIONI
TRA VARIABILI
INDIPENDENZA
IN GENERALE
DUE CARATTERI SONO INDIPENDENTI QUANDO LA CONOSCENZA DI
UNO DEI DUE
NON MIGLIORA
LA
"
PREVISIONE
"
DELLA MODALITÀ DELL' ALTRO.
ASSOCIAZIONE SPURIA
:
Se scegliamo una modalità qualsiasi della Y allora sappiamo qual è la modalità
osservata della X, e viceversa.
Se scegliamo una modalità qualsiasi della X allora sappiamo qual è la modalità
osservata della Y, ma non è vero il contrario.
La misura del grado di connessione si basa sullo scarto tra la frequenza osservata e la frequenza
teorica che si osserverebbe se tra le variabili ci fosse perfetta indipendenza.
In caso di indipendenza le contingenze sono tutte nulle
L’indice chi-quadro di Pearson valuta complessivamente l’indipendenza tra le variabili e che allo
stesso tempo annulli l’effetto compensativo dei segni positivi e negativi
È ottenuto come somma delle contingenze al quadrato sulle frequenze teoriche.
Quando si ha perfetta indipendenza l’indice assume valore 0.
Nel caso invece di massima connessione, il valore (massimo) che l’indice può assumere dipende
dalla dimensione della tabella e dalla numerosità del collettivo.
Per calcolare l’intensità della dipendenzaè utile ricorrere ad un indice normalizzato, che ha il
vantaggio di variare tra 0 e 1 e può quindi essere espresso in percentuale
Quando la V di Cramer vale 0 allora abbiamo perfetta
indipendenza
Quando la V di Cramer vale 1 allora abbiamo massima
connessione
MASSIMA
DIPENDENZA
CONNESSIONE)
SI
HA
MASSIMA DIPENDENZA TRA DUE
CARATTERI QUANDO
CONOSCENDO
UNA QUALSIASI
MODALITÀ DI UNO DEI DUE SI
PUÒ DETERMINARE
UNIVOCAMENTE L'ALTRO .
SI
POSSONO VERIFICARE
DUE CASI
:
PERFETTA INDIPENDENZA
:
PERFETTA DIPENDENZA
:
GRADO DI CONNESSIONE
INDICE
CHI
QUADRO
INDICE
DI CRAMER
Uno degli aspetti fondamentali dello studio della relazione tra due variabili quantitative è legato al
concetto di concordanza, ossia la ricerca della direzione della dipendenza tra Y e X
Poiché non è possibile cogliere il segno della concordanza (o discordanza) osservando tutti gli
scarti misti uno per volta, è necessario costruire una misura di sintesi => COVARIANZA
CONCORDANZA
COEFFKENTE
DI
CORRELAZIONE
IL
COEFFKENTE
DI
CORRELAZIONE
QUANTIFICA
LA
FORZA DELLA RELAZIONE
LINEARE TRA DUE VARIABILI
,
E SI CALCOLA
COME
:
Il diagramma di dispersione fornisce una idea immediata sia sulla direzione della relazione sia sulla
sua intensità
Una relazione statistica tra la Y e la X può essere descritta da:
La prima parte f(X) - la componente DETERMINISTICA - rappresenta il contributo della X, la
seconda parte ɛ invece - la componente STOCASTICA - rappresenta il contributo di tutto ciò che
non è stato osservato, ed è perciò considerato un termine di errore
Date due variabili X (indipendente) e Y (dipendente) si assume che:
Per poter calcolare l’intercetta e il coefficiente di regressione è necessario minimizzare gli errori.
Tale procedura è chiamata dei minimi quadrati:
GRAFICO DI DISPERSIONE
REGRESSIONE
LINEARE
SEMPLICE
E
'
UN
MODELLO ATTRAVERSO IL
QUALE
SI RAPPRESENTA
IL FENOMENO OGGETTO DI STUDIO
E
LA RELAZIONE
TRA
VARIABILI
.
ESSO CERCA DI
SINTETIZZARE
AL MEGLIO
LA NUVOLA
DI
PUNTI
DEFINITA
DALLA
DISTRIBUZIONE
CONGIUNTA DI
DUE
VARIABILI
.
CALCOLO
DI A E
B