


































































Studia grazie alle numerose risorse presenti su Docsity
Guadagna punti aiutando altri studenti oppure acquistali con un piano Premium
Prepara i tuoi esami
Studia grazie alle numerose risorse presenti su Docsity
Prepara i tuoi esami con i documenti condivisi da studenti come te su Docsity
Trova i documenti specifici per gli esami della tua università
Preparati con lezioni e prove svolte basate sui programmi universitari!
Rispondi a reali domande d’esame e scopri la tua preparazione
Riassumi i tuoi documenti, fagli domande, convertili in quiz e mappe concettuali
Studia con prove svolte, tesine e consigli utili
Togliti ogni dubbio leggendo le risposte alle domande fatte da altri studenti come te
Esplora i documenti più scaricati per gli argomenti di studio più popolari
Ottieni i punti per scaricare
Guadagna punti aiutando altri studenti oppure acquistali con un piano Premium
statistica medica
Tipologia: Dispense
1 / 74
Questa pagina non è visibile nell’anteprima
Non perderti parti importanti!



































































Prof. F. Ferretti
INTRODUZIONE pag. 3
Variabili pag. 4
Distribuzioni di frequenza pag. 6
Rappresentazioni grafiche pag. 11
Indici di tendenza centrale pag. 15
Misure di variabilità pag. 20
Nozioni elementari di calcolo delle probabilità pag. 24
Variabili casuali e curve di probabilità pag. 27
Distribuzione normale e normale standardizzata pag. 32
Campioni e distribuzioni campionarie pag. 33
Tecniche di campionamento pag. 36
Cenni di inferenza statistica pag. 39
Intervalli di confidenza pag. 41
Nozioni generali sui test di significatività pag. 44
Test parametrici e non parametrici pag. 47
Test del χ
per tavole di contingenza pag. 48
Il concetto di correlazione pag. 54
Il coefficiente di correlaazione per ranghi di Spearman ρ pag. 56
La regressione ed il metodo dei minimi quadrati pag. 59
L'analisi della varianza pag. 67
APPENDICE: TAVOLE PER TEST DI SIGNIFICATIVITÀ pag. 71
Variabili
Come abbiamo già precisato, la statistica descrittiva ha come primo scopo quello di
riassumere le informazioni provenienti da una massa di dati, permettendo al lettore di
individuare a prima vista le caratteristiche di un gruppo di valori.
Prima di esaminare in dettaglio i principali strumenti analitici è opportuno approfondire
la conoscenza dell'oggetto sul quale vengono utilizzate queste metodologie: il dato
statistico.
Quando si compie una rilevazione di dati, che in seguito saranno elaborati mediante
tecniche descrittive, in realtà si rilevano i valori o le modalità con quali si presentano
determinate variabili. Sesso, età, altezza, colore degli occhi, ed altre ancora non sono
che variabili le cui determinazioni possono essere oggetto di una rilevazione statistica.
Ognuna di queste presenta particolari caratteristiche che permettono di classificarla in
una ben precisa categoria. Saper riconoscere e classificare le informazioni raccolte è
molto importante, poiché la scelta del metodo di analisi appropriato dipende
direttamente dal tipo di variabile sulla quale la metodologia deve essere utilizzata.
In funzione delle proprie caratteristiche, le variabili possono essere suddivise in :
Nel primo caso le caratteristiche possono essere espresse mediante attributi (p.e.: colore
dei capelli, stato civile, sesso, .... ), mentre nel secondo tali caratteristiche vengono
indicate da numeri (età, altezza, peso, .... ).
All'interno di queste due categorie è possibile individuare altri sottogruppi entro cui
classificare i tipi di grandezze. Le variabili quantitative possono essere suddivise in :
1.1 variabili qualitative nominali ;
1.2 variabili quantitative ordinali.
Nel primo caso (nominali) l'attributo che indica la caratteristica ha il solo scopo di
rappresentare la modalità con la quale si presenta il dato. Per la variabile "colore degli
occhi" alcuni tra i possibili attributi, per esempio, potrebbero essere "celeste",
"marrone", "nero". In questa classe si indicano con il termine variabili dicotomiche
quelle grandezze che ammetteno solo due risposte possibili (p.e. sesso:
maschio/femmina), mentre sono dette variabili policotomiche quelle con più risposte
ammissibili (p.e. stato civile: celibe/coniugato/separato/ .... ).
Nelle variabili qualitative ordinali l'attributo ha ancora lo scopo di rappresentare la
modalità con la quale si presenta il dato, ma queste modalità sono organizzate in una
scala di valori logici. Per esempio, la scolarità è una variabile che appartiene a questa
classe poiché le sue determinazioni sono degli attributi, ma il loro ordine esprime una
scala di importanza del titolo di studio posseduto. (elementare/media/superiore/laurea).
Un altro esempio potrebbe essere la sensazione di dolore avvertita durante l'esecuzione
di un esame, variabile che potrebbe essere catalogata come ordinale mediante le
seguenti codifiche: occasionale, moderato, medio, intenso.
Le variabili quantitative, invece, possono essere suddivise in:
2.1 variabili quantitative discrete ;
2.2 variabili quantitative continue.
Alla base della differenza vi è il tipo di numero che viene utilizzato per rappresentare la
determinazione della variabile. Nel primo caso si tratta di numeri non necessariamente
interi, collocabili in una scala di tipo ordinale, ma capaci di assumere solo certi valori
puntuali. Alcuni esempi molto semplici sono: il numero dei membri delle famiglie, la
frequenza cardiaca, il numero di gravidanze ed altre ancora.
Le variabili quantitative continue, invece, sono quelle che possono assumere tutti gli
infiniti valori all'interno o meno di un determinato intervallo. Appartengono a questa
classe grandezze quali l'altezza (p.e. 174,5 cm, 148,32 cm, .... ), il peso (p.e. 58,7Kg,
63,25 Kg, .... ) e qualsiasi altro dato misurabile e rappresentabile attraverso un numero
reale, ovvero le classiche informazioni ricavabili da una misurazione.
Nel testo abbiamo utilizzato un termine che riassume le categorie elencate; tutte quante
le tipologie individuate, infatti, possono essere indicate con il termine di scale di
misurazione. Il seguente schema riassume la classificazione delle variabili enunciata.
Variabili QUALITATIVE
(esprimibili con attributi)
(esprimibili con numeri)
Variabili QUANTITATIVE
NOMINALI
(attributi come determinazioni)
ORDINALI
(attributi come determinazioni in una scala logica)
DISCRETE
(numeri puntuali o interi come determinazioni)
CONTINUE
(numeri reali come determinazioni)
Soggetto n. Periodo incubaz. Soggetto n. Periodo incubaz.
giorni giorni
1 5 21 4
2 6 22 4
3 5 23 3
4 7 24 5
5 1 25 6
6 8 26 2
7 5 27 7
8 4 28 9
9 3 29 5
10 6 30 4
11 2 31 5
12 7 32 7
13 2 33 6
14 5 34 4
15 6 35 5
16 4 36 6
17 8 37 4
18 6 38 5
19 5 39 6
20 3 40 5
Tavola 1: periodo d'incubazione espresso in giorni della malattia XYZ in 40
pazienti (dati fittizi).
La seguente tavola illustra il risultato dell'operazione descritta.
Giorni incubaz. Frequenze
X Y
1 1
2 3
3 3
4 7
5 11
6 8
7 4
8 2
9 1
Totale 40
Tavola 2: distribuzione di frequenza del periodo d'incubazione espresso in
giorni della malattia XYZ in 40 pazienti (dati fittizi).
Come è facile osservare, nella prima colonna della tavola 2 vengono riportate le
determinazioni della variabile, mentre nella seconda il numero dei soggetti
corrispondenti alle singole modalità. Il totale in basso nella seconda colonna deve
necessariamente coincidere con il numero di individui sui quali è stata compita
l'osservazione.
Questa elaborazione ci permette già di avere una prima visualizzazione delle
informazioni provenienti dai dati contenuti nella tavola 1. È facile individuare, infatti,
come il maggior numero di persone ha un periodo d'incubazione che dura 5 giorni (
soggetti), mentre sono ben 26 i pazienti per i quali lo stesso evento si è verificato tra i 4
e i 5 giorni.
Sulla base della distribuzione di frequenza appena mostrata si possono eseguire ulteriori
elaborazioni che permettono di integrare le informazioni provenienti dal gruppo di dati.
Stiamo facendo riferimento alle distribuzioni percentuali di frequenza e alle
distribuzioni percentuali cumulate di frequenza. Nella tavola 3 abbiamo aggiunto due
colonne alla precedente distribuzione per illustrare il significato di queste due
elaborazioni.
Giorni incubaz. Frequenze Percentuali Percentuali
X Y cumulate
1 1 2,5% 2,5%
2 3 7,5% 10,0%
3 3 7,5% 17,5%
4 7 17,5% 35,0%
5 11 27,5% 62,5%
6 8 20,0% 82,5%
7 4 10,0% 92,5%
8 2 5,0% 97,5%
9 1 2,5% 100,0%
Totale^40 100,0%
Tavola 3: distribuzione di frequenza, percentuale e percentuale cumulata del
periodo d'incubazione espresso in giorni della malattia XYZ in 40
pazienti (dati fittizi).
Per quanto riguarda la distribuzione percentuale di frequenza, lo scopo è quello di
fornire (oltre al valore assoluto delle frequenze descritto dalla prima colonna) la
composizione della distribuzione rispetto all'intero gruppo di informazioni. I valori
compresi in questa colonna sono stati ottenuti dividendo le frequenze per il totale di
colonna e presentando il risultato in forma di precentuale.
Se con la precedente distribuzione eravamo giunti a sapere che il maggior numero di
soggetti ha un periodo d'incubazione che dura 5 giorni, adesso possiamo affermnare che
questo gruppo rappresenta il 27,5% degli individui sui quali è stata compiuta la
rilevazione.
Lla colonna contenente i valori della distribuzione percentuale cumulata è stata ottenuta
dalla somma progressiva delle frequenze percentuali della colonna precedente. Le
informazioni provenienti da questa ulteriore elaborazione sono di facile lettura e di
notevole utilità. Dalla tavola 3, per esempio, si può agevolmente evincere che oltre
Il numero delle classi in cui dovrebbe essere suddiviso il campo di variazione è dunque
pari a 4. Ne segue che l'ampiezza di ogni classe risulta:
(xmax-xmin)
( 9 −^1 )
La prima di esse è definita dai limiti 1 e 1+2=3; le seguenti vengono definite sulla base
dello stesso criterio. La tavola 4 illustra il risultato della procedura descritta sui dati
della tavola 2.
Giorni incubaz. Frequenze
X Y
1 - 3 4
3 - 5 10
5 - 7 19
7 - 9 7
Totale 40
Tavola 4: distribuzione di frequenza del periodo d'incubazione espresso in
giorni della malattia XYZ in 40 pazienti (variabile in classi) (dati
fittizi).
Se prescindiamo da questo metodo automatico per la suddivisione in classi del campo di
variazione relativo alle intensità di un certo fenomeno, si pone il problema della scelta
ragionata dei limiti delle classi, ovvero della fissazione dei limiti in modo che non
sorgano dubbi sulla collocazione dei casi che stanno proprio a cavallo di due classi.
La tavola 4 presenta l'evidenza di questo problema. Il limite superiore della prima
classe, per esempio, coincide con quello inferiore della seconda. Questa situazione
rende difficile collocare le frequenze relative a questa modalità in una delle due classi
senza che sorgano dubbi ed ambiguità. Tale problema viene risolto utilizzando un
simbolo (-) che indica l'esclusione del limite superiore dalle modalità della variabile. In
questo modo nella prima classe della tabella sono contenute solo le frequenze
corrispondenti alle modalità "1 o 2 giorni di incubazione".
Prima di concludere, volgiamo mettere in evidenza la diversa ampiezza dell'ultima
classe della tabella. La regola di Sturges fornisce una divisione del campo di variazione
che, a causa delle approssimazioni nei decimali, non sempre restituisce una classe finale
di uguale ampiezza rispetto alle precedenti. In queste situazioni, pur di non lasciare un
limite aperto (situazione da evitare, quando possibile), è opportuno fissare quale limite
superiore della classe il valore massimo del campo di variazione.
Rappresentazioni grafiche
Se il primo passo per eseguire le più elementari statistiche descrittive è quello di
elaborare le tabulazioni di frequenza, il successivo è rappresentato senza dubbio dalle
rappresentazioni grafiche, attraverso cui viene visualizzato l'andamento delle variabili
esaminate. Anche in questo caso, non ci stanchiamo di ripetere che il tipo di variabile da
analizzare determina la scelta della rappresentazione più opportuna.
Esaminiamo per primi gli strumenti grafici più frequenti per visualizzare i dati di una
serie statistica. La rappresentazione grafica più semplice di una serie è fornita dal
diagramma a punti che consiste nell'individuare sul piano cartesiano, i punti
corrispondenti alle coppie di valori coordinati x,y. La seguente tabella ed il relativo
grafico costituiscono un esempio di tale rappresentazione.
Tavola 5: morti per suicidio secondo il sesso tra il 1984 ed il
1954 (dati fittizi).
Come si può osservare, nell'asse orizzontale vengono riportate le modalità assunte dalla
variabile, mentre in quello verticale sono indicate le frequenze con cui le modalità sono
presenti, in relazione alle due serie di dati (maschi e femmine).
Un altro modo molto suggestivo di rappresentare i dati di una serie statistica è
rappresentato dall' ideogramma. Questo strumento visivo si avvale di figure
schematizzate rappresentanti direttamente o simbolicamente gli aspetti elementari dei
fenomeni che si vogliono trattare. Per indicare l'ammontare complessivo di un
fenomeno occorre riprodurre un numero adeguato di figure di uguali dimensioni,
allineate in modo opportuno, ad una uguale distanza tra di loro. La seguente tabella ed il
relativo grafico forniscono un esempio di rappresentazione mediante ideogramma. Per
individuare l'unità di misura viene scelto un simbolo che in corrispondenza di ogni anno
viene ripetuto un numero di volte pari al rapporto tra la frequenza corrispondente a
quella classe ed il peso assegnato all'unità di misura. L'ideogramma ci fornisce
0
500
1000
1500
2000
2500
3000
1864187418841894190419141924193419441954
Maschi Femmine
Anni Suicidi
M F
1864 516 130
1874 762 253
1884 1115 255
1894 1381 351
1904 1705 451
1914 2249 891
1924 2778 1000
1934 2703 983
1944 1510 615
1954 2023 874
Un ulteriore tipo di grafico è il diagramma a colonne , per il quale è necessario eseguire
non solo le distribuzioni di frequenza, ma anche quelle percentuali. Sulla base dei dati
contenuti nella seguente tabella sono stati costruiti dei rettangoli di uguale base e di
altezza proporzionale all'intensità del fenomeno da esaminare. A volte, come viene
mostrato nel grafico, al fine di evidenziare la composizione percentuale delle serie è
possibile suddividere i rettangoli in parti proprozionali all'ammontare delle frequenze.
Tavola 8: distribuzione della scolarità secondo il sesso (dati
fittizi).
Per concludere la rassegna degli strumenti grafici a disposizione del ricercatore per la
presentazione delle serie statistiche, vogliamo ricordare il diagramma a torta con il
quale è possibile evidenziare sia il valore assoluto di un certo fenomeno che la sua
composizione percentuale. Non occorrendo ulteriori spiegazioni su questo strumento di
larga diffusione, rimandiamo all'osservazione della seguente tabella per un esempio
della metodologia.
Tavola 9: distribuzione della malattie in gruppo di bambini
minori di 10 anni (dati fittizi).
Per quanto riguarda le rappresentazioni grafiche più opportune per la visualizzazione di
una seriazione statistica gli strumenti a disposizioni non sono molti e quasi tutte le
elaborazioni grafiche possono essere fatte attraverso il cosiddetto istogramma. Nel
seguente esempio abbiamo rappresentato una tipica seriazione la cui distribuzione è
Scolarità M F
freq. % freq. %
Elementari 159 47,7% 121 24,9%
Media 75 22,5% 97 20,0%
Diploma 60 18,0% 145 29,8%
Laurea 39 11,7% 123 25,3%
Totale 333 100% 486 100%
0%
10%
20%
30%
40%
50%
60%
70%
80%
90%
100%
1 2
Elementari Media Diploma Laurea
Varicella
24%
Morbillo
44%
Scarlattina
6%
Parotite
epid.
26%
Malattie Frequenze
Varicella 36623
Morbillo 68246
Scarlattina 9848
Parotite epid. 40949
divisa in classi. Tale esempio ci permetterà di illustrare i possibili strumenti grafici da
utilizzare per visualizzarne i dati, a partire dalla rappresentazione più semplice che è
data dal diagramma a bastoni.
Classi di statura Valori centrali Frequenze
(cm.)
165 - 169 167 126
170 - 174 172 234
175 - 189 177 197
180 - 184 182 112
Totale 669
Tavola 10: distribuzione di frequenza dell'altezza rilevata in un gruppo di
soggetti (variabile in classi) (dati fittizi).
Il suddetto grafico viene costruito innalzando, in corrispondenza di ogni valore della
variabile o al valore centrale delle classi
individuate (come nel caso del nostro
esempio), parallelamente all'asse verticale un
segmento che si innalza per una lunghezza
pari alla frequenza ad esso associata. Se
congiungiamo con una spezzata i vertici dei
segmenti tracciati con il diagramma a bastoni,
otteniamo il poligono di frequenza. Il grafico
a fianco illustra un esempio degli strumenti
citati sulla base dei dati della tavola 10.
Da questa rappresentazione non è difficile
passare all'istogramma. In quest'ultimo tipo di
grafico vengono utilizzati dei rettangoli, in
corrispondenza di ogni classe, aventi una
superficie proporzionale alle rispettive
frequenze. È opportuno che le classi abbiano
uguale ampiezza, per non incorrere in
rappresentazioni poco coerenti. Qualora ciò
non dovesse succedere, si dovrebbero
utilizzare al posto delle frequenze le rispettive
densità medie delle frequenze
2
. Il grafico a
fianco illustra un esempio di istogramma ottenuto sui dati della tavola 10.
2 La densità media delle frequenze si ottiene dividendo la frequenza totale della classe per la corrispondente ampiezza.
Statura (cm)
Frequenze
0
50
100
150
200
250
167 172 177 182
Statura (cm)
Frequenze
0
50
100
150
200
250
165
169
170
174
175
189
180
184
Ma qual'è il valore nella distribuzione a cui corrisponde esattamente la moda? Tale
problema non si presenta, per esempio, nel caso della tavola 12, nella quale il valore
modale viene facilmente individuato in corrispondenza della massima frequenza (
stanze).
Stanze Abitazioni
X Y
1 stanza 533
2 stanze 857
3 stanze 4321
4 stanze 4127
5 stanze 2109
6 stanze 1864
7 stanze e oltre 901
Totale 14712
Tavola 12: distribuzione delle abitazioni in relazione al numero di stanze
(dati fittizi).
Nel caso precedente è opportuno ricorrere ad una particolare formula che permetta di
individuare all'interno della classe modale una stima del valore da assumere quale
moda
3
. La moda è un efficace indicatore di tendenza centrale quando si verifica
un'elevata concentrazione di frequenze nei pressi della classe modale. Nel caso della
tavola 12 osserviamo come questo vincolo non sia del tutto rispettato, in quanto due
classi hanno un volume di frequenze molto simile. In situazioni come questa l'uso della
moda è sconsigliabile a favore di altri metodi che vedremo in seguito.
Una seconda media di posizione (termine utilizzato come sinonimo di valore di
tendenza centrale) è la mediana (il cui simbolo è Me), anch'essa utilizzata per descrivere
in forma sintetica un determinato fenomeno. Se disponiamo di n osservazioni x 1
, x 2
x n
di una variabile X e le ordiniamo in modo non decrescente, cioè tali che:
x x x 1 2 n
3 Per individuare la moda all'interno della classe modale la formula è la seguente: Md = x +
d
2
0
y y
y y y
1 1
0 1 1 2
−
− −
−
−
dove : x 0
= valore centrale della classe modale
x 1
= valore centrale della classe successiva a quella modale
x
= valore centrale della classe precedente a quella modale
y 0
= frequenza corrispondente alla classe modale
y 1
= frequenza corrispondente alla classe successiva a quella modale
y
= frequenza corrispondente alla classe precedente a quella modale
d = ampiezza della classe modale
possiamo definire mediana quell'indicatore che divide la graduatoria in due parti uguali.
Occorrono, però, due differenti formula applicative, da adottare in relazione alla
numerosità dei dati. Se n è dispari la mediana è rappresentata dal termine centrale della
successione, individuato dalla formula (n+1)/2. Se invece n è pari allora non possimo
determinare un valore centrale unico, ma piuttosto una coppia di valori mediani. Nella
pratica è consuetudine accettare come mediana la semisomma dei termini della
successione che occupano i posti n/2 e (n/2)+1. Se, per esempio, uno studente ha
sostenuto sette esami, riportando una serie di voti pari a 23, 24, 26, 25, 24 ,27, 28, la
mediana viene calcolata ordinando innanzi tutto i dati, per ottenere la successione:
Siccome n è dispari il voto mediano sarà quello che occupa il (n+1)/2=4° posto,
corrispondente al voto 25. Se invece lo stesso studente avesse sostenuto dieci esami,
riportando voti pari a 23, 24, 26, 25, 24, 27, 28, 27, 28, 26, la successione ordinata
diverebbe:
in cui, essendo n pari, la mediana risulterà dalla semisomma dei termini che occupano il
5° ed il 6° posto, cioè Me=26.
Il calcolo della mediana in una distribuzione di frequenza è lievemente più complesso,
pur seguendo gli stessi criteri finora indicati
4 , soprattutto se la variabile è di tipo
quantitativo continuo.
Il valore di tendenza centrale più utilizzato è certamente la media aritmetica (il cui
simbolo è m) che, assieme ad altri indicatori che in seguito illsutreremo, fa parte delle
cosiddette medie analitiche. Se una certa variabile X assume n determinazioni x 1
, x 2
, x n
, si può definire la media aritmetica secondo la seguente formula:
m =
x
n
i
i= 1
n
4 Se la variabile è discreta, per esempio, occorre costruire la distribuzione cumulata delle frequenze (costruita in modo analogo a
quella delle frequenze percentuali) e trovare con i criteri indicati il valore mediano, il quale indicherà la classe a cui corrisponde
la mediana
m o = x i
y
i= 1
n y
i
i
i= 1
n
In generale conviene ricorrere alla media geometrica quando occorre utilizzare uno
strumento più sensibile ad una variazione assoluta dei termini bassi piuttosto che ad una
eguale variazione dei termini alti (proprietà assente nella media aritmetica).
Come ultimo indicatore analitico del valore centrale di una distribuzione vogliamo
ricordare la media armonica , il cui simbolo e m
diversi da zero (x 1
, x 2
, .... , x n
), viene ottenuta dalla formula:
m
n
x
1
i i 1
− (^) n
=
=
che nel caso delle distribuzioni di frequenza diventa :
m
y
y
x
1
i
i 1
n
i
i i 1
− (^) n
=
=
=
È opportuno utilizzare la media armonica quando si dispone di dati per i reciproci dei
quali si dovrebbe calcolare la media.
Per concludereè opportuno ribadire che la scelta della misura di tendenza centrale da
utilizzare, oltre che dipendere dalle proprietà dei dati, deve essere valutata
principalmente in relazione al tipo delle variabili. Mentre su una grandezza di tipo
quantitativo (sia continuo che discreto) possono essere utilizzati tutti gli strumenti
analitici illustrati in questo paragrafo, per dati qualitativi ha poco senso calcolare, per
esempio, una media o una mediana. Volendo ampliare il concetto di misura centrale, tra
gli indicatori visti solo la moda potrebbe essere utilizzata su variabili di tipo qualitativo,
limitandone l'interpretazione all'individuazione della classe in cui si concentrano il
maggior numero delle frequenze.
Misure di variabilità
Le misure di variabilità, assieme a quelle di tendenza centrale, permettono di descrivere
in modo più ampio e completo la distribuzione di un gruppo di valori. Osservando una
qualsiasi distribuzione di frequenza, si può osservare come un buon numero di casi
siano distanti in varia misura dal valore centrale che è stato adottato per rappresentarli.
Una media, infatti, non indicherà mai in quale misura tali dati si distribuiscono attorno
al valore centrale della distribuzione. Due campioni, per esempio, pur avendo una media
molto simile, possono essere molto differenti nel modo in cui le frequenze si
distribuiscono attorno ad esse. Il seguente
grafico ci dimostra come, benché i due
fenomeni analizzati abbiano un valore
centrale abbastanza simile, i dati hanno in
realtà distribuzioni molto differenti tra di
loro. Nella curva A, ad esempio, si può
osservare un folto gruppo di osservazioni
distanti dal valore centrale m 1
, mentre
nella curva B la maggior parte delle
determinazioni si concentra attorno alla
media m 2
. Un qualsiasi indicatore di
tendenza centrale non sarebbe stato in grado di evidenziare questa differenza tra le due
distribuzioni. Quindi per completare il set di strumenti per analizzare un gruppo di
osservazioni occorrono anche degli indici che misurino la variabilità, ovvero la
dispersione dei dati attorno al valore centrale.
L'indice di variabilità più semplice (che abbiamo già nominato precedentemente) è il
campo di variazione , ottenibile sottraendo il valore minimo delle determinazioni della
variabile X dal suo valore massimo. Tale indice, dipendendo solo dal primo e
dall'ultimo termine della successione di osservazioni, non tiene conto dei termini
intermedi e dunque della loro concentrazione attorno al valore medio.
Per superare questa grave carenza occorre focalizzare l'attenzione sulla distanza dei dati
dal valore centrale individuato nella distribuzione. Una formula molto elementare che
tiene conto di questo aspetto è quella che comunemente viene utilizzata per calcolare lo
scostamento semplice medio dalla media aritmetica, che, disponendo di una successione
x 1
, x 2
, .... , x n
di n determinazioni della variabile X, risulta essere:
x m
n
m
i
i 1
n
=
0
10
20
30
40
50
60
1 2 3 4 5 6 7 8 9 10 11 12
A
B