Docsity
Docsity

Prepara i tuoi esami
Prepara i tuoi esami

Studia grazie alle numerose risorse presenti su Docsity


Ottieni i punti per scaricare
Ottieni i punti per scaricare

Guadagna punti aiutando altri studenti oppure acquistali con un piano Premium


Guide e consigli
Guide e consigli


Statistica Descrittiva: Variabili, Frequenze e Misure di Tendenza Centrale, Dispense di Statistica

statistica medica

Tipologia: Dispense

2015/2016

Caricato il 03/03/2016

gabriellagaia
gabriellagaia 🇮🇹

4.3

(4)

6 documenti

1 / 74

Toggle sidebar

Questa pagina non è visibile nell’anteprima

Non perderti parti importanti!

bg1
Prof. F. Ferretti
Statistica medica per le professioni sanitarie
pf3
pf4
pf5
pf8
pf9
pfa
pfd
pfe
pff
pf12
pf13
pf14
pf15
pf16
pf17
pf18
pf19
pf1a
pf1b
pf1c
pf1d
pf1e
pf1f
pf20
pf21
pf22
pf23
pf24
pf25
pf26
pf27
pf28
pf29
pf2a
pf2b
pf2c
pf2d
pf2e
pf2f
pf30
pf31
pf32
pf33
pf34
pf35
pf36
pf37
pf38
pf39
pf3a
pf3b
pf3c
pf3d
pf3e
pf3f
pf40
pf41
pf42
pf43
pf44
pf45
pf46
pf47
pf48
pf49
pf4a

Anteprima parziale del testo

Scarica Statistica Descrittiva: Variabili, Frequenze e Misure di Tendenza Centrale e più Dispense in PDF di Statistica solo su Docsity!

Prof. F. Ferretti

Statistica medica per le professioni sanitarie

INDICE

INTRODUZIONE pag. 3

STATISTICA DESCRITTIVA

Variabili pag. 4

Distribuzioni di frequenza pag. 6

Rappresentazioni grafiche pag. 11

Indici di tendenza centrale pag. 15

Misure di variabilità pag. 20

PROBABILITÀ E VARIABILI CASUALI

Nozioni elementari di calcolo delle probabilità pag. 24

Variabili casuali e curve di probabilità pag. 27

Distribuzione normale e normale standardizzata pag. 32

Campioni e distribuzioni campionarie pag. 33

Tecniche di campionamento pag. 36

Cenni di inferenza statistica pag. 39

Intervalli di confidenza pag. 41

I TEST DI SIGNIFICATIVITÀ

Nozioni generali sui test di significatività pag. 44

Test parametrici e non parametrici pag. 47

Test del χ

per tavole di contingenza pag. 48

MISURE DI CORRELAZIONE

Il concetto di correlazione pag. 54

Il coefficiente di correlaazione per ranghi di Spearman ρ pag. 56

La regressione ed il metodo dei minimi quadrati pag. 59

L'analisi della varianza pag. 67

APPENDICE: TAVOLE PER TEST DI SIGNIFICATIVITÀ pag. 71

STATISTICA DESCRITTIVA

Variabili

Come abbiamo già precisato, la statistica descrittiva ha come primo scopo quello di

riassumere le informazioni provenienti da una massa di dati, permettendo al lettore di

individuare a prima vista le caratteristiche di un gruppo di valori.

Prima di esaminare in dettaglio i principali strumenti analitici è opportuno approfondire

la conoscenza dell'oggetto sul quale vengono utilizzate queste metodologie: il dato

statistico.

Quando si compie una rilevazione di dati, che in seguito saranno elaborati mediante

tecniche descrittive, in realtà si rilevano i valori o le modalità con quali si presentano

determinate variabili. Sesso, età, altezza, colore degli occhi, ed altre ancora non sono

che variabili le cui determinazioni possono essere oggetto di una rilevazione statistica.

Ognuna di queste presenta particolari caratteristiche che permettono di classificarla in

una ben precisa categoria. Saper riconoscere e classificare le informazioni raccolte è

molto importante, poiché la scelta del metodo di analisi appropriato dipende

direttamente dal tipo di variabile sulla quale la metodologia deve essere utilizzata.

In funzione delle proprie caratteristiche, le variabili possono essere suddivise in :

  1. variabili qualitative ;
  2. variabili quantitative.

Nel primo caso le caratteristiche possono essere espresse mediante attributi (p.e.: colore

dei capelli, stato civile, sesso, .... ), mentre nel secondo tali caratteristiche vengono

indicate da numeri (età, altezza, peso, .... ).

All'interno di queste due categorie è possibile individuare altri sottogruppi entro cui

classificare i tipi di grandezze. Le variabili quantitative possono essere suddivise in :

1.1 variabili qualitative nominali ;

1.2 variabili quantitative ordinali.

Nel primo caso (nominali) l'attributo che indica la caratteristica ha il solo scopo di

rappresentare la modalità con la quale si presenta il dato. Per la variabile "colore degli

occhi" alcuni tra i possibili attributi, per esempio, potrebbero essere "celeste",

"marrone", "nero". In questa classe si indicano con il termine variabili dicotomiche

quelle grandezze che ammetteno solo due risposte possibili (p.e. sesso:

maschio/femmina), mentre sono dette variabili policotomiche quelle con più risposte

ammissibili (p.e. stato civile: celibe/coniugato/separato/ .... ).

Nelle variabili qualitative ordinali l'attributo ha ancora lo scopo di rappresentare la

modalità con la quale si presenta il dato, ma queste modalità sono organizzate in una

scala di valori logici. Per esempio, la scolarità è una variabile che appartiene a questa

classe poiché le sue determinazioni sono degli attributi, ma il loro ordine esprime una

scala di importanza del titolo di studio posseduto. (elementare/media/superiore/laurea).

Un altro esempio potrebbe essere la sensazione di dolore avvertita durante l'esecuzione

di un esame, variabile che potrebbe essere catalogata come ordinale mediante le

seguenti codifiche: occasionale, moderato, medio, intenso.

Le variabili quantitative, invece, possono essere suddivise in:

2.1 variabili quantitative discrete ;

2.2 variabili quantitative continue.

Alla base della differenza vi è il tipo di numero che viene utilizzato per rappresentare la

determinazione della variabile. Nel primo caso si tratta di numeri non necessariamente

interi, collocabili in una scala di tipo ordinale, ma capaci di assumere solo certi valori

puntuali. Alcuni esempi molto semplici sono: il numero dei membri delle famiglie, la

frequenza cardiaca, il numero di gravidanze ed altre ancora.

Le variabili quantitative continue, invece, sono quelle che possono assumere tutti gli

infiniti valori all'interno o meno di un determinato intervallo. Appartengono a questa

classe grandezze quali l'altezza (p.e. 174,5 cm, 148,32 cm, .... ), il peso (p.e. 58,7Kg,

63,25 Kg, .... ) e qualsiasi altro dato misurabile e rappresentabile attraverso un numero

reale, ovvero le classiche informazioni ricavabili da una misurazione.

Nel testo abbiamo utilizzato un termine che riassume le categorie elencate; tutte quante

le tipologie individuate, infatti, possono essere indicate con il termine di scale di

misurazione. Il seguente schema riassume la classificazione delle variabili enunciata.

Variabili QUALITATIVE

(esprimibili con attributi)

(esprimibili con numeri)

Variabili QUANTITATIVE

NOMINALI

(attributi come determinazioni)

ORDINALI

(attributi come determinazioni in una scala logica)

DISCRETE

(numeri puntuali o interi come determinazioni)

CONTINUE

(numeri reali come determinazioni)

Soggetto n. Periodo incubaz. Soggetto n. Periodo incubaz.

giorni giorni

1 5 21 4

2 6 22 4

3 5 23 3

4 7 24 5

5 1 25 6

6 8 26 2

7 5 27 7

8 4 28 9

9 3 29 5

10 6 30 4

11 2 31 5

12 7 32 7

13 2 33 6

14 5 34 4

15 6 35 5

16 4 36 6

17 8 37 4

18 6 38 5

19 5 39 6

20 3 40 5

Tavola 1: periodo d'incubazione espresso in giorni della malattia XYZ in 40

pazienti (dati fittizi).

La seguente tavola illustra il risultato dell'operazione descritta.

Giorni incubaz. Frequenze

X Y

1 1

2 3

3 3

4 7

5 11

6 8

7 4

8 2

9 1

Totale 40

Tavola 2: distribuzione di frequenza del periodo d'incubazione espresso in

giorni della malattia XYZ in 40 pazienti (dati fittizi).

Come è facile osservare, nella prima colonna della tavola 2 vengono riportate le

determinazioni della variabile, mentre nella seconda il numero dei soggetti

corrispondenti alle singole modalità. Il totale in basso nella seconda colonna deve

necessariamente coincidere con il numero di individui sui quali è stata compita

l'osservazione.

Questa elaborazione ci permette già di avere una prima visualizzazione delle

informazioni provenienti dai dati contenuti nella tavola 1. È facile individuare, infatti,

come il maggior numero di persone ha un periodo d'incubazione che dura 5 giorni (

soggetti), mentre sono ben 26 i pazienti per i quali lo stesso evento si è verificato tra i 4

e i 5 giorni.

Sulla base della distribuzione di frequenza appena mostrata si possono eseguire ulteriori

elaborazioni che permettono di integrare le informazioni provenienti dal gruppo di dati.

Stiamo facendo riferimento alle distribuzioni percentuali di frequenza e alle

distribuzioni percentuali cumulate di frequenza. Nella tavola 3 abbiamo aggiunto due

colonne alla precedente distribuzione per illustrare il significato di queste due

elaborazioni.

Giorni incubaz. Frequenze Percentuali Percentuali

X Y cumulate

1 1 2,5% 2,5%

2 3 7,5% 10,0%

3 3 7,5% 17,5%

4 7 17,5% 35,0%

5 11 27,5% 62,5%

6 8 20,0% 82,5%

7 4 10,0% 92,5%

8 2 5,0% 97,5%

9 1 2,5% 100,0%

Totale^40 100,0%

Tavola 3: distribuzione di frequenza, percentuale e percentuale cumulata del

periodo d'incubazione espresso in giorni della malattia XYZ in 40

pazienti (dati fittizi).

Per quanto riguarda la distribuzione percentuale di frequenza, lo scopo è quello di

fornire (oltre al valore assoluto delle frequenze descritto dalla prima colonna) la

composizione della distribuzione rispetto all'intero gruppo di informazioni. I valori

compresi in questa colonna sono stati ottenuti dividendo le frequenze per il totale di

colonna e presentando il risultato in forma di precentuale.

Se con la precedente distribuzione eravamo giunti a sapere che il maggior numero di

soggetti ha un periodo d'incubazione che dura 5 giorni, adesso possiamo affermnare che

questo gruppo rappresenta il 27,5% degli individui sui quali è stata compiuta la

rilevazione.

Lla colonna contenente i valori della distribuzione percentuale cumulata è stata ottenuta

dalla somma progressiva delle frequenze percentuali della colonna precedente. Le

informazioni provenienti da questa ulteriore elaborazione sono di facile lettura e di

notevole utilità. Dalla tavola 3, per esempio, si può agevolmente evincere che oltre

Il numero delle classi in cui dovrebbe essere suddiviso il campo di variazione è dunque

pari a 4. Ne segue che l'ampiezza di ogni classe risulta:

(xmax-xmin)

K

( 9 −^1 )

La prima di esse è definita dai limiti 1 e 1+2=3; le seguenti vengono definite sulla base

dello stesso criterio. La tavola 4 illustra il risultato della procedura descritta sui dati

della tavola 2.

Giorni incubaz. Frequenze

X Y

1 - 3 4

3 - 5 10

5 - 7 19

7 - 9 7

Totale 40

Tavola 4: distribuzione di frequenza del periodo d'incubazione espresso in

giorni della malattia XYZ in 40 pazienti (variabile in classi) (dati

fittizi).

Se prescindiamo da questo metodo automatico per la suddivisione in classi del campo di

variazione relativo alle intensità di un certo fenomeno, si pone il problema della scelta

ragionata dei limiti delle classi, ovvero della fissazione dei limiti in modo che non

sorgano dubbi sulla collocazione dei casi che stanno proprio a cavallo di due classi.

La tavola 4 presenta l'evidenza di questo problema. Il limite superiore della prima

classe, per esempio, coincide con quello inferiore della seconda. Questa situazione

rende difficile collocare le frequenze relative a questa modalità in una delle due classi

senza che sorgano dubbi ed ambiguità. Tale problema viene risolto utilizzando un

simbolo (-) che indica l'esclusione del limite superiore dalle modalità della variabile. In

questo modo nella prima classe della tabella sono contenute solo le frequenze

corrispondenti alle modalità "1 o 2 giorni di incubazione".

Prima di concludere, volgiamo mettere in evidenza la diversa ampiezza dell'ultima

classe della tabella. La regola di Sturges fornisce una divisione del campo di variazione

che, a causa delle approssimazioni nei decimali, non sempre restituisce una classe finale

di uguale ampiezza rispetto alle precedenti. In queste situazioni, pur di non lasciare un

limite aperto (situazione da evitare, quando possibile), è opportuno fissare quale limite

superiore della classe il valore massimo del campo di variazione.

Rappresentazioni grafiche

Se il primo passo per eseguire le più elementari statistiche descrittive è quello di

elaborare le tabulazioni di frequenza, il successivo è rappresentato senza dubbio dalle

rappresentazioni grafiche, attraverso cui viene visualizzato l'andamento delle variabili

esaminate. Anche in questo caso, non ci stanchiamo di ripetere che il tipo di variabile da

analizzare determina la scelta della rappresentazione più opportuna.

Esaminiamo per primi gli strumenti grafici più frequenti per visualizzare i dati di una

serie statistica. La rappresentazione grafica più semplice di una serie è fornita dal

diagramma a punti che consiste nell'individuare sul piano cartesiano, i punti

corrispondenti alle coppie di valori coordinati x,y. La seguente tabella ed il relativo

grafico costituiscono un esempio di tale rappresentazione.

Tavola 5: morti per suicidio secondo il sesso tra il 1984 ed il

1954 (dati fittizi).

Come si può osservare, nell'asse orizzontale vengono riportate le modalità assunte dalla

variabile, mentre in quello verticale sono indicate le frequenze con cui le modalità sono

presenti, in relazione alle due serie di dati (maschi e femmine).

Un altro modo molto suggestivo di rappresentare i dati di una serie statistica è

rappresentato dall' ideogramma. Questo strumento visivo si avvale di figure

schematizzate rappresentanti direttamente o simbolicamente gli aspetti elementari dei

fenomeni che si vogliono trattare. Per indicare l'ammontare complessivo di un

fenomeno occorre riprodurre un numero adeguato di figure di uguali dimensioni,

allineate in modo opportuno, ad una uguale distanza tra di loro. La seguente tabella ed il

relativo grafico forniscono un esempio di rappresentazione mediante ideogramma. Per

individuare l'unità di misura viene scelto un simbolo che in corrispondenza di ogni anno

viene ripetuto un numero di volte pari al rapporto tra la frequenza corrispondente a

quella classe ed il peso assegnato all'unità di misura. L'ideogramma ci fornisce

0

500

1000

1500

2000

2500

3000

1864187418841894190419141924193419441954

Maschi Femmine

Anni Suicidi

M F

1864 516 130

1874 762 253

1884 1115 255

1894 1381 351

1904 1705 451

1914 2249 891

1924 2778 1000

1934 2703 983

1944 1510 615

1954 2023 874

Un ulteriore tipo di grafico è il diagramma a colonne , per il quale è necessario eseguire

non solo le distribuzioni di frequenza, ma anche quelle percentuali. Sulla base dei dati

contenuti nella seguente tabella sono stati costruiti dei rettangoli di uguale base e di

altezza proporzionale all'intensità del fenomeno da esaminare. A volte, come viene

mostrato nel grafico, al fine di evidenziare la composizione percentuale delle serie è

possibile suddividere i rettangoli in parti proprozionali all'ammontare delle frequenze.

Tavola 8: distribuzione della scolarità secondo il sesso (dati

fittizi).

Per concludere la rassegna degli strumenti grafici a disposizione del ricercatore per la

presentazione delle serie statistiche, vogliamo ricordare il diagramma a torta con il

quale è possibile evidenziare sia il valore assoluto di un certo fenomeno che la sua

composizione percentuale. Non occorrendo ulteriori spiegazioni su questo strumento di

larga diffusione, rimandiamo all'osservazione della seguente tabella per un esempio

della metodologia.

Tavola 9: distribuzione della malattie in gruppo di bambini

minori di 10 anni (dati fittizi).

Per quanto riguarda le rappresentazioni grafiche più opportune per la visualizzazione di

una seriazione statistica gli strumenti a disposizioni non sono molti e quasi tutte le

elaborazioni grafiche possono essere fatte attraverso il cosiddetto istogramma. Nel

seguente esempio abbiamo rappresentato una tipica seriazione la cui distribuzione è

Scolarità M F

freq. % freq. %

Elementari 159 47,7% 121 24,9%

Media 75 22,5% 97 20,0%

Diploma 60 18,0% 145 29,8%

Laurea 39 11,7% 123 25,3%

Totale 333 100% 486 100%

0%

10%

20%

30%

40%

50%

60%

70%

80%

90%

100%

1 2

Elementari Media Diploma Laurea

  • F - M

Varicella

24%

Morbillo

44%

Scarlattina

6%

Parotite

epid.

26%

Malattie Frequenze

Varicella 36623

Morbillo 68246

Scarlattina 9848

Parotite epid. 40949

divisa in classi. Tale esempio ci permetterà di illustrare i possibili strumenti grafici da

utilizzare per visualizzarne i dati, a partire dalla rappresentazione più semplice che è

data dal diagramma a bastoni.

Classi di statura Valori centrali Frequenze

(cm.)

165 - 169 167 126

170 - 174 172 234

175 - 189 177 197

180 - 184 182 112

Totale 669

Tavola 10: distribuzione di frequenza dell'altezza rilevata in un gruppo di

soggetti (variabile in classi) (dati fittizi).

Il suddetto grafico viene costruito innalzando, in corrispondenza di ogni valore della

variabile o al valore centrale delle classi

individuate (come nel caso del nostro

esempio), parallelamente all'asse verticale un

segmento che si innalza per una lunghezza

pari alla frequenza ad esso associata. Se

congiungiamo con una spezzata i vertici dei

segmenti tracciati con il diagramma a bastoni,

otteniamo il poligono di frequenza. Il grafico

a fianco illustra un esempio degli strumenti

citati sulla base dei dati della tavola 10.

Da questa rappresentazione non è difficile

passare all'istogramma. In quest'ultimo tipo di

grafico vengono utilizzati dei rettangoli, in

corrispondenza di ogni classe, aventi una

superficie proporzionale alle rispettive

frequenze. È opportuno che le classi abbiano

uguale ampiezza, per non incorrere in

rappresentazioni poco coerenti. Qualora ciò

non dovesse succedere, si dovrebbero

utilizzare al posto delle frequenze le rispettive

densità medie delle frequenze

2

. Il grafico a

fianco illustra un esempio di istogramma ottenuto sui dati della tavola 10.

2 La densità media delle frequenze si ottiene dividendo la frequenza totale della classe per la corrispondente ampiezza.

Statura (cm)

Frequenze

0

50

100

150

200

250

167 172 177 182

Statura (cm)

Frequenze

0

50

100

150

200

250

165

169

170

174

175

189

180

184

Ma qual'è il valore nella distribuzione a cui corrisponde esattamente la moda? Tale

problema non si presenta, per esempio, nel caso della tavola 12, nella quale il valore

modale viene facilmente individuato in corrispondenza della massima frequenza (

stanze).

Stanze Abitazioni

X Y

1 stanza 533

2 stanze 857

3 stanze 4321

4 stanze 4127

5 stanze 2109

6 stanze 1864

7 stanze e oltre 901

Totale 14712

Tavola 12: distribuzione delle abitazioni in relazione al numero di stanze

(dati fittizi).

Nel caso precedente è opportuno ricorrere ad una particolare formula che permetta di

individuare all'interno della classe modale una stima del valore da assumere quale

moda

3

. La moda è un efficace indicatore di tendenza centrale quando si verifica

un'elevata concentrazione di frequenze nei pressi della classe modale. Nel caso della

tavola 12 osserviamo come questo vincolo non sia del tutto rispettato, in quanto due

classi hanno un volume di frequenze molto simile. In situazioni come questa l'uso della

moda è sconsigliabile a favore di altri metodi che vedremo in seguito.

Una seconda media di posizione (termine utilizzato come sinonimo di valore di

tendenza centrale) è la mediana (il cui simbolo è Me), anch'essa utilizzata per descrivere

in forma sintetica un determinato fenomeno. Se disponiamo di n osservazioni x 1

, x 2

x n

di una variabile X e le ordiniamo in modo non decrescente, cioè tali che:

x x x 1 2 n

3 Per individuare la moda all'interno della classe modale la formula è la seguente: Md = x +

d

2

0

y y

y y y

1 1

0 1 1 2

− −

dove : x 0

= valore centrale della classe modale

x 1

= valore centrale della classe successiva a quella modale

x

  • 1

= valore centrale della classe precedente a quella modale

y 0

= frequenza corrispondente alla classe modale

y 1

= frequenza corrispondente alla classe successiva a quella modale

y

  • 1

= frequenza corrispondente alla classe precedente a quella modale

d = ampiezza della classe modale

possiamo definire mediana quell'indicatore che divide la graduatoria in due parti uguali.

Occorrono, però, due differenti formula applicative, da adottare in relazione alla

numerosità dei dati. Se n è dispari la mediana è rappresentata dal termine centrale della

successione, individuato dalla formula (n+1)/2. Se invece n è pari allora non possimo

determinare un valore centrale unico, ma piuttosto una coppia di valori mediani. Nella

pratica è consuetudine accettare come mediana la semisomma dei termini della

successione che occupano i posti n/2 e (n/2)+1. Se, per esempio, uno studente ha

sostenuto sette esami, riportando una serie di voti pari a 23, 24, 26, 25, 24 ,27, 28, la

mediana viene calcolata ordinando innanzi tutto i dati, per ottenere la successione:

Siccome n è dispari il voto mediano sarà quello che occupa il (n+1)/2=4° posto,

corrispondente al voto 25. Se invece lo stesso studente avesse sostenuto dieci esami,

riportando voti pari a 23, 24, 26, 25, 24, 27, 28, 27, 28, 26, la successione ordinata

diverebbe:

in cui, essendo n pari, la mediana risulterà dalla semisomma dei termini che occupano il

5° ed il 6° posto, cioè Me=26.

Il calcolo della mediana in una distribuzione di frequenza è lievemente più complesso,

pur seguendo gli stessi criteri finora indicati

4 , soprattutto se la variabile è di tipo

quantitativo continuo.

Il valore di tendenza centrale più utilizzato è certamente la media aritmetica (il cui

simbolo è m) che, assieme ad altri indicatori che in seguito illsutreremo, fa parte delle

cosiddette medie analitiche. Se una certa variabile X assume n determinazioni x 1

, x 2

, x n

, si può definire la media aritmetica secondo la seguente formula:

m =

x

n

i

i= 1

n

4 Se la variabile è discreta, per esempio, occorre costruire la distribuzione cumulata delle frequenze (costruita in modo analogo a

quella delle frequenze percentuali) e trovare con i criteri indicati il valore mediano, il quale indicherà la classe a cui corrisponde

la mediana

m o = x i

y

i= 1

n y

i

i

i= 1

n

In generale conviene ricorrere alla media geometrica quando occorre utilizzare uno

strumento più sensibile ad una variazione assoluta dei termini bassi piuttosto che ad una

eguale variazione dei termini alti (proprietà assente nella media aritmetica).

Come ultimo indicatore analitico del valore centrale di una distribuzione vogliamo

ricordare la media armonica , il cui simbolo e m

  • 1 , la quale, disponendo di n termini

diversi da zero (x 1

, x 2

, .... , x n

), viene ottenuta dalla formula:

m

n

x

1

i i 1

− (^) n

=

=

che nel caso delle distribuzioni di frequenza diventa :

m

y

y

x

1

i

i 1

n

i

i i 1

− (^) n

=

=

=

È opportuno utilizzare la media armonica quando si dispone di dati per i reciproci dei

quali si dovrebbe calcolare la media.

Per concludereè opportuno ribadire che la scelta della misura di tendenza centrale da

utilizzare, oltre che dipendere dalle proprietà dei dati, deve essere valutata

principalmente in relazione al tipo delle variabili. Mentre su una grandezza di tipo

quantitativo (sia continuo che discreto) possono essere utilizzati tutti gli strumenti

analitici illustrati in questo paragrafo, per dati qualitativi ha poco senso calcolare, per

esempio, una media o una mediana. Volendo ampliare il concetto di misura centrale, tra

gli indicatori visti solo la moda potrebbe essere utilizzata su variabili di tipo qualitativo,

limitandone l'interpretazione all'individuazione della classe in cui si concentrano il

maggior numero delle frequenze.

Misure di variabilità

Le misure di variabilità, assieme a quelle di tendenza centrale, permettono di descrivere

in modo più ampio e completo la distribuzione di un gruppo di valori. Osservando una

qualsiasi distribuzione di frequenza, si può osservare come un buon numero di casi

siano distanti in varia misura dal valore centrale che è stato adottato per rappresentarli.

Una media, infatti, non indicherà mai in quale misura tali dati si distribuiscono attorno

al valore centrale della distribuzione. Due campioni, per esempio, pur avendo una media

molto simile, possono essere molto differenti nel modo in cui le frequenze si

distribuiscono attorno ad esse. Il seguente

grafico ci dimostra come, benché i due

fenomeni analizzati abbiano un valore

centrale abbastanza simile, i dati hanno in

realtà distribuzioni molto differenti tra di

loro. Nella curva A, ad esempio, si può

osservare un folto gruppo di osservazioni

distanti dal valore centrale m 1

, mentre

nella curva B la maggior parte delle

determinazioni si concentra attorno alla

media m 2

. Un qualsiasi indicatore di

tendenza centrale non sarebbe stato in grado di evidenziare questa differenza tra le due

distribuzioni. Quindi per completare il set di strumenti per analizzare un gruppo di

osservazioni occorrono anche degli indici che misurino la variabilità, ovvero la

dispersione dei dati attorno al valore centrale.

L'indice di variabilità più semplice (che abbiamo già nominato precedentemente) è il

campo di variazione , ottenibile sottraendo il valore minimo delle determinazioni della

variabile X dal suo valore massimo. Tale indice, dipendendo solo dal primo e

dall'ultimo termine della successione di osservazioni, non tiene conto dei termini

intermedi e dunque della loro concentrazione attorno al valore medio.

Per superare questa grave carenza occorre focalizzare l'attenzione sulla distanza dei dati

dal valore centrale individuato nella distribuzione. Una formula molto elementare che

tiene conto di questo aspetto è quella che comunemente viene utilizzata per calcolare lo

scostamento semplice medio dalla media aritmetica, che, disponendo di una successione

x 1

, x 2

, .... , x n

di n determinazioni della variabile X, risulta essere:

S

x m

n

m

i

i 1

n

=

0

10

20

30

40

50

60

1 2 3 4 5 6 7 8 9 10 11 12

A

B