Docsity
Docsity

Prepara i tuoi esami
Prepara i tuoi esami

Studia grazie alle numerose risorse presenti su Docsity


Ottieni i punti per scaricare
Ottieni i punti per scaricare

Guadagna punti aiutando altri studenti oppure acquistali con un piano Premium


Guide e consigli
Guide e consigli


Metodi Matematici e Statistici, Dispense di Matematica Generale

Statistica descrittiva , probabilità ,variabili aleatorie ,Catena di Markov , la legge di Poisson , Statistica induttiva

Tipologia: Dispense

2012/2013

Caricato il 09/04/2013

Vale19ntina
Vale19ntina 🇮🇹

1 documento

1 / 132

Toggle sidebar

Questa pagina non è visibile nell’anteprima

Non perderti parti importanti!

bg1
STATISTICA DESCRITTIVA
Introduzione
La statistica ha due scopi principali:
1)ricavare da una molteplicità di dati individuali troppo numerosi per poter
essere presi in considerazione singolarmentealcune informazioni significative,
secondo le esigenze di un particolare problema che interessa; di ciò si interessa
la statistica descrittiva;
2)fornire metodi che servano ad "imparare dall “esperienza” giustificando, per
quanto possibile, il passaggio dall 'osservazione di casi particolari a leggi
generali, è questa la statistica induttiva.
Nella seconda parte di questo corso studieremo alcuni aspetti elementari della
statistica induttiva, dopo avere introdotto il calcolo delle probabilità, che della
statistica induttiva costituisce il linguaggio e il fondamento. In realtà, la
distinzione fra questi due rami della statistica non è molto netta: nei
procedimenti descrittivi, a ben vedere, sono presenti anche spunti di tipo
induttivo. Comunque, nella statistica descrittiva non viene impiegato in modo
esplicito il calcolo delle probabilità.
Questo capitolo è dedicato alla statistica descrittiva. È il caso di sottolinearne
l’importanza: infatti, in ogni campo della scienza, l'informazione, per poter
essere utile, sia alla conoscenza sia all’attività pratica, deve essere resa
compatta e significativa.
Definizioni
Insieme Universo o Popolazione: l’insieme degli elementi sul quale si fa
l’indagine statistica, che può essere di vario tipo (dalle molecole di un gas, ad
una collettività microbica o umana). Viene, generalmente indicato con la lettera
greca ; esso può essere finito o infinito.
Caratteri (o attributi): caratteristiche che un elemento della popolazione può
avere, non avere, o avere in misura varia.
Classi: sottoinsiemi in cui è ripartita una popolazione secondo i caratteri, cioé
una classe è formata dagli elementi della popolazione che hanno uno dei
caratteri che stiamo studiando.
Frequenza assoluta (di una classe): indica il numero degli elementi della classe.
Frequenza relativa (di una classa): indica il rapporto fra il numero degli
elementi di una classe e il numero totale degli elementi della popolazione.
Distribuzione: indica la funzione che ad ogni modalità del carattere fa
corrispondere la frequenza (assoluta o relativa) della corrispondente classe.
Nell'uso corrente la frequenza è data generalmente come percentuale.
Come possono essere i caratteri?
a) di tipo puramente qualitativo (ad es.: colori). In questo caso si usa il
termine di Mutabile.
b) di un tipo che si presta ad un ordinamento, come quando si fa una scala
di preferenze o di simpatie.
PAGE 143
PAGE
PAGE 143
pf3
pf4
pf5
pf8
pf9
pfa
pfd
pfe
pff
pf12
pf13
pf14
pf15
pf16
pf17
pf18
pf19
pf1a
pf1b
pf1c
pf1d
pf1e
pf1f
pf20
pf21
pf22
pf23
pf24
pf25
pf26
pf27
pf28
pf29
pf2a
pf2b
pf2c
pf2d
pf2e
pf2f
pf30
pf31
pf32
pf33
pf34
pf35
pf36
pf37
pf38
pf39
pf3a
pf3b
pf3c
pf3d
pf3e
pf3f
pf40
pf41
pf42
pf43
pf44
pf45
pf46
pf47
pf48
pf49
pf4a
pf4b
pf4c
pf4d
pf4e
pf4f
pf50
pf51
pf52
pf53
pf54
pf55
pf56
pf57
pf58
pf59
pf5a
pf5b
pf5c
pf5d
pf5e
pf5f
pf60
pf61
pf62
pf63
pf64

Anteprima parziale del testo

Scarica Metodi Matematici e Statistici e più Dispense in PDF di Matematica Generale solo su Docsity!

STATISTICA DESCRITTIVA

Introduzione La statistica ha due scopi principali: 1)ricavare da una molteplicità di dati individualitroppo numerosi per poter essere presi in considerazione singolarmentealcune informazioni significative, secondo le esigenze di un particolare problema che interessa; di ciò si interessa la statistica descrittiva ; 2)fornire metodi che servano ad "imparare dall “esperienza” giustificando, per quanto possibile, il passaggio dall 'osservazione di casi particolari a leggi generali, è questa la statistica induttiva.

Nella seconda parte di questo corso studieremo alcuni aspetti elementari della statistica induttiva, dopo avere introdotto il calcolo delle probabilità, che della statistica induttiva costituisce il linguaggio e il fondamento. In realtà, la distinzione fra questi due rami della statistica non è molto netta : nei procedimenti descrittivi, a ben vedere, sono presenti anche spunti di tipo induttivo. Comunque, nella statistica descrittiva non viene impiegato in modo esplicito il calcolo delle probabilità. Questo capitolo è dedicato alla statistica descrittiva. È il caso di sottolinearne l’importanza: infatti, in ogni campo della scienza, l'informazione, per poter essere utile, sia alla conoscenza sia all’attività pratica, deve essere resa compatta e significativa.

Definizioni Insieme Universo o Popolazione : l’insieme degli elementi sul quale si fa l’indagine statistica, che può essere di vario tipo (dalle molecole di un gas, ad una collettività microbica o umana). Viene, generalmente indicato con la lettera greca Ω; esso può essere finito o infinito. Caratteri (o attributi ): caratteristiche che un elemento della popolazione può avere, non avere, o avere in misura varia. Classi: sottoinsiemi in cui è ripartita una popolazione secondo i caratteri, cioé una classe è formata dagli elementi della popolazione che hanno uno dei caratteri che stiamo studiando. Frequenza assoluta ( di una classe): indica il numero degli elementi della classe. Frequenza relativa (di una classa): indica il rapporto fra il numero degli elementi di una classe e il numero totale degli elementi della popolazione. Distribuzione: indica la funzione che ad ogni modalità del carattere fa corrispondere la frequenza (assoluta o relativa) della corrispondente classe. Nell'uso corrente la frequenza è data generalmente come percentuale. Come possono essere i caratteri?

a) di tipo puramente qualitativo (ad es.: colori). In questo caso si usa il termine di Mutabile. b) di un tipo che si presta ad un ordinamento , come quando si fa una scala di preferenze o di simpatie.

PAGE

c) di tipo numerico. In questo terzo caso si usa spesso il termine di Variabile , in luogo dei più generici termini di carattere o attributo. Essa può essere, a sua volta,

  • (^) discreta: se assume valori in un insieme discreto (finito o numerabile) di valori isolati;
  • continua: se assume valori in un insieme continua, ad esempio un intervallo.

Attributi di tipo qualitativo cioè di tipo “a” Un dato significativo è quello di Classe Modale , cioè di classe più numerosa. Ad esempio, una scolaresca può essere ripartita secondo il mezzo di trasporto impiegato dai ragazzi per recarsi alle lezioni (automobile, autobus,bicicletta, o a piedi). Se il gruppo di quelli che vanno in bicicletta è il più numeroso, si può dire che esso costituisce la classe modale.

Attributo di tipo “b”: variabile totalmente ordinata Per questi si può introdurre la nozione di Mediana , per indicare un valore dell'attributo che provoca la ripartizione della popolazione, pensata come una fila ordinata, in due parti che siano (approssimativamente!) egualmente numerose. Ad esempio, il reddito mediano, in un certo paese, sarà quel reddito per cui la popolazione potrà essere suddivisa in due parti egualmente numerose: di coloro che hanno un reddito minore e di coloro che hanno un reddito maggiore. Si noterà che, per compiere questa suddivisione, non è necessario conoscere numericamente i redditi, ma basta essere in grado di fare una scala dei redditi. La mediana è un caso particolare di un concetto più generale che è quello di Quantile che indica la ripartizione della popolazione, sempre pensata come una fila ordinata, in modo che ogni quantile abbia, approssimativamente, la quantità indicata dal quantile. Ad esempio si può suddividere una popolazione ordinata in quattro quartili (da 0 al 25%,dal 25% al 50%, dal 50% al 75% e, infine, dal 75% al 100%); spesso si usano anche i decili, che vanno, in percentuale, di 10 in

Attributi numerici cioe di tipo “c” Sono state soprattutto la matematica, la fisica, la tecnica che ci hanno abituato ad impiegare valori numerici per certi caratteri, che, propriamente, si dicono grandezze, come: lunghezze, aree, volumi, velocità, intensità di corrente elettrica, ecc... Per ogni grandezza deve essere fissato un preciso procedimento di misura; inoltre deve essere definita, con precise norme di esecuzione, un'operazione di somma di grandezze, a cui corrisponde la somma delle misure; ammettiamo inoltre che sia possibile parlare, oltre che di multiplo, di sottomultiplo. Pertanto è definita la moltiplicazione per un numero razionale ed infine (con un processo di astrazione matematica) la moltiplicazione per un numero reale. Notiamo che anche i vettori rientrano in questo quadro; pertanto nel punto c) possiamo anche comprendere il caso di variabili di tipo vettoriale.

PAGE

Sono dei valori che, in qualche modo, sintetizzano i dati relativi alle varie unità statistiche in modo da cogliere il sottofondo costante della molteplicità di valori riguardanti un fenomeno collettivo. Siano i valori osservati del carattere X in una popolazione di N elementi. Il modo più generale per esprimere una grandezza che dipende dai valori è quello di servirsi di una funzione.

Si definisce Valore medio (o Media Aritmetica ) della variabile statistica X quel valore , che sostituito ai valori , lascia invariata la funzione f :

con la condizione di Cauchy

A seconda della forma assunta dalla funzione f , si hanno i vari tipi di medie.

Media Aritmetica

In base alla definizione di media, deve essere: ( 1 )

Questa media è anche detta media aritmetica semplice.

Se ad esempio la popolazione è costituita da un gruppo di operai che vengono classificati secondo la quantità di lavoro svolto, indicando con x (^) i la quantità di lavoro svolto dall’operaio i -esimo ( i=1,…,N ), il significato della media aritmetica semplice è: la quota di produzione individuale che se fosse uguale per tutti gli operai assicurerebbe la stessa produzione globale.

Il valore medio si può anche rappresentare sotto una forma diversa dalla (1), nel seguente modo; supponiamo che la variabile X assuma questi r valori distinti:

y 1 , y 2 , … , yr

Allora, se mettiamo in una stessa classe gli individui di Ω per cui X assume il medesimo valore, la popolazione Ω verrà ripartita in r classi, alle quali la X assegnerà i valori y 1 , y 2 , … , y (^) r ; sia m 1 , m 2 , …, m (^) r , ordinatamente, la frequenza delle rispettive classi, con allora si potrà scrivere:

PAGE

Dunque, il valor medio si può esprimere come una media ponderata in cui i pesi sono le frequenze relative. In modo più astratto, possiamo introdurre dei pesi, pi , non negativi e tali che =1 ; si chiamerà valor medio ponderato della distribuzione l'espressione.

Media Geometrica

In base alla definizione di media, deve essere:

Se ogni modalità x i ha frequenza n (^) i , allora deve essere:

pertanto:

Esempio Consideriamo il reddito nazionale netto in milioni di euro, nei seguenti anni:

A R.N.netto Saggio di incremento

Si vuole sapere il saggio medio di incremento dal 1976 al 1978. Osserviamo che indicando con il reddito al primo anno e con il reddito dopo s anni, si ha la relazione:

dove gli sono gli incrementi nei rispettivi anni. Il saggio medio di incremento è quel tasso i , tale che:

perciò deve essere:

E’ quindi la media geometrica dei fattori di capitalizzazione.

Media Armonica

dove sono le frequenze. Dalla definizione deve essere:

Nel caso particolare di otteniamo la semplificazione:

PAGE

Per capire il perché la media armonica funziona dobbiamo riferirci al concetto di “consumo”, per cui dobbiamo tener conto che la 1° persona consuma in un giorno di lametta, e così per gli altri, per cui le 5 persone consumano in un giorno la somma delle quantità suddette, cioè la somma dei reciproci delle durate. Avendo però rilevato la durata delle lamette, invece dei consuni, bisogna tener conto che tra queste due quantità esiste una relazione inversa. Varianza

È evidente però che vi sono variabili X molto diverse fra loro che hanno lo stesso valore medio; in particolare, una variabile X può essere molto concentrata attorno al suo valore medio , oppure può essere molto sparsa. È allora opportuno introdurre un parametro che serva a distinguere fra loro queste due situazioni opposte. Vi sono vari modi di valutare la dispersione di una distribuzione; è spontaneo valutare in qualche modo gli spostamenti dal valor medio ; ma essi devono essere valutati in grandezza assoluta e non in senso algebrico, altrimenti gli spostamenti in un senso si compensano con quelli in senso opposto. Ad esempio, è ragionevole considerare questa quantità:

s* = (3)

Tuttavia, il calcolo con un'espressione di questo tipo è scomodo (sappiamo che la funzione valore assoluto si maneggia male: fra l'altro, essa non è derivabile nello zero). È più comoda da calcolare la seguente espressione, che si dice Varianza:

Var(X) = (4)

In questa espressione è l'operazione di quadrato (anzichè quella di valore assoluto) che ha il compito di "raddrizzare" gli spostamenti dal valor medio rendendoli tutti positivi. Osserviamo, intanto, che se ad esempio la variabile X è una lunghezza, la varianza sarà il quadrato di una lunghezza (ovvero, sarà del tipo dell'area). Per avere ancora una grandezza del tipo di una lunghezza, prendiamo la radice quadrata della varianza. Il numero

= viene detto scarto quadratico medio, o anche deviazione standard. Pertanto la varianza può venire espressa anche col simbolo. Nella teoria delle variabili aleatorie troveremo espressioni del tutto coincidenti con quelle del valor medio e della varianza, e con gli stessi nomi, ma con diversi significati.

Esercizio 1

Il peso di 11 ragazzi è, ordinatamente, in kg

PAGE

Calcolare mediana, valor medio, varianza, scarto quadratico medio di questa distribuzione.

Mediana : è il valore dell’attributo che divide in due classi approssimativamente di egual numero una popolazione, quindi in questo caso è 48.3.

Valore Medio : = =

== 48.

Varianza :

= = = 5.

Scarto quadr. Medio :

= = = 2.3513. Esercizio 2

Data una variabile X, con valori x (^) i, si consideri la funzione

x f(x) =

Dimostrare che essa ha un unico minimo per x =.

Studiamo il segno della derivata prima

quindi è punto di minimo relativo ed essendo l’unico, con funzione limitata inferiormente (è f(x) 0 x ) è anche minimo assoluto.

Esercizio 3

Data una variabile X, con valori x (^) i, si consideri la funzione

x f(x) =

Si dimostri che, se m è dispari, questa funzione ha un unico minimo che è uguale alla mediana. Che cosa succede se m è pari?

(Cominciare col fare un esempio, m = 3). PAGE

Osserviamo che vale il segno di eguaglianza per m = 1 ( = 1 , = 0 ) o quando tutte le famiglie hanno lo stesso numero di figli, cioè = k ( cost.) : allora è = k, e = k-1.


Esercizio 4

Dimostrare che la varianza si può esprimere nella seguente forma (che è particolarmente comoda per i calcoli):

Var(X) =

Infatti è : Var(X) = = = =

=.

3 - Rappresentazione ed approssimazione

Sia X una variabile reale definita per una popolazione e sia [a,b] un intervallo della retta reale contenente tutti i valori assunti da X. Possiamo allora suddividere l'intervallo [a,b] in intervalli di uguale ampiezza mediante i punti:

Raggruppiamo quindi in classi la popolazione secondo l'intervallo in cui cadono i valori; sia:

n 1 la frequenza che compete all'intervallo , n 2 la frequenza che compete all'intervallo , ... nr la frequenza che compete all'intervallo

PAGE

(si noterà che questi intervalli non devono sovrapporsi, affinchè un valore non venga contato più volte...). Consideriamo allora una funzione costante in ciascuno di questi intervallini e tale che l'area sottesa dal grafico in ciascuno di questi sia uguale alla corrispondente frequenza n (^) j. Una funzione di questo tipo viene detta istogramma ; essa ci offre una rappresentazione molto efficace della nostra variabile. Supponiamo, ad esempio, di voler rappresentare la distribuzione della statura dei 24 allievi di una certa classe. Una misura fornisce i seguenti dati (in metri):

1.21; 1.23; 1.27; 1.29; 1.31; 1.31; 1.33; 1.36; 1.37; 1.39; 1.39; 1.40; 1.41; 1.42; 1.42; 1.44; 1.46; 1.47; 1.47; 1.50; 1.51; 1.53; 1.56; 1.58.

Dividiamo allora l'intervallo [1.20;1.60] in 8 intervalli di 5 cm ciascuno. Le frequenze sono le seguenti, e il grafico è dato dalla figura qui riportata.

2 2 3 4 5 3 3 2

L'efficacia rappresentativa dell'istogramma è del tutto evidente nel caso particolare che abbiamo considerato; possiamo notare, ad esempio, che gli intervalli centrali, cioè più vicini al punto di mezzo, sono quelli che raccolgono il maggior numero di valori. Ma occorre notare che questa maggiore evidenza è stata pagata con una perdita di informazione: infatti, se disponiamo della sola informazione fornita dall'istogramma, mentre possiamo sapere quanti valori della variabile X cadono in ciascuno degli intervallini, non siamo più in grado di sapere dove essi esattamente cadono! È così chiaro che la maggiore evidenza dell'istogramma viena pagata con una perdita di informazione. Questa osservazione può essere completata riflettendo a quello che accadrebbe se noi prendessimo un passo diverso da quello di 5 cm., che abbiamo fissato a lume di buonsenso. Se noi prendessimo un passo di 20 cm otterremmo un istogramma che distrugge quasi completamente l'informazione contenuta nella nostra tabella; se invece prendessimo, ad esempio, un passo di 1 cm otterremmo un istogramma certamente più preciso, cioè più vicino alla distribuzione esatta assegnata, ma del tutto inespressivo, perché ancora troppo ricco di nformazioni insignificanti e ingombranti. Si noterà che nella definizione dell'istogramma abbiamo preso l'area dei rettangoli che sovrastano gli intervalli proporzionale alla frequenze; sarebbe stato equivalente, nel nostro caso, assumere, in luogo dell'area, l'altezza come grandezza proporzionale alle frequenze; tuttavia, assumendo l'area come grandezza rappresentativa, i vari istogrammi che si possono tracciare prendendo intervalli di diverse ampiezze rimangono confrontabili fra loro, mentre, assumendo l'altezza, la coerenza fra le varie rappresentazioni va perduta. Il lettore può convincersene riprendendo l'esempio appena svolto e rielaborandolo nei due diversi modi.

PAGE

Analogamente, per ciascuna variabile, viene così definita la varianza:

(9)

In modo analogo si definisce la covarianza fra due variabili X (^) k , Xi :

2- La retta di regressione

Riprendiamo il caso di due variabili: X, Y. Può accadere ,che, pur mancando un legame "deterministico" fra X ed Y, si possa sospettare che vi sia un legame "statistico" fra le due variabili, che non sia molto discosto da una legge lineare. Naturalmente, può accadere che si congetturi, nel fenomeno che si sta studiando, la presenza una legge lineare perturbata dai procedimenti di misura che portano errori sui dati rilevati, oppure si può ritenere che il fenomeno non abbia alla sua radice una relazione lineare, ma che, tuttavia, sia ugualmente conveniente approssimare il legame fra X ed Y con una legge lineare in cui X abbia il ruolo di variabile indipendente. Si tratta comunque di scegliere fra le infinite rette

y = ax + b (10)

quella che meglio approssima la nostra distribuzione. Ma qual è il criterio in base a cui si stabilisce questa bontà di approssimazione? Si assume come criterio, anche per ragioni di mera comodità, quello dei minimi quadrati che risale a Gauss. La strategia di questo metodo è molto semplice: se esistesse una retta del tipo (10) tale da contenere tutti i punti della distribuzione si avrebbe, per ogni elemento i della nostra popolazione

yi - axi – b =

Poiché, in generale, le cose non stanno così, misureremo lo scostamento della coppia ( xi , yi ) dalla retta per mezzo del numero

(y (^) i – axi –b) 2

(Siamo già abituati ad assumere l'elevamento al quadrato come tipica operazione di "raddrizzamento" ...). Ciò premesso, il numero

rappresenterà lo scostamento quadratico medio dalla generica retta (10). A questo punto è ormai prevedibile l'operazione finale: si sceglierà la retta (cioè, in concreto, i coefficienti a e b ) in modo che lo scostamento medio sia il più piccolo possibile. Consideriamo dunque la funzione (11) PAGE

e cerchiamo di metterla in forma più espressiva. Sviluppando nella (11) il quadrato del trinomio si ha:

Mettiamo in una forma più espressiva l’eguaglianza precedente, dimostrando che valgono le relazioni:

Infatti:

Ora, indicando con rispettivamente, le varianze di X e di Y , si ha :

A questo punto si può dimostrare che, se è (cioè se i punti non hanno tutti la medesima ascissa) si ha

Non esponiamo i dettagli della dimostrazione; ci limitiamo ad osservare che, preso un numero positivo arbitrario M, l'equazione , nel piano delle variabili a, b, rappresenta un'ellisse, e la relazione rappresenta l'insieme dei punti esterni all'ellisse. ( Ricordiamo la definizione di limite in due variabili:

e gli intorni di sono del tipo ). Dal corollario del Teorema di Weiestrass sappiamo che esiste un punto di minimo per. In questo punto si annullano le derivate parziali ; ma possiamo constatare che esiste un solo punto in cui si annullano le derivate parziali. Infatti si ottiene il sistema lineare:

PAGE

0,2652 0,005 15,21 x=ay+b 0,1932 0,001 47,61 a b 0,4802 0,010 24,01 0,00756023 1, 0,1312 0,001 16, 0,0472 0,000 34, 0,0142 0,000 50, 1,0062 0,006 166, 0,5178 0,005096 68,

Osserviamo che le due rette di regresione avranno la stssa pendenza se e solo se le varianze delle due variabili sono uguali (vedi 1° formula delle (15)), inoltre le due rette coincideranno se oltre ad avere le varianze uguali hanno anche gli stessi valori medi. 3- Varianza e distanza

Per costruire la retta di regressione nel piano X, Y non abbiamo avuto bisogno della distanza del piano; ci sono bastate le distanze prese lungo l'asse X e lungo l'asse Y. (In termini matematici, il problema che abbiamo considerato era un problema affine e non metrico ). Ci sono invece dei casi in cui ci si può servire utilmente della distanza che è definita nello spazio R n^ su cui si rappresentano le variabili; ma c'è un problema preliminare: quello della scelta delle unità di misura per le singole variabili. Infatti, variando le unità di misura delle singole variabili, la descrizione generale delle relazioni fra le variabili può risultare del tutto alterata. Supponiamo, ad esempio, che un paleontologo, esamini vari reperti umani, rilevando la lunghezza del femore, la larghezza del cranio, la larghezza di un fissato dente molare. È evidente che, se tutte le misure sono prese in centimetri, l'influenza delle misure dei denti, che sono espresse da numeri piuttosto piccoli, sarà molto scarsa: come se la relativa variabile venisse soppressa. Al contrario, l'influenza delle misure del femore sarà accentuata. Può essere allora un'idea buona quella di prendere unità di misura diverse: cioè assumere unità di misura più piccole per misurare le grandezze che, in media, sono più piccole. Ma questa soluzione "di buonsenso" non ha una base razionale sufficientemente chiara. Un'idea migliore è quella di prendere come unità di misura lo scarto quadratico di ciascuna variabile. In tal modo le variabili si dicono standardizzate; sarà poi

PAGE

opportuno prendere come origine per ciascuna variabile il valor medio; così otterremo varabili centrate, cioè con valor medio nullo. Pertanto, dette X 1 ,X 2 ,... ,Xn le variabili originarie, otterremo nuove variabili standardizzate e centrate Z 1 , Z 2 ,... , Z (^) n così definite:

(16)

A questo punto prendiamo i valori di Z 1 , Z 2 ,…, Z (^) n come coordinate di un punto dello spazio R n ; così le variabili Z 1 , Z 2 ,…, Zn si possono identificare con la base canonica di R n^ e diventa ragionevole utilizzare la consueta distanza di R n : questa distanza può essere utilizzata per mettere in evidenza il grado di maggiore o minore affinità fra specie biologiche, o per decidere a quale specie, o a quale gruppo, si deve attribuire un individuo di cui sono noti alcuni caratteri. Che cosa accade se calcoliamo la covarianza tra le variabili standardizzate? Occorre tenere presente che le variabili Z (^) k sono già centrate; pertanto la covarianza fra Zk e Zl risulta espressa dalla seguente formula:

(17)

(con oppure ). Il numero r (^) kl viene detto coefficiente di correlazione fra le variabili X (^) k ed X (^) l; esso è uguale ad 1 per k = l; ( infatti si ha ) inoltre, si ha comunque:

Questa disuguaglianza è una semplice conseguenza della disuguaglianza di Cauchy. Infatti, dalla (17) si ricava:

Si chiama matrice di correlazione la matrice ; pertanto, la matrice di correlazione è una matrice simmetrica, con elementi compresi fra -1 ed 1, e con gli elementi della diagonale principale tutti uguali ad 1 (infatti per k=l è essendo le variabili standardizzate).

Riservandoci di vedere al prossimo paragrafo un importante impiego della matrice di correlazione, presentiamo ora un interessante esempio in cui si possono trarre importanti informazioni dal solo esame della distanza euclidea nello spazio delle variabili standardizzate. L'esempio (tratto da: B.F.J.Manly Multivariate Statistical Methods; Chapman and Hall 1986) riguarda una ricerca condotta in Thailandia, in cui sono stati esaminati reperti ossei di canidi preistorici e di canidi attuali. Lo scopo era di vedere se il cane di epoca preistorica (circa 3500 anni A.C.) è da considerarsi "vicino" al cane attuale tipico di quella regione o, eventualmente, più vicino ad altri canidi. Sona perciò stati esaminati i seguenti esemplari:

PAGE

Var.

 - 0,21 0,99 -0,11 0,00 -5,44 -2, - -0,89 0,09 -0,41 -0,20 0,16 3, - -0,19 -0,41 -2,41 -0,40 -1,94 -4, 
  • (X 1 -) 2 (X 2 -) 2 (X 3 -)^2 (X 4 -)^2 (X 5 -)^2 (X 6 -) - 0,62 2,00 4,47 0,64 5,03 10, - 5,69 33,81 10,33 2,25 15,55 46, - 9,09 22,90 27,94 4,41 58,63 70, - 1,03 3,19 8,91 0,64 33,14 24, - 0,05 0,97 0,01 0,00 29,62 4, - 0,78 0,01 0,17 0,04 0,02 11, - 0,03 0,17 5,83 0,16 3,77 21,
  • S.q.m. 1,57 3,00 2,87 1,08 4,56 5, - Z 1 Z 2 Z 3 Z 4 Z 5 Z Standar. - -0,50 -0,47 -0,74 -0,74 -0,49 -0, - -1,52 -1,94 -1,12 -1,39 -0,86 -1, - 1,92 1,59 1,84 1,95 1,68 1, - 0,65 0,60 1,04 0,74 1,26 0, - 0,14 0,33 -0,04 0,00 -1,19 -0, - -0,56 0,03 -0,14 -0,19 0,03 0, - -0,12 -0,14 -0,84 -0,37 -0,43 -0,

Distanza tra i vari tipi (distanza euclidea)

Cane mod. Sciac. Dor.

Lupo cinese

Lupo ind.

Cuone Dingo

Cane mod.

Sciac. Dor.

Lupo cinese

Lupo ind. 3,65 5,47 2,31 0 Cuone 1,62 3,45 4,94 3,14 0 Dingo 1,67 3,44 4,55 2,37 1,80 0 Cane preist.

Come si vede la più piccola delle distanze fra i vari gruppi è quella che separa il cane preistorico dal cane attuale. Se si fa l’ipotesi che le differenze tra i vari caratteri aumentino col tempo, deduciamo che la differenziazione del cane da altri gruppi di canidi sia iniziata in epoca assai anteriore all’epoca preistorica a cui la ricerca si riferisce, proprio perché la distanza del cane moderno dagli altri gruppi di canidi è maggiore rispetto alla distanza dal cane preistorico.

4 – il Metodo dei Componenti Principali

In certi casi un’indagine statistica coinvolge un numero elevato di variabili, di cui però non è detto che tutte siano significative per il problema che interessa. Si può desiderare di operare con un numero minore di variabili che però contengano le informazioni interessanti. Un aspetto importante è che queste nuove variabili possono essere, in qualche modo, costruite a partire da quelle originarie mediante combinazioni lineari di queste. Partiamo da n variabili statistiche X 1 , X 2 , … , Xn e quindi dalle corrispondenti variabili standardizzate Z 1 , Z 2 ,…, Zn :

Var.Stat.che X 1 X 2... Xn

PAGE