Prepara i tuoi esami
Ottieni punti
Guide e consigli
Vendi su Docsity
Docsity AI

Prepara i tuoi esami

Studia grazie alle numerose risorse presenti su Docsity

Ottieni i punti per scaricare

Guadagna punti aiutando altri studenti oppure acquistali con un piano Premium

Guide e consigli

Vendi su Docsity

Accedi Registrati

Prepara i tuoi esami

Studia grazie alle numerose risorse presenti su Docsity

Cerca documenti

Prepara i tuoi esami con i documenti condivisi da studenti come te su Docsity

Cerca la tua università

Trova i documenti specifici per gli esami della tua università

Preparati con lezioni e prove svolte basate sui programmi universitari!

Rispondi a reali domande d’esame e scopri la tua preparazione

Riassumi i tuoi documenti, fagli domande, convertili in quiz e mappe concettuali

Studia con prove svolte, tesine e consigli utili

Esplora domande

Togliti ogni dubbio leggendo le risposte alle domande fatte da altri studenti come te

Argomenti di studio

Esplora i documenti più scaricati per gli argomenti di studio più popolari

Ottieni i punti per scaricare

Guadagna punti aiutando altri studenti oppure acquistali con un piano Premium

Condividi documenti

Per ogni documento caricato

Rispondi alle domande

per ogni risposta data (max 1 al giorno)

Tutti i modi per ottenere punti gratis

Ottieni punti subito

Scegli un piano Premium con tutti i punti di cui hai bisogno

Opportunità di studio

Scegli il tuo prossimo programma di studio

Entra in contatto con le migliori università del mondo e scegli il tuo percorso di studi

Classifica delle migliori università

Scopri le migliori università italiane secondo gli studenti

Community

Chiedi alla community

Chiedi aiuto alla community e sciogli i tuoi dubbi legati allo studio

Guide Gratuite

I nostri eBook salva studente

Scarica gratuitamente le nostre guide sulle tecniche di studio, metodi per gestire l'ansia, dritte per la tesi realizzati da tutor Docsity

Metodi Matematici e Statistici, Dispense di Matematica Generale

Università del Salento (UNISALENTO)Matematica Generale

Statistica descrittiva , probabilità ,variabili aleatorie ,Catena di Markov , la legge di Poisson , Statistica induttiva

Tipologia: Dispense

2012/2013

Caricato il 09/04/2013

Vale19ntina 🇮🇹

1 documento

1 / 132

Questa pagina non è visibile nell’anteprima

Non perderti parti importanti!

bg1

STATISTICA DESCRITTIVA

Introduzione

La statistica ha due scopi principali:

1)ricavare da una molteplicità di dati individuali – troppo numerosi per poter

essere presi in considerazione singolarmente – alcune informazioni significative,

secondo le esigenze di un particolare problema che interessa; di ciò si interessa

la statistica descrittiva;

2)fornire metodi che servano ad "imparare dall “esperienza” giustificando, per

quanto possibile, il passaggio dall 'osservazione di casi particolari a leggi

generali, è questa la statistica induttiva.

Nella seconda parte di questo corso studieremo alcuni aspetti elementari della

statistica induttiva, dopo avere introdotto il calcolo delle probabilità, che della

statistica induttiva costituisce il linguaggio e il fondamento. In realtà, la

distinzione fra questi due rami della statistica non è molto netta: nei

procedimenti descrittivi, a ben vedere, sono presenti anche spunti di tipo

induttivo. Comunque, nella statistica descrittiva non viene impiegato in modo

esplicito il calcolo delle probabilità.

Questo capitolo è dedicato alla statistica descrittiva. È il caso di sottolinearne

l’importanza: infatti, in ogni campo della scienza, l'informazione, per poter

essere utile, sia alla conoscenza sia all’attività pratica, deve essere resa

compatta e significativa.

Definizioni

Insieme Universo o Popolazione: l’insieme degli elementi sul quale si fa

l’indagine statistica, che può essere di vario tipo (dalle molecole di un gas, ad

una collettività microbica o umana). Viene, generalmente indicato con la lettera

greca Ω; esso può essere finito o infinito.

Caratteri (o attributi): caratteristiche che un elemento della popolazione può

avere, non avere, o avere in misura varia.

Classi: sottoinsiemi in cui è ripartita una popolazione secondo i caratteri, cioé

una classe è formata dagli elementi della popolazione che hanno uno dei

caratteri che stiamo studiando.

Frequenza assoluta (di una classe): indica il numero degli elementi della classe.

Frequenza relativa (di una classa): indica il rapporto fra il numero degli

elementi di una classe e il numero totale degli elementi della popolazione.

Distribuzione: indica la funzione che ad ogni modalità del carattere fa

corrispondere la frequenza (assoluta o relativa) della corrispondente classe.

Nell'uso corrente la frequenza è data generalmente come percentuale.

Come possono essere i caratteri?

a) di tipo puramente qualitativo (ad es.: colori). In questo caso si usa il

termine di Mutabile.

b) di un tipo che si presta ad un ordinamento, come quando si fa una scala

di preferenze o di simpatie.

PAGE 143

PAGE

PAGE 143

pf3

pf4

pf5

pf8

pf9

pfa

pfd

pfe

pff

pf12

pf13

pf14

pf15

pf16

pf17

pf18

pf19

pf1a

pf1b

pf1c

pf1d

pf1e

pf1f

pf20

pf21

pf22

pf23

pf24

pf25

pf26

pf27

pf28

pf29

pf2a

pf2b

pf2c

pf2d

pf2e

pf2f

pf30

pf31

pf32

pf33

pf34

pf35

pf36

pf37

pf38

pf39

pf3a

pf3b

pf3c

pf3d

pf3e

pf3f

pf40

pf41

pf42

pf43

pf44

pf45

pf46

pf47

pf48

pf49

pf4a

pf4b

pf4c

pf4d

pf4e

pf4f

pf50

pf51

pf52

pf53

pf54

pf55

pf56

pf57

pf58

pf59

pf5a

pf5b

pf5c

pf5d

pf5e

pf5f

pf60

pf61

pf62

pf63

pf64

Scopri Dispense di Matematica Generale Università del Salento (UNISALENTO)

Documenti correlati

Formulario metodi matematici e statistici

Appunti di Metodi Matematici e Statistici

Metodi matematici e statistici applicati alla ricerca biomedica

Metodi Statistici e Matematici: Teoria, Distribuzioni e Inferenza

Metodi Statistici per la Bioingegneria - Appunti

Statistica Descrittiva: Unità Statistiche, Collettivi Statistici e Indici di Posizione, Va

(2)

introduzione all analisi dei dati statistici

Documento relativo a esercizi matematici e dati statistici

Modelli statistici per le decisioni aziendali

Stimatori statistici

Caratteri statistici e variabili

Indici statistici, distribuzione statistica, rappresentazioni grafiche

Anteprima parziale del testo

Scarica Metodi Matematici e Statistici e più Dispense in PDF di Matematica Generale solo su Docsity!

STATISTICA DESCRITTIVA

Introduzione La statistica ha due scopi principali: 1)ricavare da una molteplicità di dati individuali – troppo numerosi per poter essere presi in considerazione singolarmente – alcune informazioni significative, secondo le esigenze di un particolare problema che interessa; di ciò si interessa la statistica descrittiva ; 2)fornire metodi che servano ad "imparare dall “esperienza” giustificando, per quanto possibile, il passaggio dall 'osservazione di casi particolari a leggi generali, è questa la statistica induttiva.

Nella seconda parte di questo corso studieremo alcuni aspetti elementari della statistica induttiva, dopo avere introdotto il calcolo delle probabilità, che della statistica induttiva costituisce il linguaggio e il fondamento. In realtà, la distinzione fra questi due rami della statistica non è molto netta : nei procedimenti descrittivi, a ben vedere, sono presenti anche spunti di tipo induttivo. Comunque, nella statistica descrittiva non viene impiegato in modo esplicito il calcolo delle probabilità. Questo capitolo è dedicato alla statistica descrittiva. È il caso di sottolinearne l’importanza: infatti, in ogni campo della scienza, l'informazione, per poter essere utile, sia alla conoscenza sia all’attività pratica, deve essere resa compatta e significativa.

Definizioni Insieme Universo o Popolazione : l’insieme degli elementi sul quale si fa l’indagine statistica, che può essere di vario tipo (dalle molecole di un gas, ad una collettività microbica o umana). Viene, generalmente indicato con la lettera greca Ω; esso può essere finito o infinito. Caratteri (o attributi ): caratteristiche che un elemento della popolazione può avere, non avere, o avere in misura varia. Classi: sottoinsiemi in cui è ripartita una popolazione secondo i caratteri, cioé una classe è formata dagli elementi della popolazione che hanno uno dei caratteri che stiamo studiando. Frequenza assoluta ( di una classe): indica il numero degli elementi della classe. Frequenza relativa (di una classa): indica il rapporto fra il numero degli elementi di una classe e il numero totale degli elementi della popolazione. Distribuzione: indica la funzione che ad ogni modalità del carattere fa corrispondere la frequenza (assoluta o relativa) della corrispondente classe. Nell'uso corrente la frequenza è data generalmente come percentuale. Come possono essere i caratteri?

a) di tipo puramente qualitativo (ad es.: colori). In questo caso si usa il termine di Mutabile. b) di un tipo che si presta ad un ordinamento , come quando si fa una scala di preferenze o di simpatie.

PAGE

c) di tipo numerico. In questo terzo caso si usa spesso il termine di Variabile , in luogo dei più generici termini di carattere o attributo. Essa può essere, a sua volta,

(^) discreta: se assume valori in un insieme discreto (finito o numerabile) di valori isolati;
continua: se assume valori in un insieme continua, ad esempio un intervallo.

Attributi di tipo qualitativo cioè di tipo “a” Un dato significativo è quello di Classe Modale , cioè di classe più numerosa. Ad esempio, una scolaresca può essere ripartita secondo il mezzo di trasporto impiegato dai ragazzi per recarsi alle lezioni (automobile, autobus,bicicletta, o a piedi). Se il gruppo di quelli che vanno in bicicletta è il più numeroso, si può dire che esso costituisce la classe modale.

Attributo di tipo “b”: variabile totalmente ordinata Per questi si può introdurre la nozione di Mediana , per indicare un valore dell'attributo che provoca la ripartizione della popolazione, pensata come una fila ordinata, in due parti che siano (approssimativamente!) egualmente numerose. Ad esempio, il reddito mediano, in un certo paese, sarà quel reddito per cui la popolazione potrà essere suddivisa in due parti egualmente numerose: di coloro che hanno un reddito minore e di coloro che hanno un reddito maggiore. Si noterà che, per compiere questa suddivisione, non è necessario conoscere numericamente i redditi, ma basta essere in grado di fare una scala dei redditi. La mediana è un caso particolare di un concetto più generale che è quello di Quantile che indica la ripartizione della popolazione, sempre pensata come una fila ordinata, in modo che ogni quantile abbia, approssimativamente, la quantità indicata dal quantile. Ad esempio si può suddividere una popolazione ordinata in quattro quartili (da 0 al 25%,dal 25% al 50%, dal 50% al 75% e, infine, dal 75% al 100%); spesso si usano anche i decili, che vanno, in percentuale, di 10 in

Attributi numerici cioe di tipo “c” Sono state soprattutto la matematica, la fisica, la tecnica che ci hanno abituato ad impiegare valori numerici per certi caratteri, che, propriamente, si dicono grandezze, come: lunghezze, aree, volumi, velocità, intensità di corrente elettrica, ecc... Per ogni grandezza deve essere fissato un preciso procedimento di misura; inoltre deve essere definita, con precise norme di esecuzione, un'operazione di somma di grandezze, a cui corrisponde la somma delle misure; ammettiamo inoltre che sia possibile parlare, oltre che di multiplo, di sottomultiplo. Pertanto è definita la moltiplicazione per un numero razionale ed infine (con un processo di astrazione matematica) la moltiplicazione per un numero reale. Notiamo che anche i vettori rientrano in questo quadro; pertanto nel punto c) possiamo anche comprendere il caso di variabili di tipo vettoriale.

PAGE

Sono dei valori che, in qualche modo, sintetizzano i dati relativi alle varie unità statistiche in modo da cogliere il sottofondo costante della molteplicità di valori riguardanti un fenomeno collettivo. Siano i valori osservati del carattere X in una popolazione di N elementi. Il modo più generale per esprimere una grandezza che dipende dai valori è quello di servirsi di una funzione.

Si definisce Valore medio (o Media Aritmetica ) della variabile statistica X quel valore , che sostituito ai valori , lascia invariata la funzione f :

con la condizione di Cauchy

A seconda della forma assunta dalla funzione f , si hanno i vari tipi di medie.

Media Aritmetica

In base alla definizione di media, deve essere: ( 1 )

Questa media è anche detta media aritmetica semplice.

Se ad esempio la popolazione è costituita da un gruppo di operai che vengono classificati secondo la quantità di lavoro svolto, indicando con x (^) i la quantità di lavoro svolto dall’operaio i -esimo ( i=1,…,N ), il significato della media aritmetica semplice è: la quota di produzione individuale che se fosse uguale per tutti gli operai assicurerebbe la stessa produzione globale.

Il valore medio si può anche rappresentare sotto una forma diversa dalla (1), nel seguente modo; supponiamo che la variabile X assuma questi r valori distinti:

y 1 , y 2 , … , yr

Allora, se mettiamo in una stessa classe gli individui di Ω per cui X assume il medesimo valore, la popolazione Ω verrà ripartita in r classi, alle quali la X assegnerà i valori y 1 , y 2 , … , y (^) r ; sia m 1 , m 2 , …, m (^) r , ordinatamente, la frequenza delle rispettive classi, con allora si potrà scrivere:

PAGE

Dunque, il valor medio si può esprimere come una media ponderata in cui i pesi sono le frequenze relative. In modo più astratto, possiamo introdurre dei pesi, pi , non negativi e tali che =1 ; si chiamerà valor medio ponderato della distribuzione l'espressione.

Media Geometrica

In base alla definizione di media, deve essere:

Se ogni modalità x i ha frequenza n (^) i , allora deve essere:

pertanto:

Esempio Consideriamo il reddito nazionale netto in milioni di euro, nei seguenti anni:

A R.N.netto Saggio di incremento

Si vuole sapere il saggio medio di incremento dal 1976 al 1978. Osserviamo che indicando con il reddito al primo anno e con il reddito dopo s anni, si ha la relazione:

dove gli sono gli incrementi nei rispettivi anni. Il saggio medio di incremento è quel tasso i , tale che:

perciò deve essere:

E’ quindi la media geometrica dei fattori di capitalizzazione.

Media Armonica

dove sono le frequenze. Dalla definizione deve essere:

Nel caso particolare di otteniamo la semplificazione:

PAGE

Per capire il perché la media armonica funziona dobbiamo riferirci al concetto di “consumo”, per cui dobbiamo tener conto che la 1° persona consuma in un giorno di lametta, e così per gli altri, per cui le 5 persone consumano in un giorno la somma delle quantità suddette, cioè la somma dei reciproci delle durate. Avendo però rilevato la durata delle lamette, invece dei consuni, bisogna tener conto che tra queste due quantità esiste una relazione inversa. Varianza

È evidente però che vi sono variabili X molto diverse fra loro che hanno lo stesso valore medio; in particolare, una variabile X può essere molto concentrata attorno al suo valore medio , oppure può essere molto sparsa. È allora opportuno introdurre un parametro che serva a distinguere fra loro queste due situazioni opposte. Vi sono vari modi di valutare la dispersione di una distribuzione; è spontaneo valutare in qualche modo gli spostamenti dal valor medio ; ma essi devono essere valutati in grandezza assoluta e non in senso algebrico, altrimenti gli spostamenti in un senso si compensano con quelli in senso opposto. Ad esempio, è ragionevole considerare questa quantità:

s* = (3)

Tuttavia, il calcolo con un'espressione di questo tipo è scomodo (sappiamo che la funzione valore assoluto si maneggia male: fra l'altro, essa non è derivabile nello zero). È più comoda da calcolare la seguente espressione, che si dice Varianza:

Var(X) = (4)

In questa espressione è l'operazione di quadrato (anzichè quella di valore assoluto) che ha il compito di "raddrizzare" gli spostamenti dal valor medio rendendoli tutti positivi. Osserviamo, intanto, che se ad esempio la variabile X è una lunghezza, la varianza sarà il quadrato di una lunghezza (ovvero, sarà del tipo dell'area). Per avere ancora una grandezza del tipo di una lunghezza, prendiamo la radice quadrata della varianza. Il numero

= viene detto scarto quadratico medio, o anche deviazione standard. Pertanto la varianza può venire espressa anche col simbolo. Nella teoria delle variabili aleatorie troveremo espressioni del tutto coincidenti con quelle del valor medio e della varianza, e con gli stessi nomi, ma con diversi significati.

Esercizio 1

Il peso di 11 ragazzi è, ordinatamente, in kg

PAGE

Calcolare mediana, valor medio, varianza, scarto quadratico medio di questa distribuzione.

Mediana : è il valore dell’attributo che divide in due classi approssimativamente di egual numero una popolazione, quindi in questo caso è 48.3.

Valore Medio : = =

== 48.

Varianza :

= = = 5.

Scarto quadr. Medio :

= = = 2.3513. Esercizio 2

Data una variabile X, con valori x (^) i, si consideri la funzione

x f(x) =

Dimostrare che essa ha un unico minimo per x =.

Studiamo il segno della derivata prima

quindi è punto di minimo relativo ed essendo l’unico, con funzione limitata inferiormente (è f(x) 0 x ) è anche minimo assoluto.

Esercizio 3

Data una variabile X, con valori x (^) i, si consideri la funzione

x f(x) =

Si dimostri che, se m è dispari, questa funzione ha un unico minimo che è uguale alla mediana. Che cosa succede se m è pari?

(Cominciare col fare un esempio, m = 3). PAGE

Osserviamo che vale il segno di eguaglianza per m = 1 ( = 1 , = 0 ) o quando tutte le famiglie hanno lo stesso numero di figli, cioè = k ( cost.) : allora è = k, e = k-1.

Esercizio 4

Dimostrare che la varianza si può esprimere nella seguente forma (che è particolarmente comoda per i calcoli):

Var(X) =

Infatti è : Var(X) = = = =

=.

3 - Rappresentazione ed approssimazione

Sia X una variabile reale definita per una popolazione e sia [a,b] un intervallo della retta reale contenente tutti i valori assunti da X. Possiamo allora suddividere l'intervallo [a,b] in intervalli di uguale ampiezza mediante i punti:

Raggruppiamo quindi in classi la popolazione secondo l'intervallo in cui cadono i valori; sia:

n 1 la frequenza che compete all'intervallo , n 2 la frequenza che compete all'intervallo , ... nr la frequenza che compete all'intervallo

PAGE

(si noterà che questi intervalli non devono sovrapporsi, affinchè un valore non venga contato più volte...). Consideriamo allora una funzione costante in ciascuno di questi intervallini e tale che l'area sottesa dal grafico in ciascuno di questi sia uguale alla corrispondente frequenza n (^) j. Una funzione di questo tipo viene detta istogramma ; essa ci offre una rappresentazione molto efficace della nostra variabile. Supponiamo, ad esempio, di voler rappresentare la distribuzione della statura dei 24 allievi di una certa classe. Una misura fornisce i seguenti dati (in metri):

1.21; 1.23; 1.27; 1.29; 1.31; 1.31; 1.33; 1.36; 1.37; 1.39; 1.39; 1.40; 1.41; 1.42; 1.42; 1.44; 1.46; 1.47; 1.47; 1.50; 1.51; 1.53; 1.56; 1.58.

Dividiamo allora l'intervallo [1.20;1.60] in 8 intervalli di 5 cm ciascuno. Le frequenze sono le seguenti, e il grafico è dato dalla figura qui riportata.

2 2 3 4 5 3 3 2

L'efficacia rappresentativa dell'istogramma è del tutto evidente nel caso particolare che abbiamo considerato; possiamo notare, ad esempio, che gli intervalli centrali, cioè più vicini al punto di mezzo, sono quelli che raccolgono il maggior numero di valori. Ma occorre notare che questa maggiore evidenza è stata pagata con una perdita di informazione: infatti, se disponiamo della sola informazione fornita dall'istogramma, mentre possiamo sapere quanti valori della variabile X cadono in ciascuno degli intervallini, non siamo più in grado di sapere dove essi esattamente cadono! È così chiaro che la maggiore evidenza dell'istogramma viena pagata con una perdita di informazione. Questa osservazione può essere completata riflettendo a quello che accadrebbe se noi prendessimo un passo diverso da quello di 5 cm., che abbiamo fissato a lume di buonsenso. Se noi prendessimo un passo di 20 cm otterremmo un istogramma che distrugge quasi completamente l'informazione contenuta nella nostra tabella; se invece prendessimo, ad esempio, un passo di 1 cm otterremmo un istogramma certamente più preciso, cioè più vicino alla distribuzione esatta assegnata, ma del tutto inespressivo, perché ancora troppo ricco di nformazioni insignificanti e ingombranti. Si noterà che nella definizione dell'istogramma abbiamo preso l'area dei rettangoli che sovrastano gli intervalli proporzionale alla frequenze; sarebbe stato equivalente, nel nostro caso, assumere, in luogo dell'area, l'altezza come grandezza proporzionale alle frequenze; tuttavia, assumendo l'area come grandezza rappresentativa, i vari istogrammi che si possono tracciare prendendo intervalli di diverse ampiezze rimangono confrontabili fra loro, mentre, assumendo l'altezza, la coerenza fra le varie rappresentazioni va perduta. Il lettore può convincersene riprendendo l'esempio appena svolto e rielaborandolo nei due diversi modi.

PAGE

Analogamente, per ciascuna variabile, viene così definita la varianza:

(9)

In modo analogo si definisce la covarianza fra due variabili X (^) k , Xi :

2- La retta di regressione

Riprendiamo il caso di due variabili: X, Y. Può accadere ,che, pur mancando un legame "deterministico" fra X ed Y, si possa sospettare che vi sia un legame "statistico" fra le due variabili, che non sia molto discosto da una legge lineare. Naturalmente, può accadere che si congetturi, nel fenomeno che si sta studiando, la presenza una legge lineare perturbata dai procedimenti di misura che portano errori sui dati rilevati, oppure si può ritenere che il fenomeno non abbia alla sua radice una relazione lineare, ma che, tuttavia, sia ugualmente conveniente approssimare il legame fra X ed Y con una legge lineare in cui X abbia il ruolo di variabile indipendente. Si tratta comunque di scegliere fra le infinite rette

y = ax + b (10)

quella che meglio approssima la nostra distribuzione. Ma qual è il criterio in base a cui si stabilisce questa bontà di approssimazione? Si assume come criterio, anche per ragioni di mera comodità, quello dei minimi quadrati che risale a Gauss. La strategia di questo metodo è molto semplice: se esistesse una retta del tipo (10) tale da contenere tutti i punti della distribuzione si avrebbe, per ogni elemento i della nostra popolazione

yi - axi – b =

Poiché, in generale, le cose non stanno così, misureremo lo scostamento della coppia ( xi , yi ) dalla retta per mezzo del numero

(y (^) i – axi –b) 2

(Siamo già abituati ad assumere l'elevamento al quadrato come tipica operazione di "raddrizzamento" ...). Ciò premesso, il numero

rappresenterà lo scostamento quadratico medio dalla generica retta (10). A questo punto è ormai prevedibile l'operazione finale: si sceglierà la retta (cioè, in concreto, i coefficienti a e b ) in modo che lo scostamento medio sia il più piccolo possibile. Consideriamo dunque la funzione (11) PAGE

e cerchiamo di metterla in forma più espressiva. Sviluppando nella (11) il quadrato del trinomio si ha:

Mettiamo in una forma più espressiva l’eguaglianza precedente, dimostrando che valgono le relazioni:

Infatti:

Ora, indicando con rispettivamente, le varianze di X e di Y , si ha :

A questo punto si può dimostrare che, se è (cioè se i punti non hanno tutti la medesima ascissa) si ha

Non esponiamo i dettagli della dimostrazione; ci limitiamo ad osservare che, preso un numero positivo arbitrario M, l'equazione , nel piano delle variabili a, b, rappresenta un'ellisse, e la relazione rappresenta l'insieme dei punti esterni all'ellisse. ( Ricordiamo la definizione di limite in due variabili:

e gli intorni di sono del tipo ). Dal corollario del Teorema di Weiestrass sappiamo che esiste un punto di minimo per. In questo punto si annullano le derivate parziali ; ma possiamo constatare che esiste un solo punto in cui si annullano le derivate parziali. Infatti si ottiene il sistema lineare:

PAGE

0,2652 0,005 15,21 x=ay+b 0,1932 0,001 47,61 a b 0,4802 0,010 24,01 0,00756023 1, 0,1312 0,001 16, 0,0472 0,000 34, 0,0142 0,000 50, 1,0062 0,006 166, 0,5178 0,005096 68,

Osserviamo che le due rette di regresione avranno la stssa pendenza se e solo se le varianze delle due variabili sono uguali (vedi 1° formula delle (15)), inoltre le due rette coincideranno se oltre ad avere le varianze uguali hanno anche gli stessi valori medi. 3- Varianza e distanza

Per costruire la retta di regressione nel piano X, Y non abbiamo avuto bisogno della distanza del piano; ci sono bastate le distanze prese lungo l'asse X e lungo l'asse Y. (In termini matematici, il problema che abbiamo considerato era un problema affine e non metrico ). Ci sono invece dei casi in cui ci si può servire utilmente della distanza che è definita nello spazio R n^ su cui si rappresentano le variabili; ma c'è un problema preliminare: quello della scelta delle unità di misura per le singole variabili. Infatti, variando le unità di misura delle singole variabili, la descrizione generale delle relazioni fra le variabili può risultare del tutto alterata. Supponiamo, ad esempio, che un paleontologo, esamini vari reperti umani, rilevando la lunghezza del femore, la larghezza del cranio, la larghezza di un fissato dente molare. È evidente che, se tutte le misure sono prese in centimetri, l'influenza delle misure dei denti, che sono espresse da numeri piuttosto piccoli, sarà molto scarsa: come se la relativa variabile venisse soppressa. Al contrario, l'influenza delle misure del femore sarà accentuata. Può essere allora un'idea buona quella di prendere unità di misura diverse: cioè assumere unità di misura più piccole per misurare le grandezze che, in media, sono più piccole. Ma questa soluzione "di buonsenso" non ha una base razionale sufficientemente chiara. Un'idea migliore è quella di prendere come unità di misura lo scarto quadratico di ciascuna variabile. In tal modo le variabili si dicono standardizzate; sarà poi

PAGE

opportuno prendere come origine per ciascuna variabile il valor medio; così otterremo varabili centrate, cioè con valor medio nullo. Pertanto, dette X 1 ,X 2 ,... ,Xn le variabili originarie, otterremo nuove variabili standardizzate e centrate Z 1 , Z 2 ,... , Z (^) n così definite:

(16)

A questo punto prendiamo i valori di Z 1 , Z 2 ,…, Z (^) n come coordinate di un punto dello spazio R n ; così le variabili Z 1 , Z 2 ,…, Zn si possono identificare con la base canonica di R n^ e diventa ragionevole utilizzare la consueta distanza di R n : questa distanza può essere utilizzata per mettere in evidenza il grado di maggiore o minore affinità fra specie biologiche, o per decidere a quale specie, o a quale gruppo, si deve attribuire un individuo di cui sono noti alcuni caratteri. Che cosa accade se calcoliamo la covarianza tra le variabili standardizzate? Occorre tenere presente che le variabili Z (^) k sono già centrate; pertanto la covarianza fra Zk e Zl risulta espressa dalla seguente formula:

(17)

(con oppure ). Il numero r (^) kl viene detto coefficiente di correlazione fra le variabili X (^) k ed X (^) l; esso è uguale ad 1 per k = l; ( infatti si ha ) inoltre, si ha comunque:

Questa disuguaglianza è una semplice conseguenza della disuguaglianza di Cauchy. Infatti, dalla (17) si ricava:

Si chiama matrice di correlazione la matrice ; pertanto, la matrice di correlazione è una matrice simmetrica, con elementi compresi fra -1 ed 1, e con gli elementi della diagonale principale tutti uguali ad 1 (infatti per k=l è essendo le variabili standardizzate).

Riservandoci di vedere al prossimo paragrafo un importante impiego della matrice di correlazione, presentiamo ora un interessante esempio in cui si possono trarre importanti informazioni dal solo esame della distanza euclidea nello spazio delle variabili standardizzate. L'esempio (tratto da: B.F.J.Manly Multivariate Statistical Methods; Chapman and Hall 1986) riguarda una ricerca condotta in Thailandia, in cui sono stati esaminati reperti ossei di canidi preistorici e di canidi attuali. Lo scopo era di vedere se il cane di epoca preistorica (circa 3500 anni A.C.) è da considerarsi "vicino" al cane attuale tipico di quella regione o, eventualmente, più vicino ad altri canidi. Sona perciò stati esaminati i seguenti esemplari:

PAGE

Var.

 - 0,21 0,99 -0,11 0,00 -5,44 -2, - -0,89 0,09 -0,41 -0,20 0,16 3, - -0,19 -0,41 -2,41 -0,40 -1,94 -4,

(X 1 -) 2 (X 2 -) 2 (X 3 -)^2 (X 4 -)^2 (X 5 -)^2 (X 6 -) - 0,62 2,00 4,47 0,64 5,03 10, - 5,69 33,81 10,33 2,25 15,55 46, - 9,09 22,90 27,94 4,41 58,63 70, - 1,03 3,19 8,91 0,64 33,14 24, - 0,05 0,97 0,01 0,00 29,62 4, - 0,78 0,01 0,17 0,04 0,02 11, - 0,03 0,17 5,83 0,16 3,77 21,
S.q.m. 1,57 3,00 2,87 1,08 4,56 5, - Z 1 Z 2 Z 3 Z 4 Z 5 Z Standar. - -0,50 -0,47 -0,74 -0,74 -0,49 -0, - -1,52 -1,94 -1,12 -1,39 -0,86 -1, - 1,92 1,59 1,84 1,95 1,68 1, - 0,65 0,60 1,04 0,74 1,26 0, - 0,14 0,33 -0,04 0,00 -1,19 -0, - -0,56 0,03 -0,14 -0,19 0,03 0, - -0,12 -0,14 -0,84 -0,37 -0,43 -0,

Distanza tra i vari tipi (distanza euclidea)

Cane mod. Sciac. Dor.

Lupo cinese

Lupo ind.

Cuone Dingo

Cane mod.

Sciac. Dor.

Lupo cinese

Lupo ind. 3,65 5,47 2,31 0 Cuone 1,62 3,45 4,94 3,14 0 Dingo 1,67 3,44 4,55 2,37 1,80 0 Cane preist.

Come si vede la più piccola delle distanze fra i vari gruppi è quella che separa il cane preistorico dal cane attuale. Se si fa l’ipotesi che le differenze tra i vari caratteri aumentino col tempo, deduciamo che la differenziazione del cane da altri gruppi di canidi sia iniziata in epoca assai anteriore all’epoca preistorica a cui la ricerca si riferisce, proprio perché la distanza del cane moderno dagli altri gruppi di canidi è maggiore rispetto alla distanza dal cane preistorico.

4 – il Metodo dei Componenti Principali

In certi casi un’indagine statistica coinvolge un numero elevato di variabili, di cui però non è detto che tutte siano significative per il problema che interessa. Si può desiderare di operare con un numero minore di variabili che però contengano le informazioni interessanti. Un aspetto importante è che queste nuove variabili possono essere, in qualche modo, costruite a partire da quelle originarie mediante combinazioni lineari di queste. Partiamo da n variabili statistiche X 1 , X 2 , … , Xn e quindi dalle corrispondenti variabili standardizzate Z 1 , Z 2 ,…, Zn :

Var.Stat.che X 1 X 2... Xn

PAGE