Scarica Statistica bivariata e più Slide in PDF di Matematica solo su Docsity!
STATISTICA biVARIATA
DEFINIZIONE : la statistica bivariata si occupa di fare rilevazioni contemporaneamente su due diversi caratteri di una
stessa popolazione e analizzare le loro eventuali relazioni
DISTRIBUZIONI CONGIUNTE
Esempio: consideriamo che a 12 ragazzi siano stati assegnati voti in storia e in latino. Possiamo riportare i dati in una
tabella composta
Studente 1 2 3 4 5 6 7 8 9 10 11 12 13 STORIA 6 6 6 6 6 7 8 8 6 6 7 8 7 LATINO 6 7 7 6 6 6 8 6 6 7 7 9 8
DISTRIBUZIONI MARGINALI: sono le distribuzioni che i due caratteri avrebbero se fossero rilevati singolarmente.
Voto in storia Numero alunni 6 9 7 3 8 3 Totale 15 Voto in Latino Numero alunni 6 3 7 7 8 3 9 2 Totale 15
Quando entrambe le modalità sono quantitative si hanno tabelle di correlazione , se sono entrambe qualitative tabelle
di contingenza e se una modalità è qualitativa e l’altra quantitativa tabelle miste.
Delle distribuzioni congiunte e marginali possiamo calcolare le frequenze relative calcolando i rapporti fra le
frequenza assolute rispettivamente congiunte e marginali e il numero complessivo di unità della popolazione.
6 7 8 9 Totale 6^2 15
7^1
8^1
Totale^3 15
INDIPENDENZA E DIPENDENZA
𝒚𝟏 𝒚𝟐 𝒚𝟑 Totale 𝒙𝟏 15 25 20 60 𝒙𝟐 75 125 100 300 𝒙𝟑 60 100 80 240 Totale 150 250 200 600
Y
X
𝒚𝟏 𝒚𝟐 𝒚𝟑 Totale 𝒙𝟏 0,1 0,1 0,1 0, 𝒙𝟐 0,5 0,5 0,5 0, 𝒙𝟑 0,4 0,4 0,4 0, Totale 1 1 1 1
Y
X
FREQUENZE CONGIUNTE FREQUENZE RELATIVE DELLE DISTRIBUZIONI CONDIZIONATE RISPETTO ALLE MODALITÀ DEL CARATTERE Y
Osserviamo che tutte le distribuzioni condizionate presentano la stessa sequenza di frequenze relative. Ciò evidenzia il
fatto che condizionare il carattere X a una qualunque modalità del carattere Y non influisce sulla distribuzione di X e
viceversa. Possiamo perciò dire che i caratteri X e Y sono simmetricamente indipendenti. Se due caratteri non sono
indipendenti, diciamo che sono dipendenti.
INDICE 𝑿
Consideriamo i generi di film preferiti da un gruppo di ragazzi e ragazze
generi sesso Avventura Romantico Storico Totale Maschi 20 5 25 50 Femmine 45 10 15 70 Totale 65 15 40 120
ogni frequenza congiunta si
ottiene moltiplicando il totale della
sua riga per il totale della sua
colonna e dividendo poi il prodotto
per il totale delle osservazioni.
generi sesso Avventura Romantico Storico Totale Maschi (50x65):120= 27,
Femmine 37,93 8,75 23,33 70 Totale 65 15 40 120
INDICE 𝑿
L’indice X
vale 0 in caso di perfetta indipendenza, essendo nulle tutte le contingenze, e cresce al crescere delle
contingenze e del numero di osservazioni. L’indipendenza tra due caratteri, però, non dipende dal numero delle
osservazioni e quindi nemmeno l’indice da utilizzare per valutarla dovrebbe dipenderne. Per questo si utilizza il seguente
indice C, detto 𝐗
normalizzato
C=
2
Numero totale delle
osservazioni
Valore minimo tra numero di
righe e il numero di colonne
Dall’esempio di prima
REGRESSIONE
Consideriamo due variabili x e y, due caratteri quantitativi. Possiamo rappresentare le coppie dei relativi dati in un piano
cartesiano. Otteniamo un diagramma di dispersione o nuvola di punti.
La funzione interpolante y=f (x) permette di rappresentare il legame fra i due caratteri.
La funzione lineare y=ax+b è la più semplice delle possibili funzioni Interpolanti. Fra tutte le funzioni lineari che
passano fra i punti del diagramma di dispersione la migliore è quella che:
- Passa per il punto (𝑥; 𝑦) Detto baricentro,
- Rende nulla la somma delle differenze tra i valori levati 𝑦
, e i valori f(𝑥
- Rende minima la somma dei quadrati delle differenze del punto precedente.
METODO DEI MINIMI QUADRATI
FUNZIONE INTERPOLANTE LINEARE
𝟐 1 3257 - 2 - 610,5 1221 4 2 3478 - 1 - 389.5 389,5 1 3 4023,6 0 156,1 0 0 4 4178 1 310,5 310,5 1 5 4400,8 2 533,3 1066,6 4 15 19337,7 2987,6 10 𝑥=3 𝑦= 3867,
a=
𝟐
il fatturato y aumenta in media 2987,8 migliaia di euro l’anno
FUNZIONE INTERPOLANTE LINEARE
a=
𝟐
Dall’equazione y-𝑦=a(x-𝑥) mi vado a calcolare a
y-3867,54=298,76 (x-3)v
y=298,76x-898,28+3867,
y=298,76x+2969,
Visto che abbiamo considerato il fatturato in 5 anni, l’anno successivo sarà:
y=298,76 6+2969,26=4761,
REGRESSIONE LINEARE
ESEMPIO
La tabella riporta il reddito (x) di 5 dipendenti di un’industrie e le relative spese per le ferie (y)
𝟐 1,2 0,9 - 1,16 - 0,86 0,99 0, 1,7 1,1 - 0,66 - 0,66 0,44 0, 1,82 1,8 - 0,54 0,04 - 0,02 0, 2,56 2,4 0,2 0,64 0,13 0, 3,8 2,6 1,44 0,84 1,2 0, 11,8 8,8 2,74 2, 𝑥=2,36 𝑦=1,
x-2,36=1,19(y-1,79) e calcolando anche y-𝑦=a(x-𝑥), troveremmo che entrambe passano per (2,36; 1,79) ossia
il baricentro
COEFFICIENTE DI REGRESSIONE
Come abbiamo visto:
- il coefficiente di regressione di Y su X, ossia a , indica quanto varia la variabile Y al variare di un’unità X
- Il coefficiente di regressione di X su Y, ossia b , indica quanto varia la variabile X al variare di un’unità Y
Inoltre sono i coefficienti angolari delle rette di regressione (a e
) ed al numeratore e al denominatore hanno
numeri concordi, quindi se sono positivi indicano una retta crescente, mentre se sono negativi, una retta decrescente.
Se:
- a>0 y aumenta all’aumentare di x
- a<0 y diminuisce all’aumentare di x
- a=0 y non dipende da x
CORRELAZIONE
La teoria di della correlazione si occupa di stabilire se fra 2 variabili esiste un legame e in caso affermativo, di
esprimerlo con un numero che misuri come una variabile dipende dall’altra.
COVARIANZA
Date n coppie (𝑥
) di una rivelazione statistica su 2 variabili X e Y, possiamo calcolare le medie di ciascuna
variabile
Ricaviamo poi tutti gli scarti 𝑥
𝑦 dai valori medi di 𝑥 e 𝑦
La covarianza di X e Y è la media dei prodotti degli scarti, ossia la quantità:
𝐼
𝑖 𝐼
La covarianza è utile per studiare il grado di relazione tra due variabili
XY
COVARIANZA
Dati i dati di un’indagine statistica se σ >0 nelle regioni α e δ in cui il diagramma di dispersione è diviso dalle
rette x=𝑥 e y=𝑦, abbiamo più punti che nelle altre due regioni β e γ. Questo significa che all’aumentare di una
variabile, aumenta in media anche l’altra
XY
x=𝑥 y=𝑦 α δ β γ