Docsity
Docsity

Prepara i tuoi esami
Prepara i tuoi esami

Studia grazie alle numerose risorse presenti su Docsity


Ottieni i punti per scaricare
Ottieni i punti per scaricare

Guadagna punti aiutando altri studenti oppure acquistali con un piano Premium


Guide e consigli
Guide e consigli


Statistica bivariata, Slide di Matematica

La definizione di statistica bivariata e l'analisi delle relazioni tra due caratteri di una stessa popolazione. Vengono descritte le distribuzioni congiunte e marginali, le frequenze relative delle distribuzioni condizionate e l'indice X2 normalizzato. Inoltre, viene spiegato il concetto di regressione lineare e il metodo dei minimi quadrati per calcolare la retta interpolante. Sono presenti esempi numerici per illustrare i concetti teorici.

Tipologia: Slide

2021/2022

In vendita dal 07/09/2022

luisa-ponzo
luisa-ponzo 🇮🇹

5

(1)

3 documenti

1 / 26

Toggle sidebar

Questa pagina non è visibile nell’anteprima

Non perderti parti importanti!

bg1
STATISTICA biVARIATA
pf3
pf4
pf5
pf8
pf9
pfa
pfd
pfe
pff
pf12
pf13
pf14
pf15
pf16
pf17
pf18
pf19
pf1a

Anteprima parziale del testo

Scarica Statistica bivariata e più Slide in PDF di Matematica solo su Docsity!

STATISTICA biVARIATA

DEFINIZIONE : la statistica bivariata si occupa di fare rilevazioni contemporaneamente su due diversi caratteri di una

stessa popolazione e analizzare le loro eventuali relazioni

DISTRIBUZIONI CONGIUNTE

Esempio: consideriamo che a 12 ragazzi siano stati assegnati voti in storia e in latino. Possiamo riportare i dati in una

tabella composta

Studente 1 2 3 4 5 6 7 8 9 10 11 12 13 STORIA 6 6 6 6 6 7 8 8 6 6 7 8 7 LATINO 6 7 7 6 6 6 8 6 6 7 7 9 8

DISTRIBUZIONI MARGINALI: sono le distribuzioni che i due caratteri avrebbero se fossero rilevati singolarmente.

Voto in storia Numero alunni 6 9 7 3 8 3 Totale 15 Voto in Latino Numero alunni 6 3 7 7 8 3 9 2 Totale 15

Quando entrambe le modalità sono quantitative si hanno tabelle di correlazione , se sono entrambe qualitative tabelle

di contingenza e se una modalità è qualitativa e l’altra quantitativa tabelle miste.

Delle distribuzioni congiunte e marginali possiamo calcolare le frequenze relative calcolando i rapporti fra le

frequenza assolute rispettivamente congiunte e marginali e il numero complessivo di unità della popolazione.

6 7 8 9 Totale 6^2 15

7^1
8^1

Totale^3 15

INDIPENDENZA E DIPENDENZA

𝒚𝟏 𝒚𝟐 𝒚𝟑 Totale 𝒙𝟏 15 25 20 60 𝒙𝟐 75 125 100 300 𝒙𝟑 60 100 80 240 Totale 150 250 200 600

Y
X

𝒚𝟏 𝒚𝟐 𝒚𝟑 Totale 𝒙𝟏 0,1 0,1 0,1 0, 𝒙𝟐 0,5 0,5 0,5 0, 𝒙𝟑 0,4 0,4 0,4 0, Totale 1 1 1 1

Y
X

FREQUENZE CONGIUNTE FREQUENZE RELATIVE DELLE DISTRIBUZIONI CONDIZIONATE RISPETTO ALLE MODALITÀ DEL CARATTERE Y

Osserviamo che tutte le distribuzioni condizionate presentano la stessa sequenza di frequenze relative. Ciò evidenzia il

fatto che condizionare il carattere X a una qualunque modalità del carattere Y non influisce sulla distribuzione di X e

viceversa. Possiamo perciò dire che i caratteri X e Y sono simmetricamente indipendenti. Se due caratteri non sono

indipendenti, diciamo che sono dipendenti.

INDICE 𝑿

Consideriamo i generi di film preferiti da un gruppo di ragazzi e ragazze

generi sesso Avventura Romantico Storico Totale Maschi 20 5 25 50 Femmine 45 10 15 70 Totale 65 15 40 120

ogni frequenza congiunta si

ottiene moltiplicando il totale della

sua riga per il totale della sua

colonna e dividendo poi il prodotto

per il totale delle osservazioni.

generi sesso Avventura Romantico Storico Totale Maschi (50x65):120= 27,

Femmine 37,93 8,75 23,33 70 Totale 65 15 40 120

INDICE 𝑿

L’indice X

vale 0 in caso di perfetta indipendenza, essendo nulle tutte le contingenze, e cresce al crescere delle

contingenze e del numero di osservazioni. L’indipendenza tra due caratteri, però, non dipende dal numero delle

osservazioni e quindi nemmeno l’indice da utilizzare per valutarla dovrebbe dipenderne. Per questo si utilizza il seguente

indice C, detto 𝐗

normalizzato

C=

2

Numero totale delle

osservazioni

Valore minimo tra numero di

righe e il numero di colonne

Dall’esempio di prima

REGRESSIONE

Consideriamo due variabili x e y, due caratteri quantitativi. Possiamo rappresentare le coppie dei relativi dati in un piano

cartesiano. Otteniamo un diagramma di dispersione o nuvola di punti.

La funzione interpolante y=f (x) permette di rappresentare il legame fra i due caratteri.

La funzione lineare y=ax+b è la più semplice delle possibili funzioni Interpolanti. Fra tutte le funzioni lineari che

passano fra i punti del diagramma di dispersione la migliore è quella che:

  • Passa per il punto (𝑥; 𝑦) Detto baricentro,
  • Rende nulla la somma delle differenze tra i valori levati 𝑦

, e i valori f(𝑥

  • Rende minima la somma dei quadrati delle differenze del punto precedente.

METODO DEI MINIMI QUADRATI

FUNZIONE INTERPOLANTE LINEARE

𝟐 1 3257 - 2 - 610,5 1221 4 2 3478 - 1 - 389.5 389,5 1 3 4023,6 0 156,1 0 0 4 4178 1 310,5 310,5 1 5 4400,8 2 533,3 1066,6 4 15 19337,7 2987,6 10 𝑥=3 𝑦= 3867,

a=

𝟐

il fatturato y aumenta in media 2987,8 migliaia di euro l’anno

FUNZIONE INTERPOLANTE LINEARE

a=

𝟐

Dall’equazione y-𝑦=a(x-𝑥) mi vado a calcolare a

y-3867,54=298,76 (x-3)v

y=298,76x-898,28+3867,

y=298,76x+2969,

Visto che abbiamo considerato il fatturato in 5 anni, l’anno successivo sarà:

y=298,76 6+2969,26=4761,

REGRESSIONE LINEARE

ESEMPIO

La tabella riporta il reddito (x) di 5 dipendenti di un’industrie e le relative spese per le ferie (y)

𝟐 1,2 0,9 - 1,16 - 0,86 0,99 0, 1,7 1,1 - 0,66 - 0,66 0,44 0, 1,82 1,8 - 0,54 0,04 - 0,02 0, 2,56 2,4 0,2 0,64 0,13 0, 3,8 2,6 1,44 0,84 1,2 0, 11,8 8,8 2,74 2, 𝑥=2,36 𝑦=1,

x-2,36=1,19(y-1,79) e calcolando anche y-𝑦=a(x-𝑥), troveremmo che entrambe passano per (2,36; 1,79) ossia

il baricentro

COEFFICIENTE DI REGRESSIONE

Come abbiamo visto:

  • il coefficiente di regressione di Y su X, ossia a , indica quanto varia la variabile Y al variare di un’unità X
  • Il coefficiente di regressione di X su Y, ossia b , indica quanto varia la variabile X al variare di un’unità Y

Inoltre sono i coefficienti angolari delle rette di regressione (a e

) ed al numeratore e al denominatore hanno

numeri concordi, quindi se sono positivi indicano una retta crescente, mentre se sono negativi, una retta decrescente.

Se:

  • a>0 y aumenta all’aumentare di x
  • a<0 y diminuisce all’aumentare di x
  • a=0 y non dipende da x

CORRELAZIONE

La teoria di della correlazione si occupa di stabilire se fra 2 variabili esiste un legame e in caso affermativo, di

esprimerlo con un numero che misuri come una variabile dipende dall’altra.

COVARIANZA

Date n coppie (𝑥

) di una rivelazione statistica su 2 variabili X e Y, possiamo calcolare le medie di ciascuna

variabile

Ricaviamo poi tutti gli scarti 𝑥

𝑦 dai valori medi di 𝑥 e 𝑦

La covarianza di X e Y è la media dei prodotti degli scarti, ossia la quantità:

𝐼

𝑖 𝐼

La covarianza è utile per studiare il grado di relazione tra due variabili

XY

COVARIANZA

Dati i dati di un’indagine statistica se σ >0 nelle regioni α e δ in cui il diagramma di dispersione è diviso dalle

rette x=𝑥 e y=𝑦, abbiamo più punti che nelle altre due regioni β e γ. Questo significa che all’aumentare di una

variabile, aumenta in media anche l’altra

XY

x=𝑥 y=𝑦 α δ β γ