























































Studia grazie alle numerose risorse presenti su Docsity
Guadagna punti aiutando altri studenti oppure acquistali con un piano Premium
Prepara i tuoi esami
Studia grazie alle numerose risorse presenti su Docsity
Prepara i tuoi esami con i documenti condivisi da studenti come te su Docsity
Trova i documenti specifici per gli esami della tua università
Preparati con lezioni e prove svolte basate sui programmi universitari!
Rispondi a reali domande d’esame e scopri la tua preparazione
Riassumi i tuoi documenti, fagli domande, convertili in quiz e mappe concettuali
Studia con prove svolte, tesine e consigli utili
Togliti ogni dubbio leggendo le risposte alle domande fatte da altri studenti come te
Esplora i documenti più scaricati per gli argomenti di studio più popolari
Ottieni i punti per scaricare
Guadagna punti aiutando altri studenti oppure acquistali con un piano Premium
Secondo parziale statistica UNICATT
Tipologia: Schemi e mappe concettuali
1 / 63
Questa pagina non è visibile nell’anteprima
Non perderti parti importanti!
























































Abbiamo visto precedentemente: lo studio dei caratteri qualitativi - > tabella a doppia entrata (di contingenza) per
visualizzare la connessione attraverso il chi quadrato (vari tipi di dipendenza).
Ciò che è stato visto in precedenza può essere problematico quando si visualizza un carattere quantitativo - > la tabella
non sempre va bene in questo caso (se sono presenti tanti numeri diversi la tabella a doppia entrata può risultare difficile
da usare).
È necessario superare il principio di usare sempre e solo una tabella per studiare la relazione tra dati quantitativi - > in
altre parole lo studio della dipendenza tra caratteri, come y possa dipendere da x, diventa complicato in questo caso.
In sintesi in questa seconda parte del corso andremo a costruire dei modelli e a misurare se questi modelli che la teoria
economica suggerisce funzionano bene o meno.
Regressione in media
caratteri quantitativi – ad esempio credito aggregato e consumo aggregato
data una v.s. doppia (X,Y) ci si propone di descrivere al meglio l’andamento di Y al variare di X (o viceversa)
per fare questo si cercano dei:
modelli teorici del tipo y* = g(x)
metto l’asterisco sulla y poiché la relazione non vale in modo esatto ma in modo approssimato per fornire una
previsione di y - > per ottenere y è necessario tenere conto della presenza di errori di approssimazioni.
Questi modelli teorici approssimano al meglio le osservazioni (𝑥 𝑖
𝑗
𝑗
𝑖
𝑗
𝑗
Per identificare g(x):
1) interpolazione matematica : curva analitica 2) interpolazione statistica :
che passa esattamente PER i punti dati curva analitica che passa TRA i punti dati
La soluzione 1) NON è possibile vista l’alta In questo caso considero il margine di
numerosità dei punti nelle indagini statistiche errore - > esso è la distanza che c’è tra il “vero”
In altre parole questa tipo di soluzione non punto e la funzione che uso per approssimare i
permette di leggere bene la complessità dei dati dati
in questo caso, in altre parole si cerca di
approssimare
Scrivere l’equazione di una funzione che passa esattamente per tutti i punti che si considerano nella analisi statistica è
sicuramente più giusto - > questo modo è però più costoso; è difficile trovare ciò.
Usare quindi una interpolazione di tipo statistica permette quindi di approssimare bene i dati. Certo questa
approssimazione non sarà esatta , ma si può rinunciare all’esattezza per poter costruire una funzione che in qualche
modo comprenda tutti i dati analizzati (matematicamente impossibile).
Inoltre rappresentare i dati attraverso una funzione che approssima i dati, tenendo conto di un margine di errore,
permette di fare previsioni e poi di sapere che cosa succede dopo (cosa che invece non si può fare con la funzione
matematica in quanto questa si riferisce strettamente ai sui valori)
Modello di regressione = modello matematico che cerca di determinare la relazione tra una variabile dipendente (Y),
rispetto ad altre variabili, dette esplicative o indipendenti (X).
Abbiamo due tipi di modelli di regressione
❑ regressione in media (modello poco usato)
❑ regressione ai minimi quadrati ordinari (modello più usato in assoluto)
Per poter costruire le nostre funzioni di regressioni è necessario costruire una serie di basi:
associate ad una V.S. DOPPIA (variabile composta da x e y - > ogni individuo è individuato con una coppia di
osservazioni - > ex. Reddito e consumo) ci sono le variabili univariate
dato x
Con h e k numero di modalità assunte rispettivamente da y e da x (tutti i valori possibili di x e di y) - >
quando queste sono molte, metterle in tabella diventa complicato
Per queste variabili statistiche condizionate e marginali posso calcolare le medie e/o le varianze condizionate/marginali :
𝑥
𝑖
𝑖.
𝑖
Somma di tutte le x possibili ponderate per quante sono le osservazioni per ogni x, diviso n
𝑦
𝑖
.𝑗
𝑗
Somma di tutte le y possibili ponderate per quante sono le osservazioni per ogni y, diviso n
𝑋
2
𝑥
2
] = ∑
𝑖
𝑥
2
𝑖.
𝑖
𝑌
2
𝑦
2
𝑖
𝑦
2
.𝑗
𝑗
La varianza marginale è la media di quanto le x prese una volta scartano dalla loro media generale.
Operativamente la somma delle x meno la media alla seconda ponderate per la frequenza assoluta diviso n
totale.
(idem per y)
indagine di mercato sulle vendite di 25 prodotti
X = prezzo Y = domanda
𝑥
𝑦
𝑋
2
𝑌
2
Si tratta di variabili statistiche aventi come:
𝑖
𝑦
𝑖
𝑗
𝑖𝑗
𝑖.
𝑗
𝑖
𝑥
𝑗
𝑖
𝑖𝑗
.𝑗
𝑖
l nostro proposito è quello di costruire modelli del tipo - > y*=g(x)
Quando si parla di interpolazione statistica si vuole trovare un modello che legga y in funzione di x anche quando la
relazione non è esatta, ossia quando la funzione non predice perfettamente i valori di y in funzione di x ma la previsione
è fatta a meno di un margine di errore.
𝑗
𝑗 ⏟
𝑚𝑎𝑟𝑔𝑖𝑛𝑒 𝑑′𝑒𝑟𝑟𝑜𝑟𝑒
Il margine di errore è la premessa per costruire la funzione g(x) - > in modo tale da minimizzare una funzione di perdita
ossia fare in modo che la funzione perda meno informazioni possibili nel mappare y funzione di x - > in altre parole
ancora la funzione deve rendere il più piccolo possibile la distanza dei punti (x e y - > punti veri) dalla curva/funzione che
li approssima.
Questo lo posso fare trovando g(x) in modo tale che, per tutti i punti , a media quadratica delle distanze tra 𝑦 𝑗
sia
la più piccola possibile
𝑗
𝑗
2
→ 𝑙𝑎 𝑝𝑖ù 𝑝𝑖𝑐𝑐𝑜𝑙𝑎 𝑝𝑜𝑠𝑠𝑖𝑏𝑖𝑙𝑒
Pensando alle proprietà della media e della varianza – la formula che è stata ottenuta somiglia molto alla
varianza – sarebbe stata esattamente la varianza se si aggiungesse la media delle osservazioni y (𝜇
𝑦
Dalle proprietà della di minimo della media aritmetica sappiamo inoltre che 𝜇 𝑦
è il valore che rende minimo 𝑀(𝑦 − 𝑎)
2
in
cui 𝜇 𝑦
= 𝑎. Tuttavia ciò che si sta cercando è proprio un valore 𝑔(𝑥) che renda minima 𝑀(𝑦 − 𝑔(𝑥))
2
Allora forse le due quantità sono legate e quindi 𝑀(𝑦 − 𝑔(𝑥))
2
sarà minimizzata da 𝜇
𝑦
Quindi la soluzione ottimale che minimizza la funzione 𝑀(𝑦 − 𝑔(𝑥))
2
(di perdita) è al contempo una media ma una
media 𝜇 𝑦
che sia funzione delle X - > se è una funzione delle x allora è una media condizionata – ovvero la media delle
y calcolata al variare delle x – o ancora la media di tutte le y in funzione di un particolare valore di x.
𝑖
𝑦
𝑖
∗
𝑗
𝑖𝑗
𝑖.
𝑗
*è la 𝑔
che soddisfa la relazione di minimizzazione.
Presa la media delle y dato 𝑥 1
2
3
dato 𝑥 ℎ
la funzione ottimale che minimizza è una spezzata che unisce le medie condizionate.
Il modello migliore possibile e immaginabile in teoria per predire y in funzione di x è questo , ossia quello rappresentato
da una spezzata che unisce le medie condizionate di y dato z che si chiama anche FUNZIONE DI REGRESSIONE O
Questo modello di fatto è poco usato poiché difficile da usare - > ma è il migliore possibile - > è bene conoscerlo
poiché tutti i modelli più semplici che studieremo vengono creati per confrontarli con questo. (se il modello
creato è poco peggio di questo è un buon modello e viceversa)
Riassumendo:
FUNZIONE DI REGRESSIONE = la funzione di regressione è una funzione g(x) che
in xi assume il valore della media condizionata.
detta anche spezzata di regressione
misura il legame in media tra le 2 variabili
funzione che passa per le medie condizionate ma tra i dati
Sia dato un collettivo di n=6 osservazioni riepilogate nella tabella sottostante:
Vogliamo creare una funzione che approssima il più possibile il valore di y in funzione di x.
C’è dipendenza tra y e x? Si – poiché abbiamo gli 0. Inoltre possiamo notare che x è bassa le y tendono a distribuirsi sui
valori minori di y - > e allo stesso modo quando x è alta le y tendono a distribuirsi tra i valori maggiori di y.
Al crescere delle x le y tendono ad essere sempre più grandi – se x cresce y cresce.
La funzione g(x) (che minimizza gli scarti alla seconda) che meglio approssima i dati è la spezzata che passa per le
medie condizionate di y dato x:
costruita al variare delle x (delle variabili che possono avere diversi valori… 1 2 3) come nel seguente modo:
𝑦 𝑗
∙ 𝑛 𝑖𝑗
𝑛 𝑖.
𝑘
𝑗= 1
1 ∙ 1 + 3 ∙ 1 + 6 ∙ 0
2
4
2
𝑦 𝑗
∙ 𝑛 𝑖𝑗
𝑛 𝑖.
𝑘
𝑗= 1
1 ∙ 0 + 3 ∙ 1 + 6 ∙ 0
1
3
1
𝑦 𝑗
∙ 𝑛 𝑖𝑗
𝑛 𝑖.
𝑘
𝑗= 1
1 ∙ 0 + 3 ∙ 1 + 6 ∙ 2
3
15
3
Quindi:
Questa è la nostra funzione di regressione; la posso rappresentare graficamente nel seguente modo:
La retta in rosso - > g(x) funzione di regressione
Quello rappresentato è un buon modello? È il modello migliore che si può avere ma non è detto che sia un buon modello
questo poiché i dati potrebbero essere non dipendenti tra loro o con un livello di dipendenza talmente piccolo che la
relazione c’è poco.
Come è possibile capire se un modello è un buon modello o un cattivo modello? Quando i punti in rosso sono il più
vicino possibile a quelli blu il modello è sempre più buono - > in un mondo migliore possibile i punti blu sono coincidenti
con quelli blu (a questo punto non si ha più una interpolazione statistica ma una interpolazione matematica).
Come è possibile vedere se i punti rossi sono sufficientemente vicini a quelli rossi? Ossia quando è possibile vedere che
il modello performa bene?
Fare la media delle varianze condizionate (media delle varianze delle mie y date le mie x) vuol dire fare la varianza
within :
𝑦
2
𝑖
𝑦
2
𝑗
𝑘
𝑗= 1
Nell’esempio precedente:
𝑦
2
𝑦
2
𝑦
2
Quante sono le osservazioni che hanno generato ciascuna le mie varianze di y? Le osservazioni che hanno generato
ciascuna le mie varianze di y sono: 2 hanno generato la varianza di y uguale a 1, 1 ha generato la varianza di y uguale a
0 e 3 hanno generato la varianza di y uguale a 2.
Se le cose stanno in questi termini si avrà che la media delle varianze di y condizionatamente alle x 𝑀[𝜎 𝑦
2
𝑖
)] sarà:
𝑦
2
𝑖
Tuttavia non siamo in grado di leggere il valore 1,333 se non per il fatto che è un numero diverso da 0, ovvero dal caso
in cui la media delle varianze condizionate (varianza entro i gruppi – gruppi definiti dalle x) - > varianza within – è pari a
zero, mostrando così nessuna dispersione attorno ai punti.
Un modello perfetto sarebbe un modello privo di varianza attorno alle medie condizionate:
Ciò accade quando:
𝑦
2
𝑖
𝑖
Se il modello è perfetto vuol dire che predice perfettamente y=g(x).
Se 𝑀[𝜎 𝑦
2
𝑖
)] ≠ 0 siamo in una situazione di presenza di dispersione dei punti y dalle medie condizionate ma non siamo
in grado di leggere se tale dispersione sia elevata o no perché manca un termine di paragone che ci permetta di
dire se questa varianza within sia un numero grande o piccolo.
Ciò accade quando: 𝜎 𝑦
2
𝑖
) ≠ 0 - > Modello predice y in funzione di x in modo approssimato
La bontà di adattamento del modello ai dati va valutata in modo relativo rispetto alla variabilità complessiva del
fenomeno ovvero rispetto alla varianza totale delle y.
Tuttavia ci è noto che varianza within e varianza (totale) di y sono legati da un teorema, detto:
TEOREMA DI SCOMPOSIZIONE DELLA VARIANZA (II versione)
Dato un set di dati la varianza totale delle y può essere scomposta in varianza between (varianza tra i gruppi) e una
seconda componente detta varianza within (varianza dentro i gruppi)
gruppi dalla media totale di tutti i gruppi) - > è calcolata come la varianza delle medie condizionate di y dato x
𝑦
2
𝐵𝐸𝑇𝑊𝐸𝐸𝑁
2
𝑊𝐼𝑇𝐻𝐼𝑁
2
𝑦
2
Possiamo anche riformulare il teorema di scomposizione nel seguente modo:
𝑦
2
2
𝑡𝑜𝑡𝑎𝑙𝑒 = varianza spiegata dal modello + varianza residua
(si valuta come varia il livello (o non spiegata dal modello)
medio di y al cambiare di x)
Più è grande 𝜎 𝐵
2
tra i gruppi più si spiega bene perché la varianza condizionata sale e scende.
Più la 𝜎 𝑊
2
è piccola più questo sali e scendi della varianza condizionata ci sei vicino senza errore.
Data come costante la varianza di Y: se si nota che al crescere di x sale la y vuol dire che x ha un effetto su y.
Come si sintetizza? Prendo le x con lo stesso valore e calcolo 𝜇 𝑦
effetto medio di x su y
Più i punti blu sono lontani più il modello è meno preciso… allora:
Il modello descrive bene la variabilità dei dati se 𝜎 𝑊
2
è piccola e grande la 𝜎
𝐵
2
2
è ciò che voglio descrivere con il modello, la 𝜎
𝐵
(porre buono il modello) varianza spiegata/riprodotta dal modello
perché il mio modello spiega bene la varianza quanto riproduce la variabilità dei dati alla variazione delle medie
condizionate di y, il modello riproduce la variabilità di y spiegata dalle varianze m
Quello che della varianza totale dei dati non è riprodotta dal modello della variazione delle medie condizionate è
catturato dalla media delle varianze residue
𝑾𝑰𝑻𝑯𝑰𝑵
𝟐
𝑩𝑬𝑻𝑾𝑬𝑬𝑵
𝟐
𝒚
𝟐
Pertanto è possibile costruire un indicatore detto RAPPORTO DI CORRELAZIONE 𝜼 𝒚|𝒙
𝟐
che è semplicemente dato dal
rapporto della varianza between rispetto alla varianza totale (a sua volta calcolata come la somma di varianza between e
within)
𝑦|𝑥
2
𝐵𝐸𝑇𝑊𝐸𝐸𝑁
2
𝑦
2
𝑦
2
𝑦
2
𝑦
2 ∗
𝑦
2
Tenendo conto che 𝜎 𝑦
2
𝑦
2
𝑦
2 ∗
residua (within)
RAPPORTO DI CORRELAZIONE = indice di adattamento della funzione di regressione
Indice normalizzato - > 0 ≤ 𝜂 𝑌
2
Casi particolari:
𝑌
2
= 0 - > INDIPENDENZA IN MEDIA di Y da X
𝑌
2
= 1 - > DIPENDENZA FUNZIONALE di Y da X
Dall’esempio di prima:
Per calcolare 𝜂 𝑦|𝑥
2
devo calcolare la varianza between - > partendo dalle medie condizionate precedenti calcolo 𝜎̅
𝑦
2
Premessa di ciò è il calcolo di 𝜇 𝑦
UGUALI TRA LORO E DI UN CARATTERE è UGUALE A
MARGINALE sono quindi uguali anche le medie, le mediane e le mode
L’indipendenza stocastica (𝜒
2
= 0 ) implica l’indipendenza in media (𝜂
𝑦|𝑥
2
= 0 ) ma non necessariamente il viceversa.
Ovvero se si ha un valore di 𝜂 𝑦|𝑥
2
= 0 (quindi si è di fronte ad una indipendenza in media) non è detto che ci si trovi di
fronte ad una indipendenza stocastica (𝜒
2
Si può asserire che:
2
𝑦|𝑥
2
2
𝑦|𝑥
2
Abbiamo detto che:
Indip. STOCASTICA Indip. IN MEDIA ( non è vero il viceversa )
Hp. Condizione di fattorizzazione: 𝑛 𝑖𝑗
𝑛 𝑖.
𝑛 .𝑗
𝑛
𝑌
𝑖
𝑗
𝑖𝑗
𝑖.
𝑗
𝑖.
.𝑗
𝑖.
𝑌
𝑗 𝑗
𝑌
2
𝑋
𝑗
𝑖
𝑖𝑗
.𝑗
𝑖
𝑖.
.𝑗
.𝑗
𝑋
𝑖 𝑗
𝑋
2
QUINDI. Sostituendo alle medie condizionate di y|x e in particolare sostituendo alle frequenze congiunte il prodotto delle
marginali diviso n - > ottengo che la media di y condizionatamente a x (ossia la media di y calcolata nel solo sottogruppo
di osservazioni determinate dalla variabile x) è uguale alla media di x (senza il condizionamento)
Ciò vuol dire che: al variare della variabile x la media di y non cambia e resta sempre costante - > in altre parole: se
sei indipendente stocasticamente lo sarai anche in media.
N.B. Se c’è indipendenza stocastica c’è indipendenza in media sia di X dato Y che di Y dato X (𝜂 𝑌
2
𝑋
2
Perché non vale il viceversa?
L’indipendenza stocastica è un concetto simmetrico - > x è indipendente da y come y è indipendente da x.
L’indipendenza in media non è un concetto simmetrico - > si hanno due indicatori: 𝜂
𝑦|𝑥
2
e 𝜂
𝑥|𝑦
2
se in questo caso c’è indipendenza stocastica, per entrambi gli indicatori ci sarà indipendenza in
media.. ma è possibile avere indipendenza in media senza avere necessariamente l’intendenza stocastica (si può avere
uno solo dei due indicatori uguale a 0 - > quindi le variabili non sono indipendenti)
DIPENDENZA FUNZIONALE (di Y da X)
I dati coincidono con le medie , 𝑦 𝑗
𝑌
𝑖
), quindi le varianze condizionate sono nulle e anche la var. residua è nulla:
𝑌
2
𝑖
𝑗
𝑌
𝑖
2
𝑗
𝑖𝑗
𝑖.
𝑌
2
𝑖
𝑖
𝑖.
𝑌
2
𝑗
𝑌
𝑖
NB non c’è alcuna traccia di una varianza within (varianza residua) è uguale a zero – c’è solo varianza between
(varianza spiegata).. (non ci sono punti sparsi)
DIPENDENZA FUNZIONALE (di X da Y)
I dati coincidono con le medie , 𝑥 𝑖
𝑋
𝑗
), quindi le varianze condizionate sono nulle e anche la var. residua è nulla:
𝑋
2
𝑗
𝑖
𝑋
𝑗
2
𝑖
𝑖𝑗
.𝑗
𝑋
2
𝑖
𝑗
𝑖.
𝑋
2
𝑖
𝑋
𝑗
NB non c’è alcuna traccia di una varianza within - > è uguale a zero – c’è solo varianza between.. non ci sono punti
sparsi)
Y è funzione di x - > ma non vale il viceversa.. infatti X non è
funzione di y (per ogni y appartiene più di una x)
Ciò vuol dire che: 𝜂
𝑌
2
= 1 ma 𝜂
𝑋
2
C’è dipendenza funzionale di y da x ma non viceversa!
Quando però vado a vedere la dipendenza in media trovo che:
𝑌
2
= 1 ma 𝜂
𝑋
2
Ossia: C’È VARIANZA WITHIN delle y dato x ma non
il contrario
Y è funzione di x - > vale anche il viceversa - > X è funzione
di y
(per ogni y appartiene una sola x e per ogni x appartiene
una sola y) - > insieme delle immagini
perfetta dipendenza funzionale biunivoca
NON C’E’ VARIANZA WITHIN ne delle y in funzione di x ne delle x in funzione di y!!!
Poiché sia l’indipendenza in media
Sono non simmetriche:
𝑌
2
𝑋
2
Ad eccezione di casi particolari….
le medie condizionate sono:
Essendo le medie condizionate uguali possiamo dire che:
Ricapitolando: le frequenze congiunte sia per x=0 che per x=1 sono proporzionali - > le frequenze condizionate di
colonna sono identiche - > se le frequenze di x|y=0 e x|y=1 sono identiche anche le medie di queste sono
identiche.
MEDIA - > eta quadro di x dato y ugulale a 0
Ciò che cosa significa? Se M[x|y=0]=M[x|y=1]=0 - > la varianza between (varianza tra le medie condizionate) che ci dice
quanto le media condizionate di Y variano dalla media di x totale ponderata per le osservazioni è uguale a 0
Infatti:
Nb: DEVE VALERE ANCHE IL VICEVERSA
le medie condizionate sono:
La varianza between (varianza delle medie condizionate) sarà:
Facendo ciò ho appena dimostrato che in una distribuzione dove chi^2 normalizzato è zero vale che eta^2 è 0:
Dopo aver parlato di relazione tra dipendenza/indipendenza stocastica e dipendenza in media torniamo alla nostra
funzione di regressione.
Il miglior modello possibile è il modello che approssima Y con le medie condizionate di Y|x
∗
Ho dei punti.. che sono le mie medie condizionate.. ma posso avere anche una approssimazione (E = distanza dei punti
dalla mia media condizionata di y dato x) e quindi la spezzata di regressione che congiunge i punti approssima i dati
È possibile approssimare i punti critici della media condizionata di y al variare di x con una - > curva polinomiale che
passi per i punti
In altre parole… per poter scrivere con una funzione parsimoniosa (tutto in una riga) l’approssimazione di y come
funzione di x è possibile far passare un polinomio per le buone approssimazioni date dalle M[y|x] al variare di x.
Posson approssimare y* con un polinomio di grado h-1 ove h è il numero dei punti :
𝑌
𝑖
𝑜
1
2
2
ℎ− 1
ℎ− 1
Che UNISCE LE MEDIE senza discontinuità.
Una volta stabilito il grado del polinomio bisogna trovarne i coefficienti (i valori di a0, a1, …, ah-1)
Applico le tecniche di interpolazione: passaggio per le h medie sistema di h equazioni
𝑌
1
𝑜
1
1
2
1
2
ℎ− 1
ℎ− 1
𝑌
ℎ
𝑜
1
ℎ
2
ℎ
2
ℎ− 1
ℎ− 1
NB se i dati sono 10/100 diventa difficile usare questo tipo di modello
Modello che approssima in modo perfetto le medie condizionate
Esempio numerico…
Per le tre medie trovate – è possibile far passare attraverso i tre punti una parabola - > approssimo con un polinomio di
grado 2
In generale il polinomio è di grado h- 1
Il modello che si ottiene unendo le medie condizionate è il modello che massimizza la varianza spiegata () rispetto alla
varianza totale → modello scomodo perché non riusciamo a scriverlo ma rimane comunque modello benchmark di
confronto con gli altri.
Un modo per rendere la funzione di regressione più gestibile è quello di adottare una funzione polinomiale che passi per
i valori delle medie condizionate.
Se b>0 - > al crescere di x crescono le y
relazione diretta tra x e y
Se b<0 - > al crescere di x decrescono le y
relazione inversa tra x e y
Tuttavia b non ci da sola la direzione della relazione ma anche la sua intensità.
Ad esempio, un valore di b pari a 3 dice che “per un aumento di una unità nelle x, y cresce di 3 unità”.
Quindi il parametro centrale che fornisce la direzione e l’ intensità della relazione è il coefficiente angolare.
Per determinare la mia relazione approssimata tra le mie variabili.. devo trovare a e b
Tutto quello che è stato detto su a e b vale ovviamente in via approssimata poiché la retta approssima i dati e a meno di
un errore. (di fatti aggiungo alla funzione della retta la E – errore di approssimazione = valore da minimizzare )
𝑖
𝑖
𝑖
𝑖
∗
𝑖
𝑖
𝑖
∗
𝑖
Minimizzare E vuol dire trovare la retta che passa il più possibile vicino ai dati
a e b sono determinati in modo da minimizzare una funzione di perdita che dipende dall’errore.
Funzione di perdita = funzione che da la misura di quanto i punti sono lontani dal mio modello
Una soluzione semplice per evitare che errori positivi e negativi si elidano e per evitare i valori assoluti (con relativi punti
angolosi) è quello di minimizzare la somma degli errori elevati al quadrato (detta anche funzione di perdita
quadratica) .. e poi farne la media.
Si avrà quindi che la funzione di perdita da minimizzare:
𝑖
𝑖
𝑖
∗
𝑖
𝑖
∗
2
𝑖
𝑖
∗
𝑘 2
𝑖= 1
0
1
2
2
𝑟
𝑟
La funzione di perdita 𝐿
La funzione da minimizzare è l’errore quadratico medio , o meglio ancora definito residuo quadratico medio.
In altre parole a e b sono determinati in modo da rendere minima la media dei residui al quadrato :
⟹ (𝑎, 𝑏) = min 𝑀(𝐸
𝑖
2
= arg min
𝑖
2
= arg min
𝑖
𝑖
∗
2
𝑛
𝑖= 1
= arg min
𝑖
𝑖
2
𝑛
𝑖= 1
Per determinare a e b si usano le condizioni del primo ordine che richiedono l’annullamento delle derivate prime parziali
della funzione di perdita rispetto ad a e b.
𝑖
𝑖
𝑛 2
𝑖= 1
𝑥
2
𝑖
𝑖
𝑛 2
𝑖= 1
𝑦
𝑥
La condizioni del secondo ordine sono poi soddisfatte ma non le dimostriamo
) così calcolati secondo stime OLS (=ordinary least square) – stime ottenute con METODO DEI MINIMO QUADRATI
metodo dei minimi quadrati = minimizza la media dei quadrati delle distanze tra i valori osservati e i valori teorici
Riassunto lezione precedente:
Abbiamo analizzato nelle lezioni
precedenti dei modelli più
semplici che vengono utilizzati
quando si deve esprimere la
dipendenza di una variabile Y
da una variabile X.
Il modello polinomiale che
passa per le medie condizionate
è un modello esatto, strutturato
appositamente sui dati che però
ha un limite: è molto difficile da
gestire in presenza di alti numeri
di dati (tante x diverse). Per
questo motivo si cerca di trovare
un polinomio di grado inferiore
rispetto ad H (il numero di modalità diverse di x che vengono osservate).
𝑖
∗
𝑖
Il modello più popolare in questo caso è IL MODELLO DI REGRESSIONE LINEARE – modello che tende a trovare una
relazione tra una variabile y e una variabile x attraverso una retta - > approssimazione che tiene conto del fatto che vi
possa essere un margine di errore.
Come si identifica il modello dati una serie di dati? Attraverso il calcolo dei suoi coefficienti
Come calcolo i miei coefficienti a e b? sono ottenuti in modo da minimizzare la somma degli errori residui alla seconda
diviso n - > METODO DEI MINIMI QUADRATI ORDINARI.
I coefficienti a e b stimati con questo metodo sono i migliori possibili che si possono avere per trovare una retta
approssimata.
Vedi sistema su… unica cosa che ancora non conosciamo è la covarianza!!
Una volta calcolati i parametri del modello ci si potrà interrogare circa la bontà del modello , cioè circa la sua adeguatezza
nella spiegazione dei dati.
Indichiamo con Y* il generico modello polinomiale di riferimento che ipotizziamo essere completo.
Definiamo la v.s. residuo R come
Rappresentazione grafica delle coppie di punti: scatter plot o diagramma a dispersione
NON devo rappresentare la spezzata di regressione!
Ossia la spezzata che passa per le medie condizionate…
(abbiamo detto che questo modello non va bene in
quanto segue troppo i dati ed è difficile da trattare
quando i dati sono troppi)
Ossia la retta blu – retta che passi il più possibile vicino ai
miei punti.
Ho due punti fondamentali di cui tener conto: 𝜇 𝑥
= 4 e 𝜇
𝑦
Si costruisce un asse cartesiano secondario sovrapposto a quello di partenza avente come centro la media delle x e la
media delle y
NB in questo caso la media delle x e delle y appartengono ai nostri punti.. è un caso eccezionale potrebbe anche non
accadere ciò!
Si possono quindi individuare 4 quadranti : il 1° ha semiassi positivi (ossia determina valori positivi degli scarti dalla
media di x e dalla media di y), il 2° ha un semiasse positivo e uno negativo (ossia determina valori positivi degli scarti
dalla media di y ma non da quella di x), il 3° quadrante ha semiassi entrambe negativi e infine il 4° ha un semiasse
negativo e uno positivo.
Andiamo a vedere che cosa accade punto per punto:
dalla media delle y - > coefficiente angolare = 𝑏 = ∆𝑌/∆𝑋 > 0
coefficiente angolare = 𝑏 = ∆𝑌/−∆𝑋 < 0
media delle y - > coefficiente angolare = 𝑏 = −∆𝑌/−∆𝑋 > 0
media delle y - > coefficiente angolare = 𝑏 = −∆𝑌/−∆𝑋 > 0
Vince l’orientamento della retta (inclinazione positiva o negativa) che mediamente può essere 0, può essere + oppure -.
Riassumendo:
1° quadrante : variazioni positive di x sono seguite da variazioni positive di y - > b = positivo - > relazione diretta tra le
variabili – al crescere di x cresce y
2° quadrante : variazioni negative di x sono seguite da variazioni positive y - > b= negativo - > relazione inversa tra x e y -
al crescere di y diminuisce x
3° quadrante : variazioni negative di x sono seguite da variazioni negative di y - > b = positivo - > relazioni diretta tra x e y
4° quadrante : variazioni positive di x sono seguite da variazioni negative di y - > b = negativo - > relazione inversa
Mediamente come sono gli scarti trovati tra di loro?
Possiamo trovare ciò calcolando la COVARIANZA = media del prodotto degli scarti.
Per costruire la covarianza devo calcolare:
𝑥
𝑦
Alcuni punti hanno prodotto degli scarti positivo, altri invece hanno prodotto degli scarti negativo, un altro è neutro (=0).
Nel complesso per vedere se prevale una relazione diretta o inversa tra due variabili:
𝑥
𝑦
𝑛
𝑖= 1
La covarianza ci dà:
NB la covarianza ha un limite/difetto - > non si può attribuire un significato al suo VALORE ma solo al suo SEGNO
(positivo o negativo) - > questo in quanto il suo valore è caratterizzato dal prodotto degli scarti che hanno dalle unità di
misura DIVERSA - di x e di y
Se il SEGNO è:
alle medie 𝜇 𝑥
e 𝜇 𝑦
medie 𝜇
𝑥
e 𝜇
𝑦
In altre parole se c’è una prevalenza di punti nel 1° e nel 3° quadrante la retta che approssima i dati avrà inclinazione
positiva.. invece se si ha una prevalenza di punti nel 2° e nel 4° quadrante la retta che approssima i dati avrà
inclinazione negativa.
La covarianza fornisce informazioni sulla direzione prevalente della relazione tra variabili xi e yi. In particolare:
𝟎 - > RELAZIONE lineare DIRETTA tra x e y
In questo quadrante ogni punto ha scarti dalla media + prodotto + (prevalenza
di scarti positivi - > crescente)
< 𝟎 - > RELAZIONE lineare INVERSA tra x e y
In questo quadrante ogni punto ha scarto dalla media di Y neg. e scarto dalla media di X
pos. prodotto – (prevalenza di scarti negativi - > decrescente)
= 𝟎 - > assenza di RELAZIONE lineare tra x e y
Ciò avviene quando:
si annullano - > non c’è una relazione prevalente - > perfetta neutralità dei
punti
( caso di incorrelazione )
NB se la covarianza è 0 - > NON C’E’ UNA RELAZIONE LINEARE TRA x e y – MA non si esclude la presenza
di una relazione diversa da quella lineare; ovvero non è detto che ci sia INDIPENDENZA STOCASTICA
La COV non consente di leggere l’intensità di una relazione lineare