Docsity
Docsity

Prepara i tuoi esami
Prepara i tuoi esami

Studia grazie alle numerose risorse presenti su Docsity


Ottieni i punti per scaricare
Ottieni i punti per scaricare

Guadagna punti aiutando altri studenti oppure acquistali con un piano Premium


Guide e consigli
Guide e consigli


Secondo parziale statistica UNICATT, Schemi e mappe concettuali di Statistica

Secondo parziale statistica UNICATT

Tipologia: Schemi e mappe concettuali

2023/2024

Caricato il 21/08/2025

enrico-casartelli
enrico-casartelli 🇮🇹

4 documenti

1 / 63

Toggle sidebar

Questa pagina non è visibile nell’anteprima

Non perderti parti importanti!

bg1
1
STATISTICA E PROBABILITA’ 2
LEZIONE 7/11
Abbiamo visto precedentemente: lo studio dei caratteri qualitativi -> tabella a doppia entrata (di contingenza) per
visualizzare la connessione attraverso il chi quadrato (vari tipi di dipendenza).
Ciò che è stato visto in precedenza può essere problematico quando si visualizza un carattere quantitativo -> la tabella
non sempre va bene in questo caso (se sono presenti tanti numeri diversi la tabella a doppia entrata può risultare difficile
da usare).
È necessario superare il principio di usare sempre e solo una tabella per studiare la relazione tra dati quantitativi -> in
altre parole lo studio della dipendenza tra caratteri, come y possa dipendere da x, diventa complicato in questo caso.
In sintesi in questa seconda parte del corso andremo a costruire dei modelli e a misurare se questi modelli che la teoria
economica suggerisce funzionano bene o meno.
MODELLI DI REGRESSIONE
Regressione in media
STUDIO DELLA DIPENDENZA TRA CARATTERI QUANTITATIVI
caratteri quantitativi ad esempio credito aggregato e consumo aggregato
data una v.s. doppia (X,Y) ci si propone di descrivere al meglio l’andamento di Y al variare di X (o viceversa)
per fare questo si cercano dei: modelli teorici del tipo y* = g(x)
metto l’asterisco sulla y poiché la relazione non vale in modo esatto ma in modo approssimato per fornire una
previsione di y -> per ottenere y è necessario tenere conto della presenza di errori di approssimazioni.
Questi modelli teorici approssimano al meglio le osservazioni (𝑥𝑖,
𝑦𝑗)
𝑦𝑗 = 𝑔(𝑥𝑖) + 𝑒𝑗
𝑒𝑗 = 𝑒𝑟𝑟𝑜𝑟𝑒 𝑚𝑖𝑠𝑢𝑟𝑎
Per identificare g(x):
1) interpolazione matematica: curva analitica 2) interpolazione statistica:
che passa esattamente PER i punti dati curva analitica che passa TRA i punti dati
La soluzione 1) NON è possibile vista l’alta In questo caso considero il margine di
numerosità dei punti nelle indagini statistiche errore -> esso è la distanza che c’è tra il “vero”
In altre parole questa tipo di soluzione non punto e la funzione che uso per approssimare i
permette di leggere bene la complessità dei dati dati
in questo caso, in altre parole si cerca di
approssimare
Scrivere l’equazione di una funzione che passa esattamente per tutti i punti che si considerano nella analisi statistica è
sicuramente più giusto -> questo modo è però più costoso; è difficile trovare ciò.
Usare quindi una interpolazione di tipo statistica permette quindi di approssimare bene i dati. Certo questa
approssimazione non sarà esatta, ma si può rinunciare all’esattezza per poter costruire una funzione che in qualche
modo comprenda tutti i dati analizzati (matematicamente impossibile).
Inoltre rappresentare i dati attraverso una funzione che approssima i dati, tenendo conto di un margine di errore,
permette di fare previsioni e poi di sapere che cosa succede dopo (cosa che invece non si può fare con la funzione
matematica in quanto questa si riferisce strettamente ai sui valori)
INTERPOLAZIONE STATISTICA = REGRESSIONE
Modello di regressione = modello matematico che cerca di determinare la relazione tra una variabile dipendente (Y),
rispetto ad altre variabili, dette esplicative o indipendenti (X).
Abbiamo due tipi di modelli di regressione
regressione in media (modello poco usato)
regressione ai minimi quadrati ordinari (modello più usato in assoluto)
Per poter costruire le nostre funzioni di regressioni è necessario costruire una serie di basi:
pf3
pf4
pf5
pf8
pf9
pfa
pfd
pfe
pff
pf12
pf13
pf14
pf15
pf16
pf17
pf18
pf19
pf1a
pf1b
pf1c
pf1d
pf1e
pf1f
pf20
pf21
pf22
pf23
pf24
pf25
pf26
pf27
pf28
pf29
pf2a
pf2b
pf2c
pf2d
pf2e
pf2f
pf30
pf31
pf32
pf33
pf34
pf35
pf36
pf37
pf38
pf39
pf3a
pf3b
pf3c
pf3d
pf3e
pf3f

Anteprima parziale del testo

Scarica Secondo parziale statistica UNICATT e più Schemi e mappe concettuali in PDF di Statistica solo su Docsity!

STATISTICA E PROBABILITA’ 2

LEZIONE 7/

Abbiamo visto precedentemente: lo studio dei caratteri qualitativi - > tabella a doppia entrata (di contingenza) per

visualizzare la connessione attraverso il chi quadrato (vari tipi di dipendenza).

Ciò che è stato visto in precedenza può essere problematico quando si visualizza un carattere quantitativo - > la tabella

non sempre va bene in questo caso (se sono presenti tanti numeri diversi la tabella a doppia entrata può risultare difficile

da usare).

È necessario superare il principio di usare sempre e solo una tabella per studiare la relazione tra dati quantitativi - > in

altre parole lo studio della dipendenza tra caratteri, come y possa dipendere da x, diventa complicato in questo caso.

In sintesi in questa seconda parte del corso andremo a costruire dei modelli e a misurare se questi modelli che la teoria

economica suggerisce funzionano bene o meno.

MODELLI DI REGRESSIONE

Regressione in media

STUDIO DELLA DIPENDENZA TRA CARATTERI QUANTITATIVI

caratteri quantitativi – ad esempio credito aggregato e consumo aggregato

data una v.s. doppia (X,Y) ci si propone di descrivere al meglio l’andamento di Y al variare di X (o viceversa)

per fare questo si cercano dei:

modelli teorici del tipo y* = g(x)

metto l’asterisco sulla y poiché la relazione non vale in modo esatto ma in modo approssimato per fornire una

previsione di y - > per ottenere y è necessario tenere conto della presenza di errori di approssimazioni.

Questi modelli teorici approssimano al meglio le osservazioni (𝑥 𝑖

𝑗

𝑗

𝑖

𝑗

𝑗

Per identificare g(x):

1) interpolazione matematica : curva analitica 2) interpolazione statistica :

che passa esattamente PER i punti dati curva analitica che passa TRA i punti dati

La soluzione 1) NON è possibile vista l’alta In questo caso considero il margine di

numerosità dei punti nelle indagini statistiche errore - > esso è la distanza che c’è tra il “vero”

In altre parole questa tipo di soluzione non punto e la funzione che uso per approssimare i

permette di leggere bene la complessità dei dati dati

in questo caso, in altre parole si cerca di

approssimare

Scrivere l’equazione di una funzione che passa esattamente per tutti i punti che si considerano nella analisi statistica è

sicuramente più giusto - > questo modo è però più costoso; è difficile trovare ciò.

Usare quindi una interpolazione di tipo statistica permette quindi di approssimare bene i dati. Certo questa

approssimazione non sarà esatta , ma si può rinunciare all’esattezza per poter costruire una funzione che in qualche

modo comprenda tutti i dati analizzati (matematicamente impossibile).

Inoltre rappresentare i dati attraverso una funzione che approssima i dati, tenendo conto di un margine di errore,

permette di fare previsioni e poi di sapere che cosa succede dopo (cosa che invece non si può fare con la funzione

matematica in quanto questa si riferisce strettamente ai sui valori)

INTERPOLAZIONE STATISTICA = REGRESSIONE

Modello di regressione = modello matematico che cerca di determinare la relazione tra una variabile dipendente (Y),

rispetto ad altre variabili, dette esplicative o indipendenti (X).

Abbiamo due tipi di modelli di regressione

regressione in media (modello poco usato)

regressione ai minimi quadrati ordinari (modello più usato in assoluto)

Per poter costruire le nostre funzioni di regressioni è necessario costruire una serie di basi:

MEDIE E VARIANZE MARGINALI E CONDIZIONATE

associate ad una V.S. DOPPIA (variabile composta da x e y - > ogni individuo è individuato con una coppia di

osservazioni - > ex. Reddito e consumo) ci sono le variabili univariate

  • 2 v.s. marginali (X o Y) - > valori di x e di y senza riferimento a y e a x
  • (h+k) v.s. condizionate (X|yj o Y|xi) - > h o k variabili statistiche condizionate – che si ottengono da x dato y o da y

dato x

Con h e k numero di modalità assunte rispettivamente da y e da x (tutti i valori possibili di x e di y) - >

quando queste sono molte, metterle in tabella diventa complicato

Per queste variabili statistiche condizionate e marginali posso calcolare le medie e/o le varianze condizionate/marginali :

MARGINALI CONDIZIONATE

  • 2 medie marginali - 2 v.s. medie condizionate
  • 2 varianze marginali - 2 v.s. varianze condizionate

➢ MEDIE E VARIANZE MARGINALI

- MEDIE MARGINALI

𝑥

𝑖

𝑖.

𝑖

Somma di tutte le x possibili ponderate per quante sono le osservazioni per ogni x, diviso n

𝑦

𝑖

.𝑗

𝑗

Somma di tutte le y possibili ponderate per quante sono le osservazioni per ogni y, diviso n

- VARIANZE MARGINALI

𝑋

2

[(

𝑥

2

] = ∑

𝑖

𝑥

2

𝑖.

𝑖

𝑌

2

= 𝑀 [(𝑌 − 𝜇

𝑦

2

] = ∑ (𝑦

𝑖

𝑦

2

.𝑗

𝑗

La varianza marginale è la media di quanto le x prese una volta scartano dalla loro media generale.

Operativamente la somma delle x meno la media alla seconda ponderate per la frequenza assoluta diviso n

totale.

(idem per y)

ESEMPIO

indagine di mercato sulle vendite di 25 prodotti

X = prezzo Y = domanda

𝑥

𝑦

𝑋

2

𝑌

2

➢ V.S. MEDIE CONDIZIONATE

Si tratta di variabili statistiche aventi come:

  • MODALITA’ le medie condizionate (o di Y|x o di X|y)

𝑖

𝑦

𝑖

𝑗

𝑖𝑗

𝑖.

𝑗

𝑖

𝑥

𝑗

𝑖

𝑖𝑗

.𝑗

𝑖

  • FREQUENZA le frequenze marginali della v.s. condizionante

ESEMPIO

LEZIONE 8/

l nostro proposito è quello di costruire modelli del tipo - > y*=g(x)

Quando si parla di interpolazione statistica si vuole trovare un modello che legga y in funzione di x anche quando la

relazione non è esatta, ossia quando la funzione non predice perfettamente i valori di y in funzione di x ma la previsione

è fatta a meno di un margine di errore.

𝑗

𝑗 ⏟

𝑚𝑎𝑟𝑔𝑖𝑛𝑒 𝑑′𝑒𝑟𝑟𝑜𝑟𝑒

Il margine di errore è la premessa per costruire la funzione g(x) - > in modo tale da minimizzare una funzione di perdita

  • ossia fare in modo che la funzione perda meno informazioni possibili nel mappare y funzione di x - > in altre parole

ancora la funzione deve rendere il più piccolo possibile la distanza dei punti (x e y - > punti veri) dalla curva/funzione che

li approssima.

Questo lo posso fare trovando g(x) in modo tale che, per tutti i punti , a media quadratica delle distanze tra 𝑦 𝑗

sia

la più piccola possibile

𝑗

𝑗

2

→ 𝑙𝑎 𝑝𝑖ù 𝑝𝑖𝑐𝑐𝑜𝑙𝑎 𝑝𝑜𝑠𝑠𝑖𝑏𝑖𝑙𝑒

Pensando alle proprietà della media e della varianza – la formula che è stata ottenuta somiglia molto alla

varianza – sarebbe stata esattamente la varianza se si aggiungesse la media delle osservazioni y (𝜇

𝑦

Dalle proprietà della di minimo della media aritmetica sappiamo inoltre che 𝜇 𝑦

è il valore che rende minimo 𝑀(𝑦 − 𝑎)

2

in

cui 𝜇 𝑦

= 𝑎. Tuttavia ciò che si sta cercando è proprio un valore 𝑔(𝑥) che renda minima 𝑀(𝑦 − 𝑔(𝑥))

2

Allora forse le due quantità sono legate e quindi 𝑀(𝑦 − 𝑔(𝑥))

2

sarà minimizzata da 𝜇

𝑦

Quindi la soluzione ottimale che minimizza la funzione 𝑀(𝑦 − 𝑔(𝑥))

2

(di perdita) è al contempo una media ma una

media 𝜇 𝑦

che sia funzione delle X - > se è una funzione delle x allora è una media condizionata – ovvero la media delle

y calcolata al variare delle x o ancora la media di tutte le y in funzione di un particolare valore di x.

𝑖

𝑦

𝑖

𝑗

𝑖𝑗

𝑖.

𝑗

*è la 𝑔

che soddisfa la relazione di minimizzazione.

Presa la media delle y dato 𝑥 1

  • presa la media delle y dato 𝑥

2

  • presa la media delle y dato 𝑥

3

  • presa la media delle y

dato 𝑥 ℎ

  • la funzione ottimale che minimizza è una spezzata che unisce le medie condizionate.

Il modello migliore possibile e immaginabile in teoria per predire y in funzione di x è questo , ossia quello rappresentato

da una spezzata che unisce le medie condizionate di y dato z che si chiama anche FUNZIONE DI REGRESSIONE O

SPEZZATA DI REGRESSIONE.

Questo modello di fatto è poco usato poiché difficile da usare - > ma è il migliore possibile - > è bene conoscerlo

poiché tutti i modelli più semplici che studieremo vengono creati per confrontarli con questo. (se il modello

creato è poco peggio di questo è un buon modello e viceversa)

Riassumendo:

FUNZIONE DI REGRESSIONE = la funzione di regressione è una funzione g(x) che

in xi assume il valore della media condizionata.

 detta anche spezzata di regressione

 misura il legame in media tra le 2 variabili

 funzione che passa per le medie condizionate ma tra i dati

ESEMPIO NUMERICO

Sia dato un collettivo di n=6 osservazioni riepilogate nella tabella sottostante:

Y\X 1 2 3

Vogliamo creare una funzione che approssima il più possibile il valore di y in funzione di x.

C’è dipendenza tra y e x? Si – poiché abbiamo gli 0. Inoltre possiamo notare che x è bassa le y tendono a distribuirsi sui

valori minori di y - > e allo stesso modo quando x è alta le y tendono a distribuirsi tra i valori maggiori di y.

Al crescere delle x le y tendono ad essere sempre più grandi – se x cresce y cresce.

La funzione g(x) (che minimizza gli scarti alla seconda) che meglio approssima i dati è la spezzata che passa per le

medie condizionate di y dato x:

𝑔(𝑥) = 𝑀[𝑦|𝑥]

costruita al variare delle x (delle variabili che possono avere diversi valori… 1 2 3) come nel seguente modo:

𝑦 𝑗

∙ 𝑛 𝑖𝑗

𝑛 𝑖.

𝑘

𝑗= 1

1 ∙ 1 + 3 ∙ 1 + 6 ∙ 0

2

4

2

𝑦 𝑗

∙ 𝑛 𝑖𝑗

𝑛 𝑖.

𝑘

𝑗= 1

1 ∙ 0 + 3 ∙ 1 + 6 ∙ 0

1

3

1

𝑦 𝑗

∙ 𝑛 𝑖𝑗

𝑛 𝑖.

𝑘

𝑗= 1

1 ∙ 0 + 3 ∙ 1 + 6 ∙ 2

3

15

3

Quindi:

Questa è la nostra funzione di regressione; la posso rappresentare graficamente nel seguente modo:

La retta in rosso - > g(x) funzione di regressione

Quello rappresentato è un buon modello? È il modello migliore che si può avere ma non è detto che sia un buon modello

  • questo poiché i dati potrebbero essere non dipendenti tra loro o con un livello di dipendenza talmente piccolo che la

relazione c’è poco.

Come è possibile capire se un modello è un buon modello o un cattivo modello? Quando i punti in rosso sono il più

vicino possibile a quelli blu il modello è sempre più buono - > in un mondo migliore possibile i punti blu sono coincidenti

con quelli blu (a questo punto non si ha più una interpolazione statistica ma una interpolazione matematica).

Come è possibile vedere se i punti rossi sono sufficientemente vicini a quelli rossi? Ossia quando è possibile vedere che

il modello performa bene?

Fare la media delle varianze condizionate (media delle varianze delle mie y date le mie x) vuol dire fare la varianza

within :

𝑀[𝑉[𝑦|𝑥]] = 𝑀[𝜎

𝑦

2

𝑖

)] =

𝑦

2

𝑗

𝑘

𝑗= 1

Nell’esempio precedente:

𝑦

2

𝑦

2

𝑦

2

Quante sono le osservazioni che hanno generato ciascuna le mie varianze di y? Le osservazioni che hanno generato

ciascuna le mie varianze di y sono: 2 hanno generato la varianza di y uguale a 1, 1 ha generato la varianza di y uguale a

0 e 3 hanno generato la varianza di y uguale a 2.

Se le cose stanno in questi termini si avrà che la media delle varianze di y condizionatamente alle x 𝑀[𝜎 𝑦

2

𝑖

)] sarà:

𝑀[𝜎

𝑦

2

𝑖

)] =

Tuttavia non siamo in grado di leggere il valore 1,333 se non per il fatto che è un numero diverso da 0, ovvero dal caso

in cui la media delle varianze condizionate (varianza entro i gruppi – gruppi definiti dalle x) - > varianza within – è pari a

zero, mostrando così nessuna dispersione attorno ai punti.

DUE CASI :

VARIANZA WITHIN UGUALE A ZERO

Un modello perfetto sarebbe un modello privo di varianza attorno alle medie condizionate:

Ciò accade quando:

𝑦

2

𝑖

𝑖

Se il modello è perfetto vuol dire che predice perfettamente y=g(x).

VARIANZA WITHIN DIVERSA DA ZERO

Se 𝑀[𝜎 𝑦

2

𝑖

)] ≠ 0 siamo in una situazione di presenza di dispersione dei punti y dalle medie condizionate ma non siamo

in grado di leggere se tale dispersione sia elevata o no perché manca un termine di paragone che ci permetta di

dire se questa varianza within sia un numero grande o piccolo.

Ciò accade quando: 𝜎 𝑦

2

𝑖

) ≠ 0 - > Modello predice y in funzione di x in modo approssimato

La bontà di adattamento del modello ai dati va valutata in modo relativo rispetto alla variabilità complessiva del

fenomeno ovvero rispetto alla varianza totale delle y.

Tuttavia ci è noto che varianza within e varianza (totale) di y sono legati da un teorema, detto:

TEOREMA DI SCOMPOSIZIONE DELLA VARIANZA (II versione)

Dato un set di dati la varianza totale delle y può essere scomposta in varianza between (varianza tra i gruppi) e una

seconda componente detta varianza within (varianza dentro i gruppi)

  • VARIANZA TOTALE DI Y quanto mediamente scartano le y dalla media delle osservazioni
  • VARIANZA WITHIN calcolata come media tra le varianze condizionate
  • VARIANZA BETWEEN quanto scartano mediamente le medie condizionate dalla media generale (media dei

gruppi dalla media totale di tutti i gruppi) - > è calcolata come la varianza delle medie condizionate di y dato x

𝑦

2

𝐵𝐸𝑇𝑊𝐸𝐸𝑁

2

𝑊𝐼𝑇𝐻𝐼𝑁

2

𝑦

2

= 𝑉[𝑀

[

]

] + 𝑀[𝑉[𝑦|𝑥]]

Possiamo anche riformulare il teorema di scomposizione nel seguente modo:

𝑀[𝑦 − 𝜇

𝑦

]

2

= 𝑉[𝑀[𝑦|𝑥]] + 𝑀[𝑉[𝑦|𝑥]]

2

𝑡𝑜𝑡𝑎𝑙𝑒 = varianza spiegata dal modello + varianza residua

(si valuta come varia il livello (o non spiegata dal modello)

medio di y al cambiare di x)

Più è grande 𝜎 𝐵

2

tra i gruppi più si spiega bene perché la varianza condizionata sale e scende.

Più la 𝜎 𝑊

2

è piccola più questo sali e scendi della varianza condizionata ci sei vicino senza errore.

Data come costante la varianza di Y: se si nota che al crescere di x sale la y vuol dire che x ha un effetto su y.

Come si sintetizza? Prendo le x con lo stesso valore e calcolo 𝜇 𝑦

  • effetto medio di x su y

Più i punti blu sono lontani più il modello è meno preciso… allora:

Il modello descrive bene la variabilità dei dati se 𝜎 𝑊

2

è piccola e grande la 𝜎

𝐵

2

2

è ciò che voglio descrivere con il modello, la 𝜎

𝐵

(porre buono il modello) varianza spiegata/riprodotta dal modello

perché il mio modello spiega bene la varianza quanto riproduce la variabilità dei dati alla variazione delle medie

condizionate di y, il modello riproduce la variabilità di y spiegata dalle varianze m

Quello che della varianza totale dei dati non è riprodotta dal modello della variazione delle medie condizionate è

catturato dalla media delle varianze residue

UN MODELLO E’ TANTO PIU’ PERFORMANTE QUANTO PIU’ PICCOLA E’ 𝝈

𝑾𝑰𝑻𝑯𝑰𝑵

𝟐

E GRANDE 𝝈

𝑩𝑬𝑻𝑾𝑬𝑬𝑵

𝟐

RISPETTO ALLA 𝝈

𝒚

𝟐

Pertanto è possibile costruire un indicatore detto RAPPORTO DI CORRELAZIONE 𝜼 𝒚|𝒙

𝟐

che è semplicemente dato dal

rapporto della varianza between rispetto alla varianza totale (a sua volta calcolata come la somma di varianza between e

within)

𝑦|𝑥

2

𝐵𝐸𝑇𝑊𝐸𝐸𝑁

2

𝑦

2

𝑦

2

𝑦

2

𝑦

2 ∗

𝑦

2

Tenendo conto che 𝜎 𝑦

2

𝑦

2

𝑦

2 ∗

  • notazione per indicare variazione totale = variazione spiegata (between) + varianza

residua (within)

RAPPORTO DI CORRELAZIONE = indice di adattamento della funzione di regressione

Indice normalizzato - > 0 ≤ 𝜂 𝑌

2

Casi particolari:

𝑌

2

= 0 - > INDIPENDENZA IN MEDIA di Y da X

𝑌

2

= 1 - > DIPENDENZA FUNZIONALE di Y da X

ESEMPIO NUMERICO :

Dall’esempio di prima:

Per calcolare 𝜂 𝑦|𝑥

2

devo calcolare la varianza between - > partendo dalle medie condizionate precedenti calcolo 𝜎̅

𝑦

2

Premessa di ciò è il calcolo di 𝜇 𝑦

MEDIE CONDIZIONATE LE DISTRIBUZIONI DI FREQUENZE RELATIVE DELLE

VARIABILI CONDIZIONATE

UGUALI TRA LORO E DI UN CARATTERE è UGUALE A

UGUALI ALLA MEDIA QUELLA DI UN ALTRO CARATTERE

MARGINALE sono quindi uguali anche le medie, le mediane e le mode

L’indipendenza stocastica (𝜒

2

= 0 ) implica l’indipendenza in media (𝜂

𝑦|𝑥

2

= 0 ) ma non necessariamente il viceversa.

Ovvero se si ha un valore di 𝜂 𝑦|𝑥

2

= 0 (quindi si è di fronte ad una indipendenza in media) non è detto che ci si trovi di

fronte ad una indipendenza stocastica (𝜒

2

Si può asserire che:

INDIPENDENZA STOCASTICA 𝜒

2

= 0 ⟹ INDIPENDENZA IN MEDIA 𝜂

𝑦|𝑥

2

INDIPENDENZA STOCASTICA 𝜒

2

= 0 ⟸ INDIPENDENZA IN MEDIA 𝜂

𝑦|𝑥

2

ESEMPIO

LEZIONE 14/

RELAZIONE TRA INDIPENDEZA STOCASTICA E IN MEDIA

Abbiamo detto che:

Indip. STOCASTICA  Indip. IN MEDIA ( non è vero il viceversa )

DIMOSTRAZIONE

Hp. Condizione di fattorizzazione: 𝑛 𝑖𝑗

𝑛 𝑖.

𝑛 .𝑗

𝑛

𝑌

𝑖

𝑗

𝑖𝑗

𝑖.

𝑗

𝑖.

.𝑗

𝑖.

𝑌

𝑗 𝑗

𝑌

2

𝑋

𝑗

𝑖

𝑖𝑗

.𝑗

𝑖

𝑖.

.𝑗

.𝑗

𝑋

𝑖 𝑗

𝑋

2

QUINDI. Sostituendo alle medie condizionate di y|x e in particolare sostituendo alle frequenze congiunte il prodotto delle

marginali diviso n - > ottengo che la media di y condizionatamente a x (ossia la media di y calcolata nel solo sottogruppo

di osservazioni determinate dalla variabile x) è uguale alla media di x (senza il condizionamento)

Ciò vuol dire che: al variare della variabile x la media di y non cambia e resta sempre costante - > in altre parole: se

sei indipendente stocasticamente lo sarai anche in media.

N.B. Se c’è indipendenza stocastica c’è indipendenza in media sia di X dato Y che di Y dato X (𝜂 𝑌

2

𝑋

2

Perché non vale il viceversa?

L’indipendenza stocastica è un concetto simmetrico - > x è indipendente da y come y è indipendente da x.

L’indipendenza in media non è un concetto simmetrico - > si hanno due indicatori: 𝜂

𝑦|𝑥

2

e 𝜂

𝑥|𝑦

2

se in questo caso c’è indipendenza stocastica, per entrambi gli indicatori ci sarà indipendenza in

media.. ma è possibile avere indipendenza in media senza avere necessariamente l’intendenza stocastica (si può avere

uno solo dei due indicatori uguale a 0 - > quindi le variabili non sono indipendenti)

DIPENDENZA FUNZIONALE (di Y da X)

DF: AD OGNI X CORRISPONDE UNA E UNA SOLA Y

I dati coincidono con le medie , 𝑦 𝑗

𝑌

𝑖

),  quindi le varianze condizionate sono nulle e anche la var. residua è nulla:

𝑌

2

𝑖

𝑗

𝑌

𝑖

2

𝑗

𝑖𝑗

𝑖.

𝑌

2

𝑖

𝑖

𝑖.

𝑌

2

  • la funzione di regressione diventa l’interpolante dei dati: 𝑦

𝑗

𝑌

𝑖

NB non c’è alcuna traccia di una varianza within (varianza residua) è uguale a zero – c’è solo varianza between

(varianza spiegata).. (non ci sono punti sparsi)

DIPENDENZA FUNZIONALE (di X da Y)

DF: AD OGNI Y CORRISPONDE UNA E UNA SOLA X

I dati coincidono con le medie , 𝑥 𝑖

𝑋

𝑗

),  quindi le varianze condizionate sono nulle e anche la var. residua è nulla:

𝑋

2

𝑗

𝑖

𝑋

𝑗

2

𝑖

𝑖𝑗

.𝑗

𝑋

2

𝑖

𝑗

𝑖.

𝑋

2

  • la funzione di regressione diventa l’interpolante dei dati: 𝑥

𝑖

𝑋

𝑗

NB non c’è alcuna traccia di una varianza within - > è uguale a zero – c’è solo varianza between.. non ci sono punti

sparsi)

ESEMPIO

Y è funzione di x - > ma non vale il viceversa.. infatti X non è

funzione di y (per ogni y appartiene più di una x)

Ciò vuol dire che: 𝜂

𝑌

2

= 1 ma 𝜂

𝑋

2

C’è dipendenza funzionale di y da x ma non viceversa!

Quando però vado a vedere la dipendenza in media trovo che:

𝑌

2

= 1 ma 𝜂

𝑋

2

Ossia: C’È VARIANZA WITHIN delle y dato x ma non

il contrario

Y è funzione di x - > vale anche il viceversa - > X è funzione

di y

(per ogni y appartiene una sola x e per ogni x appartiene

una sola y) - > insieme delle immagini

perfetta dipendenza funzionale biunivoca

NON C’E’ VARIANZA WITHIN ne delle y in funzione di x ne delle x in funzione di y!!!

OSSERVAZIONE

Poiché sia l’indipendenza in media

Sono non simmetriche:

𝑌

2

𝑋

2

Ad eccezione di casi particolari….

  • Nei casi limite

le medie condizionate sono:

Essendo le medie condizionate uguali possiamo dire che:

Ricapitolando: le frequenze congiunte sia per x=0 che per x=1 sono proporzionali - > le frequenze condizionate di

colonna sono identiche - > se le frequenze di x|y=0 e x|y=1 sono identiche anche le medie di queste sono

identiche.

SE SEI STOCASTICAMENTE INDIPENDENTE - > HAI LA STESSA DISTRIBUZIONE - > HAI LA STESSA

MEDIA - > eta quadro di x dato y ugulale a 0

Ciò che cosa significa? Se M[x|y=0]=M[x|y=1]=0 - > la varianza between (varianza tra le medie condizionate) che ci dice

quanto le media condizionate di Y variano dalla media di x totale ponderata per le osservazioni è uguale a 0

Infatti:

Nb: DEVE VALERE ANCHE IL VICEVERSA

le medie condizionate sono:

La varianza between (varianza delle medie condizionate) sarà:

Facendo ciò ho appena dimostrato che in una distribuzione dove chi^2 normalizzato è zero vale che eta^2 è 0:

ESPRESSIONE ANALITICA DELLA FUNZIONE DI REGRESSIONE

Dopo aver parlato di relazione tra dipendenza/indipendenza stocastica e dipendenza in media torniamo alla nostra

funzione di regressione.

Il miglior modello possibile è il modello che approssima Y con le medie condizionate di Y|x

[

]

[

]

Ho dei punti.. che sono le mie medie condizionate.. ma posso avere anche una approssimazione (E = distanza dei punti

dalla mia media condizionata di y dato x) e quindi la spezzata di regressione che congiunge i punti approssima i dati

È possibile approssimare i punti critici della media condizionata di y al variare di x con una - > curva polinomiale che

passi per i punti

In altre parole… per poter scrivere con una funzione parsimoniosa (tutto in una riga) l’approssimazione di y come

funzione di x è possibile far passare un polinomio per le buone approssimazioni date dalle M[y|x] al variare di x.

Posson approssimare y* con un polinomio di grado h-1 ove h è il numero dei punti :

𝑌

𝑖

𝑜

1

2

2

ℎ− 1

ℎ− 1

Che UNISCE LE MEDIE senza discontinuità.

Una volta stabilito il grado del polinomio bisogna trovarne i coefficienti (i valori di a0, a1, …, ah-1)

Applico le tecniche di interpolazione: passaggio per le h mediesistema di h equazioni

𝑌

1

𝑜

1

1

2

1

2

ℎ− 1

ℎ− 1

𝑌

𝑜

1

2

2

ℎ− 1

ℎ− 1

NB se i dati sono 10/100 diventa difficile usare questo tipo di modello

Modello che approssima in modo perfetto le medie condizionate

Esempio numerico…

Per le tre medie trovate – è possibile far passare attraverso i tre punti una parabola - > approssimo con un polinomio di

grado 2

In generale il polinomio è di grado h- 1

LEZIONE 15/

Il modello che si ottiene unendo le medie condizionate è il modello che massimizza la varianza spiegata () rispetto alla

varianza totale → modello scomodo perché non riusciamo a scriverlo ma rimane comunque modello benchmark di

confronto con gli altri.

Un modo per rendere la funzione di regressione più gestibile è quello di adottare una funzione polinomiale che passi per

i valori delle medie condizionate.

Se b>0 - > al crescere di x crescono le y

  • relazione diretta tra x e y

Se b<0 - > al crescere di x decrescono le y

  • relazione inversa tra x e y

Tuttavia b non ci da sola la direzione della relazione ma anche la sua intensità.

Ad esempio, un valore di b pari a 3 dice che “per un aumento di una unità nelle x, y cresce di 3 unità”.

  • 3 unità di y pari a un +1 di xi

Quindi il parametro centrale che fornisce la direzione e l’ intensità della relazione è il coefficiente angolare.

Per determinare la mia relazione approssimata tra le mie variabili.. devo trovare a e b

Tutto quello che è stato detto su a e b vale ovviamente in via approssimata poiché la retta approssima i dati e a meno di

un errore. (di fatti aggiungo alla funzione della retta la E – errore di approssimazione = valore da minimizzare )

𝑖

𝑖

𝑖

𝑖

𝑖

𝑖

𝑖

𝑖

Minimizzare E vuol dire trovare la retta che passa il più possibile vicino ai dati

a e b sono determinati in modo da minimizzare una funzione di perdita che dipende dall’errore.

Funzione di perdita = funzione che da la misura di quanto i punti sono lontani dal mio modello

Una soluzione semplice per evitare che errori positivi e negativi si elidano e per evitare i valori assoluti (con relativi punti

angolosi) è quello di minimizzare la somma degli errori elevati al quadrato (detta anche funzione di perdita

quadratica) .. e poi farne la media.

Si avrà quindi che la funzione di perdita da minimizzare:

𝑖

𝑖

𝑖

) = 𝑀[(𝑦

𝑖

𝑖

2

] =

𝑖

𝑖

𝑘 2

𝑖= 1

= 𝑀[(𝑌 − 𝑎

0

1

2

2

𝑟

𝑟

)]

La funzione di perdita 𝐿

La funzione da minimizzare è l’errore quadratico medio , o meglio ancora definito residuo quadratico medio.

In altre parole a e b sono determinati in modo da rendere minima la media dei residui al quadrato :

⟹ (𝑎, 𝑏) = min 𝑀(𝐸

𝑖

2

= arg min

𝑖

2

= arg min

𝑖

𝑖

2

𝑛

𝑖= 1

= arg min

𝑖

𝑖

2

𝑛

𝑖= 1

Per determinare a e b si usano le condizioni del primo ordine che richiedono l’annullamento delle derivate prime parziali

della funzione di perdita rispetto ad a e b.

𝑖

𝑖

𝑛 2

𝑖= 1

𝑥

2

𝑖

𝑖

𝑛 2

𝑖= 1

𝑦

𝑥

La condizioni del secondo ordine sono poi soddisfatte ma non le dimostriamo

) così calcolati secondo stime OLS (=ordinary least square) – stime ottenute con METODO DEI MINIMO QUADRATI

ORDINARI

metodo dei minimi quadrati = minimizza la media dei quadrati delle distanze tra i valori osservati e i valori teorici

ESEMPI

LEZIONE 18/

Riassunto lezione precedente:

Abbiamo analizzato nelle lezioni

precedenti dei modelli più

semplici che vengono utilizzati

quando si deve esprimere la

dipendenza di una variabile Y

da una variabile X.

Il modello polinomiale che

passa per le medie condizionate

è un modello esatto, strutturato

appositamente sui dati che però

ha un limite: è molto difficile da

gestire in presenza di alti numeri

di dati (tante x diverse). Per

questo motivo si cerca di trovare

un polinomio di grado inferiore

rispetto ad H (il numero di modalità diverse di x che vengono osservate).

𝑖

𝑖

Il modello più popolare in questo caso è IL MODELLO DI REGRESSIONE LINEARE – modello che tende a trovare una

relazione tra una variabile y e una variabile x attraverso una retta - > approssimazione che tiene conto del fatto che vi

possa essere un margine di errore.

Come si identifica il modello dati una serie di dati? Attraverso il calcolo dei suoi coefficienti

Come calcolo i miei coefficienti a e b? sono ottenuti in modo da minimizzare la somma degli errori residui alla seconda

diviso n - > METODO DEI MINIMI QUADRATI ORDINARI.

I coefficienti a e b stimati con questo metodo sono i migliori possibili che si possono avere per trovare una retta

approssimata.

Vedi sistema su… unica cosa che ancora non conosciamo è la covarianza!!

BONTA’ ED ADEGUATEZZA DEL MODELLO

Una volta calcolati i parametri del modello ci si potrà interrogare circa la bontà del modello , cioè circa la sua adeguatezza

nella spiegazione dei dati.

Indichiamo con Y* il generico modello polinomiale di riferimento che ipotizziamo essere completo.

Definiamo la v.s. residuo R come

R = Y – Y * - > DIFFERENZA TRA IL VERO VALORE E QUELLO PREVISTO

Rappresentazione grafica delle coppie di punti: scatter plot o diagramma a dispersione

PRIMA ORA

SPEZZATA DI REGRESSIONE

NON devo rappresentare la spezzata di regressione!

Ossia la spezzata che passa per le medie condizionate…

(abbiamo detto che questo modello non va bene in

quanto segue troppo i dati ed è difficile da trattare

quando i dati sono troppi)

DIAGRAMMA A DISPERSIONE

Ossia la retta blu – retta che passi il più possibile vicino ai

miei punti.

COSTRUZIONE DEL DIAGRAMMA A DISPERSIONE

Ho due punti fondamentali di cui tener conto: 𝜇 𝑥

= 4 e 𝜇

𝑦

Si costruisce un asse cartesiano secondario sovrapposto a quello di partenza avente come centro la media delle x e la

media delle y

NB in questo caso la media delle x e delle y appartengono ai nostri punti.. è un caso eccezionale potrebbe anche non

accadere ciò!

Si possono quindi individuare 4 quadranti : il 1° ha semiassi positivi (ossia determina valori positivi degli scarti dalla

media di x e dalla media di y), il 2° ha un semiasse positivo e uno negativo (ossia determina valori positivi degli scarti

dalla media di y ma non da quella di x), il 3° quadrante ha semiassi entrambe negativi e infine il 4° ha un semiasse

negativo e uno positivo.

Andiamo a vedere che cosa accade punto per punto:

  • (8,8) - > scarta di +4 dalla media di x e di +2 dalla media di y - > scarta positivamente dalla media delle x ma anche

dalla media delle y - > coefficiente angolare = 𝑏 = ∆𝑌/∆𝑋 > 0

  • (0,0) - > scarta zero da x e zero da y in quanto coincide esattamente con la media
  • (3,7) - > scarta - 1 dalla media di x e di +1 dalla media di y - > scarta negativamente da x e positivamente da y - > - >

coefficiente angolare = 𝑏 = ∆𝑌/−∆𝑋 < 0

  • (3,5) - > scarta - 1 dalla media di x e - 1 dalla media di y - > scarta negativamente dalla media delle x ma anche dalla

media delle y - > coefficiente angolare = 𝑏 = −∆𝑌/−∆𝑋 > 0

  • (2,4) - > scarta - 2 dalla media di x e - 2 dalla media di y - > scarta negativamente dalla media delle x ma anche dalla

media delle y - > coefficiente angolare = 𝑏 = −∆𝑌/−∆𝑋 > 0

Vince l’orientamento della retta (inclinazione positiva o negativa) che mediamente può essere 0, può essere + oppure -.

Riassumendo:

1° quadrante : variazioni positive di x sono seguite da variazioni positive di y - > b = positivo - > relazione diretta tra le

variabili – al crescere di x cresce y

2° quadrante : variazioni negative di x sono seguite da variazioni positive y - > b= negativo - > relazione inversa tra x e y -

al crescere di y diminuisce x

3° quadrante : variazioni negative di x sono seguite da variazioni negative di y - > b = positivo - > relazioni diretta tra x e y

  • al diminuire di x diminuisce y

4° quadrante : variazioni positive di x sono seguite da variazioni negative di y - > b = negativo - > relazione inversa

Mediamente come sono gli scarti trovati tra di loro?

Possiamo trovare ciò calcolando la COVARIANZA = media del prodotto degli scarti.

Per costruire la covarianza devo calcolare:

  1. il prodotto degli scarti

𝑥

𝑦

Alcuni punti hanno prodotto degli scarti positivo, altri invece hanno prodotto degli scarti negativo, un altro è neutro (=0).

Nel complesso per vedere se prevale una relazione diretta o inversa tra due variabili:

  1. fare la somma dei prodotti degli scarti
  2. dividere per n

𝑥

𝑦

𝑛

𝑖= 1

La covarianza ci dà:

  • la direzione della relazione tra due variabili
  • il segno del coefficiente angolare che vado a stimare (segno + relazione diretta, segno – relazione inversa)

NB la covarianza ha un limite/difetto - > non si può attribuire un significato al suo VALORE ma solo al suo SEGNO

(positivo o negativo) - > questo in quanto il suo valore è caratterizzato dal prodotto degli scarti che hanno dalle unità di

misura DIVERSA - di x e di y

Se il SEGNO è:

  • +: prevalgono i punti per cui vi è relazione diretta tra x e y (ovvero si muovono nella stessa direzione rispetto

alle medie 𝜇 𝑥

e 𝜇 𝑦

  • - : prevalgono i punti in cui vi è relazione indiretta tra x e y (ovvero si muovono in direzione opposta rispetto alle

medie 𝜇

𝑥

e 𝜇

𝑦

In altre parole se c’è una prevalenza di punti nel 1° e nel 3° quadrante la retta che approssima i dati avrà inclinazione

positiva.. invece se si ha una prevalenza di punti nel 2° e nel 4° quadrante la retta che approssima i dati avrà

inclinazione negativa.

QUALI VALORI PUO’ ASSUMERE LA COVARIANZA?

La covarianza fornisce informazioni sulla direzione prevalente della relazione tra variabili xi e yi. In particolare:

𝟎 - > RELAZIONE lineare DIRETTA tra x e y

In questo quadrante ogni punto ha scarti dalla media +  prodotto + (prevalenza

di scarti positivi - > crescente)

< 𝟎 - > RELAZIONE lineare INVERSA tra x e y

In questo quadrante ogni punto ha scarto dalla media di Y neg. e scarto dalla media di X

pos.  prodotto – (prevalenza di scarti negativi - > decrescente)

= 𝟎 - > assenza di RELAZIONE lineare tra x e y

Ciò avviene quando:

  • I punti hanno scarto nullo tra x e y
  • I punti nel piano sono sparpagliati a caso, gli scarti positivi e negativi di x e y

si annullano - > non c’è una relazione prevalente - > perfetta neutralità dei

punti

( caso di incorrelazione )

NB se la covarianza è 0 - > NON C’E’ UNA RELAZIONE LINEARE TRA x e y – MA non si esclude la presenza

di una relazione diversa da quella lineare; ovvero non è detto che ci sia INDIPENDENZA STOCASTICA

La COV non consente di leggere l’intensità di una relazione lineare