Docsity
Docsity

Prepara i tuoi esami
Prepara i tuoi esami

Studia grazie alle numerose risorse presenti su Docsity


Ottieni i punti per scaricare
Ottieni i punti per scaricare

Guadagna punti aiutando altri studenti oppure acquistali con un piano Premium


Guide e consigli
Guide e consigli


Appunti sulla regressione multipla, Appunti di Statistica

Appunti dettagliati sulla regressione multipla

Tipologia: Appunti

2020/2021

Caricato il 19/05/2021

emmabru
emmabru 🇮🇹

5

(2)

8 documenti

1 / 19

Toggle sidebar

Questa pagina non è visibile nell’anteprima

Non perderti parti importanti!

bg1
REGRESSIONE MULTIPLA
Le relazioni multivariate e il modello di regressione
La regressione multipla è un concetto che estende un concetto che abbiamo già visto. La estende perchè mi
permette di spiegare un fenomeno (quindi la variabile dipendente), usando non un solo predittori ma più predittori
contemporaneamente il cui effetto verrà letto al netto delle altre variabili.La spiegazione è tutta legata ad una parte
di informazione che è veicolata ANCHE da altre variabili.
Questi predittori potrebbero essere legati l’uno all’altro!
Quando consideriamo 2 variabili per volta non è chiara la situazione in cui siamo.
ESEMPIO
Immaginiamo di scoprire una relazione positiva tra gli acquisti di un certo prodotto e l’età degli acquirenti; a parte
l’impossibilità di determinare con certezza una relazione causale, siamo sicuri che la relazione interessi proprio, e
solo, queste variabili?
Potrebbe, invece, riguardare una o più altre variabili a loro volta collegate con l’età: ad esempio lo stato di salute,
il livello di istruzione, oppure il reddito, o altro ancora.
L’analisi multivariata
• Nelle scienze sociali è impossibile condurre esperimenti controllati come in altre scienze, quindi non siamo mai
sicuri se le relazioni in esame coinvolgano (anche) altre variabili
Poiché spesso tutte, o molte delle variabili che potrebbero entrare nel processo, covariano (variano insieme), è
impossibile isolare l’effetto di una sola variabile.
L’analisi multivariata, considerando diverse variabili contemporaneamente, permette di controllare l’influenza
di una o più variabili supplementari, evidenziando l’effetto netto di una variabile.
Le relazioni multivariate
Le relazioni multivariate possono coinvolgere anche moltissime variabili; individuare le variabili importanti è una
decisione che deriva prevalentemente dalla teoria sostantiva
È sempre presente il rischio di escludere o dimenticare variabili che sarebbero state importanti nell’analisi
I modi in cui le variabili possono essere in relazione sono molti; ne vedremo alcuni:
– Relazioni spurie
– Relazioni interpretabili
– Causazione multipla
– Interazione
pf3
pf4
pf5
pf8
pf9
pfa
pfd
pfe
pff
pf12
pf13

Anteprima parziale del testo

Scarica Appunti sulla regressione multipla e più Appunti in PDF di Statistica solo su Docsity!

REGRESSIONE MULTIPLA

Le relazioni multivariate e il modello di regressione

La regressione multipla è un concetto che estende un concetto che abbiamo già visto. La estende perchè mi permette di spiegare un fenomeno (quindi la variabile dipendente), usando non un solo predittori ma più predittori contemporaneamente il cui effetto verrà letto al netto delle altre variabili.La spiegazione è tutta legata ad una parte di informazione che è veicolata ANCHE da altre variabili. Questi predittori potrebbero essere legati l’uno all’altro!

Quando consideriamo 2 variabili per volta non è chiara la situazione in cui siamo. ESEMPIO Immaginiamo di scoprire una relazione positiva tra gli acquisti di un certo prodotto e l’età degli acquirenti; a parte l’impossibilità di determinare con certezza una relazione causale, siamo sicuri che la relazione interessi proprio, e solo, queste variabili? Potrebbe, invece, riguardare una o più altre variabili a loro volta collegate con l’età : ad esempio lo stato di salute, il livello di istruzione, oppure il reddito, o altro ancora.

L’analisi multivariata

  • Nelle scienze sociali è impossibile condurre esperimenti controllati come in altre scienze, quindi non siamo mai sicuri se le relazioni in esame coinvolgano (anche) altre variabili Poiché spesso tutte, o molte delle variabili che potrebbero entrare nel processo, covariano (variano insieme), è impossibile isolare l’effetto di una sola variabile. L’analisi multivariata , considerando diverse variabili contemporaneamente, permette di controllare l’influenza di una o più variabili supplementari, evidenziando l’effetto netto di una variabile.

Le relazioni multivariate

Le relazioni multivariate possono coinvolgere anche moltissime variabili; individuare le variabili importanti è una decisione che deriva prevalentemente dalla teoria sostantiva

È sempre presente il rischio di escludere o dimenticare variabili che sarebbero state importanti nell’analisi I modi in cui le variabili possono essere in relazione sono molti ; ne vedremo alcuni:

  • Relazioni spurie
  • Relazioni interpretabili
  • Causazione multipla
  • Interazione

La RELAZIONE SPURIA consiste che: apparentemente c’è una relazione tra X e Y (se io non tengo conto di Z).

In realtà questa relazione è legata alla presenza di Z che influenza sia X che Y (le influenza entrambe). CASO CICOGNE: dove c’è tanta ruralità ci sono sia tante cicogne che tanti bambini!

In alcuni casi: potrebbe darsi che la presenza della terza variabile nasconda una relazione che in realtà c’è → perchè se l’effetto che ha Z è positivo rispetto ad una variabile e negativo rispetto all’altra potrebbe nascondere la relazione tra X e Y.

RELAZIONI INTERPRETABILI: la relazione che vedo tra X e Y in realtà passa anche da Z.

E’ possibile che vedo che il fatto di essere femmina influenzi in modo negativo il reddito (X: femmina; Y:reddito). Ma se stiamo analizzando ad esempio le neo-laureate, possiamo vedere che i corsi di laurea che scelgono le femmine riguardano ambiti che hanno meno successo in termini retributivi.

Qui X influenza Z e Z influenza Y !!!

CAUSAZIONE MULTIPLA:

X influenza Y, ma anche Z influenza Y (e X è legata in qualche modo a Z).

Vuol dire che potrebbe succedere che se non consideriamo Z non vediamo bene gli effetti.

Interazioni

Si parla di interazione tra due variabili quando l’associazione tra due variabili varia secondo il valore della variabile di controllo.

  • un’interazione si verifica nel caso in cui l’associazione tra due variabili varia al variare di una terza variabile

Per esempio, l’effetto di un certo colore della confezione di un prodotto potrebbe essere molto forte se il prodotto è posizionato negli scaffali centrali, ma debole (o nullo, o persino negativo) se il prodotto si trova in alto o in basso → devono essere considerate insieme!

Attenzione: interazione ≠ interrelazione!

Qui potremo calcolare 3 relazioni parziali → relazione tra X e Y (togliendo l’effetto di Z), relazione tra X e Z (togliendo l’effetto di Y), la relazione tra Y e Z (togliendo l’effetto di X).

Avremo quindi delle correlazioni parziali “al netto di..” che variano tra -1 e + Abbiamo un test se ci dice se la correlazione è significativamente diversa da 0

La formula ci dice che dobbiamo prendere tutta l'informazione che hanno in comune X e Y , MENO il pezzo che passa attraverso la relazione con Z (rXZ-rYZ).

CASO 1: X e Y non sono correlate

Caso 2: X e Y sono correlate (hanno un pezzo di informazioni in comune)

CASO 3: X e Y sono quasi completamente correlati

Caso 4: X è collegata sia con Z che con Y → ma Z e Y non sono correlate tra di loro

Caso 5: sono tutte correlate, ma se tolgo Z rimane un pezzo di correlazione tra X e Y che non c’entra con Z

Caso 6: tutta la correlazione tra X e Y è legata alla loro sovrapposizione con Z. Se tolgo Z non c’è più correlazione tra X e Y!

Regressione multipla

Un problema Un provider di servizi Internet e ADSL conduce un’indagine per capire quali caratteristiche dei suoi clienti (veri o potenziali) riescono a spiegare il volume di spesa mensile per i servizi forniti. In particolare, si aspetta che:

  1. Le persone più giovani spendano di più, poiché sono più interessate alle novità tecnologiche
  2. Le persone con un livello di istruzione più alto spendano di più, perché hanno maggiore capacità di utilizzare le tecnologie

Poiché sappiamo che in generale le persone più giovani sono anche più istruite, come facciamo a distinguere l’effetto dell’età dall’effetto dell’istruzione?

Regressione multipla

È un modello di analisi asimmetrica che permette di studiare la relazione lineare tra una variabile dipendente e un insieme di predittori. Si tratta di un’estensione del modello di regressione analizzato nel caso di un solo predittore; in questo caso, però, la relazione tra la variabile dipendente e ciascun predittore è calcolata al netto di tutte le altre

È anche il modello per l’analisi dei dati più diffusamente utilizzato nell’analisi statistica di dati provenienti da diverse fonti e ambiti di analisi

Y: variabile dipendente (es. reddito)

Y è uguale : un tot fisso (che non dipende da niente) + una parte che dipende dall’età (per cui per ogni anno in più il reddito aumenta di Beta1 ) + una parte che dipende dagli anni di istruzione (quindi per ogni anno in più d’istruzione il reddito aumenta di Beta2 )

Y: Numero di visualizzazioni Dipende da = un numero di visualizzazioni dato + un numero di visualizzazioni che dipende dal numero di atti sviluppati + un numero di visualizzazioni che dipende dalla durata del video Poi aggiungiamo un errore residuo

  • l’ EQUAZIONE DI PREVISIONE mi permette di dire quale potrebbe essere il numero di visualizzazioni di un certo video che supponiamo sviluppi 4 atti su 5 e che dura 10 secondi → questo è un valore predittivo che posso calcolare anche per valori che non ho osservato. Nell’equazione di previsione mi permette di dire cosa posso aspettarmi (es. con un tot di anni e una certa istruzione “mi aspetto un certo reddito”)

Qualche formalismo

In generale, indicheremo con εi, α, β1, β2, etc… i “veri” valori dei parametri che descrivono la legge che regola il rapporto fra le variabili nell’intera popolazione, mentre chiameremo ei, a, b1, b2, etc… i valori stimati che calcoliamo sui dati del campione. Ma il valore BETA viene a volte utilizzato (oltre ad indicare il VERO VALORE DI POPOLAZIONE) anche per indicare il coefficiente standardizzato.

Equazione di regressione del campione:

Equazione predittiva del campione:

  • Tutto ciò valeva anche per la regressione bivariata, naturalmente, ma abbiamo lasciato i formalismi per la fase in cui conoscete già il problema da un punto di vista sostanziale

→ è un grafico a 3 dimensioni Da un punto di vista grafico è difficile da cogliere la relazione!

Interpretazione dei parametri: ESEMPIO Immaginiamo, nel nostro esempio sul provider, di aver ottenuto:

  • a = 221,
  • b1 = -2,
  • b2 = 4, Non ha senso interpretare a, perché sarebbe la spesa di una persona di 0 anni con 0 anni di istruzione, ma si tratta di valori esterni al range che abbiamo osservato e quindi non attendibili
    • b1 mi dice che, a parità di istruzione, essere un anno più vecchio fa diminuire di 2,4 (euro) la spesa presso il provider
    • b2 mi dice che, a parità di età, aver studiato un anno di più fa aumentare di 4,5 (euro) la spesa presso il provider ESEMPIO Stiamo ancora analizzando la clientela del nostro provider, ma stavolta prendiamo in considerazione come possibili predittori l’età dei clienti (X1) e il numero di cellulari che possiedono (X2) Otteniamo:
  • a = 197,
  • b1 = -2,
  • b2 = 10,
    • per ogni anno in più d’età la spesa diminuisce di 2,4 a parità di numero di cellulari
    • per ogni cellulare in più la spesa aumenta di 10,2 a parità di età

Siamo in grado di stabilire quale variabile è più influente come predittore? Se c’è una variabile che ha più capacità di influenzare la Y? Per vederlo NON PUO’ ESSERE IL VALORE ASSOLUTO → perchè il numero di cellulari che uno possiede varia all’interno di un range piccolo (chi avrà 0 cellulari o al massimo 3) Invece l’età è una variabile che si muove in un range molto grande → quindi il -2 può essere applicato ad una differenza d’età molto più grande di quanto può essere applicato il 10!

  • in altri termini: quando voglio misurare l’effetto di una variabile non posso misurare l’effetto soltanto di una variazione unitaria. Per avere una risposta bisogna usare i COEFFICIENTI DI REGRESSIONE STANDARDIZZATI:

Coefficienti di regressione standardizzati

Quando le variabili con cui lavoriamo non sono espresse in unità di misura “naturali” (es. usiamo indici compositi), oppure quando vogliamo che risulti chiara l’importanza relativa dei diversi predittori nello spiegare la variabile dipendente, possiamo usare i coefficienti standardizzati (detti anche coefficienti beta, o pesi beta) β*

Formalmente si ottengono stimando i parametri della regressione tra le variabili di interesse standardizzate → quindi lavorando con le variabili standardizzate (cioè il valore della variabile meno la sua media, diviso lo scarto quadratico medio)

  • quindi ogni variabile viene depurata dalla sua scala di misura!
  • una volta che tutto è misurato in termini di “deviazione standard” si può confrontare direttamente.

Che caratteristiche hanno i coefficienti di regressione standardizzati?

  1. Sono direttamente confrontabili
  2. Le variabili che hanno un coefficienti di regressione standardizzato più grande sono quelle che influenzano di più la Y mentre quelle che hanno un valore più piccolo la influenzano di meno
  3. Nel caso con un solo predittore, il coefficiente standardizzato è uguale al coefficiente di correlazione
  4. In una equazione di regressione standardizzata l’intercetta è pari a zero

→ il coefficiente di determinazione ci dice quanto è buono l’adattamento del modello. Cioè quanto bene il modello si adatta ai dati.

Varia tra 0 e 1 → quando è prossimo allo 0 vuol dire che non misura quasi per niente i dati Quando è grande significa che il modello è in grado di spiegare i dati.

Non c’è un “valore soglia” oltre il quale considerare buono (che è il coefficiente di determinazione ) perché quali i livelli che può assumere dipendono dal fenomeno in analisi! FORMULA :

  • : è tutta la variabilità di Y
  • : Y con il cappello mi dice quale sarebbe l’Y secondo il modello → questo mi dice qual’è la parte della variabilità di Y che NON RIESCO a spiegare tramite il modello: cioè di quanto le Y si discostano dal modello Quindi il numeratore mi dice la variabilità che il modello riesce a cogliere → dato che è tutta la variabilità MENO quella che non riesce a spiegare il modello.
  • FRATTO tutta la variabilità

!!! Il test per la significatività di R2 si basa sulla distribuzione F con 2 e (n-3) gradi di libertà → un test che mi dice se R² è significativamente diverso da 0:

  • se non è significativamente diverso da 0 : accettiamo l’ipotesi che sia uguale a 0 e quindi che il modello NON SPIEGA NIENTE e se spiega qualcosa lo fa per CASO.
  • se invece è significativamente diverso da 0 (quindi il p-value è piccolo) allora significa che abbiamo un modello valido

→ Il COEFFICIENTE DI DETERMINAZIONE è dato da un pezzo che dipende totalmente da X1 + un pezzo che dipende sia da X2 da solo che da una mescolanza tra i due.

Fondamentalmente non è possibile suddividere R² in un pezzo che è dovuto esclusivamente ad X1 o X

- non è possibile una scomposizione univoca di R² tra tutte le variabili del modello Perchè le variabili hanno una parte di contribuito a X e non è possibile isolarlo!

Si può fare solo se le variabili sono INCORRELATE :

Posso dire che una parte di R² è dovuta dal fatto che è influenzata da X1 e una parte di R² è dovuta dal fatto che Y è influenzata da X

Che cosa succede se facciamo una cosa simile nel modello di regressione?

(ripreso il modello da sopra) Y (reddito) è uguale a:

  • ⍺ (che non dipende dalle altre cose)
    • β¹ che dipende dall’età → quindi per ogni anno in più il reddito aumenta di B
    • un β2 che dipende dal sesso → il sesso è la X2 → questa X2 vale 1 se si è maschi e 0 se si è femmine → quindi succede che se uno è maschio nella sua formula di composizione del reddito compare il B2, nelle femmine invece nella formula abbiamo X2 è 0 (quindi non aggiungiamo niente!) In altre occasioni una cosa del genere l'abbiamo vista quando parlavamo di essere visibile o no nello scaffale

★ Supponiamo che venga fuori che B2 di maschio rispetto a femmina è +3,5 → significa che invece che scrivere Maschio:1 e Femmina:0 avessimo scritto Femmina:1 e Maschio:0 quel parametro sarebbe risultato -3,

  • Perché sarebbe stato l’effetto di essere femmina rispetto all’essere maschio, se un maschio guadagna 3.5 in più rispetto alla femmina allora una femmina guadagna 3,5 in meno al maschio Significa che SEMPRE codificando in un modo avremo un valore positivo e codificando in un altro un valore negativo

Predittori non quantitativi: nominali

Un’altra delle variabili considerate nell’esempio è la condizione lavorativa, cioè una variabile qualitativa sconnessa (altra situazione comune). Cosa si fa in questo caso? Visto che la variabile NON può essere considerata come quantitativa!

La soluzione è costruire tante variabili dicotomiche quante sono le modalità di risposta, tranne una che viene lasciata a residuo → se la variabile è qualitativa con k categorie, costruiremo k-1 variabili indicatore dicotomiche ; una delle modalità è lasciata “ a residuo ” perché si può ricavare come combinazione delle altre

  • Per esempio, per la condizione lavorativa, possiamo costruire variabili indicatore per ciascuna condizione: “disoccupato”, “studente”, “pensionato”, “casalinga”, “altro”, e lasciare “occupato” come residuo Costruzione variabili → in una variabile metto 1 se è disoccupato e metto 0 se è qualsiasi altra cosa, in un’altra variabile metto 1 se è studente e 0 se è qualsiasi altra cosa, in un’altra variabile metto 1 se è pensionato e 0 se è qualsiasi altra cosa… OCCUPATO lo lascio come residuo.
  • così potrò vedere: l’effetto di essere disoccupato rispetto a qualsiasi altra cosa, l’effetto di essere studente rispetto a qualsiasi altra cosa e via dicendo. L’effetto di ciascuna variabile è da considerarsi AL NETTO di tutte le altre variabili (cioè togliendo l’effetto di tutte le altre variabili):
  • quindi disoccupato è l’effetto di essere disoccupato rispetto a qualunque altra variabile, però al netto di essere studente,al netto di essere pensionato, al netto di essere casalinga e al netto di essere altro. Quello che resta è che noi vediamo nel modello di regressione multipla l’effetto di essere disoccupato rispetto ad essere occupato. Lo stesso lo vediamo dell’essere studente → è l’effetto di essere studente rispetto a qualsiasi altra situazione ma al netto di essere disoccupato, casalinga, pensionato o altro: significa l’effetto di essere studente rispetto ad essere occupato.

La scelta di quale categoria lasciare a residuo dipende da come si vuole facilitare l’interpretazione: i parametri infatti andranno interpretati rispetto alla modalità lasciata a residuo, che diventa una specie di termine di paragone. A volte si lascia la modale (cioè la più frequente), in generale è bene evitare di lasciare a residuo modalità poco frequenti o poco chiare (deve essere ben definita, quindi non si deve scegliere “altro”).

ESEMPIO :

Prendiamo come variabile dipendente il REDDITO e come variabili indipendenti ETÀ’ e NUMERO DI FIGLI

Da qui vediamo che: -il modello è VALIDO (tabella ANOVA) perchè R2 è significativamente diverso da 0 ( Sign. ,000 )

-R2 spiega il 3% della variabilità (tabella RIEPILOGO MODELLO) perchè R-quadrato adattato è dello 0,

Poi vediamo che: ”Quanti figli ha avuto” non è una variabile significativa( Sign.,686 )

Invece vedo che l’età è una variabile significativa ( Sign.,000 ) → e che per ogni anno in più di età il reddito diminuisce di 573

Se costruisco la variabile legata al GENERE (maschio 1 /femmina 2) → e inserisco nel modello di regressione la variabile MASCHIO (la aggiungo alle variabili età e numero di figli):

Il modello è sempre valido (tabella ANOVA) perchè R2 è significativamente diverso da 0 ( Sign. ,000 ) E spiega un pò più di prima (l’8%) → R è 0,

La variabile età è sempre significativa, per ogni anno in più il reddito diminuisce di 501 rubli. La variabile “numero di figli” non è significativa.

Vediamo che un maschio rispetto ad una femmina guadagna 25.223 rubli in più.

Se avessi inserito la variabile FEMMINA avrei ottenuto l’esatto contrario, ovvero avrei visto che una femmina guadagna 25.223 rubli in meno

Valutazione del modello ottenuto

Anche in questo caso per valutare la bontà di adattamento del modello, possiamo verificare se il modello di regressione spiega una quota della variabilità di Y significativamente diversa da zero. Quindi anche ora avremo un R2 che mi dice sempre quanto è la variabilità spiegata dal modello rispetto alla variabilità totale → cioè mi dice quanta parte di Y riesco a spiegare tramite il modello

Esiste un test F sulla significatività di R2 :

  • Test per vedere se R2 è significativamente diverso da 0

Quando abbiamo tanti predittori è possibile confrontare i modelli “annidati”: Due modelli sono annidati se quello che ha meno variabili ha tutte variabili che sono presenti anche nel modello che ha più variabili (quello più grandi)

  • quindi il modello più grande contiene al suo interno anche quello più piccolo (ovvero quello con meno variabili)

Se due modelli sono annidati è possibile confrontarli direttamente → ovvero vedere se quello che è stato aggiunto apporta qualcosa di significativo.

Quindi significa verificare se l’aumento di R (cioè l’aumento della capacità esplicativa che si ottiene passando dal modello più piccolo al modello più grande inserendo certe variabili) è un miglioramento significativo. ESEMPIO : costruisco un modello in cui inserisco il sesso, l’età e il numero di anni di istruzione. In una seconda fase inserisco: se ha votato alle ultime elezioni, se guarda il telegiornale e quanto si interessa di politica.

  • il primo modello quindi ha 3 variabili e il il secondo modello ha 6 variabili Siccome questi due sono MODELLI ANNIDATI, se li confronto quello che vedo è se le variabili aggiunte nel modello 2 sono variabili che apportano un miglioramento significativo → cioè vedo quanto mi migliora il modello aggiungendo queste variabili e se il miglioramento è significativo.
  • vado a vedere se nel passaggio dal modello piccolo a quello grande l’aumento di R2 è significativo!

Effetti di interazione

L’interazione mi spiega in che modo il valore assunto da una variabile può interferire sull'effetto che una seconda variabile ha su una terza variabile → infatti l’interazione COINVOLGE ALMENO 3 VARIABILI

COME CONCRETAMENTE VIENE INSERITA L’INTERAZIONE NEL MODELLO DI REGRESSIONE :

L’interazione si inserisce nel modello costruendo una nuova variabile che è il prodotto delle due variabili coinvolte dall’interazione stessa ; il parametro di regressione relativo a questa nuova variabile descrive l’interazione. Se inseriamo l’interazione dobbiamo inserire anche le due variabili che danno l’effetto diretto , altrimenti l’interazione conterrà anche gli effetti diretti e risulterà illeggibile

L’ interpretazione del parametro di interazione dipende dalle variabili coinvolte:

  • Se si tratta d i due variabili dicotomiche codificate entrambe con 0 e 1 , l’interpretazione è semplice e permette di quantificare l’effetto;
  • Se si tratta di una variabile dicotomica codificata con 0 e 1 e di una variabile quantitativa , l’interpretazione è semplice e permette di quantificare l’effetto
  • Se si tratta di due variabili quantitative , l’effetto non può essere quantificato; possiamo solo capirne il significato generale;
  • Se l’interazione coinvolge variabili ordinali o sconnesse che sono state ricodificate in (k-1) variabili dicotomiche , la lettura è più complessa e il modello di regressione non è uno strumento del tutto adeguato

Effetti di interazione: due dicotomiche

L’interazione fra due variabili dicotomiche è una nuova variabile assume valore uno se e solo se entrambe le caratteristiche sono presenti

ESEMPIO : abbiamo 2 variabili → il genere e la laurea Il parametro di regressione indica l’effetto aggiuntivo dell’avere contemporaneamente entrambe le caratteristiche reddito = a + b1 genere + b2 laurea + b3 interazione

  • con genere : 1=M, 0=F; laurea : 1 = sì, 0 = no

Come abbiamo detto l’interazione la costruiamo come il prodotto tra le 2 variabili → quindi la nuova variabile “interazione” la otterrò moltiplicando GENERE moltiplicato per LAUREA

  • quindi tale variabile vale: 1=se maschio laureato /e/ 0=in tutti gli altri casi

Questo significherà che: Maschi: reddito = a + b1 + b2 laurea + b3 laurea → tot fisso (a+b1) e in più se ha la laurea aggiungiamo b2+b = (a + b1) + (b2 + b3) laurea

● a : è la parte di reddito che NON dipende dalla laurea ● b1: è un pezzo di reddito che i maschi hanno per il fatto di essere maschi ● Se una FEMMINA è LAUREATA guadagna “b2” in più, ma se è un maschio che è laureato guadagna un ulteriore bonus che è “b2+b3”

Femmine: reddito = a + b2 laurea → per le femmine il genere è uguale a 0 (quindi b1 salta) + b2 (b3 salta perchè per le femmine l’interazione è 0)

QUINDI : → “b1” è l’effetto sul reddito di essere maschio a parità di altre cose → “b2” diventa l’effetto di essere laureato per una femmina, mentre l’effetto di essere laureato per un maschio è sia b2 che b

  • quindi b3 è un effetto ulteriore di essere laureato che vale SOLO per i maschi

Conclusione :

  • il reddito di base è diverso per maschi e femmine (a+b1 per i maschi, a per le femmine);
  • inoltre, l’effetto della laurea è b2+b3 per i maschi, e solo b2 per le femmine.

Quindi l’effetto dell’interazione b3 indica un effetto aggiuntivo della laurea che vale solo per i maschi; se è positivo, l’effetto della laurea è più forte per i maschi, se è negativo è più forte per le femmine.

La lettura è la stessa: b1: mi dice l’effetto di essere maschio rispetto all’essere femmina → quindi i maschi guadagnano “b1” in + delle femmine per qualsiasi età

Per ogni anno in più di età il reddito delle femmine aumenta di “b2” Mentre per ogni anno in più di età dei maschi il reddito aumenta di “b2” ma anche di “b3” (quindi aumenta di b2+b3 )

Quindi b3 è l’ effetto aggiuntivo sul reddito di un anno di età che vale SOLO PER I MASCHI → cioè l’effetto dell'età per i maschi è un effetto che è come quello delle femmine più un tot.

Questa interazione la leggo come differenza tra l’effetto che l’età ha nel gruppo femmine e il gruppo maschi!

Selezione stepwise: secondo passo

  1. Partiamo dal modello con un predittore (quello ottenuto al primo passo)
  2. Si confrontano tutti i possibili modelli con due predittori (saranno k-1), e si sceglie il migliore in termini di aumento del coefficiente di determinazione
  3. Si valuta la significatività del miglioramento (con un test F per modelli annidati)
  4. Se l’aumento è significativo, il predittore entra nel modello

N.B.: I conti li fa sempre il calcolatore

Selezione stepwise: p-esimo passo

  1. Partiamo dal modello con p-1 predittori (quello ottenuto al primo passo)
  2. Si confrontano tutti i possibili modelli con p predittori (saranno k-(p1)), e si sceglie il migliore in termini di aumento del coefficiente di determinazione
  3. Si valuta la significatività del miglioramento (con un test F per modelli annidati)
  4. Si prova a togliere, uno alla volta, i predittori già entrati nel modello
  5. Si sceglie quello che produce la riduzione più piccola del coefficiente di determinazione; se la variazione è non significativa, si esclude il predittore dal modello

Selezione stepwise: qualche cautela! Si tratta di un metodo automatico , che non deve scontrarsi con le regole del buon senso («i f you just torture data long enough they will confess »)

  • Bisogna inserire comunque soltanto variabili che si ritengono importanti (chiedetevi sempre se sareste in grado di interpretare una eventuale relazione significativa!)
  • Alcune variabili possono non essere significative una per una, ma esserlo insieme
  • Le variabili trasformate in dummy potrebbero entrare solo in parte; se questo è un problema, occorre forzare l’ingresso di tutte le variabili-indicatore (anche in un secondo momento)

Modelli a blocchi

È possibile fare in modo che le variabili entrino nel modello in «gruppi» ; questa scelta permette, ad esempio, di seguire un ordine logico o gerarchico, inserendo nel modello, ad esempio, prima le variabili demografiche, poi quelle legate al background familiare, poi quelle legate a comportamenti, infine quelle legate a opinioni

Blocchi diversi possono adottare criteri di selezione diversi: ad esempio possiamo decidere che le variabili del I blocco entrino tutte nel modello (ad esempio perché vogliamo tenerle sotto controllo), mentre le variabili del II blocco vengono selezionate con un criterio automatico

La possibilità di usare criteri di selezione diversi nei blocchi può essere utilizzata per forzare nel modello variabili la cui assenza creerebbe problemi: ad esempio possiamo inserire in un blocco che entra certamente nel modello:

  • gli effetti principali che stanno alla base di una serie di effetti di interazione, per evitare che un processo automatico selezioni l’effetto di interazione senza il suo effetto principale
  • Le variabili dicotomiche che risultano dalla ricodifica di una variabile sconnessa o ordinale, per evitare che, mancando alcune delle modalità di risposta, il riferimento per la lettura dei singoli parametri si modifichi.

ESEMPI :

  1. vediamo che il modello è significativo: R2 è significativamente diverso da 0
  2. il modello spiega il 24% della variabilità di Y (tabella: riepilogo modello)

POI leggiamo l’altra tabella:

  • l’età della madre non è significativa → quindi il peso alla nascita del bambino è indipendente dall’età della madre
  • il peso della madre è significativo → per ogni unità in più di peso della madre il bambino pesa 4,39 grammi in più
  • se la madre è fumatrice il bambino pesa 359 grammi in meno rispetto ad una mamma non fumatrice
  • se la mamma è ipertesa il bambino pesa 590 grammi in meno rispetto ad una mamma che non soffre di ipertensione
  • se la madre soffre di irritabilità uterina il bambino pesa più di mezzo chilo in meno rispetto ad una madre che non soffre di questo disturbo Poi abbiamo inserito la razza:
  • una mamma nera avrà un bambino di quasi mezzo chilo più piccolo rispetto ad una mamma bianca (A PARITÀ DI PESO, DELLA STESSA ETÀ’....)
  • una mamma di altre razze avrà un bambino di 560 grammi in meno rispetto ad una mamma bianca

Abbiamo un modello significativo che spiega addirittura l’86,9% e l’87,1% con l’interazione (tabella RIEPILOGO MODELLO )

Vediamo cosa ci dice il modello guardando la tabella COEFFICIENTI :

  • il valore aumenta di 76 dollari per ogni piede quadrato in più di superficie
  • il prezzo si abbassa di 190 dollare per ogni anno in più dell’immobile
  • il fatto di trovarsi in una città universitaria da aumentare il prezzo di 27.452 dollari
  • la presenza di una piscina fa aumentare il prezzo di 4.377 dollari
  • se c’è un caminetto il valore non è pienamente significativo, lo è al 90% → quindi possiamo decidere di non leggerlo se stiamo considerando le variabili significative al 95%

Infine abbiamo l’interazione tra superficie e città universitaria ( sup_univ ) Come è fatta questa interazione? E’ fatta sempre come PRODOTTO fra città universitaria (si:1/ no:0) e superficie dell’immobile:

  • quindi vale sempre 0 quando la città NON è universitaria
  • vale “superficie” quando la città è universitaria

QUINDI SIAMO IN UN INTERAZIONE TRA UNA VARIABILE DICOTOMICA E UNA QUANTITATIVA

Cosa di dice questa interazione?

  • Il prezzo al metro quadro se la città NON è universitaria è di 76 dollari
  • Se la città è universitaria DEVO AGGIUNGERE altri 13 dollari (12,994)

★ Quindi mi dice che il prezzo al mq se la città è universitaria è di → 89 dollari (76+13) ★ Se la città non è universitaria il prezzo è di 76