











Studia grazie alle numerose risorse presenti su Docsity
Guadagna punti aiutando altri studenti oppure acquistali con un piano Premium
Prepara i tuoi esami
Studia grazie alle numerose risorse presenti su Docsity
Prepara i tuoi esami con i documenti condivisi da studenti come te su Docsity
Trova i documenti specifici per gli esami della tua università
Preparati con lezioni e prove svolte basate sui programmi universitari!
Rispondi a reali domande d’esame e scopri la tua preparazione
Riassumi i tuoi documenti, fagli domande, convertili in quiz e mappe concettuali
Studia con prove svolte, tesine e consigli utili
Togliti ogni dubbio leggendo le risposte alle domande fatte da altri studenti come te
Esplora i documenti più scaricati per gli argomenti di studio più popolari
Ottieni i punti per scaricare
Guadagna punti aiutando altri studenti oppure acquistali con un piano Premium
Appunti dettagliati sulla regressione multipla
Tipologia: Appunti
1 / 19
Questa pagina non è visibile nell’anteprima
Non perderti parti importanti!












Le relazioni multivariate e il modello di regressione
La regressione multipla è un concetto che estende un concetto che abbiamo già visto. La estende perchè mi permette di spiegare un fenomeno (quindi la variabile dipendente), usando non un solo predittori ma più predittori contemporaneamente il cui effetto verrà letto al netto delle altre variabili.La spiegazione è tutta legata ad una parte di informazione che è veicolata ANCHE da altre variabili. Questi predittori potrebbero essere legati l’uno all’altro!
Quando consideriamo 2 variabili per volta non è chiara la situazione in cui siamo. ESEMPIO Immaginiamo di scoprire una relazione positiva tra gli acquisti di un certo prodotto e l’età degli acquirenti; a parte l’impossibilità di determinare con certezza una relazione causale, siamo sicuri che la relazione interessi proprio, e solo, queste variabili? Potrebbe, invece, riguardare una o più altre variabili a loro volta collegate con l’età : ad esempio lo stato di salute, il livello di istruzione, oppure il reddito, o altro ancora.
Le relazioni multivariate possono coinvolgere anche moltissime variabili; individuare le variabili importanti è una decisione che deriva prevalentemente dalla teoria sostantiva
È sempre presente il rischio di escludere o dimenticare variabili che sarebbero state importanti nell’analisi I modi in cui le variabili possono essere in relazione sono molti ; ne vedremo alcuni:
La RELAZIONE SPURIA consiste che: apparentemente c’è una relazione tra X e Y (se io non tengo conto di Z).
In realtà questa relazione è legata alla presenza di Z che influenza sia X che Y (le influenza entrambe). CASO CICOGNE: dove c’è tanta ruralità ci sono sia tante cicogne che tanti bambini!
In alcuni casi: potrebbe darsi che la presenza della terza variabile nasconda una relazione che in realtà c’è → perchè se l’effetto che ha Z è positivo rispetto ad una variabile e negativo rispetto all’altra potrebbe nascondere la relazione tra X e Y.
RELAZIONI INTERPRETABILI: la relazione che vedo tra X e Y in realtà passa anche da Z.
E’ possibile che vedo che il fatto di essere femmina influenzi in modo negativo il reddito (X: femmina; Y:reddito). Ma se stiamo analizzando ad esempio le neo-laureate, possiamo vedere che i corsi di laurea che scelgono le femmine riguardano ambiti che hanno meno successo in termini retributivi.
Qui X influenza Z e Z influenza Y !!!
X influenza Y, ma anche Z influenza Y (e X è legata in qualche modo a Z).
Vuol dire che potrebbe succedere che se non consideriamo Z non vediamo bene gli effetti.
Si parla di interazione tra due variabili quando l’associazione tra due variabili varia secondo il valore della variabile di controllo.
Per esempio, l’effetto di un certo colore della confezione di un prodotto potrebbe essere molto forte se il prodotto è posizionato negli scaffali centrali, ma debole (o nullo, o persino negativo) se il prodotto si trova in alto o in basso → devono essere considerate insieme!
Attenzione: interazione ≠ interrelazione!
Qui potremo calcolare 3 relazioni parziali → relazione tra X e Y (togliendo l’effetto di Z), relazione tra X e Z (togliendo l’effetto di Y), la relazione tra Y e Z (togliendo l’effetto di X).
Avremo quindi delle correlazioni parziali “al netto di..” che variano tra -1 e + Abbiamo un test se ci dice se la correlazione è significativamente diversa da 0
La formula ci dice che dobbiamo prendere tutta l'informazione che hanno in comune X e Y , MENO il pezzo che passa attraverso la relazione con Z (rXZ-rYZ).
CASO 1: X e Y non sono correlate
Caso 2: X e Y sono correlate (hanno un pezzo di informazioni in comune)
CASO 3: X e Y sono quasi completamente correlati
Caso 4: X è collegata sia con Z che con Y → ma Z e Y non sono correlate tra di loro
Caso 5: sono tutte correlate, ma se tolgo Z rimane un pezzo di correlazione tra X e Y che non c’entra con Z
Caso 6: tutta la correlazione tra X e Y è legata alla loro sovrapposizione con Z. Se tolgo Z non c’è più correlazione tra X e Y!
Un problema Un provider di servizi Internet e ADSL conduce un’indagine per capire quali caratteristiche dei suoi clienti (veri o potenziali) riescono a spiegare il volume di spesa mensile per i servizi forniti. In particolare, si aspetta che:
Poiché sappiamo che in generale le persone più giovani sono anche più istruite, come facciamo a distinguere l’effetto dell’età dall’effetto dell’istruzione?
È un modello di analisi asimmetrica che permette di studiare la relazione lineare tra una variabile dipendente e un insieme di predittori. Si tratta di un’estensione del modello di regressione analizzato nel caso di un solo predittore; in questo caso, però, la relazione tra la variabile dipendente e ciascun predittore è calcolata al netto di tutte le altre
È anche il modello per l’analisi dei dati più diffusamente utilizzato nell’analisi statistica di dati provenienti da diverse fonti e ambiti di analisi
Y: variabile dipendente (es. reddito)
Y è uguale : un tot fisso (che non dipende da niente) + una parte che dipende dall’età (per cui per ogni anno in più il reddito aumenta di Beta1 ) + una parte che dipende dagli anni di istruzione (quindi per ogni anno in più d’istruzione il reddito aumenta di Beta2 )
Y: Numero di visualizzazioni Dipende da = un numero di visualizzazioni dato + un numero di visualizzazioni che dipende dal numero di atti sviluppati + un numero di visualizzazioni che dipende dalla durata del video Poi aggiungiamo un errore residuo
In generale, indicheremo con εi, α, β1, β2, etc… i “veri” valori dei parametri che descrivono la legge che regola il rapporto fra le variabili nell’intera popolazione, mentre chiameremo ei, a, b1, b2, etc… i valori stimati che calcoliamo sui dati del campione. Ma il valore BETA viene a volte utilizzato (oltre ad indicare il VERO VALORE DI POPOLAZIONE) anche per indicare il coefficiente standardizzato.
Equazione di regressione del campione:
Equazione predittiva del campione:
→ è un grafico a 3 dimensioni Da un punto di vista grafico è difficile da cogliere la relazione!
Interpretazione dei parametri: ESEMPIO Immaginiamo, nel nostro esempio sul provider, di aver ottenuto:
Siamo in grado di stabilire quale variabile è più influente come predittore? Se c’è una variabile che ha più capacità di influenzare la Y? Per vederlo NON PUO’ ESSERE IL VALORE ASSOLUTO → perchè il numero di cellulari che uno possiede varia all’interno di un range piccolo (chi avrà 0 cellulari o al massimo 3) Invece l’età è una variabile che si muove in un range molto grande → quindi il -2 può essere applicato ad una differenza d’età molto più grande di quanto può essere applicato il 10!
Quando le variabili con cui lavoriamo non sono espresse in unità di misura “naturali” (es. usiamo indici compositi), oppure quando vogliamo che risulti chiara l’importanza relativa dei diversi predittori nello spiegare la variabile dipendente, possiamo usare i coefficienti standardizzati (detti anche coefficienti beta, o pesi beta) β*
Formalmente si ottengono stimando i parametri della regressione tra le variabili di interesse standardizzate → quindi lavorando con le variabili standardizzate (cioè il valore della variabile meno la sua media, diviso lo scarto quadratico medio)
Che caratteristiche hanno i coefficienti di regressione standardizzati?
→ il coefficiente di determinazione ci dice quanto è buono l’adattamento del modello. Cioè quanto bene il modello si adatta ai dati.
Varia tra 0 e 1 → quando è prossimo allo 0 vuol dire che non misura quasi per niente i dati Quando è grande significa che il modello è in grado di spiegare i dati.
Non c’è un “valore soglia” oltre il quale considerare buono R² (che è il coefficiente di determinazione ) perché quali i livelli che R² può assumere dipendono dal fenomeno in analisi! FORMULA :
!!! Il test per la significatività di R2 si basa sulla distribuzione F con 2 e (n-3) gradi di libertà → un test che mi dice se R² è significativamente diverso da 0:
→ Il COEFFICIENTE DI DETERMINAZIONE è dato da un pezzo che dipende totalmente da X1 + un pezzo che dipende sia da X2 da solo che da una mescolanza tra i due.
Fondamentalmente non è possibile suddividere R² in un pezzo che è dovuto esclusivamente ad X1 o X
- non è possibile una scomposizione univoca di R² tra tutte le variabili del modello Perchè le variabili hanno una parte di contribuito a X e non è possibile isolarlo!
Si può fare solo se le variabili sono INCORRELATE :
Posso dire che una parte di R² è dovuta dal fatto che è influenzata da X1 e una parte di R² è dovuta dal fatto che Y è influenzata da X
Che cosa succede se facciamo una cosa simile nel modello di regressione?
(ripreso il modello da sopra) Y (reddito) è uguale a:
★ Supponiamo che venga fuori che B2 di maschio rispetto a femmina è +3,5 → significa che invece che scrivere Maschio:1 e Femmina:0 avessimo scritto Femmina:1 e Maschio:0 quel parametro sarebbe risultato -3,
Un’altra delle variabili considerate nell’esempio è la condizione lavorativa, cioè una variabile qualitativa sconnessa (altra situazione comune). Cosa si fa in questo caso? Visto che la variabile NON può essere considerata come quantitativa!
La soluzione è costruire tante variabili dicotomiche quante sono le modalità di risposta, tranne una che viene lasciata a residuo → se la variabile è qualitativa con k categorie, costruiremo k-1 variabili indicatore dicotomiche ; una delle modalità è lasciata “ a residuo ” perché si può ricavare come combinazione delle altre
La scelta di quale categoria lasciare a residuo dipende da come si vuole facilitare l’interpretazione: i parametri infatti andranno interpretati rispetto alla modalità lasciata a residuo, che diventa una specie di termine di paragone. A volte si lascia la modale (cioè la più frequente), in generale è bene evitare di lasciare a residuo modalità poco frequenti o poco chiare (deve essere ben definita, quindi non si deve scegliere “altro”).
Prendiamo come variabile dipendente il REDDITO e come variabili indipendenti ETÀ’ e NUMERO DI FIGLI
Da qui vediamo che: -il modello è VALIDO (tabella ANOVA) perchè R2 è significativamente diverso da 0 ( Sign. ,000 )
-R2 spiega il 3% della variabilità (tabella RIEPILOGO MODELLO) perchè R-quadrato adattato è dello 0,
Poi vediamo che: ”Quanti figli ha avuto” non è una variabile significativa( Sign.,686 )
Invece vedo che l’età è una variabile significativa ( Sign.,000 ) → e che per ogni anno in più di età il reddito diminuisce di 573
Se costruisco la variabile legata al GENERE (maschio 1 /femmina 2) → e inserisco nel modello di regressione la variabile MASCHIO (la aggiungo alle variabili età e numero di figli):
Il modello è sempre valido (tabella ANOVA) perchè R2 è significativamente diverso da 0 ( Sign. ,000 ) E spiega un pò più di prima (l’8%) → R è 0,
La variabile età è sempre significativa, per ogni anno in più il reddito diminuisce di 501 rubli. La variabile “numero di figli” non è significativa.
Vediamo che un maschio rispetto ad una femmina guadagna 25.223 rubli in più.
Se avessi inserito la variabile FEMMINA avrei ottenuto l’esatto contrario, ovvero avrei visto che una femmina guadagna 25.223 rubli in meno
Valutazione del modello ottenuto
Anche in questo caso per valutare la bontà di adattamento del modello, possiamo verificare se il modello di regressione spiega una quota della variabilità di Y significativamente diversa da zero. Quindi anche ora avremo un R2 che mi dice sempre quanto è la variabilità spiegata dal modello rispetto alla variabilità totale → cioè mi dice quanta parte di Y riesco a spiegare tramite il modello
Esiste un test F sulla significatività di R2 :
Quando abbiamo tanti predittori è possibile confrontare i modelli “annidati”: Due modelli sono annidati se quello che ha meno variabili ha tutte variabili che sono presenti anche nel modello che ha più variabili (quello più grandi)
Se due modelli sono annidati è possibile confrontarli direttamente → ovvero vedere se quello che è stato aggiunto apporta qualcosa di significativo.
Quindi significa verificare se l’aumento di R (cioè l’aumento della capacità esplicativa che si ottiene passando dal modello più piccolo al modello più grande inserendo certe variabili) è un miglioramento significativo. ESEMPIO : costruisco un modello in cui inserisco il sesso, l’età e il numero di anni di istruzione. In una seconda fase inserisco: se ha votato alle ultime elezioni, se guarda il telegiornale e quanto si interessa di politica.
L’interazione mi spiega in che modo il valore assunto da una variabile può interferire sull'effetto che una seconda variabile ha su una terza variabile → infatti l’interazione COINVOLGE ALMENO 3 VARIABILI
L’interazione si inserisce nel modello costruendo una nuova variabile che è il prodotto delle due variabili coinvolte dall’interazione stessa ; il parametro di regressione relativo a questa nuova variabile descrive l’interazione. Se inseriamo l’interazione dobbiamo inserire anche le due variabili che danno l’effetto diretto , altrimenti l’interazione conterrà anche gli effetti diretti e risulterà illeggibile
L’ interpretazione del parametro di interazione dipende dalle variabili coinvolte:
L’interazione fra due variabili dicotomiche è una nuova variabile assume valore uno se e solo se entrambe le caratteristiche sono presenti
ESEMPIO : abbiamo 2 variabili → il genere e la laurea Il parametro di regressione indica l’effetto aggiuntivo dell’avere contemporaneamente entrambe le caratteristiche reddito = a + b1 genere + b2 laurea + b3 interazione
Come abbiamo detto l’interazione la costruiamo come il prodotto tra le 2 variabili → quindi la nuova variabile “interazione” la otterrò moltiplicando GENERE moltiplicato per LAUREA
Questo significherà che: Maschi: reddito = a + b1 + b2 laurea + b3 laurea → tot fisso (a+b1) e in più se ha la laurea aggiungiamo b2+b = (a + b1) + (b2 + b3) laurea
● a : è la parte di reddito che NON dipende dalla laurea ● b1: è un pezzo di reddito che i maschi hanno per il fatto di essere maschi ● Se una FEMMINA è LAUREATA guadagna “b2” in più, ma se è un maschio che è laureato guadagna un ulteriore bonus che è “b2+b3”
Femmine: reddito = a + b2 laurea → per le femmine il genere è uguale a 0 (quindi b1 salta) + b2 (b3 salta perchè per le femmine l’interazione è 0)
QUINDI : → “b1” è l’effetto sul reddito di essere maschio a parità di altre cose → “b2” diventa l’effetto di essere laureato per una femmina, mentre l’effetto di essere laureato per un maschio è sia b2 che b
Conclusione :
Quindi l’effetto dell’interazione b3 indica un effetto aggiuntivo della laurea che vale solo per i maschi; se è positivo, l’effetto della laurea è più forte per i maschi, se è negativo è più forte per le femmine.
La lettura è la stessa: b1: mi dice l’effetto di essere maschio rispetto all’essere femmina → quindi i maschi guadagnano “b1” in + delle femmine per qualsiasi età
Per ogni anno in più di età il reddito delle femmine aumenta di “b2” Mentre per ogni anno in più di età dei maschi il reddito aumenta di “b2” ma anche di “b3” (quindi aumenta di b2+b3 )
Quindi b3 è l’ effetto aggiuntivo sul reddito di un anno di età che vale SOLO PER I MASCHI → cioè l’effetto dell'età per i maschi è un effetto che è come quello delle femmine più un tot.
Questa interazione la leggo come differenza tra l’effetto che l’età ha nel gruppo femmine e il gruppo maschi!
Selezione stepwise: secondo passo
N.B.: I conti li fa sempre il calcolatore
Selezione stepwise: p-esimo passo
Selezione stepwise: qualche cautela! Si tratta di un metodo automatico , che non deve scontrarsi con le regole del buon senso («i f you just torture data long enough they will confess »)
È possibile fare in modo che le variabili entrino nel modello in «gruppi» ; questa scelta permette, ad esempio, di seguire un ordine logico o gerarchico, inserendo nel modello, ad esempio, prima le variabili demografiche, poi quelle legate al background familiare, poi quelle legate a comportamenti, infine quelle legate a opinioni
Blocchi diversi possono adottare criteri di selezione diversi: ad esempio possiamo decidere che le variabili del I blocco entrino tutte nel modello (ad esempio perché vogliamo tenerle sotto controllo), mentre le variabili del II blocco vengono selezionate con un criterio automatico
La possibilità di usare criteri di selezione diversi nei blocchi può essere utilizzata per forzare nel modello variabili la cui assenza creerebbe problemi: ad esempio possiamo inserire in un blocco che entra certamente nel modello:
POI leggiamo l’altra tabella:
Abbiamo un modello significativo che spiega addirittura l’86,9% e l’87,1% con l’interazione (tabella RIEPILOGO MODELLO )
Vediamo cosa ci dice il modello guardando la tabella COEFFICIENTI :
Infine abbiamo l’interazione tra superficie e città universitaria ( sup_univ ) Come è fatta questa interazione? E’ fatta sempre come PRODOTTO fra città universitaria (si:1/ no:0) e superficie dell’immobile:
Cosa di dice questa interazione?
★ Quindi mi dice che il prezzo al mq se la città è universitaria è di → 89 dollari (76+13) ★ Se la città non è universitaria il prezzo è di 76