Docsity
Docsity

Prepara i tuoi esami
Prepara i tuoi esami

Studia grazie alle numerose risorse presenti su Docsity


Ottieni i punti per scaricare
Ottieni i punti per scaricare

Guadagna punti aiutando altri studenti oppure acquistali con un piano Premium


Guide e consigli
Guide e consigli


dispensa per professore della beffa, Dispense di Statistica

dispensa per studiare l'esame di data analysis

Tipologia: Dispense

2022/2023

Caricato il 05/02/2023

GiuseppeScibilia
GiuseppeScibilia 🇮🇹

5 documenti

1 / 11

Toggle sidebar

Questa pagina non è visibile nell’anteprima

Non perderti parti importanti!

bg1
IULM Modelli di regressione 1
IULM
Modelli di regressione
1. Introduzione ............................................................................................................................................... 1
2. Regressione lineare semplice ..................................................................................................................... 2
2.1. Il modello......................................................................................................................................... 2
2.2. Stima dei coefficienti di regressione ............................................................................................... 3
2.3. Bontà dell’approssimazione ............................................................................................................ 4
3. Regressione lineare multipla ...................................................................................................................... 4
3.1. Il modello......................................................................................................................................... 4
3.2. Ipotesi del modello e test di significatività dei risultati ................................................................... 5
3.3. Output standard ............................................................................................................................... 6
4. Coefficienti standardizzati e multicollinearità ........................................................................................... 7
5. Complementi .............................................................................................................................................. 8
5.1. Uso della regressione a scopo predittivo ......................................................................................... 8
5.2. Variabili dummy .............................................................................................................................. 8
5.3. Numerosità dei campioni ................................................................................................................. 9
5.4. Regressione logistica ....................................................................................................................... 9
6. Esempio: customer satisfaction ............................................................................................................... 10
1. Introduzione
L'analisi di regressione
1
si applica al problema che coinvolge due o più variabili di valutare come le
variazioni di una di esse (variabile dipendente o risposta, 𝑦) sono legate alle variazioni delle altre (una o più
variabili indipendenti o esplicative o predittori, 𝑥1… 𝑥𝑝). In particolare l’obiettivo è definire ed esaminare un
modello, cioè un legame funzionale, una formula, che lega la 𝑦 alle 𝑥𝑖. Con regressione si indica in generale
la descrizione di questo legame. Ad esempio:
- la quantità venduta di un prodotto in funzione del prezzo;
- il consumo di un'automobile in funzione della potenza del motore, dell’aerodinamica e del peso;
- la soddisfazione dell’utente in funzione della soddisfazione per le singole caratteristiche del servizio.
L'analisi di regressione viene normalmente utilizzata per modellare e misurare dei rapporti causa-effetto tra
predittori e variabile dipendente, tuttavia dal punto di vista statistico la regressione non implica
necessariamente un rapporto causa-effetto, ma semplicemente una associazione tra le variabili. L’esistenza di
un rapporto causa-effetto è naturalmente sempre ipotizzabile, ma si tratta di un aspetto interpretativo che non
consegue da considerazioni strettamente statistiche, ma da scelte di chi effettua l’analisi, ovvero da ipotesi
esterne preesistenti rispetto alle quali la statistica può eventualmente fornire una conferma a posteriori.
L’analisi di regressione può avere due obiettivi, che non si escludono a vicenda:
1. identificare i migliori predittori di un certo fenomeno;
2. effettuare stime e previsioni.
Nell’ambito dell’analisi di mercato prevale spesso il primo obiettivo, che in termini interpretativi si traduce
nell’individuare le variabili esplicative che influenzano maggiormente la variabile considerata dipendente; è
il problema tipico delle analisi di customer satisfaction, dove l’obiettivo è identificare le caratteristiche di un
prodotto o servizio che più influenzano la soddisfazione.
La matrice dei dati oggetto dell’analisi è una matrice unità per variabili con una riga per unità e una colonna
per variabile. Nel seguito utilizzeremo un esempio (fig. 1), nel quale le unità sono film di Hollywood tratti da
romanzi e le variabili (tutte espresse in milioni di dollari) sono:
1
Il termine regressione fu introdotto da Francis Galton (1822-1911) a proposito della relazione tra l'altezza dei padri e
quella dei figli. Galton osservò che i padri molto alti o molto bassi tendevano ad avere figli con altezze meno estreme ed
espresse questo fatto dicendo che le altezze dei figli “regrediscono verso la media”.
pf3
pf4
pf5
pf8
pf9
pfa

Anteprima parziale del testo

Scarica dispensa per professore della beffa e più Dispense in PDF di Statistica solo su Docsity!

IULM

Modelli di regressione

  1. Introduzione ............................................................................................................................................... 1
  2. Regressione lineare semplice ..................................................................................................................... 2 2.1. Il modello......................................................................................................................................... 2 2.2. Stima dei coefficienti di regressione ............................................................................................... 3 2.3. Bontà dell’approssimazione ............................................................................................................ 4
  3. Regressione lineare multipla ...................................................................................................................... 4 3.1. Il modello......................................................................................................................................... 4 3.2. Ipotesi del modello e test di significatività dei risultati ................................................................... 5 3.3. Output standard ............................................................................................................................... 6
  4. Coefficienti standardizzati e multicollinearità ........................................................................................... 7
  5. Complementi.............................................................................................................................................. 8 5.1. Uso della regressione a scopo predittivo ......................................................................................... 8 5.2. Variabili dummy .............................................................................................................................. 8 5.3. Numerosità dei campioni ................................................................................................................. 9 5.4. Regressione logistica ....................................................................................................................... 9
  6. Esempio: customer satisfaction ............................................................................................................... 10

1. Introduzione

L'analisi di regressione^1 si applica al problema – che coinvolge due o più variabili – di valutare come le variazioni di una di esse (variabile dipendente o risposta, 𝑦) sono legate alle variazioni delle altre (una o più variabili indipendenti o esplicative o predittori, 𝑥 1 … 𝑥𝑝). In particolare l’obiettivo è definire ed esaminare un modello, cioè un legame funzionale, una formula, che lega la 𝑦 alle 𝑥𝑖. Con regressione si indica in generale la descrizione di questo legame. Ad esempio:

  • la quantità venduta di un prodotto in funzione del prezzo;
  • il consumo di un'automobile in funzione della potenza del motore, dell’aerodinamica e del peso;
  • la soddisfazione dell’utente in funzione della soddisfazione per le singole caratteristiche del servizio. L'analisi di regressione viene normalmente utilizzata per modellare e misurare dei rapporti causa-effetto tra predittori e variabile dipendente, tuttavia – dal punto di vista statistico – la regressione non implica necessariamente un rapporto causa-effetto, ma semplicemente una associazione tra le variabili. L’esistenza di un rapporto causa-effetto è naturalmente sempre ipotizzabile, ma si tratta di un aspetto interpretativo che non consegue da considerazioni strettamente statistiche, ma da scelte di chi effettua l’analisi, ovvero da ipotesi esterne preesistenti rispetto alle quali la statistica può eventualmente fornire una conferma a posteriori. L’analisi di regressione può avere due obiettivi, che non si escludono a vicenda:
  1. identificare i migliori predittori di un certo fenomeno;
  2. effettuare stime e previsioni. Nell’ambito dell’analisi di mercato prevale spesso il primo obiettivo, che in termini interpretativi si traduce nell’individuare le variabili esplicative che influenzano maggiormente la variabile considerata dipendente; è il problema tipico delle analisi di customer satisfaction , dove l’obiettivo è identificare le caratteristiche di un prodotto o servizio che più influenzano la soddisfazione. La matrice dei dati oggetto dell’analisi è una matrice unità per variabili con una riga per unità e una colonna per variabile. Nel seguito utilizzeremo un esempio (fig. 1), nel quale le unità sono film di Hollywood tratti da romanzi e le variabili (tutte espresse in milioni di dollari) sono: (^1) Il termine regressione fu introdotto da Francis Galton (1822-1911) a proposito della relazione tra l'altezza dei padri e quella dei figli. Galton osservò che i padri molto alti o molto bassi tendevano ad avere figli con altezze meno estreme ed espresse questo fatto dicendo che le altezze dei figli “regrediscono verso la media”.
  • box office : incassi nel primo anno;
  • production : spese di produzione;
  • promotion : spese di promozione;
  • book sales : incassi dalla vendita del libro prima della produzione del film. Lo scopo di un’analisi di regressione in questo contesto è di valutare se e come il box office (variabile dipendente) è legato alle altre variabili; in particolare sarebbe di grande interesse verificare una relazione forte tra box office e book sales : le vendite del libro sono infatti note prima di iniziare la produzione e potrebbero indirizzare quest’ultima su un soggetto piuttosto che un altro. ID box office production promotion book sales (^1) 85,1 8,5 5,1 4, 2 106,3 12,9 5,8 8, 3 50,2 5,2 2,1 15, 4 130,6 10,7 8,4 12, 5 54,8 3,1 2,9 10, (^6) 30,3 3,5 1,2 3, (^7) 79,4 9,2 3,7 9, 8 91 ,0 9 ,0 7,6 5, 9 135,4 15,1 7,7 20, 10 89,3 10,2 4,5 7, Fig. 1 Matrice dei dati È possibile un’interpretazione geometrica dei modelli di regressione: quando le variabili sono solo due (𝑦 e 𝑥), cioè quando c’è una sola variabile esplicativa 𝑥, le unità si possono rappresentare come punti del piano; trovare un modello di regressione significa allora identificare una curva che approssima meglio possibile la configurazione dei punti. L’interpretazione geometrica si può estendere a più dimensioni: con due variabili esplicative le unità sono punti nello spazio ordinario a tre dimensioni (due variabili esplicative più la variabile dipendente) e il problema è identificare la superficie che meglio approssima la nube dei punti. Con più dimensioni non è più possibile una rappresentazione fisica, ma l’interpretazione rimane: con 𝑝 variabili esplicative il problema è identificare una (iper)superficie che approssima i punti nell’(iper)spazio a 𝑝 + 1 dimensioni. Nel caso più semplice si ipotizza che la relazione funzionale tra le variabili sia lineare^2 : è il caso della regressione lineare , semplice o multipla secondo che le variabili esplicative siano rispettivamente una o più di una. Nel caso della regressione lineare semplice la “curva” è quindi semplicemente una retta; nel caso della regressione lineare multipla la “superficie” è un piano o un iperpiano.

2. Regressione lineare semplice

2.1. Il modello

Se la variabile esplicativa è una sola, il legame funzionale lineare tra le variabili è espresso dalla relazione: 𝑦 = 𝑎 + 𝑏𝑥 dove 𝑦 è la variabile risposta e 𝑥 la variabile esplicativa. Con riferimento all’esempio, e considerando promotion come unico predittore, la formula diventa: box office = 𝑎 + 𝑏 ∙ promotion Scopo dell'analisi è (1) stimare i valori dei coefficienti a e b e (2) individuare dei criteri per valutare la bontà del risultato. A questo scopo si hanno in generale a disposizione n unità, per ciascuna delle quali è nota la coppia di variabili che chiameremo 𝑦 e 𝑥 3 : 𝑦 1 𝑥 1 𝑦 2 𝑥 2 ⋮ 𝑦𝑛 𝑥𝑛 (^2) Cioè espressa da una relazione nella quale tutti i predittori compaiono al primo grado, senza prodotti o potenze. (^3) Nell’esempio 𝑛 = 10 e le due variabili y e x sono rispettivamente box office e promotion.

significa che se promotion aumenta di un’unità (cioè se le spese di promozione aumentano di un milione) in media il box office aumenta di 12 , 669 milioni.

2.3. Bontà dell’approssimazione

I coefficienti di regressione identificano univocamente la retta che rappresenta l’approssimazione migliore dei punti. Il problema è che una retta “migliore” esiste sempre, anche se in realtà fornisce una cattiva approssimazione. È quindi necessario associare alla soluzione trovata un criterio per valutare la bontà dell'approssimazione. Il criterio più semplice e intuitivo è il coefficiente di determinazione 𝑅^2 : 0 ≤ 𝑅^2 ≤ 1 𝑅^2 misura la proporzione di varianza totale di y spiegata dalla regressione, quindi 𝑅^2 è tanto più vicino a 1 quanto migliore è l'approssimazione fornita dalla regressione^7. In termini geometrici, un valore alto di 𝑅^2 significa che in media i punti sono vicini alla retta (fig. 4 sinistra, dati dell’esempio), e un valore basso significa che i punti sono piuttosto lontani dalla retta (fig. 4 destra, dati fittizi). In particolare:

  • 𝑅^2 = 1 significa che la retta approssima i punti alla perfezione, cioè che i punti sono allineati^8 ;
  • 𝑅^2 = 0 significa che la retta non approssima affatto i punti, cioè che i punti sono distribuiti casualmente intorno alla retta. Fig. 4 Valori differenti di R quadrato e dispersione dei punti Nell’esempio dei film 𝑅^2 = 0 , 865 : le spese di promozione da sole spiegano l’86,5% della varianza del box office ; rimane una varianza residua, non spiegata, del 13,5% che – nell’interpretazione causale – può essere attribuita ad altri fattori, cioè ad altre possibili variabili esplicative, e in generale può dipendere da variazioni campionarie casuali, da approssimazioni nei dati, da inadeguatezza del modello lineare.

3. Regressione lineare multipla

3.1. Il modello

La regressione lineare multipla è l'ovvia estensione di quella semplice al caso in cui le variabili esplicative siano più di una: 𝑥 1 , 𝑥 2 , … , 𝑥𝑝. Il legame funzionale tra le variabili è espresso dalla relazione: 𝑦 = 𝑏 0 + 𝑏 1 𝑥 1 + 𝑏 2 𝑥 2 + ⋯ + 𝑏𝑝𝑥𝑝 e lo scopo dell'analisi è ancora stimare i valori dei parametr i 𝑏𝑖 e corredarli di criteri per valutare la bontà del risultato. Il calcolo dei coefficienti si basa ancora sul criterio dei minimi quadrati e i coefficienti stessi mantengono la loro interpretazione con una precisazione: il coefficiente 𝑏𝑖 rappresenta la variazione della variabile dipendente per un aumento unitario della i - esima variabile esplicativa tenendo fisse le altre variabili. Torneremo in seguito su questo aspetto, che richiede alcune attenzioni. 𝑅^2 conserva il significato di percentuale della varianza di y spiegata dall’insieme dei predittori. Nel caso della regressione multipla si verifica però che 𝑅^2 è sensibile al numero di variabili esplicative, nel senso che aggiungendone una 𝑅^2 migliora sempre, anche se la variabile aggiunta non è correlata con la variabile (^7) Non esistono soglie universalmente accettate per 𝑅 (^2) , ma indicativamente ci si può attenere alla seguente convenzione: 𝑅^2 sotto 0,3 “nullo o bassissimo”; tra 0,3 e 0,5 “basso”; tra 0,5 e 0,7 “moderato”; sopra 0,7 “alto”. (^8) Nel caso della regressione lineare semplice 𝑅 (^2) è il quadrato del coefficiente di correlazione r tra x e y : 𝑅 (^2) = 1 se e solo se i punti sono perfettamente allineati, cioè appunto se 𝑟 = ± 1. R² = 0, 0 40 80 120 160 0 2 4 6 8 10 box office promotion R² = 0, 0 40 80 120 160 0 2 4 6 8 10 y x

dipendente^9. Se si vuole confrontare la bontà dell’approssimazione ottenuta sugli stessi dati con due modelli diversi – cioè con numero di predittori diversi – , è allora opportuno utilizzare una trasformazione di 𝑅^2 (𝑅^2 corretto o adattato ), che è sempre minore di 𝑅^2 e compensa questa distorsione^10. Nell’esempio dei film il modello con tutti i predittori è: box office = 𝑏 0 + 𝑏 1 ∙ 𝑝𝑟𝑜𝑑𝑢𝑐𝑡𝑖𝑜𝑛 + 𝑏 2 ∙ 𝑝𝑟𝑜𝑚𝑜𝑡𝑖𝑜𝑛 + 𝑏 3 ∙ 𝑏𝑜𝑜𝑘 𝑠𝑎𝑙𝑒𝑠 e le stime dei parametri^11 sono: box office = 7 , 676 + 3 , 662 ∙ 𝑝𝑟𝑜𝑑𝑢𝑐𝑡𝑖𝑜𝑛 + 7 , 621 ∙ 𝑝𝑟𝑜𝑚𝑜𝑡𝑖𝑜𝑛 + 0 , 828 ∙ 𝑏𝑜𝑜𝑘 𝑠𝑎𝑙𝑒𝑠 con 𝑅^2 = 0 , 967.

3.2. Ipotesi del modello e test di significatività dei risultati

I risultati ottenuti fin qui si basano sulle ipotesi che tra x e y vi sia un legame approssimativamente lineare e che gli errori 𝑒𝑖 siano indipendenti tra loro^12 ; inoltre il metodo dei minimi quadrati garantisce che gli errori abbiano media nulla, cioè che i residui per eccesso e per difetto si compensino. Se si aggiunge l'ipotesi che gli errori seguano una distribuzione normale con media zero e varianza costante^13 , si possono effettuare test di significatività sui risultati della regressione. In particolare sono possibili due tipi di test:

  • sulla significatività globale della regressione (Anova);
  • sulla significatività dei singoli coefficienti (test t ). Test globale Il test globale sulla regressione è un'analisi della varianza (Anova) che testa l'ipotesi seguente: 𝐻 0 : tutti i coefficienti di regressione sono uguali a zero: 𝑏 1 = 𝑏 2 = ⋯ = 𝑏𝑝 = 0 𝐻 1 : almeno un coefficiente di regressione è diverso da zero. L’ipotesi nulla è quindi che non esista alcuna relazione tra l’insieme delle variabili esplicative e la variabile dipendente. La statistica test è F^14 che è calcolata direttamente da qualunque pacchetto software, insieme col relativo p - value. Perché il risultato della regressione sia accettabile bisogna che p sia piccolo^15. Un valore elevato di p significa che il modello lineare con le variabili utilizzate “non funziona”^16 e quindi è inutile proseguire con l’esame degli altri risultati. Per questo motivo il test globale con l’Anova è di regola il primo controllo da fare sull’output di una regressione. Nel caso dell’esempio il valore di p approssimato a tre decimali è: 𝑝 = 0 , 000 cioè 𝑝 < 0 , 0005 : poiché p è molto piccolo si rifiuta l'ipotesi nulla 𝐻 0 in favore della 𝐻 1 , si conclude cioè che con ogni evidenza c’è almeno un coefficiente di correlazione diverso da zero, ovvero che esiste un legame (lineare) tra box office e almeno uno dei tre predittori. Test sui singoli coefficienti L’analisi della significatività dei singoli coefficienti testa, per ogni coefficiente 𝑏𝑖, l'ipotesi seguente: 𝐻 0 : 𝑏𝑖 = 0 𝐻 1 : 𝑏𝑖 ≠ 0 (^9) Questo dipende dal fatto che il modello sfrutta anche le variazioni casuali per migliorare l’approssimazione. (^10) La correzione di 𝑅 (^2) dipende anche da n ed è maggiore per valori piccoli di n , come nell’esempio; per valori di n grandi la correzione è trascurabile. Si noti inoltre che 𝑅^2 corretto non rappresenta più la percentuale di varianza di y spiegata dai predittori, pertanto il suo uso andrebbe limitato al confronto tra modelli con un numero diverso di predittori. (^11) Ottenute direttamente via software. (^12) Cioè che le n osservazioni siano indipendenti, ovvero, in definitiva, che il campione sia casuale. (^13) Si intende: varianza costante al variare delle x. (^14) F segue una distribuzione F di Fisher-Snedecor con 𝑝 e (𝑛 − 𝑝 − 1 ) (^) gradi di libertà. (^15) Convenzionalmente 𝑝 < 0 , 05 o 𝑝 < 0 , 01 ma sono possibili anche valori diversi. (^16) Può essere che non ci sia alcuna relazione tra le variabili esplicative e la dipendente, oppure che ci sia una relazione non lineare.

4. Coefficienti standardizzati e multicollinearità

Dai coefficienti di regressione si cerca spesso di desumere il “peso relativo” delle variabili esplicative rispetto alla variabile risposta con affermazioni del tipo: “se un predittore ha coefficiente doppio di un altro, il contributo^19 del primo alla variabile risposta è il doppio di quello del secondo”. Per trarre conclusioni di questo tipo è tuttavia indispensabile tenere conto di due tipi di considerazioni.

  1. I coefficienti di regressione risentono dell'ordine di grandezza delle variabili esplicative, che possono essere espresse in scale e con ordini di grandezza differenti. In queste situazioni il confronto può essere eseguito tra i coefficienti standardizzati^20 , rispetto ai quali tutte le variabili hanno lo stesso ordine di grandezza e sono pertanto confrontabili. I coefficienti standardizzati conservano sempre il segno di quelli originali non standardizzati; essi indicano ancora l’aumento della variabile dipendente in funzione della variazione dei predittori, però ora gli incrementi sono espressi in deviazioni standard anziché nei valori originali, il che ne rende meno agevole l’interpretazione.
  2. Il contributo relativo delle variabili esplicative dipende anche dalle correlazioni tra di esse. La condizione ideale si ha quando i predittori sono incorrelati: in tal caso i rispettivi contributi sono indipendenti uno dall'altro e il contributo di ognuno si può stimare esattamente^21 ; se invece i predittori sono correlati ( collinearità ) i singoli contributi sono in parte “sovrapposti”, i coefficienti di regressione tendono a divenire instabili^22 , i contributi relativi non si possono misurare agevolmente. La presenza di variabili esplicative correlate è accettabile entro certi limiti e si può misurare con la tolleranza^23 o col suo reciproco VIF^24 ; variabili con tolleranza molto bassa^25 – ovvero con un VIF molto alto – dovrebbero essere eliminate dall'analisi^26. Fig. 6 Coefficienti standardizzati e tolleranza Nella fig. 6 è riportata l’ultima parte dell’output di fig. 5 (Stime dei parametri) integrata con le colonne Beta std – i coefficienti standardizzati – e VIF. Nel nostro caso i predittori hanno lo stesso ordine di grandezza (fig. 1) ma medie un po’ diverse (8,74 per production , 4,9 per promotion ). Se si considerano i coefficienti non standardizzati il predittore promotion ha un coefficiente (7,621) circa doppio di production (3,662); se si considerano quelli standardizzati promotion rimane più alto ma la differenza tra i valori (0,559 e 0,421) si attenua molto. Complessivamente si può concludere che le spese di promozione hanno un impatto relativo un po’ più alto di quelle di produzione. L’analisi della collinearità mostra che book sales ha un VIF molto basso; ciò indica che l’informazione di book sales è sostanzialmente indipendente da quella di production e promotion ; abbiamo però già visto che book sales non è un predittore significativo e per quel motivo lo trascuriamo. Production e promotion hanno invece VIF più elevati, ma non tanto da doverne eliminare una; ciò indica che le due variabili sono correlate, come del resto è logico aspettarsi. (^19) Si ricordi che tradurre la significatività di un coefficiente con l’esistenza di una relazione causa-effetto è una valutazione interpretativa. (^20) Sono quelli che si otterrebbero se la regressione, anziché sulle variabili originali, fosse eseguita sulle variabili standardizzate: in questo modo tutte le variabili diventano adimensionali e vengono ricondotte alla stessa scala. Si noti che – a dispetto del nome – non sono propriamente i coefficienti a essere standardizzati, bensì le variabili. (^21) Per predittori incorrelati il contributo di 𝑥i è uguale al quadrato del suo coefficiente di correlazione con y. (^22) Cioè possono variare molto per variazioni anche piccole dei dati, si possono stimare con scarsa precisione, hanno una grande varianza. (^23) È la percentuale della varianza di un predittore non spiegata da altri predittori. (^24) Variance Inflation Factor = 1 ⁄tolleranza. (^25) Indicativamente si considera accettabile una tolleranza maggiore di 0,2 – ovvero un VIF minore di 5 – ma esistono altre convenzioni più o meno severe. (^26) Rispetto all’ordine delle operazioni descritto al paragrafo 3.3, il controllo della collinearità si dovrebbe collocare tra il punto 2 e il punto 3, cioè dopo la valutazione di R^2 e prima di esaminare il p - value dei singoli coefficienti.

5. Complementi

5.1. Uso della regressione a scopo predittivo

L’analisi dei coefficienti di regressione vista fin qui realizza l’obiettivo esplorativo di individuare i migliori predittori di una certa variabile. Questo è l’uso più frequente dei modelli di regressione nell’ambito delle analisi di mercato, per misurare le spinte al consumo e i fattori che influenzano la soddisfazione. Oltre che a scopo esplorativo, l'analisi di regressione può essere usata a scopo predittivo. Con i coefficienti di regressione calcolati è infatti possibile stimare il valore della variabile risposta y in corrispondenza di nuovi valori 𝑥 1 ∗, 𝑥 2 ∗, … , 𝑥𝑝^ ∗^ delle variabili esplicative: è sufficiente sostituire i nuovi valori nell'equazione che rappresenta la regressione stimata: 𝑦∗^ = 𝑏 0 + 𝑏 1 𝑥 1 ∗^ + ⋯ + 𝑏𝑝𝑥𝑝^ ∗ Nelle consuete ipotesi di normalità degli errori è possibile calcolare un intervallo di confidenza per le stime così ottenute: l'ampiezza di tale intervallo cresce man mano che i valori dei nuovi predittori 𝑥 1 ∗, 𝑥 2 ∗, … , 𝑥𝑝^ ∗^ si allontanano dalle rispettive medie 𝑥̅ 1 , 𝑥̅ 1 , … , 𝑥̅𝑝 (fig. 7 ), quindi la precisione delle stime così ottenute decresce quando gli 𝑥𝑖^ ∗^ si avvicinano ai valori più estremi. In particolare, per valori 𝑥𝑖^ ∗^ delle variabili esplicative molto lontani dai valori utilizzati per il calcolo della regressione, le stime sono del tutto inaffidabili, perché in generale non è detto che – al di fuori degli intervalli noti – sia ancora valida la stessa approssimazione lineare. Ad esempio al paragrafo 2.2 abbiamo notato che se promotion aumenta di un’unità (cioè se le spese di promozione aumentano di un milione) in media il box office aumenta di 12 , 669 milioni, ma questo ovviamente non significa che spendendo 100 milioni in promozione l’incasso totale salirebbe di 1 .266, milioni: questa stima evidentemente non realistica dipende dal fatto che il modello è stato calcolato su valori di promotion compresi tra 1,2 e 8,4 e non ha senso estenderne la validità a valori lontani da quell’intervallo. Fig. 7 Intervalli di confidenza della stima (○ = media) L’uso predittivo della regressione è quello per il quale è più importante un valore elevato di 𝑅^2 , poiché questo si riflette sulla precisione delle stime, il che del resto è in accordo col fatto che un valore di 𝑅^2 più vicino a 1 significa che i punti sono più vicini alla retta – o all’iperpiano, se le dimensioni sono più di due.

5.2. Variabili dummy

Finora abbiamo preso in considerazione solo variabili dipendenti e indipendenti numeriche. È tuttavia possibile inserire nell'analisi di regressione anche predittori qualitativi, trasformandoli in opportune variabili dicotomiche, dette variabili dummy , che rappresentano la presenza o l' assenza di un attributo. Ad esempio il caso dei film si potrebbe estendere con una variabile di classificazione dei film in generi, come thriller , commedia , animazione. L’informazione – tipicamente categorica – si potrebbe tradurre in tre variabili: thriller : 0 = no , 1 = ; commedia : 0 = no , 1 = ; animazione : 0 = no , 1 = . Queste nuove variabili possono essere incluse come predittori nella regressione con un’avvertenza: una delle tre, per esempio animazione , non deve essere inclusa perché implicitamente definita dal contemporaneo valore zero delle altre due. In generale una variabile qualitativa che ammette k valori diversi è rappresentata nella regressione da (𝑘 − 1 ) variabili dummy. La categoria esclusa è indicata come categoria di riferimento.

strumenti per valutare la bontà dell’approssimazione e coefficienti che permettono di analizzare l’impatto delle singole variabili esplicative.

6. Esempio: customer satisfaction

La regressione (lineare) è lo strumento base per affrontare problemi di customer satisfaction , nei quali l’obiettivo è individuare e misurare quali caratteristiche di un prodotto o servizio influenzano la soddisfazione dei clienti/utenti. Lo scopo finale è supportare decisioni di marketing o di comunicazione. I dati provengono di solito da indagini. Nel caso più semplice il questionario comprende una valutazione overall della soddisfazione e una batteria di attributi del prodotto. La valutazione overall può essere una vera e propria valutazione globale della soddisfazione (“complessivamente, quanto si ritiene soddisfatto del servizio ricevuto?”) o una intenzione di acquisto (“pensa che comprerebbe questo prodotto?”) o un altro tipo di valutazione^34. In ogni caso la variabile overall è destinata ad essere la variabile dipendente del modello; gli item della batteria di attributi sono le variabili esplicative. Per l’obiettivo stesso dell’analisi è normale considerare le relazioni tra predittori e dipendente come vere e proprie relazioni di causa-effetto. Normalmente tutte le variabili sono espresse in scale di Likert, utilizzate come variabili numeriche. Consideriamo il caso di una analisi di customer satisfaction per saponi da barba^35 : le variabili disponibili sono riassunte in fig. 8, i risultati del modello di regressione in fig. 9. (n = 1853) min max media soddisfazione globale 1 10 6, profumo piacevole 1 5 3, che idratino la pelle 1 5 3, adatti a barbe difficili 1 5 3, confezioni eleganti 1 5 3, senso di benessere 1 5 3, ingredienti naturali 1 5 4, marca di qualità 1 5 3, Fig. 8 Statistiche descrittive La significatività dell’Anova (non riportata in fig. 9) è altissima (𝑝 < 0 , 0005 ); il valore di 𝑅^2 (0,61) è molto buono; in questo contesto è infatti irrealistico aspettarsi valori molto alti: sul piano tecnico le scale di Likert consentono di rilevare i dati con una certa approssimazione, alla quale si aggiunge quella dovuta all’uso di variabili ordinali come se fossero numeriche; sul piano sostanziale – più importante – è ragionevole pensare che la valutazione overall dipenda anche da altre caratteristiche non considerate qui, una per tutte: il prezzo. L’indice VIF mostra valori inferiori alle convenzionali soglie di criticità: non ci sono quindi problemi di collinearità e il contributo dei singoli predittori alla soddisfazione può essere basato con relativa tranquillità direttamente sui coefficienti di regressione. Riepilogo del modello R R-quadrato R-quadrato adattato Err. std. della stima 0,781 0,610 0,609 1, Coefficienti Coeff non standardizzati Coeff t p-value Statistiche di collinearità B Err std Beta std Tolleranza VIF (Costante) 0,372 0,146 2,543 0, profumo piacevole 0,418 0,035 0,229 12,025 0,000 0,582 1, idratano la pelle 0,340 0,039 0,185 8,801 0,000 0,478 2, adatti a barbe difficili 0,411 0,033 0,238 12,496 0,000 0,583 1, confezioni eleganti - 0,069 0,028 - 0,040 - 2,444 0,015 0,782 1, senso di benessere 0,347 0,042 0,179 8,317 0,000 0,458 2, ingredienti naturali - 0,014 0,034 - 0,007 - 0,418 0,676 0,754 1, marca di qualità 0,313 0,039 0,170 8,116 0,000 0,481 2, (^34) Es. “raccomanderebbe questo prodotto?” o “pensa che continuerà a usarlo in futuro?”. (^35) Caso reale adattato.

Fig. 9 Risultati della regressione L’esame dei singoli predittori mostra che sono tutti significativi tranne ingredienti naturali (𝑝 = 0 , 676 ): la naturalità degli ingredienti – che pure ha una valutazione media molto alta (4,06) – non contribuisce (in media) a definire il gradimento del prodotto; la non significatività di ingredienti naturali rende ininfluente il fatto che il coefficiente sia negativo (− 0 , 014 ) che altrimenti sarebbe un risultato controintuitivo. Tra gli altri attributi solo confezioni eleganti ha un coefficiente negativo, se pure non alto in valore assoluto: più sono eleganti le confezioni minore è la soddisfazione per il prodotto; è un aspetto delicato da interpretare, che richiederebbe competenze specifiche sul mercato dei saponi da barba; una ipotesi è che gli intervistati siano disturbati da pretese di eleganza in un prodotto da grande distribuzione e preferiscano altre caratteristiche delle confezioni, come sobrietà o maneggevolezza, ma altre ipotesi sono possibili. Gli altri attributi hanno tutti un impatto positivo sulla soddisfazione. Siccome sono espressi nella stessa scala, per l’esame dei coefficienti si può fare riferimento a quelli non standardizzati, più facili da interpretare. Le valutazioni finali sono dunque le seguenti: gli attributi rimanenti hanno un impatto paragonabile, ma è possibile tuttavia individuare un certo ordinamento: i più importanti sono profumo piacevole e adatti a barbe difficili , seguiti da senso di benessere e idratano la pelle e, poco più basso, marca di qualità.