






Studia grazie alle numerose risorse presenti su Docsity
Guadagna punti aiutando altri studenti oppure acquistali con un piano Premium
Prepara i tuoi esami
Studia grazie alle numerose risorse presenti su Docsity
Prepara i tuoi esami con i documenti condivisi da studenti come te su Docsity
Trova i documenti specifici per gli esami della tua università
Preparati con lezioni e prove svolte basate sui programmi universitari!
Rispondi a reali domande d’esame e scopri la tua preparazione
Riassumi i tuoi documenti, fagli domande, convertili in quiz e mappe concettuali
Studia con prove svolte, tesine e consigli utili
Togliti ogni dubbio leggendo le risposte alle domande fatte da altri studenti come te
Esplora i documenti più scaricati per gli argomenti di studio più popolari
Ottieni i punti per scaricare
Guadagna punti aiutando altri studenti oppure acquistali con un piano Premium
dispensa per studiare l'esame di data analysis
Tipologia: Dispense
1 / 11
Questa pagina non è visibile nell’anteprima
Non perderti parti importanti!







L'analisi di regressione^1 si applica al problema – che coinvolge due o più variabili – di valutare come le variazioni di una di esse (variabile dipendente o risposta, 𝑦) sono legate alle variazioni delle altre (una o più variabili indipendenti o esplicative o predittori, 𝑥 1 … 𝑥𝑝). In particolare l’obiettivo è definire ed esaminare un modello, cioè un legame funzionale, una formula, che lega la 𝑦 alle 𝑥𝑖. Con regressione si indica in generale la descrizione di questo legame. Ad esempio:
Se la variabile esplicativa è una sola, il legame funzionale lineare tra le variabili è espresso dalla relazione: 𝑦 = 𝑎 + 𝑏𝑥 dove 𝑦 è la variabile risposta e 𝑥 la variabile esplicativa. Con riferimento all’esempio, e considerando promotion come unico predittore, la formula diventa: box office = 𝑎 + 𝑏 ∙ promotion Scopo dell'analisi è (1) stimare i valori dei coefficienti a e b e (2) individuare dei criteri per valutare la bontà del risultato. A questo scopo si hanno in generale a disposizione n unità, per ciascuna delle quali è nota la coppia di variabili che chiameremo 𝑦 e 𝑥 3 : 𝑦 1 𝑥 1 𝑦 2 𝑥 2 ⋮ 𝑦𝑛 𝑥𝑛 (^2) Cioè espressa da una relazione nella quale tutti i predittori compaiono al primo grado, senza prodotti o potenze. (^3) Nell’esempio 𝑛 = 10 e le due variabili y e x sono rispettivamente box office e promotion.
significa che se promotion aumenta di un’unità (cioè se le spese di promozione aumentano di un milione) in media il box office aumenta di 12 , 669 milioni.
I coefficienti di regressione identificano univocamente la retta che rappresenta l’approssimazione migliore dei punti. Il problema è che una retta “migliore” esiste sempre, anche se in realtà fornisce una cattiva approssimazione. È quindi necessario associare alla soluzione trovata un criterio per valutare la bontà dell'approssimazione. Il criterio più semplice e intuitivo è il coefficiente di determinazione 𝑅^2 : 0 ≤ 𝑅^2 ≤ 1 𝑅^2 misura la proporzione di varianza totale di y spiegata dalla regressione, quindi 𝑅^2 è tanto più vicino a 1 quanto migliore è l'approssimazione fornita dalla regressione^7. In termini geometrici, un valore alto di 𝑅^2 significa che in media i punti sono vicini alla retta (fig. 4 sinistra, dati dell’esempio), e un valore basso significa che i punti sono piuttosto lontani dalla retta (fig. 4 destra, dati fittizi). In particolare:
La regressione lineare multipla è l'ovvia estensione di quella semplice al caso in cui le variabili esplicative siano più di una: 𝑥 1 , 𝑥 2 , … , 𝑥𝑝. Il legame funzionale tra le variabili è espresso dalla relazione: 𝑦 = 𝑏 0 + 𝑏 1 𝑥 1 + 𝑏 2 𝑥 2 + ⋯ + 𝑏𝑝𝑥𝑝 e lo scopo dell'analisi è ancora stimare i valori dei parametr i 𝑏𝑖 e corredarli di criteri per valutare la bontà del risultato. Il calcolo dei coefficienti si basa ancora sul criterio dei minimi quadrati e i coefficienti stessi mantengono la loro interpretazione con una precisazione: il coefficiente 𝑏𝑖 rappresenta la variazione della variabile dipendente per un aumento unitario della i - esima variabile esplicativa tenendo fisse le altre variabili. Torneremo in seguito su questo aspetto, che richiede alcune attenzioni. 𝑅^2 conserva il significato di percentuale della varianza di y spiegata dall’insieme dei predittori. Nel caso della regressione multipla si verifica però che 𝑅^2 è sensibile al numero di variabili esplicative, nel senso che aggiungendone una 𝑅^2 migliora sempre, anche se la variabile aggiunta non è correlata con la variabile (^7) Non esistono soglie universalmente accettate per 𝑅 (^2) , ma indicativamente ci si può attenere alla seguente convenzione: 𝑅^2 sotto 0,3 “nullo o bassissimo”; tra 0,3 e 0,5 “basso”; tra 0,5 e 0,7 “moderato”; sopra 0,7 “alto”. (^8) Nel caso della regressione lineare semplice 𝑅 (^2) è il quadrato del coefficiente di correlazione r tra x e y : 𝑅 (^2) = 1 se e solo se i punti sono perfettamente allineati, cioè appunto se 𝑟 = ± 1. R² = 0, 0 40 80 120 160 0 2 4 6 8 10 box office promotion R² = 0, 0 40 80 120 160 0 2 4 6 8 10 y x
dipendente^9. Se si vuole confrontare la bontà dell’approssimazione ottenuta sugli stessi dati con due modelli diversi – cioè con numero di predittori diversi – , è allora opportuno utilizzare una trasformazione di 𝑅^2 (𝑅^2 corretto o adattato ), che è sempre minore di 𝑅^2 e compensa questa distorsione^10. Nell’esempio dei film il modello con tutti i predittori è: box office = 𝑏 0 + 𝑏 1 ∙ 𝑝𝑟𝑜𝑑𝑢𝑐𝑡𝑖𝑜𝑛 + 𝑏 2 ∙ 𝑝𝑟𝑜𝑚𝑜𝑡𝑖𝑜𝑛 + 𝑏 3 ∙ 𝑏𝑜𝑜𝑘 𝑠𝑎𝑙𝑒𝑠 e le stime dei parametri^11 sono: box office = 7 , 676 + 3 , 662 ∙ 𝑝𝑟𝑜𝑑𝑢𝑐𝑡𝑖𝑜𝑛 + 7 , 621 ∙ 𝑝𝑟𝑜𝑚𝑜𝑡𝑖𝑜𝑛 + 0 , 828 ∙ 𝑏𝑜𝑜𝑘 𝑠𝑎𝑙𝑒𝑠 con 𝑅^2 = 0 , 967.
I risultati ottenuti fin qui si basano sulle ipotesi che tra x e y vi sia un legame approssimativamente lineare e che gli errori 𝑒𝑖 siano indipendenti tra loro^12 ; inoltre il metodo dei minimi quadrati garantisce che gli errori abbiano media nulla, cioè che i residui per eccesso e per difetto si compensino. Se si aggiunge l'ipotesi che gli errori seguano una distribuzione normale con media zero e varianza costante^13 , si possono effettuare test di significatività sui risultati della regressione. In particolare sono possibili due tipi di test:
Dai coefficienti di regressione si cerca spesso di desumere il “peso relativo” delle variabili esplicative rispetto alla variabile risposta con affermazioni del tipo: “se un predittore ha coefficiente doppio di un altro, il contributo^19 del primo alla variabile risposta è il doppio di quello del secondo”. Per trarre conclusioni di questo tipo è tuttavia indispensabile tenere conto di due tipi di considerazioni.
L’analisi dei coefficienti di regressione vista fin qui realizza l’obiettivo esplorativo di individuare i migliori predittori di una certa variabile. Questo è l’uso più frequente dei modelli di regressione nell’ambito delle analisi di mercato, per misurare le spinte al consumo e i fattori che influenzano la soddisfazione. Oltre che a scopo esplorativo, l'analisi di regressione può essere usata a scopo predittivo. Con i coefficienti di regressione calcolati è infatti possibile stimare il valore della variabile risposta y in corrispondenza di nuovi valori 𝑥 1 ∗, 𝑥 2 ∗, … , 𝑥𝑝^ ∗^ delle variabili esplicative: è sufficiente sostituire i nuovi valori nell'equazione che rappresenta la regressione stimata: 𝑦∗^ = 𝑏 0 + 𝑏 1 𝑥 1 ∗^ + ⋯ + 𝑏𝑝𝑥𝑝^ ∗ Nelle consuete ipotesi di normalità degli errori è possibile calcolare un intervallo di confidenza per le stime così ottenute: l'ampiezza di tale intervallo cresce man mano che i valori dei nuovi predittori 𝑥 1 ∗, 𝑥 2 ∗, … , 𝑥𝑝^ ∗^ si allontanano dalle rispettive medie 𝑥̅ 1 , 𝑥̅ 1 , … , 𝑥̅𝑝 (fig. 7 ), quindi la precisione delle stime così ottenute decresce quando gli 𝑥𝑖^ ∗^ si avvicinano ai valori più estremi. In particolare, per valori 𝑥𝑖^ ∗^ delle variabili esplicative molto lontani dai valori utilizzati per il calcolo della regressione, le stime sono del tutto inaffidabili, perché in generale non è detto che – al di fuori degli intervalli noti – sia ancora valida la stessa approssimazione lineare. Ad esempio al paragrafo 2.2 abbiamo notato che se promotion aumenta di un’unità (cioè se le spese di promozione aumentano di un milione) in media il box office aumenta di 12 , 669 milioni, ma questo ovviamente non significa che spendendo 100 milioni in promozione l’incasso totale salirebbe di 1 .266, milioni: questa stima evidentemente non realistica dipende dal fatto che il modello è stato calcolato su valori di promotion compresi tra 1,2 e 8,4 e non ha senso estenderne la validità a valori lontani da quell’intervallo. Fig. 7 Intervalli di confidenza della stima (○ = media) L’uso predittivo della regressione è quello per il quale è più importante un valore elevato di 𝑅^2 , poiché questo si riflette sulla precisione delle stime, il che del resto è in accordo col fatto che un valore di 𝑅^2 più vicino a 1 significa che i punti sono più vicini alla retta – o all’iperpiano, se le dimensioni sono più di due.
Finora abbiamo preso in considerazione solo variabili dipendenti e indipendenti numeriche. È tuttavia possibile inserire nell'analisi di regressione anche predittori qualitativi, trasformandoli in opportune variabili dicotomiche, dette variabili dummy , che rappresentano la presenza o l' assenza di un attributo. Ad esempio il caso dei film si potrebbe estendere con una variabile di classificazione dei film in generi, come thriller , commedia , animazione. L’informazione – tipicamente categorica – si potrebbe tradurre in tre variabili: thriller : 0 = no , 1 = sì ; commedia : 0 = no , 1 = sì ; animazione : 0 = no , 1 = sì. Queste nuove variabili possono essere incluse come predittori nella regressione con un’avvertenza: una delle tre, per esempio animazione , non deve essere inclusa perché implicitamente definita dal contemporaneo valore zero delle altre due. In generale una variabile qualitativa che ammette k valori diversi è rappresentata nella regressione da (𝑘 − 1 ) variabili dummy. La categoria esclusa è indicata come categoria di riferimento.
strumenti per valutare la bontà dell’approssimazione e coefficienti che permettono di analizzare l’impatto delle singole variabili esplicative.
La regressione (lineare) è lo strumento base per affrontare problemi di customer satisfaction , nei quali l’obiettivo è individuare e misurare quali caratteristiche di un prodotto o servizio influenzano la soddisfazione dei clienti/utenti. Lo scopo finale è supportare decisioni di marketing o di comunicazione. I dati provengono di solito da indagini. Nel caso più semplice il questionario comprende una valutazione overall della soddisfazione e una batteria di attributi del prodotto. La valutazione overall può essere una vera e propria valutazione globale della soddisfazione (“complessivamente, quanto si ritiene soddisfatto del servizio ricevuto?”) o una intenzione di acquisto (“pensa che comprerebbe questo prodotto?”) o un altro tipo di valutazione^34. In ogni caso la variabile overall è destinata ad essere la variabile dipendente del modello; gli item della batteria di attributi sono le variabili esplicative. Per l’obiettivo stesso dell’analisi è normale considerare le relazioni tra predittori e dipendente come vere e proprie relazioni di causa-effetto. Normalmente tutte le variabili sono espresse in scale di Likert, utilizzate come variabili numeriche. Consideriamo il caso di una analisi di customer satisfaction per saponi da barba^35 : le variabili disponibili sono riassunte in fig. 8, i risultati del modello di regressione in fig. 9. (n = 1853) min max media soddisfazione globale 1 10 6, profumo piacevole 1 5 3, che idratino la pelle 1 5 3, adatti a barbe difficili 1 5 3, confezioni eleganti 1 5 3, senso di benessere 1 5 3, ingredienti naturali 1 5 4, marca di qualità 1 5 3, Fig. 8 Statistiche descrittive La significatività dell’Anova (non riportata in fig. 9) è altissima (𝑝 < 0 , 0005 ); il valore di 𝑅^2 (0,61) è molto buono; in questo contesto è infatti irrealistico aspettarsi valori molto alti: sul piano tecnico le scale di Likert consentono di rilevare i dati con una certa approssimazione, alla quale si aggiunge quella dovuta all’uso di variabili ordinali come se fossero numeriche; sul piano sostanziale – più importante – è ragionevole pensare che la valutazione overall dipenda anche da altre caratteristiche non considerate qui, una per tutte: il prezzo. L’indice VIF mostra valori inferiori alle convenzionali soglie di criticità: non ci sono quindi problemi di collinearità e il contributo dei singoli predittori alla soddisfazione può essere basato con relativa tranquillità direttamente sui coefficienti di regressione. Riepilogo del modello R R-quadrato R-quadrato adattato Err. std. della stima 0,781 0,610 0,609 1, Coefficienti Coeff non standardizzati Coeff t p-value Statistiche di collinearità B Err std Beta std Tolleranza VIF (Costante) 0,372 0,146 2,543 0, profumo piacevole 0,418 0,035 0,229 12,025 0,000 0,582 1, idratano la pelle 0,340 0,039 0,185 8,801 0,000 0,478 2, adatti a barbe difficili 0,411 0,033 0,238 12,496 0,000 0,583 1, confezioni eleganti - 0,069 0,028 - 0,040 - 2,444 0,015 0,782 1, senso di benessere 0,347 0,042 0,179 8,317 0,000 0,458 2, ingredienti naturali - 0,014 0,034 - 0,007 - 0,418 0,676 0,754 1, marca di qualità 0,313 0,039 0,170 8,116 0,000 0,481 2, (^34) Es. “raccomanderebbe questo prodotto?” o “pensa che continuerà a usarlo in futuro?”. (^35) Caso reale adattato.
Fig. 9 Risultati della regressione L’esame dei singoli predittori mostra che sono tutti significativi tranne ingredienti naturali (𝑝 = 0 , 676 ): la naturalità degli ingredienti – che pure ha una valutazione media molto alta (4,06) – non contribuisce (in media) a definire il gradimento del prodotto; la non significatività di ingredienti naturali rende ininfluente il fatto che il coefficiente sia negativo (− 0 , 014 ) che altrimenti sarebbe un risultato controintuitivo. Tra gli altri attributi solo confezioni eleganti ha un coefficiente negativo, se pure non alto in valore assoluto: più sono eleganti le confezioni minore è la soddisfazione per il prodotto; è un aspetto delicato da interpretare, che richiederebbe competenze specifiche sul mercato dei saponi da barba; una ipotesi è che gli intervistati siano disturbati da pretese di eleganza in un prodotto da grande distribuzione e preferiscano altre caratteristiche delle confezioni, come sobrietà o maneggevolezza, ma altre ipotesi sono possibili. Gli altri attributi hanno tutti un impatto positivo sulla soddisfazione. Siccome sono espressi nella stessa scala, per l’esame dei coefficienti si può fare riferimento a quelli non standardizzati, più facili da interpretare. Le valutazioni finali sono dunque le seguenti: gli attributi rimanenti hanno un impatto paragonabile, ma è possibile tuttavia individuare un certo ordinamento: i più importanti sono profumo piacevole e adatti a barbe difficili , seguiti da senso di benessere e idratano la pelle e, poco più basso, marca di qualità.