Analisi Multivariata

14/11/2023

ANALISI MULTIVARIATA

Con l’analisi multivariata si studia la relazione simultanea tra tre variabili in su. Le analisi che vedremo sono:

analisi fattoriale, regressione lineare, regressione logistica. L’obiettivo dell’analisi fattoriale è ridurre il numero

di variabili; l’obiettivo delle regressioni è quello di capire come, dati un insieme di variabili input (regressori),

queste influenzano una variabile target o obiettivo – nel caso della regressione lineare sarà un variabile

continua, nel caso di una regressione logistica sarà una variabile binaria.

L’analisi multivariata può essere distinta in due macrocategorie:

- L’analisi delle dipendenze: vogliamo capire come una variabile obiettivo Y è influenzata da una serie

di altre variabili X; come la variabile Y dipende dalle variabili X. In questo tipo di analisi le variabili X si

chiamano indipendenti e la variabile Y si chiama variabile dipendente (dipende dalle X). La

regressione lineare e la regressione logistica si basano sullo stesso concetto, cambia il tipo di dato

della variabile obiettivo (continua per quella lineare, binaria per quella logistica). L’analisi delle

dipendenze si chiama machine learning supervisionato perché il modello di regressione viene

appreso avendo la variabile target che supervisiona l’apprendimento: dai dati apprendo la relazione

tra le X e la Y.

- L’analisi delle interdipendenze: nota anche come machine learning non supervisionato. In questo caso

non esiste una variabile target che guida l’analisi, tutte le variabili hanno lo stesso ruolo, lo stesso

significato. Con particolare riferimento all’analisi fattoriale, l’obiettivo dell’analisi è ridurre la

dimensionalità: se ho 20 variabili, con l’analisi fattoriale, riassumerò queste 20 variabili in 6 variabili

che riassumono il significato di tutte le 20 variabili; queste 6 variabili sono chiamate fattori. Non esiste

una variabile speciale, tutte le variabili sono uguali tra loro e vengono riassunte tra di loro.

Un’altra analisi che fa parte dell’analisi delle interdipendenze è la cluster analisi, che si usa molto nel

marketing, e che ha come obiettivo, anziché riassumere tante variabili in poche variabili come la

fattoriale che ragiona in orizzontale riassumendo le variabili, raccoglie i rispondenti in gruppi

omogenei tra loro e lavora in verticale. Creare dei cluster può essere utile per differenziare delle

campagne commerciali.

(output regressione lineare)

In questo caso si chiedeva quanto da 1 a 10 visiteresti Starbucks. Questa variabile, che rappresenta la variabile

target, dipende da una serie di altre variabili tramite una semplice relazione matematica: questo è il modello

di regressione. Se conosco il valore delle variabili, applicando delle semplici moltiplicazioni posso ottenere un

valore stimato della mia variabile target: obiettivo ultimo della regressione lineare. Notiamo anche come il

segno dei coefficienti, positivo o negativo, mi fa capire come le due variabili sono legate tra di loro. È un

concetto analogo a quello del coefficiente di correlazione; se ho un coefficiente di correlazione positivo vuol

dire che all’aumentare di una variabile, in media, anche la variabile obiettivo aumenta; viceversa, se il

coefficiente di correlazione è negativo.

Analisi Multivariata, Sbobinature di Metodi Statistici Per L'impresa