Docsity
Docsity

Prepara i tuoi esami
Prepara i tuoi esami

Studia grazie alle numerose risorse presenti su Docsity


Ottieni i punti per scaricare
Ottieni i punti per scaricare

Guadagna punti aiutando altri studenti oppure acquistali con un piano Premium


Guide e consigli
Guide e consigli


Analisi Multivariata, Sbobinature di Metodi Statistici Per L'impresa

L'analisi multivariata, una tecnica di analisi statistica che studia la relazione simultanea tra tre variabili in su. Vengono descritte le analisi fattoriale, regressione lineare e regressione logistica, con l'obiettivo di ridurre il numero di variabili e capire come queste influenzano una variabile target. L'analisi multivariata può essere distinta in due macrocategorie: l'analisi delle dipendenze e l'analisi delle interdipendenze. Viene inoltre descritta l'analisi fattoriale, che ha come obiettivo la riduzione della dimensionalità delle variabili. Viene presentato un esempio di output di regressione lineare e viene spiegato come funziona l'analisi fattoriale.

Tipologia: Sbobinature

2023/2024

In vendita dal 04/02/2024

ludovica-incollu-1
ludovica-incollu-1 🇮🇹

5 documenti

1 / 73

Toggle sidebar

Questa pagina non è visibile nell’anteprima

Non perderti parti importanti!

bg1
14/11/2023
ANALISI MULTIVARIATA
Con l’analisi multivariata si studia la relazione simultanea tra tre variabili in su. Le analisi che vedremo sono:
analisi fattoriale, regressione lineare, regressione logistica. Lobiettivo dell’analisi fattoriale è ridurre il numero
di variabili; l’obiettivo delle regressioni è quello di capire come, dati un insieme di variabili input (regressori),
queste influenzano una variabile target o obiettivo nel caso della regressione lineare sarà un variabile
continua, nel caso di una regressione logistica sarà una variabile binaria.
L’analisi multivariata può essere distinta in due macrocategorie:
- L’analisi delle dipendenze: vogliamo capire come una variabile obiettivo Y è influenzata da una serie
di altre variabili X; come la variabile Y dipende dalle variabili X. In questo tipo di analisi le variabili X si
chiamano indipendenti e la variabile Y si chiama variabile dipendente (dipende dalle X). La
regressione lineare e la regressione logistica si basano sullo stesso concetto, cambia il tipo di dato
della variabile obiettivo (continua per quella lineare, binaria per quella logistica). L’analisi delle
dipendenze si chiama machine learning supervisionato perché il modello di regressione viene
appreso avendo la variabile target che supervisiona l’apprendimento: dai dati apprendo la relazione
tra le X e la Y.
- L’analisi delle interdipendenze: nota anche come machine learning non supervisionato. In questo caso
non esiste una variabile target che guida l’analisi, tutte le variabili hanno lo stesso ruolo, lo stesso
significato. Con particolare riferimento all’analisi fattoriale, l’obiettivo dell’analisi è ridurre la
dimensionalità: se ho 20 variabili, con l’analisi fattoriale, riassumerò queste 20 variabili in 6 variabili
che riassumono il significato di tutte le 20 variabili; queste 6 variabili sono chiamate fattori. Non esiste
una variabile speciale, tutte le variabili sono uguali tra loro e vengono riassunte tra di loro.
Un’altra analisi che fa parte dell’analisi delle interdipendenze è la cluster analisi, che si usa molto nel
marketing, e che ha come obiettivo, anziché riassumere tante variabili in poche variabili come la
fattoriale che ragiona in orizzontale riassumendo le variabili, raccoglie i rispondenti in gruppi
omogenei tra loro e lavora in verticale. Creare dei cluster può essere utile per differenziare delle
campagne commerciali.
(output regressione lineare)
In questo caso si chiedeva quanto da 1 a 10 visiteresti Starbucks. Questa variabile, che rappresenta la variabile
target, dipende da una serie di altre variabili tramite una semplice relazione matematica: questo è il modello
di regressione. Se conosco il valore delle variabili, applicando delle semplici moltiplicazioni posso ottenere un
valore stimato della mia variabile target: obiettivo ultimo della regressione lineare. Notiamo anche come il
segno dei coefficienti, positivo o negativo, mi fa capire come le due variabili sono legate tra di loro. È un
concetto analogo a quello del coefficiente di correlazione; se ho un coefficiente di correlazione positivo vuol
dire che all’aumentare di una variabile, in media, anche la variabile obiettivo aumenta; viceversa, se il
coefficiente di correlazione è negativo.
pf3
pf4
pf5
pf8
pf9
pfa
pfd
pfe
pff
pf12
pf13
pf14
pf15
pf16
pf17
pf18
pf19
pf1a
pf1b
pf1c
pf1d
pf1e
pf1f
pf20
pf21
pf22
pf23
pf24
pf25
pf26
pf27
pf28
pf29
pf2a
pf2b
pf2c
pf2d
pf2e
pf2f
pf30
pf31
pf32
pf33
pf34
pf35
pf36
pf37
pf38
pf39
pf3a
pf3b
pf3c
pf3d
pf3e
pf3f
pf40
pf41
pf42
pf43
pf44
pf45
pf46
pf47
pf48
pf49

Anteprima parziale del testo

Scarica Analisi Multivariata e più Sbobinature in PDF di Metodi Statistici Per L'impresa solo su Docsity!

ANALISI MULTIVARIATA

Con l’analisi multivariata si studia la relazione simultanea tra tre variabili in su. Le analisi che vedremo sono: analisi fattoriale, regressione lineare, regressione logistica. L’obiettivo dell’analisi fattoriale è ridurre il numero di variabili; l’obiettivo delle regressioni è quello di capire come, dati un insieme di variabili input (regressori), queste influenzano una variabile target o obiettivo – nel caso della regressione lineare sarà un variabile continua, nel caso di una regressione logistica sarà una variabile binaria. L’analisi multivariata può essere distinta in due macrocategorie:

  • L’analisi delle dipendenze: vogliamo capire come una variabile obiettivo Y è influenzata da una serie di altre variabili X; come la variabile Y dipende dalle variabili X. In questo tipo di analisi le variabili X si chiamano indipendenti e la variabile Y si chiama variabile dipendente (dipende dalle X). La regressione lineare e la regressione logistica si basano sullo stesso concetto, cambia il tipo di dato della variabile obiettivo (continua per quella lineare, binaria per quella logistica). L’analisi delle dipendenze si chiama machine learning supervisionato perché il modello di regressione viene appreso avendo la variabile target che supervisiona l’apprendimento: dai dati apprendo la relazione tra le X e la Y.
  • L’analisi delle interdipendenze: nota anche come machine learning non supervisionato. In questo caso non esiste una variabile target che guida l’analisi, tutte le variabili hanno lo stesso ruolo, lo stesso significato. Con particolare riferimento all’analisi fattoriale, l’obiettivo dell’analisi è ridurre la dimensionalità: se ho 20 variabili, con l’analisi fattoriale, riassumerò queste 20 variabili in 6 variabili che riassumono il significato di tutte le 20 variabili; queste 6 variabili sono chiamate fattori. Non esiste una variabile speciale, tutte le variabili sono uguali tra loro e vengono riassunte tra di loro. Un’altra analisi che fa parte dell’analisi delle interdipendenze è la cluster analisi, che si usa molto nel marketing, e che ha come obiettivo, anziché riassumere tante variabili in poche variabili come la fattoriale che ragiona in orizzontale riassumendo le variabili, raccoglie i rispondenti in gruppi omogenei tra loro e lavora in verticale. Creare dei cluster può essere utile per differenziare delle campagne commerciali. (output regressione lineare) In questo caso si chiedeva quanto da 1 a 10 visiteresti Starbucks. Questa variabile, che rappresenta la variabile target, dipende da una serie di altre variabili tramite una semplice relazione matematica: questo è il modello di regressione. Se conosco il valore delle variabili, applicando delle semplici moltiplicazioni posso ottenere un valore stimato della mia variabile target: obiettivo ultimo della regressione lineare. Notiamo anche come il segno dei coefficienti, positivo o negativo, mi fa capire come le due variabili sono legate tra di loro. È un concetto analogo a quello del coefficiente di correlazione; se ho un coefficiente di correlazione positivo vuol dire che all’aumentare di una variabile, in media, anche la variabile obiettivo aumenta; viceversa, se il coefficiente di correlazione è negativo.

ANALISI FATTORIALE

L’input dell’analisi fattoriale sono variabili numeriche, tipicamente variabili continue ma non solo; anche le variabili a scala di punteggio sono un input dell’analisi fattoriale. Molto spesso sono proprio le domande a scala di punteggio gli input dell’analisi fattoriale, ma non solo. (esempi variabili input di un’analisi fattoriale) La prima domanda distribuisce li percentuali in base a dove si usa internet: a casa, a lavoro, all’università. C’è poi una domanda a scala di punteggio; c’è una macro-domanda con delle sotto notazioni: da 1 a 9 pe cosa usi internet? Ricerca di informazioni, lavoro, amicizia, etc. queste sono la tipologia di domanda che si usano per fare l’analisi fattoriale. L’analisi fattoriale, infatti, funziona in primo luogo quando si hanno abbastanza variabili di questo tipo: a scala di punteggio e percentuali, in secondo luogo quando queste variabili sono correlate tra loro, cosa che spesso accade. Qui notiamo subito che alcune domande sono correlate tra loro: se ho dato una risposta alta come percentuale a “uso internet all’università”, probabilmente avrò dato una risposta alta (vicino al 9) anche alla domanda sotto. Ci sono poi altri tipi di correlazione: Se ho dato una risposta molto alta a work avrò dato una risposta bassa a university. È molto comune aver raccolto un set di variabili che in qualche modo hanno l’informazione condivisa. Avere variabili correlate tra loro può però essere un problema per analisi come la regressione lineare e va risolto con l’analisi fattoriale. (esempio matrice di correlazione) In una matrice di correlazione per ogni coppia di variabili vado a calcolare la correlazione he esiste da quella coppia di variabili e faccio un test statistico per vedere se la correlazione è significativa oppure no. Ricordiamo che la matrice di correlazione è una matrice simmetrica e ci si focalizza nel triangolo in basso, vediamo che ci sono parecchie coppie di variabili correlate.

ESEMPIO:

Nel questionario si raccolgono informazioni sull’utilizzo di Facebook. Nel questionario si hanno una serie di domande a scala di intervallo. Si hanno un po’ di variabili e l’output finale dell’analisi fattoriale è il seguente: In un’analisi fattoriale tipicamente l’obiettivo ultimo è quello di identificare le poche variabili, chiamate fattori latenti, che riassumo il significato di tutte le altre variabili. A livello matematico l’analisi fattoriale è stata in gradi di aggregare le variabili input in 4 variabili, dove queste variabili hanno delle proprietà specifiche. I numeri in questa tabella rappresentano indici di correlazione. In particolare, il fattore 1 (spying) è altamente correlato solamente ad un sottogruppo delle 15 variabili (gruppo giallo); il fattore 2 (broadening) è altamente correlato a solamente 3 variabili di input (verde); il fattore 3 (keeping up) è altamente correlato a 3 variabili input (rosso); il fattore 4 (public relations) è altamente correlato a 2 variabili input (blu). Se so che il fattore 1 è altamente correlato a queste variabili (in giallo), allora posso dare un’interpretazione a quello che è il concetto latente che è contenuto all’interno del fattore 1. Il fattore 1 è altamente correlato a variabili come “utilizzo tanto la sezione foto e video” , “guardo cosa condividono le altre persone” , “apro per curiosità” , e l’analista potrebbe chiamare questo fattore “spionaggio” , vedere cosa fanno le altre persone (spying). Il fattore 2 invece è altamente correlato alle variabili “uso Facebook per discutere” , “per guardare i prodotti” , “ per fare nuovi amici” ; sono variabili apparentemente diverse che però hanno qualcosa in comune e che viene chiamato “allargamento dei propri orizzonti” (broadening): c’è qualcosa in comune tra queste variabili. Il fattore 3 è altamente correlato alle variabili “uso le feature di messaggistica” , “mi metto in contato con i vecchi compagni di classe” e “mantengo la relazione con i miei attuali amici” , e il fattore che riassume l’informazione comune è stato chiamato “rimanere aggiornati” (keeping up). Il fattore 4 è altamente correlato con “ uso la feature per gli eventi” e “pianifico eventi” e il fattore è “relazioni pubbliche” (public relations) che ha un significato semantico molto chiaro. Il nome lo del fattore siamo noi a deciderlo; l’analisi fattoriale non ci da il significato del fattore, lo evinciamo noi vedendo come ogni fattore raggruppa gruppi di variabili. La fase di interpretazione del fattore sta all’analista. Non esiste, in senso assoluto, un’analisi fattoriale giusta o sbagliata in senso matematico. L’analisi

fattoriale genera sempre dei risultati, sta poi all’analista dire se i risultati hanno senso o no; nel caso in cui non abbia senso procedere con altri tentativi. L’analisi fattoriale è una tecnica di analisi multivariata che prende come input variabili quantitative e lavora grazie alle correlazioni che esistono tra queste variabili quantitative. C’è quindi bisogno che ci sia questa correlazione, poiché se si avessero un set di variabili quantitative non correlate tra loro l’analisi fattoriale non funzionerebbe perché solo avendo l’informazione comune tra le variabili di input ‘analisi fattoriale funziona. L’ input dell’analisi fattoriale è una matrice di dati, dove selezioniamo un certo numero di variabili input (ad esempio e variabili a scala di punteggio). È una matrice di dimensione n x p dove n è il numero di osservazioni e p le variabili elementari (nel caso di prima le 15 variabili). Da un punto di vista matematico in un’analisi fattoriale faccio la seguente assunzione → per ognuna delle mie p variabili, poiché c’è correlazione tra le variabili, assumo che l’informazione che è contenuta in una variabile possa essere espressa come la somma di due quantità: l’informazione condivisa con le altre variabili (poiché c’è correlazione so che parte dell’informazione della variabile è presente anche nelle altre variabili) e l’informazione specifica (un’informazione univoca e solamente propria di una variabile; è pari a 0 solamente nel caso in cui tutte le variabili sono perfettamente correlate tra loro, perciò tutta l’informazione è condivisa). Cos’è l’informazione a livello statistico? L’informazione di una variabile non è altro che la variabilità che è contenuta all’interno di una variabile. La variabilità la esprimiamo per esempio con la varianza. Per esempio, se la variabile assume sempre valore 5 tutta la sua informazione è riassunta nel valore 5; se la variabile varia tra - 3 e 10 quella variabilità mi riassume il contenuto informativo della variabile. In questo caso informazione e varianza sono considerati sinonimi: la varianza mi dice la quantità di informazione contenuta nella variabile. La relazione, che vede l’informazione di una variabile quale somma tra informazione condivisa e informazione specifica, si può tradurre nel seguente modo → la varianza della variabile i-esima è data dalla somma di due componenti: la comunalità e la varianza specifica. La componente comunalità è il pezzo di varianza della x di cui sono responsabili le altre variabili; la componente varianza specifica è una variabilità propria/unica della variabile i-esima. Da questa assunzione deriva l’espressione matematica del modello fattoriale. Nel modello fattoriale assumo che ogni variabile x può essere espressa come la somma di una certa funzione (per ora ignota) di alcune variabili che chiamo fattori comuni (common factor) e un fattore unico della variabile i-esima (unique factor). La variabile x, parzialmente, può essere espressa andando a combinare questi fattori comuni. Però i fattori comuni non hanno tutta l’informazione per ricostruire la variabile x; c’è un pezzo di informazione che i fattori comuni non si portano dietro e ci serve per chiudere il cerchio riottenere la variabile x originale. Il numero di fattori espresso da k è tipicamente molto minore di p. Data questa relazione, siamo ancora nella fase delle assunzioni, si vuole anche che questi fattori abbiano delle buone proprietà. Innanzitutto, i fattori unici i e j , per ogni mia j sono non correlati tra di loro; poi che i fattori comuni siano non correlati tra loro; e infine che ogni fattore comune e ogni fattore unico non siano correlati tra loro.

  • Siano standardizzate → una variabile standardizzata è una variabile con media pari a 0 e deviazione standard pari a 1
  • Se metto insieme le 15 componenti principali, queste 15 componenti principali insieme abbiano dentro di sé tutta l’informazione che avevano le 15 variabili originali. Con le componenti originali non sto perdendo l’informazione, sto solo ritrasformando le variabili originali in modo da non avere più variabili correlate
  • Le componenti principali sono espresse in ordine decrescente rispetto alla variabilità → la componente principale 1 è la variabile con varianza più alta e poi via via a decrescere Usando il metodo delle componenti principali parto da p variabili di input e ottengo uno stesso numero p di componenti principali: se ho 15 variabili ottengo altre 15 componenti principali, dove so che ognuna di queste componenti principali è una combinazione lineare delle p variabili originali e so anche che possono essere espresse in ordine decrescente della varianza – avrò alcune componenti principali con tantissima varianza e altre componenti principali con poca varianza. Fare l’analisi delle componenti principali non è sufficiente per risolvere i problemi visti prima; abbiamo bisogno di una tecnica che a partire da un numero elevato di variabili correlate ci porta ad avere un numero ridotto di variabili non correlate. L’analisi delle componenti principali trasforma un numero elevato di variabili correlate tra di loro in un numero ancora elevato di variabili che sono non correlate tra di loro; l’analisi delle componenti principali ha risolto solo un problema, quello delle variabili correlate: ha trasformato le variabili input in un altro set di variabili non correlate tra loro. Il passaggio successivo da fare è: avendo le componenti principali che sono non correlate tra loro e sono ordinate in maniera decrescente rispetto alla variabilità; di queste troppe componenti principali ne butto un po’, butterò via quelle che hanno poca informazione dentro di loro, con bassa varianza. Quello che faccio è perdere dell’informazione ma avrò con un numero k basso di componenti principali, che chiamerò fattori. L’analisi fattoriale, tramite il metodo delle componenti principali, consiste nel fare un’analisi delle componenti principali e buttare via alcune delle componenti principali; le componenti principali che non butto sono chiamate fattori. Questo processo appena descritto è coerente con le ipotesi originali del modello fattoriale, perché avrò che x sono espresse come una combinazione di pochi fattori, ma questi pochi fattori non descrivono al 100% le mie x perché ho buttato via dell’informazione e quindi c’è un pezzo di informazione extra che non può essere spiegata dai pochi fattori, dalle poche componenti principali. L’obiettivo dell’analisi fattoriale è ottenere poche variabili non correlate tra di loro; per ottenere questo risultato usiamo un’ulteriore tecnica chiamata metodo delle componenti principali. Con il metodo delle componenti principali a partire da p variabili correlate otteniamo p componenti principali non correlate tra loro, che sono ordinate per informazione decrescente. Il passaggio successivo sarà quello di eliminar alcune componenti principali, quelle si portano dietro meno informazioni, cos’ si perderemo un po’ di informazione ma in cambio avremo ottenuto poche variabili non correlate tra loro. Le componenti principali “sopravvissute” si possono chiamare fattori. Bisogna ora capire quante componenti si possono buttare via e quante si possono considerare, che regole usare per la scelta. Dopo aver identificato il numero ideale di componenti, dovremo capire come interpretarle. Vediamo riassunte le regole empiriche che vengono di solito usate per la scelta del numero ideale di componenti principali:
  1. Metodo degli autovalori maggiori di 1
  2. Rapporto tra numero di componenti e variabili è di circa 1/3 → se ho 20 variabili originali, dovrei considerare 6-7 componenti principali e gli altri buttarli via.
  3. Percentuale di varianza spiegata di almeno 60%-70% → sappiamo che le componenti principali insieme hanno il 100% di varianza originaria, quindi contengono dentro di se il 100%

dell’informazione originaria; ne butto via alcune, ma desidero almeno il 60-70% dell’informazione originaria

  1. Lo SCREE PLOT (plot di autovalore vs numero del fattore) → grafico usato per scegliere un numero ideale di componenti
  2. Le comunalità → la comunalità è la parte di informazione della singola variabile che è espressa dai miei fattori. I miei fattori globalmente devono avere circa il 60% di informazione spiegata dal risultato? 3:40, ma voglio anche che ogni variabile abbia una comunalità sufficientemente alta; voglio che i miei fattori spieghino abbastanza informazione anche della singola variabile – voglio che spieghino abbastanza sia a livello globale che a livello di singola variabile.
  3. Interpretabilità delle componenti e loro rilevanza nell’esecuzione delle analisi successive → solo se ottengo una soluzione interpretabile posso dire che l’analisi è conclusa con successo, altrimenti no e devo cambiare qualcosa. Per l’interpretazione bisognerà fare un passaggio che si chiama annotazione delle componenti e poi si potrà fare il seguente grafico. ESEMPIO: Partiamo da un numero abbastanza elevato di variabili. In questo caso era stato chiesto ai rispondenti di esprimere un giudizio in base all’importanza che si da a determinati criteri: “quanto sono importanti questi criteri quando acquisti un determinato prodotto?”
  • qualità degli ingredienti
  • genuinità
  • leggerezza
  • sapore-gusto
  • caratteristiche nutrizionali
  • lievitazione naturale
  • scadenza
  • estetica del biscotto
  • richiamo alla tradizione
  • confezione
  • etc. Sono tante variabili (20). Un’altra cosa a verificare è: queste variabili sono correlate tra di loro? Sì, perché dal piccolo pezzo della matrice di correlazione si vede che su un pezzo fra 5 variabili si hanno 4 con correlazione alta. Queste tante variabili sono perciò correlate tra loro, ci sono parecchie coppie di variabili correlate tra loro.

è precisa: 1/3 di 20 non è un numero preciso. Dopodiché richiedo di avere almeno il 60-70% di varianza spiegata: voglio perdere al massimo il 40% dell’informazione, quindi almeno 6. La regola almeno il 70% accetterebbe di prenderne anche 20, però ci sarebbe un’incoerenza con la regola precedente: quindi tra le 6 e le 9 componenti principali, non andiamo troppo oltre. Nelle analisi bisogna prendere la soglia inferiore del 60% - è una regola che deve essere soddisfatta, è una regola forte – poi c’è il limite superiore che però dipende dall’incrocio dei dati e delle regole. C’è poi lo scree plot. Lo scree plot è un grafico che mostra, per ogni componente principale, il valore della sua varianza. La prima componente principale ha varianza di 4; la seconda di 2, la terza di 1, qualcosa e così via. La regola dello scree plot suggerisce di fare la seguente cosa: fermarmi dove ci sono dei cosiddetti gomiti nel grafico. Un gomito è un punto oltre il quale c’è un appiattimento, uno scree. Il punto 5 va bene, perché si ha una certa pendenza e poi questa diminuisce: è un gomito. Anche in corrispondenza di 10 c’è una pendenza e poi un appiattimento, in corrispondenza di 12 e anche di 16. Perché ha senso fare un taglio in corrispondenza di 5? Perché so che oltre questo punto le differenze di informazione tra le componenti principali che andrei a eliminare sono basse, non sto perdendo niente.

ALTRI ESEMPI DI SCREE PLOT:

Nel primo grafico ho una pendenza molto evidente, che poi si appiattisce in corrispondenza del punto 4; c’è poi un gomito un po’ meno evidente in corrispondenza del punto 6. Nel secondo grafico lo stesso, c’è un’elevata pendenza che poi si appiattisce in corrispondenza di 2; c’è poi un altro gomito in corrispondenza del punto 4. Guardiamo ora il terzo grafico: in corrispondenza di 3 c’è un gomito ma è un gomito al contrario, non si considera un gomito in senso stretto nello scree plot; i gomiti sono quelli dove c’è a seguito di una pendenza un appiattimento. Tornando allo scree plot dell’analisi precedente, questo ci suggerisce diversi gomiti: 5, 10, 12 e 16. 10, 12 e 16 però sono troppi e quindi andrebbero esclusi a priori. Lo scree plot suggerisce quindi di prenderne solo 5, le prime 5. C’è poi a regola degli autovalori. La regola degli autovalori dice di prende solo le componenti principali che hanno autovalore maggiore di 1 ( eigenvalue>1 ). In questo caso solo le prime 6. Qual è il senso di questa regola? Nello svolgimento dell’analisi fattoriale standardizziamo le variabili di input: è come se ognuna avesse una varianza di 1. Sto prendendo quindi solamente le componenti principali che hanno dentro di sé un’informazione più grande di quella di una singola variabile. Chi ha più di 1, come varianza, la accetto le altre le butto via.

Vediamo questa tabella dove sono mostrate solamente le prime 6, le altre sono state eliminate. Un output di questo tipo ci dice che è già stato fatto il “taglio”. Ho 6 componenti principali che insieme hanno il 61.057% della varianza. Non finisce però qui, perché avevamo imposto anche la regola sulle comunalità: vogliamo che anche le comunalità siano sufficientemente elevate. Devo quindi andare a calcolare le comunalità e per farlo devo aver prima fatto questo calcolo, perché devo vedere, queste 6 variabili insieme, quanto spiegano separatamente di ognuna delle variabili originali: questa è la comunalità, la quantità di informazione che i fattori spiegano della singola variabile. Questo è l’output: Ho un valore della comunalità per ognuna delle mie 20 variabili originali. Come lo leggo? Ad esempio, qualità degli ingredienti ha una comunalità di 0.7686, cosa significa? Vuol dire che se prendo i miei 6 fattori, le mie 6 componenti principali che ho estratto prima, quelle 6 componenti principali hanno dentro di sé il 76% dell’informazione contenuta nella variabile qualità degli ingredienti. Ancora: i miei 6 fattori messi insieme dentro di sé hanno il 50% dell’informazione contenuta nella variabile nome biscotto , e così via. I miei 6 fattori hanno dentro di sé il 61% dell’informazione totale e grazie alle comunalità vedo come si sparpaglia. Questo 61% totale è formato da 76% da qualità degli ingredienti , 55% da leggerezza , 63% da caratteristiche nutrizionali e così via. combinando tutti questi ottengo comunque che a totale ho il 61% dell’informazione. Tutti i valori dele comunalità devono essere sufficientemente elevati: non voglio che ci sia una variabile che per qualche motivo non sia spiegata dai fattori. Tutte le variabili devono essere ben spiegate. Si richiede quindi che ogni comunalità sia almeno 0.3 – 0.4. In questo caso specifico se scegliessi una soglia di 0.3 la soluzione sarebbe accettabile; se scegliessi la soglia di 0.4 saremmo al limite perché c’è la variabile funzionalità confezione che non è proprio ben spiegata, è quasi accettabile. Cosa succede se arrivo a questo punto e vedo che la soluzione non è accettabile? Dovrei aumentare il numero di componenti principali, perché se lo riducessi starei togliendo ulteriore informazione. Se mi trovo nella situazione in cui alcune comunalità sono troppo basse, significa che la mia soluzione non va bene. Devo tornare indietro e fare un altro taglio, per esempio a 7, per poi ricalcolare le comunalità. Da qui poi decido qual è la soluzione migliore. ESEMPIO: In un lavoro si voleva svolgere una regressione lineare, e si voleva vedere come la willingness to pay – variabile target – fosse spiegata da una serie di variabili quantitative. Un’analisi di regressione lineare però funziona male se le variabili di input sono correlate tra loro. Quindi prima di svolgere la regressione lineare è stata svolta un’analisi fattoriale: l’analisi fattoriale diventerà l’input della regressione lineare.

Le variabili sono 19. Stiamo parlando di un certo negozio e si chiede ai rispondenti quanto reputano importanti una serie di fattori:

  • Quanto è importante l’apertura di un negozio multimarca vicino a te
  • Quanto è importante la customer experience
  • Quanto è importante la presenza di nuovi prodotti
  • Quanto è importante che ci siano tanti prodotti
  • Etc. Per capire se serve un’analisi fattoriale, perché potrebbe accadere che non serva nel caos in cui ho delle variabili non correlate tra loro, si calcola la matrice di correlazione: Qui non sono mostrati i p-value, ma solo i coefficienti ro e si vede subito che ci sono parecchie variabili correlate. C’è quindi un problema di correlazione: si hanno 19 variabili correlate tra loro. Si procede quindi con l’analisi fattoriale. Esistono anche altri metodi per valutare il grado di correlazione tra coppie di variabili. In questo caso, oltre alla matrice di correlazione, è stato usato anche il calcolo del VIF, che dice per ogni variabile, globalmente, quanto questa variabile è correlata in media con tutte le altre: è una lista più riassuntiva della matrice di correlazione. In particolare, c’è correlazione – multicollinearità – se il VIF è più alto di 1.3 per alcune variabili; in questo caso tutte le variabili hanno VIF alto. È confermato il fatto che c’è il problema di correlazione tra le variabili. Si svolge perciò l’analisi fattoriale usando il metodo delle componenti principali. Si usano e solite regole. L’output di R è il seguente:

sono diverse strategie. La prima strategia, che in realtà è quella più completa, consiste nel portarsi dietro tutte queste soluzioni e faccio 3 analisi separate andando a calcolare la matrice del VIF per tutte le tre soluzioni. Quale sceglierò, sceglierò quella che mi darà un’interpretazione di business più sensata. Altrimenti se ci si vuole focalizzare su una sola soluzione, si usa un’altra strategia che si basa sul vedere come variano le comunalità muovendosi da una soluzione all’altra. Ad esempio, se si passa da 5 alla soluzione a 6 fattori, si vede che ci sono diverse variabili per cui la comunalità aumenta considerevolmente (da 80 a 87, da 49 a 56, e così via). ci sono 8 variabili dove passare da una soluzione a 5 fattori a una soluzione a 6 fattori aumenta di tanto la comunalità i 6 fattori hanno perciò parecchia più informazione rispetto alla soluzione a 5 fattori. Cosa succede se passo da 6 a 7? C’è sempre un aumento, ma sono poche le variabili per cui l’aumento è consistente. Dato l’incremento delle comunalità nel passaggio da 5 a 6, è stata scelta la soluzione a 6 fattori. In sintesi: a partire dall’analisi delle componenti principali, abbiamo identificato una serie di regole che ci permettono di fare un taglio sulle componenti principali. Il prossimo step è capire, dati questi fattori, come ottengo la matrice da cui si può dare un’interpretazione dei fattori e un’interpretazione di business.

RIPASSO

L’analisi fattoriale è un’analisi di riduzione della dimensionalità che ha l’obiettivo di prendere un set, un numero elevato di variabili correlate tra di loro. Sotto questa condizione di correlazione tra variabili l’analisi fattoriale è in grado di prendere la correlazione intrinseca tra le variabili e sintetizzare l’informazione creando poche e nuove variabili di numero minore rispetto alle variabili originali, dove ogni fattore riassume dentro di sé l’informazione di un certo gruppo di variabili bivariate. Il fattore ha dentro di se un’informazione che non era esposta nei dati presi in analisi, ma era nascosta dentro questi dati: l’informazione proviene dai dati e viene rimaneggiata per andare a creare i fattori. Spesso l’analisi fattoriale si usa come step propedeutico per fare altre tipologie di analisi. Queste tipologie di analisi funzionano male in presenza di variabili correlate, ecco perché si utilizza l’analisi fattoriale. Se devo fare una regressione, per esempio, e ho 20 variabili correlate tra di loro, non faccio direttamente l’analisi di regressione; prima faccio l’analisi fattoriale e da 20 variabili tiro fuori 6-7 fattori; userò poi quei 6-7 fattori come input della regressione. Abbiamo visto poi com’è il modello di analisi fattoriale. L’idea di base dell’analisi fattoriale è poter scrivere ognuna delle variabili originali di input, come una combinazione di un certo numero di fattori. Questo certo numero di fattori spiega un pezzo dell’informazione della variabile originale – questo pezzo si chiama comunalità – e poi ho anche dell’informazione che non è spiegata dai miei fattori. Come calcolo i fattori? Abbiamo visto il metodo delle componenti principali, ma esistono diverse metodologie matematiche per calcolare i fattori. Il metodo delle componenti principali è una tecnica matematica usata per calcolare i fattori. L’ipotesi del modello delle componenti principali è che assumiamo che ogni componente principale sia una combinazione di tutte le variabili di input; sto trasformando le variabili di input andando a creare delle variabili output che sono le componenti principali. Queste componenti hanno diverse proprietà: sono non correlate tra loro, sono standardizzate e complessivamente spiegano la totalità delle variabili originali. Questo significa che le componenti principali hanno dentro di sé tutta l’informazione che avevano anche le variabili originali, non si perde informazione si sta solo trasformando. Se si hanno 20 variabili, l’obiettivo è averne di meno, quindi tenere tutte le componenti principali non va bene. Quello che si fa perciò è usare una serie di regole per tagliare il numero di componenti principali. Se ho 20 variabili di input, avrò 20 componenti principali e di queste 20 componenti principali devo ordinare per varianza decrescente (in cima ho quella che ha più informazione, in fondo ho quella che ha meno informazione). Userò poi delle regole per tagliare le mie componenti principali. Le regole sono: autovalori maggiori di 1; circa 1/3 (se ho 20 variabili saranno 6- 7 - 8 non di più); percentuale di varianza spiegata almeno al 60%; gomito dello scree plot; comunalità abbastanza elevate (almeno 0 .3). l’applicazione di queste regole non porta ad avere una soluzione univoca, ma porta ad avere un range di soluzioni sensate. Quando si è identificato un range di soluzioni, bisogna decidere cosa fare, se ne prova una o si provano tutte? Prima di scegliere bisogna andare a calcolare i valori delle comunalità: che percentuale di informazione ogni singola variabile è spiegata dall’insieme dei fattori che ho estratto. Questo può essere fatto dopo aver fatto il taglio. Come faccio a scegliere la soluzione ideale fra le 3 che ho trovato? Bisogna dare un’interpretazione ai fattori: si interpretano i fattori. L’analisi fattoriale si divide in due fasi: FASE 1: identifico il numero ideale di fattori; spesso il numero ideale di fattori non è uno solo ma è un range di soluzioni. FASE 2: interpreto i fattori usando la matrice dei factor loadings. Questa è l’interpretazione finale che mi permetterà di scegliere la soluzione ideale.

Vedo quindi che PC1 è altamente correlata a tutte le variabili ma non posso dare un significato a PC1; stessa cosa per PC2, vedo che è altamente correlata a tante variabili, ma queste tante variabili non hanno un significato comune che posso dare. Da questa situazione non posso dare un’interpretazione e questo succede sempre. Quando ho estratto le componenti principali non sarà possibile dare un’interpretazione sensata. Devo quindi fare un’ulteriore operazione, un’ulteriore trasformazione della mia informazione contenuta in queste 6 componenti principali estratte: devo fare la cosiddetta rotazione delle componenti principali. La rotazione mi porta ad un output di questo tipo: La rotazione mi porta ad un output dove ogni fattore è altamente correlato a troppe variabili ad un output, sopra, dove ogni fattore ruotato è altamente correlato solamente e gruppi piccoli di variabili. In questo caso il fattore 5 è altamente correlato alle prime 4 variabili (mi interessa che sia lievitato naturalmente, che sia prodotto artigianalmente, che richiami la tradizione e mi interessa la scadenza → sono variabili che hanno un significato comune, mi interessa la qualità del prodotto); il fattore RC3 è altamente correlato a 4 variabili (mi interessa la grandezza della confezione, mi interessano le promozioni e offerte speciali, il prezzo e la funzionalità della confezione → sono variabili che hanno un significato comune, che potrebbe essere la convenienza del prodotto che si vuole acquistare); e così via. Cosa è cambiato nell’output della rotazione dei fattori? Tutti i fattori in qualche modo sono cambiati, ma la cosa importante è che, a seguito di questa rotazione, la quantità di informazione che era presente nei 6 fattori pre-rotazione è uguale alla quantità di informazione che ho nei 6 fattori post-rotazione. La rotazione sta trasformando in maniera conveniente i fattori, ma la quantità di informazione iene preservata. Sto facendo la rotazione solamente per avere un’interpretazione più funzionale, non sto cambiando la quantità di informazione. Cos’è questa rotazione? Vediamo a livello visivo, a livello pratico in cosa consiste. Immaginiamo di avere 4 variabili (non è il caso classico perché in genere abbiamo sempre più di 4 variabili); e immaginiamo per queste 4 variabili di aver estratto 2 componenti. Ogni variabile avrà quindi 2 factor loadings , perché la variabile X 1 si può scrivere come: componente 1 ∙ 0.6, componente 2 ∙ 0.5, più un fattore unico che non viene mostrato. So anche che questo 0.6 è anche il coefficiente di correlazione tra la componente 1 e la componente 2. Cosa posso fare? Posso vedere ognuna delle mie 4 variabili come sono correlate a ognuna delle mie 2 componenti principali visivamente. Disegno quindi un piano cartesiano dove gli assi sono le due componenti principali. Notiamo che posso fare un piano cartesiano, dove gli assi sono perpendicolari, grazie al fatto che le

componenti principali sono non correlate tra di loro, sono ortogonali: matematicamente è corretto disegnare questo piano cartesiano qui sotto. La variabile X 1 ha correlazione 0.6 con il fattore 1, e correlazione pari a 0.5 con il fattore 2. E viene rappresentata da punto sopra. La variabile X 2 ha correlazione 0.6 con il fattore 1, e correlazione pari a 0.3 con il fattore 2. La variabile X 3 ha correlazione - 0.4 con il fattore 1, e correlazione pari a 0.4 con il fattore 2. Infine, la variabile X 3 ha correlazione 0.2 con il fattore 1, e correlazione pari a - 0.4 con il fattore 2. Da qua vedo che è difficile associare una componente principale a una variabile e viceversa: queste variabili sono altamente correlate sia a CP1 che a CP2. Non posso darne un’interpretazione, non posso dire che CP1 è associato ad alcune variabili e CP2 è associato ad altre variabili. Posso però fare una rotazione, dove per rotazione si intende prendere gli assi e ruotarli. Si può dimostrare matematicamente che se faccio una rotazione le distanze tra punti non cambiano e, quindi, anche l’informazione totale viene preservata.