





Studia grazie alle numerose risorse presenti su Docsity
Guadagna punti aiutando altri studenti oppure acquistali con un piano Premium
Prepara i tuoi esami
Studia grazie alle numerose risorse presenti su Docsity
Prepara i tuoi esami con i documenti condivisi da studenti come te su Docsity
Trova i documenti specifici per gli esami della tua università
Preparati con lezioni e prove svolte basate sui programmi universitari!
Rispondi a reali domande d’esame e scopri la tua preparazione
Riassumi i tuoi documenti, fagli domande, convertili in quiz e mappe concettuali
Studia con prove svolte, tesine e consigli utili
Togliti ogni dubbio leggendo le risposte alle domande fatte da altri studenti come te
Esplora i documenti più scaricati per gli argomenti di studio più popolari
Ottieni i punti per scaricare
Guadagna punti aiutando altri studenti oppure acquistali con un piano Premium
dispensa utile per l'esame di della beffa
Tipologia: Dispense
1 / 9
Questa pagina non è visibile nell’anteprima
Non perderti parti importanti!






Con cluster analysis , o analisi dei gruppi, si intende una famiglia di tecniche per classificare unità statistiche (casi) in gruppi omogenei ( cluster )^1. L'obiettivo è classificare le unità in gruppi il più possibile omogenei al loro interno (coesione interna) e il più possibile eterogenei tra di loro (separazione esterna). Un'applicazione classica è la segmentazione del mercato, che può riguardare sia consumatori o utenti, sia prodotti o aziende. La cluster analysis non ipotizza nessuna indicazione a priori sul gruppo di appartenenza delle unità, ma produce essa stessa dei raggruppamenti unendo nello stesso cluster casi simili tra loro. È possibile un’interpretazione geometrica: le variabili utilizzate – le colonne della matrice dei dati – individuano uno spazio a più dimensioni e le unità sono punti in quello spazio: se le variabili sono solo due le unità sono punti del piano (fig. 1), se le variabili sono tre le unità sono punti nello spazio ordinario a tre dimensioni; molto spesso le variabili sono numerose: la cluster analysis è una tecnica multivariata. Con riferimento a questa interpretazione, la similarità tra unità si traduce nella distanza dei punti corrispondenti: dire che due unità sono simili equivale a dire che sono vicine. Fig. 1 Rappresentazione geometrica: due variabili, spazio a due dimensioni (piano), tre cluster Supponiamo di voler raggruppare n unità in g gruppi distinti: al crescere di n e g il numero di modi diversi di generare tali gruppi diventa rapidamente un numero molto grande^2. Per qualunque caso pratico è pertanto impossibile esaminare tutti i raggruppamenti possibili e si impone l’esigenza di trovare delle strategie, cioè degli algoritmi, più efficienti. (^1) Il termine cluster è stato utilizzato inizialmente da Tryon (1939); i principi dell’analisi sono stati formalizzati da Sneath e Sokal in Principles of Numerical Taxonomy , 1963. (^2) Il numero di modi diversi è 𝑔𝑛 (^) ⁄𝑔 !; es. per n = 20 e g = 5 è circa 7 , 9 ∙ 1011 cioè poco meno di 800 miliardi.
I metodi disponibili sono molti e tutti aggregano le unità nei cluster in base a una misura della distanza (o similarità) e a un criterio di aggregazione opportunamente scelti. Tradizionalmente i metodi di cluster analysis sono classificati in gerarchici e non gerarchici; i metodi gerarchici si possono a loro volta distinguere i metodi agglomerativi (i più diffusi) e metodi divisivi. Nuovi algoritmi sono tuttora attivamente sviluppati e proposti nell’ambito del data mining e del machine learning, a testimonianza dell’interesse che la cluster analysis continua a suscitare sia sul piano teorico sia sul piano applicativo. Fig. 2 Schema riassuntivo dei metodi di clustering^3
I metodi gerarchici (agglomerativi) consentono di ottenere una successione di soluzioni con un numero di gruppi da n a 1: dalla soluzione più semplice in cui tutte le unità sono distinte ( n gruppi di una sola unità), fino a quella in cui tutti gli elementi appartengono a un unico gruppo (un solo gruppo di n unità). Il processo di generazione dei cluster può essere rappresentato con un dendrogramma. L’esempio di fig. 3^4 rappresenta il processo di aggregazione di quindici paesi europei in base ad alcune caratteristiche economiche; il processo è rappresentato da sinistra (quindici cluster di una sola unità) a destra (tutte le unità in un solo cluster); le unità più vicine, Austria e Olanda, sono le prime a unirsi, poi si aggregano Grecia e Spagna, poi al cluster Grecia-Spagna si aggrega l’Italia, e così via; al penultimo passo si individuano due cluster – da Austria a Svezia e da Rep Ceca a Irlanda – che si uniscono nell’unico cluster finale. Fig. 3 Dendrogramma I primi livelli di aggregazione e l’ultimo sono di scarso interesse pratico perché troppo o troppo poco dettagliati: molto più utili sono i livelli intermedi. Il dendrogramma mostra le possibili aggregazioni e fornisce indicazioni operative per la scelta dei raggruppamenti migliori, almeno dal punto di vista tecnico. (^3) Da Malhotra, Marketing Research , 1996 (adattato) (^4) L’esempio sarà ripreso e dettagliato meglio nel paragrafo 3.
La misura della distanza utilizzata al passo 3 è quella euclidea, che costituisce semplicemente l’estensione a n dimensioni del teorema di Pitagora^9 : la distanza euclidea a 2 o 3 dimensioni è la distanza abituale sul piano o nello spazio ordinario. Per quanto riguarda il criterio di aggregazione delle unità, il processo iterativo del metodo k - means (ripetizione dei passi 3 e 4) persegue l’obiettivo di minimizzare le distanze delle singole unità dai centri dei cluster, e quindi di minimizzare la varianza^10 interna ai cluster, e quindi in definitiva di generare gruppi con la massima omogeneità interna. Il processo si arresta normalmente quando in due iterazioni successive i centri non si spostano più, ovvero quando nessuna unità cambia più cluster. Il metodo k - means è molto efficiente dal punto di vista del calcolo ed è quindi indicato anche con dataset di grandi dimensioni (es. cluster di consumatori).
A differenza di altre tecniche statistiche come i test delle ipotesi o la regressione, la cluster analysis è principalmente una tecnica descrittiva, per la quale non è possibile valutare in modo formale la significatività dei risultati. Inoltre i cluster identificati non sono determinati univocamente, possono dipendere dal metodo utilizzato e col metodo k - means possono variare anche al variare dei centri iniziali^11. In generale la cluster analysis non fornisce risultati definitivi, ma piuttosto modi di riassumere e schematizzare i dati, la cui bontà e utilità dipende in buona misura dalla sensibilità del ricercatore. L’interpretazione dei risultati da parte di chi effettua l’analisi riveste quindi un ruolo importante. Illustriamo questo aspetto con un esempio. Consideriamo nove paesi europei caratterizzati dalla percentuale del PIL^12 spesa da ciascuno di essi per istruzione, sanità e pensioni. Abbiamo quindi nove paesi descritti da tre variabili (fig. 5 ). L’obiettivo dell’analisi è generare dei cluster di paesi simili tra di loro rispetto alle politiche di spesa nei tre settori. Scegliamo di generare tre cluster (il numero di cluster da generare coincide col numero di variabili solo casualmente: in generale i due valori sono diversi). % del PIL istruzione sanità pensioni Austria 5,4 7,7 28, Francia 5,6 8,8 31, Germania 4,4 8,2 28, Grecia 4,4 5,9 24, Italia 4,8 6,2 25, Olanda 5,6 7,5 29, Spagna 4,2 6,0 20, UK 5,5 7,2 25, Svizzera 5,6 6,4 28, Fig. 5 Il metodo k - means individua tre cluster di dimensione 3, 2 e 4, cioè costituiti rispettivamente da 3, 2 e 4 paesi. I centri finali sono riportati in fig. 6. Si noti che – per motivi che esporremo nel paragrafo 4 – prima di eseguire l’analisi le tre variabili sono state standardizzate, cioè ricondotte a media zero e varianza 1, pertanto nella fig. 6 i valori positivi indicano “percentuali del PIL sopra la media dei nove paesi” e quelli negativi “percentuali sotto la media”. L’interpretazione dei cluster si basa fondamentalmente sui centri finali, cioè sulle medie delle variabili all’interno dei cluster: ogni cluster è caratterizzato soprattutto dalle variabili con le medie più alte – e (^9) Con p variabili, cioè nello spazio a p dimensioni, la distanza euclidea tra due punti di coordinate (𝑥 1 , 𝑥 2 , … , 𝑥𝑝) e (𝑦 1 , 𝑦 2 , … , 𝑦𝑝) è [(𝑥 1 − 𝑦 1 )^2 + (𝑥 2 − 𝑦 2 )^2 + ⋯ + (𝑥𝑝 − 𝑦𝑝)^2 ] 1 ⁄ 2 (^10) Più propriamente, l’obiettivo è di minimizzare la devianza interna, cioè la somma dei quadrati degli scarti dalla media. (^11) In termini tecnici, e limitatamente al metodo k - means: non è garantito che l’algoritmo identifichi la partizione corrispondente al massimo globale della coesione interna, ma – a causa della variabilità dei centri iniziali – potrebbe arrestarsi su un massimo locale , sub-ottimale. (^12) Prodotto interno lordo: il valore dei prodotti e servizi realizzati in uno Stato in un anno; è un indicatore di salute di un sistema economico.
caratterizzato in negativo dalle variabili con le medie più basse. L'ideale è ottenere medie molto diverse su tutte le dimensioni. Nel nostro caso i centri finali (fig. 6 ) forniscino le seguenti indicazioni:
Nell’interpretare i cluster è opportuno tenere conto anche della rispettiva numerosità; ad esempio nella segmentazione dei consumatori la dimensione relativa dei singoli cluster è ovviamente di grande interesse in pratica. Non è necessario che i cluster abbiano dimensioni approssimativamente uguali, ma devono avere delle dimensioni utili, cioè non devono scendere sotto una soglia minima utile del punto di vista operativo. Esistono inoltre casi particolari in cui la dimensione dei cluster è indice di problemi di clusterizzazione:
Normalmente la cluster analysis viene eseguita su dati numerici, ma si possono utilizzare anche dati binari, e quindi anche dati categorici opportunamente dicotomizzati^14. Nel seguito faremo riferimento a dati numerici. La scelta delle variabili su cui eseguire la cluster analysis è particolarmente importante:
Come già anticipato, la cluster analysis non dispone di criteri generali soddisfacenti per valutare la bontà dei risultati in modo formale, attraverso la significatività di qualche test.^15 Una valutazione della qualità della partizione ottenuta e della sua utilità a fini pratici si può tuttavia ottenere in modo indiretto. Le tecniche di cluster analysis individuano dei cluster anche su dati casuali privi di struttura. Poiché l'obiettivo è di identificare cluster utili a fini interpretativi e pratici, occorre quantomeno che essi siano stabili , cioè che il loro significato e le loro dimensioni relative rimangano sostanzialmente invariati al variare delle condizioni nelle quali sono generati. La verifica della stabilità dei cluster si può valutare rieseguendo la cluster analysis sugli stessi dati con approcci diversi e confrontando i risultati. Gli “approcci diversi” possono essere propriamente metodi di clustering differenti (es. metodi gerarchici e non gerarchici, quando entrambi siano applicabili) oppure, rimanendo nell’ambito del metodo k - means, possono consistere nell’eseguire l’analisi partendo da centri iniziali diversi, o generando un numero diverso di cluster. Se i cluster ottenuti sono stabili, le unità che sono classificate insieme (cioè nello stesso cluster) in una soluzione tenderanno a ritrovarsi insieme anche in un’altra. Il confronto tra due soluzioni si effettua partendo dalla tabella a doppia entrata delle frequenze delle due soluzioni, in un processo detto cross-validation : la situazione ideale – cluster perfettamente stabili – è quella in cui tutte le unità si concentrano in una sola cella per riga e una per colonna, e le altre celle sono vuote. (^14) Ad esempio, una variabile categorica X che ammette tre valori a , b e c può essere convertita in tre variabili binarie A , B , C : la variabile A vale 1 se 𝑋 = 𝑎 e vale zero se 𝑋 ≠ 𝑎 e lo stesso per le altre; ovviamente c’è sempre una e una sola variabile uguale a 1. (^15) In realtà alcuni criteri esistono, es. l’indice R quadrato o la statistica Cubic Clustering Criterion (CCC), ma si basano spesso su assunzioni restrittive, non sempre accettabili; il CCC può tuttavia essere utile per confrontare ipotesi di soluzione generate sugli stessi dati con numeri differenti di cluster.
soluzione B cluster 1 cluster 2 cluster 3 totale soluzione A cluster 1 2 0 1 3 cluster 2 0 2 0 2 cluster 3 0 0 4 4 totale 2 2 5 9 Fig. 9 Cross-validation Nell’esempio di fig. 9 si confronta la soluzione discussa sopra (A) con un’altra (B) trovata a partire da centri iniziali diversi: le due soluzioni coincidono a meno dell’unità evidenziata, che nella soluzione A appartiene al cluster 1 e nella soluzione B appartiene al cluster 3. Un altro approccio consiste nell’analizzare la separazione tra i cluster ottenuti, ad esempio testando se alcune variabili di interesse hanno medie o distribuzioni diverse tra i cluster. È quello che abbiamo fatto nell’esempio di fig. 3, confrontando le medie del PIL pro capite nei cluster. Ripetiamo tuttavia qui che questo approccio ha validità di test solo se applicato a variabili esterne non utilizzate per generare i cluster: in tal caso il test si può applicare con piena validità e, se significativo, come già detto, fornisce una forte conferma a posteriori della separazione tra cluster.
In generale la cluster analysis non richiede alcuna ipotesi sulle variabili, né sulle relazioni tra di esse. Si può applicare a campioni di qualunque dimensione. Per il metodo k - means valgono alcune considerazioni aggiuntive:
Una applicazione classica della cluster analysis è la segmentazione della clientela, il cui scopo è di identificare gruppi di clienti omogenei rispetto a certe variabili di interesse, che possono essere opinioni, comportamenti, caratteri sociodemografici. A titolo di esempio consideriamo il caso dei clienti di un piccolo supermercato. I dati disponibili sono gli scontrini dettagliati di 12 mesi di tutti i clienti, identificati individualmente dalla loro carta fedeltà. In una fase di pre-elaborazione i dati sono aggregati e ricodificati per generare le informazioni sui comportamenti di acquisto di ogni cliente: