Docsity
Docsity

Prepara i tuoi esami
Prepara i tuoi esami

Studia grazie alle numerose risorse presenti su Docsity


Ottieni i punti per scaricare
Ottieni i punti per scaricare

Guadagna punti aiutando altri studenti oppure acquistali con un piano Premium


Guide e consigli
Guide e consigli


data analysis corso della beffa, Dispense di Statistica

dispensa utile per l'esame di della beffa

Tipologia: Dispense

2022/2023

Caricato il 05/02/2023

GiuseppeScibilia
GiuseppeScibilia 🇮🇹

5 documenti

1 / 9

Toggle sidebar

Questa pagina non è visibile nell’anteprima

Non perderti parti importanti!

bg1
IULM Cluster analysis 1
IULM
Cluster analysis
1. Generalità ................................................................................................................................................... 1
2. Metodi ........................................................................................................................................................ 2
2.1. Metodi gerarchici ............................................................................................................................. 2
2.2. Metodi non gerarchici ...................................................................................................................... 3
3. Interpretazione dei cluster .......................................................................................................................... 4
3.1. Numerosità dei cluster ..................................................................................................................... 5
3.2. Altri strumenti per l’interpretazione ................................................................................................ 6
4. Considerazioni sui dati............................................................................................................................... 7
5. Stabilità dei cluster .................................................................................................................................... 7
6. Considerazioni conclusive ......................................................................................................................... 8
7. Esempio: segmentazione della clientela .................................................................................................... 8
1. Generalità
Con cluster analysis, o analisi dei gruppi, si intende una famiglia di tecniche per classificare unità statistiche
(casi) in gruppi omogenei (cluster)
1
. L'obiettivo è classificare le unità in gruppi il più possibile omogenei al
loro interno (coesione interna) e il più possibile eterogenei tra di loro (separazione esterna). Un'applicazione
classica è la segmentazione del mercato, che può riguardare sia consumatori o utenti, sia prodotti o aziende.
La cluster analysis non ipotizza nessuna indicazione a priori sul gruppo di appartenenza delle unità, ma
produce essa stessa dei raggruppamenti unendo nello stesso cluster casi simili tra loro. È possibile
un’interpretazione geometrica: le variabili utilizzate le colonne della matrice dei dati individuano uno
spazio a più dimensioni e le unità sono punti in quello spazio: se le variabili sono solo due le unità sono punti
del piano (fig. 1), se le variabili sono tre le unità sono punti nello spazio ordinario a tre dimensioni; molto
spesso le variabili sono numerose: la cluster analysis è una tecnica multivariata. Con riferimento a questa
interpretazione, la similarità tra unità si traduce nella distanza dei punti corrispondenti: dire che due unità
sono simili equivale a dire che sono vicine.
Fig. 1 Rappresentazione geometrica: due variabili,
spazio a due dimensioni (piano), tre cluster
Supponiamo di voler raggruppare n unità in g gruppi distinti: al crescere di n e g il numero di modi diversi di
generare tali gruppi diventa rapidamente un numero molto grande
2
. Per qualunque caso pratico è pertanto
impossibile esaminare tutti i raggruppamenti possibili e si impone l’esigenza di trovare delle strategie, cioè
degli algoritmi, più efficienti.
1
Il termine cluster è stato utilizzato inizialmente da Tryon (1939); i principi dell’analisi sono stati formalizzati da
Sneath e Sokal in Principles of Numerical Taxonomy, 1963.
2
Il numero di modi diversi è 𝑔𝑛𝑔!
; es. per n = 20 e g = 5 è circa 7,9 1011 cioè poco meno di 800 miliardi.
pf3
pf4
pf5
pf8
pf9

Anteprima parziale del testo

Scarica data analysis corso della beffa e più Dispense in PDF di Statistica solo su Docsity!

IULM

Cluster analysis

  1. Generalità................................................................................................................................................... 1
  2. Metodi ........................................................................................................................................................ 2 2.1. Metodi gerarchici............................................................................................................................. 2 2.2. Metodi non gerarchici...................................................................................................................... 3
  3. Interpretazione dei cluster .......................................................................................................................... 4 3.1. Numerosità dei cluster ..................................................................................................................... 5 3.2. Altri strumenti per l’interpretazione ................................................................................................ 6
  4. Considerazioni sui dati............................................................................................................................... 7
  5. Stabilità dei cluster .................................................................................................................................... 7
  6. Considerazioni conclusive ......................................................................................................................... 8
  7. Esempio: segmentazione della clientela .................................................................................................... 8

1. Generalità

Con cluster analysis , o analisi dei gruppi, si intende una famiglia di tecniche per classificare unità statistiche (casi) in gruppi omogenei ( cluster )^1. L'obiettivo è classificare le unità in gruppi il più possibile omogenei al loro interno (coesione interna) e il più possibile eterogenei tra di loro (separazione esterna). Un'applicazione classica è la segmentazione del mercato, che può riguardare sia consumatori o utenti, sia prodotti o aziende. La cluster analysis non ipotizza nessuna indicazione a priori sul gruppo di appartenenza delle unità, ma produce essa stessa dei raggruppamenti unendo nello stesso cluster casi simili tra loro. È possibile un’interpretazione geometrica: le variabili utilizzate – le colonne della matrice dei dati – individuano uno spazio a più dimensioni e le unità sono punti in quello spazio: se le variabili sono solo due le unità sono punti del piano (fig. 1), se le variabili sono tre le unità sono punti nello spazio ordinario a tre dimensioni; molto spesso le variabili sono numerose: la cluster analysis è una tecnica multivariata. Con riferimento a questa interpretazione, la similarità tra unità si traduce nella distanza dei punti corrispondenti: dire che due unità sono simili equivale a dire che sono vicine. Fig. 1 Rappresentazione geometrica: due variabili, spazio a due dimensioni (piano), tre cluster Supponiamo di voler raggruppare n unità in g gruppi distinti: al crescere di n e g il numero di modi diversi di generare tali gruppi diventa rapidamente un numero molto grande^2. Per qualunque caso pratico è pertanto impossibile esaminare tutti i raggruppamenti possibili e si impone l’esigenza di trovare delle strategie, cioè degli algoritmi, più efficienti. (^1) Il termine cluster è stato utilizzato inizialmente da Tryon (1939); i principi dell’analisi sono stati formalizzati da Sneath e Sokal in Principles of Numerical Taxonomy , 1963. (^2) Il numero di modi diversi è 𝑔𝑛 (^) ⁄𝑔 !; es. per n = 20 e g = 5 è circa 7 , 9 ∙ 1011 cioè poco meno di 800 miliardi.

I metodi disponibili sono molti e tutti aggregano le unità nei cluster in base a una misura della distanza (o similarità) e a un criterio di aggregazione opportunamente scelti. Tradizionalmente i metodi di cluster analysis sono classificati in gerarchici e non gerarchici; i metodi gerarchici si possono a loro volta distinguere i metodi agglomerativi (i più diffusi) e metodi divisivi. Nuovi algoritmi sono tuttora attivamente sviluppati e proposti nell’ambito del data mining e del machine learning, a testimonianza dell’interesse che la cluster analysis continua a suscitare sia sul piano teorico sia sul piano applicativo. Fig. 2 Schema riassuntivo dei metodi di clustering^3

2. Metodi

2.1. Metodi gerarchici

I metodi gerarchici (agglomerativi) consentono di ottenere una successione di soluzioni con un numero di gruppi da n a 1: dalla soluzione più semplice in cui tutte le unità sono distinte ( n gruppi di una sola unità), fino a quella in cui tutti gli elementi appartengono a un unico gruppo (un solo gruppo di n unità). Il processo di generazione dei cluster può essere rappresentato con un dendrogramma. L’esempio di fig. 3^4 rappresenta il processo di aggregazione di quindici paesi europei in base ad alcune caratteristiche economiche; il processo è rappresentato da sinistra (quindici cluster di una sola unità) a destra (tutte le unità in un solo cluster); le unità più vicine, Austria e Olanda, sono le prime a unirsi, poi si aggregano Grecia e Spagna, poi al cluster Grecia-Spagna si aggrega l’Italia, e così via; al penultimo passo si individuano due cluster – da Austria a Svezia e da Rep Ceca a Irlanda – che si uniscono nell’unico cluster finale. Fig. 3 Dendrogramma I primi livelli di aggregazione e l’ultimo sono di scarso interesse pratico perché troppo o troppo poco dettagliati: molto più utili sono i livelli intermedi. Il dendrogramma mostra le possibili aggregazioni e fornisce indicazioni operative per la scelta dei raggruppamenti migliori, almeno dal punto di vista tecnico. (^3) Da Malhotra, Marketing Research , 1996 (adattato) (^4) L’esempio sarà ripreso e dettagliato meglio nel paragrafo 3.

La misura della distanza utilizzata al passo 3 è quella euclidea, che costituisce semplicemente l’estensione a n dimensioni del teorema di Pitagora^9 : la distanza euclidea a 2 o 3 dimensioni è la distanza abituale sul piano o nello spazio ordinario. Per quanto riguarda il criterio di aggregazione delle unità, il processo iterativo del metodo k - means (ripetizione dei passi 3 e 4) persegue l’obiettivo di minimizzare le distanze delle singole unità dai centri dei cluster, e quindi di minimizzare la varianza^10 interna ai cluster, e quindi in definitiva di generare gruppi con la massima omogeneità interna. Il processo si arresta normalmente quando in due iterazioni successive i centri non si spostano più, ovvero quando nessuna unità cambia più cluster. Il metodo k - means è molto efficiente dal punto di vista del calcolo ed è quindi indicato anche con dataset di grandi dimensioni (es. cluster di consumatori).

3. Interpretazione dei cluster

A differenza di altre tecniche statistiche come i test delle ipotesi o la regressione, la cluster analysis è principalmente una tecnica descrittiva, per la quale non è possibile valutare in modo formale la significatività dei risultati. Inoltre i cluster identificati non sono determinati univocamente, possono dipendere dal metodo utilizzato e col metodo k - means possono variare anche al variare dei centri iniziali^11. In generale la cluster analysis non fornisce risultati definitivi, ma piuttosto modi di riassumere e schematizzare i dati, la cui bontà e utilità dipende in buona misura dalla sensibilità del ricercatore. L’interpretazione dei risultati da parte di chi effettua l’analisi riveste quindi un ruolo importante. Illustriamo questo aspetto con un esempio. Consideriamo nove paesi europei caratterizzati dalla percentuale del PIL^12 spesa da ciascuno di essi per istruzione, sanità e pensioni. Abbiamo quindi nove paesi descritti da tre variabili (fig. 5 ). L’obiettivo dell’analisi è generare dei cluster di paesi simili tra di loro rispetto alle politiche di spesa nei tre settori. Scegliamo di generare tre cluster (il numero di cluster da generare coincide col numero di variabili solo casualmente: in generale i due valori sono diversi). % del PIL istruzione sanità pensioni Austria 5,4 7,7 28, Francia 5,6 8,8 31, Germania 4,4 8,2 28, Grecia 4,4 5,9 24, Italia 4,8 6,2 25, Olanda 5,6 7,5 29, Spagna 4,2 6,0 20, UK 5,5 7,2 25, Svizzera 5,6 6,4 28, Fig. 5 Il metodo k - means individua tre cluster di dimensione 3, 2 e 4, cioè costituiti rispettivamente da 3, 2 e 4 paesi. I centri finali sono riportati in fig. 6. Si noti che – per motivi che esporremo nel paragrafo 4 – prima di eseguire l’analisi le tre variabili sono state standardizzate, cioè ricondotte a media zero e varianza 1, pertanto nella fig. 6 i valori positivi indicano “percentuali del PIL sopra la media dei nove paesi” e quelli negativi “percentuali sotto la media”. L’interpretazione dei cluster si basa fondamentalmente sui centri finali, cioè sulle medie delle variabili all’interno dei cluster: ogni cluster è caratterizzato soprattutto dalle variabili con le medie più alte – e (^9) Con p variabili, cioè nello spazio a p dimensioni, la distanza euclidea tra due punti di coordinate (𝑥 1 , 𝑥 2 , … , 𝑥𝑝) e (𝑦 1 , 𝑦 2 , … , 𝑦𝑝) è [(𝑥 1 − 𝑦 1 )^2 + (𝑥 2 − 𝑦 2 )^2 + ⋯ + (𝑥𝑝 − 𝑦𝑝)^2 ] 1 ⁄ 2 (^10) Più propriamente, l’obiettivo è di minimizzare la devianza interna, cioè la somma dei quadrati degli scarti dalla media. (^11) In termini tecnici, e limitatamente al metodo k - means: non è garantito che l’algoritmo identifichi la partizione corrispondente al massimo globale della coesione interna, ma – a causa della variabilità dei centri iniziali – potrebbe arrestarsi su un massimo locale , sub-ottimale. (^12) Prodotto interno lordo: il valore dei prodotti e servizi realizzati in uno Stato in un anno; è un indicatore di salute di un sistema economico.

caratterizzato in negativo dalle variabili con le medie più basse. L'ideale è ottenere medie molto diverse su tutte le dimensioni. Nel nostro caso i centri finali (fig. 6 ) forniscino le seguenti indicazioni:

  • il cluster 1 presenta percentuali di spesa relativamente basse in tutte gli ambiti;
  • il cluster 2 presenta percentuali di spesa relativamente alte in sanità e pensioni, medie in istruzione;
  • il cluster 3 presenta percentuali di spesa relativamente alte in istruzione e – in misura minore – in pensioni; medie in sanità. Centri finali (medie) cluster 1 cluster 2 cluster 3 istruzione - 0,985 - 0,093 0, sanita - 1,030 1,352 0, pensioni - 1,052 0,952 0, Fig. 6 L’idea generale può quindi essere riassunta dicendo che il cluster 1 è costituito da paesi che investono meno in tutti gli ambiti; il cluster 2 e il cluster 3 si distinguono invece per politiche di spesa più alte e più selettive: il cluster 2 soprattutto sanità e pensioni, il cluster 3 soprattutto istruzione. Quando la soluzione ottenuta non consente una interpretazione soddisfacente, si può sperimentare una nuova soluzione con un numero di cluster diverso. Si noti che l’interpretazione dei cluster non dipende dalle unità – nel nostro caso dai paesi – che li compongono; anzi, fino a questo punto l’appartenenza delle singole unità ai cluster non è ancora nota: la sua conoscenza necessita di un passo ulteriore. Una volta individuata la soluzione soddisfacente si deve procedere aggiungendo al dataset una nuova variabile che rappresenta il cluster al quale ogni unità appartiene. Nel nostro esempio ad ogni paese viene associato un numero tra 1 e 3. L’attribuzione esplicita di ogni unità a un cluster permette di esaminare nel dettaglio quali unità compongono ciascun cluster. Nell’esempio le unità sono solo nove e, inoltre, sono chiaramente identificate: sono paesi europei ciascuno dei quali ha caratteristiche che, almeno in generale, sono note. È quindi possibile integrare l’interpretazione dei centri finali con l’esame di come i singoli paesi sono raggruppati tra loro. In dettaglio la composizione dei cluster è:
  • cluster 1: Grecia, Italia, Spagna;
  • cluster 2: Francia, Germania;
  • cluster 3: Austria, Olanda, Svizzera, UK. Abbiamo quindi due metodi per l’interpretazione dei cluster: il primo – l’esame dei centri finali, cioè delle medie delle variabili – è il metodo principale ed è applicabile qualunque sia la tecnica utilizzata; il secondo – l’esame delle unità che compongono i cluster – è applicabile quando ogni unità ha un significato individuale noto e riconoscibile (es. prodotti, aziende o, come in questo caso, paesi). Il secondo metodo è soprattutto utile in associazione con i metodi gerarchici, nel qual caso l’apparteneneza ai cluster delle unità è evidenziata dal dendrogramma; non è invece utilizzabile quando le unità rappresentano, ad esempio, un campione di consumatori. In tal caso infatti il numero di unità in ciascun cluster è di solito troppo alto per identificarli individualmente e, soprattutto, l’individuazione del singolo caso non aggiunge alcuna informazione perché le caratteristiche dei singoli consumatori – al di fuori delle variabili usate per l’analisi – non sono note.

3.1. Numerosità dei cluster

Nell’interpretare i cluster è opportuno tenere conto anche della rispettiva numerosità; ad esempio nella segmentazione dei consumatori la dimensione relativa dei singoli cluster è ovviamente di grande interesse in pratica. Non è necessario che i cluster abbiano dimensioni approssimativamente uguali, ma devono avere delle dimensioni utili, cioè non devono scendere sotto una soglia minima utile del punto di vista operativo. Esistono inoltre casi particolari in cui la dimensione dei cluster è indice di problemi di clusterizzazione:

  • cluster molto piccoli (poche unità) indicano la possibile presenza di outlier: dovrebbero essere analizzati caso per caso e ai fini della segmentazione possono essere trascurati;^13 (^13) In generale la cluster analysis è sensibile alla presenza di outlier, che dovrebbero essere preventivamente individuati e analizzati; se però essi emergono dall’analisi come cluster di piccola dimensione può essere conveniente replicare l’analisi dopo aver escluso i casi critici.

4. Considerazioni sui dati

Normalmente la cluster analysis viene eseguita su dati numerici, ma si possono utilizzare anche dati binari, e quindi anche dati categorici opportunamente dicotomizzati^14. Nel seguito faremo riferimento a dati numerici. La scelta delle variabili su cui eseguire la cluster analysis è particolarmente importante:

  • le variabili selezionate dovrebbero essere dei buoni indicatori delle similarità tra le unità rispetto agli obiettivi dell’analisi (es. segmentare i consumatori rispetto alle opinioni o ai comportamenti);
  • l’inclusione di variabili irrilevanti introduce “rumore” e può modificare i risultati, in ogni caso li rende meno “puliti”;
  • la presenza di due variabili fortemente correlate e/o con significati analoghi equivale ad attribuire peso doppio all'informazione in esse contenuta, rispetto alle altre variabili;
  • differenze rilevanti tra la scala e la varianza delle variabili corrispondono pure ad attribuire pesi diversi alle variabili: maggiore è la varianza, maggiore è l'importanza della variabile nel definire la distanza e quindi i gruppi. Per eliminare le distorsioni conseguenti alle differenze di scala e/o di varianza i dati numerici possono essere standardizzati (a media zero e varianza 1) o normalizzati (es. tra zero e 1). L’individuazione di variabili fortemente correlate si basa sulla matrice di correlazione: se due variabili presentano un coefficiente di correlazione particolarmente alto (in valore assoluto) si può decidere di eliminarne una. Un approccio alternativo consiste nel sottoporre le variabili originali ad analisi fattoriale e poi eseguire la cluster analysis sui fattori ottenuti: l’analisi fattoriale risolve sia i problemi di scala e varianza sia quelli di eventuali ridondanze e correlazioni tra le variabili, inoltre attenua i problemi derivanti da eventuali valori mancanti e outlier. Per questi motivi il ricorso a una analisi fattoriale come pre-processing per una successiva cluster analysis è considerato l’approccio metodologicamente più raccomandabile ed è di fatto il metodo più usato. Si noti tuttavia che gli interventi descritti correggono solo possibili distorsioni “tecniche” (scale diverse, correlazioni); a prescindere da esse, la scelta di quali variabili inserire e quali escludere dall’analisi rimane un aspetto delicato, che di solito richiede una competenza specifica sull’oggetto dell’analisi.

5. Stabilità dei cluster

Come già anticipato, la cluster analysis non dispone di criteri generali soddisfacenti per valutare la bontà dei risultati in modo formale, attraverso la significatività di qualche test.^15 Una valutazione della qualità della partizione ottenuta e della sua utilità a fini pratici si può tuttavia ottenere in modo indiretto. Le tecniche di cluster analysis individuano dei cluster anche su dati casuali privi di struttura. Poiché l'obiettivo è di identificare cluster utili a fini interpretativi e pratici, occorre quantomeno che essi siano stabili , cioè che il loro significato e le loro dimensioni relative rimangano sostanzialmente invariati al variare delle condizioni nelle quali sono generati. La verifica della stabilità dei cluster si può valutare rieseguendo la cluster analysis sugli stessi dati con approcci diversi e confrontando i risultati. Gli “approcci diversi” possono essere propriamente metodi di clustering differenti (es. metodi gerarchici e non gerarchici, quando entrambi siano applicabili) oppure, rimanendo nell’ambito del metodo k - means, possono consistere nell’eseguire l’analisi partendo da centri iniziali diversi, o generando un numero diverso di cluster. Se i cluster ottenuti sono stabili, le unità che sono classificate insieme (cioè nello stesso cluster) in una soluzione tenderanno a ritrovarsi insieme anche in un’altra. Il confronto tra due soluzioni si effettua partendo dalla tabella a doppia entrata delle frequenze delle due soluzioni, in un processo detto cross-validation : la situazione ideale – cluster perfettamente stabili – è quella in cui tutte le unità si concentrano in una sola cella per riga e una per colonna, e le altre celle sono vuote. (^14) Ad esempio, una variabile categorica X che ammette tre valori a , b e c può essere convertita in tre variabili binarie A , B , C : la variabile A vale 1 se 𝑋 = 𝑎 e vale zero se 𝑋 ≠ 𝑎 e lo stesso per le altre; ovviamente c’è sempre una e una sola variabile uguale a 1. (^15) In realtà alcuni criteri esistono, es. l’indice R quadrato o la statistica Cubic Clustering Criterion (CCC), ma si basano spesso su assunzioni restrittive, non sempre accettabili; il CCC può tuttavia essere utile per confrontare ipotesi di soluzione generate sugli stessi dati con numeri differenti di cluster.

soluzione B cluster 1 cluster 2 cluster 3 totale soluzione A cluster 1 2 0 1 3 cluster 2 0 2 0 2 cluster 3 0 0 4 4 totale 2 2 5 9 Fig. 9 Cross-validation Nell’esempio di fig. 9 si confronta la soluzione discussa sopra (A) con un’altra (B) trovata a partire da centri iniziali diversi: le due soluzioni coincidono a meno dell’unità evidenziata, che nella soluzione A appartiene al cluster 1 e nella soluzione B appartiene al cluster 3. Un altro approccio consiste nell’analizzare la separazione tra i cluster ottenuti, ad esempio testando se alcune variabili di interesse hanno medie o distribuzioni diverse tra i cluster. È quello che abbiamo fatto nell’esempio di fig. 3, confrontando le medie del PIL pro capite nei cluster. Ripetiamo tuttavia qui che questo approccio ha validità di test solo se applicato a variabili esterne non utilizzate per generare i cluster: in tal caso il test si può applicare con piena validità e, se significativo, come già detto, fornisce una forte conferma a posteriori della separazione tra cluster.

6. Considerazioni conclusive

In generale la cluster analysis non richiede alcuna ipotesi sulle variabili, né sulle relazioni tra di esse. Si può applicare a campioni di qualunque dimensione. Per il metodo k - means valgono alcune considerazioni aggiuntive:

  • è necessario indicare a priori il numero dei cluster, che non è sempre noto a priori; la prassi normale è di formulare diverse ipotesi e di confrontare i risultati; ad esempio si stabilisce a priori che il numero di cluster utile non deve essere minore di 3 né maggiore di 6 e si provano tutte le soluzioni tra 3 e 6 cluster;
  • con dataset di dimensione ridotta il metodo è particolarmente sensibile alla scelta dei centri iniziali;^16 opzionalmente i centri possono essere imposti esplicitamente da chi effettua l’analisi; in alternativa vengono calcolati automaticamente cercando di massimizzarne la separazione;
  • se i centri iniziali vengono calcolati automaticamente, di solito dipendono dall'ordinamento della matrice dei dati, che quindi influenza il processo di aggregazione.

7. Esempio: segmentazione della clientela

Una applicazione classica della cluster analysis è la segmentazione della clientela, il cui scopo è di identificare gruppi di clienti omogenei rispetto a certe variabili di interesse, che possono essere opinioni, comportamenti, caratteri sociodemografici. A titolo di esempio consideriamo il caso dei clienti di un piccolo supermercato. I dati disponibili sono gli scontrini dettagliati di 12 mesi di tutti i clienti, identificati individualmente dalla loro carta fedeltà. In una fase di pre-elaborazione i dati sono aggregati e ricodificati per generare le informazioni sui comportamenti di acquisto di ogni cliente:

  • spesa totale nei 12 mesi e spesa media per acquisto;
  • intervallo medio tra acquisti consecutivi;
  • percentuale di prodotti light acquistati;
  • suddivisione percentuale dell’importo totale speso in nove categorie di prodotto (fig. 10). La segmentazione è limitata ai clienti che hanno fatto almeno due acquisti nei 12 mesi (7617 su 8842 clienti totali). Le variabili utilizzate in questo esempio sono esclusivamente le percentuali di spesa individuali per categoria di prodotto, ma ovviamente altre scelte sarebbero possibili^17. I dati sono già espressi nella stessa scala – sono tutte percentuali, la somma per cliente è 100 – quindi non è necessaria alcuna standardizzazione, tuttavia per facilitare l’interpretazione dei risultati i dati sono centrati , cioè ricondotti a media zero. È stato scelto di generare 5 cluster; i centri finali e la numerosità sono riportate in fig. 11. Come conseguenza della centratura delle variabili, i valori positivi indicano percentuali superiori alla media e i valori negativi (^16) La dipendenza dai centri iniziali tende a scomparire con dataset di grandi dimensioni. (^17) Ad esempio si potrebbero includere l’importo medio dello scontrino e la frequenza degli acquisti.