data analysis corso della beffa | Dispense di Statistica

IULM – Cluster analysis – 1

IULM

Cluster analysis

1. Generalità ................................................................................................................................................... 1

2. Metodi ........................................................................................................................................................ 2

2.1. Metodi gerarchici ............................................................................................................................. 2

2.2. Metodi non gerarchici ...................................................................................................................... 3

3. Interpretazione dei cluster .......................................................................................................................... 4

3.1. Numerosità dei cluster ..................................................................................................................... 5

3.2. Altri strumenti per l’interpretazione ................................................................................................ 6

4. Considerazioni sui dati............................................................................................................................... 7

5. Stabilità dei cluster .................................................................................................................................... 7

6. Considerazioni conclusive ......................................................................................................................... 8

7. Esempio: segmentazione della clientela .................................................................................................... 8

1. Generalità

Con cluster analysis, o analisi dei gruppi, si intende una famiglia di tecniche per classificare unità statistiche

(casi) in gruppi omogenei (cluster)

. L'obiettivo è classificare le unità in gruppi il più possibile omogenei al

loro interno (coesione interna) e il più possibile eterogenei tra di loro (separazione esterna). Un'applicazione

classica è la segmentazione del mercato, che può riguardare sia consumatori o utenti, sia prodotti o aziende.

La cluster analysis non ipotizza nessuna indicazione a priori sul gruppo di appartenenza delle unità, ma

produce essa stessa dei raggruppamenti unendo nello stesso cluster casi simili tra loro. È possibile

un’interpretazione geometrica: le variabili utilizzate – le colonne della matrice dei dati – individuano uno

spazio a più dimensioni e le unità sono punti in quello spazio: se le variabili sono solo due le unità sono punti

del piano (fig. 1), se le variabili sono tre le unità sono punti nello spazio ordinario a tre dimensioni; molto

spesso le variabili sono numerose: la cluster analysis è una tecnica multivariata. Con riferimento a questa

interpretazione, la similarità tra unità si traduce nella distanza dei punti corrispondenti: dire che due unità

sono simili equivale a dire che sono vicine.

Fig. 1 Rappresentazione geometrica: due variabili,

spazio a due dimensioni (piano), tre cluster

Supponiamo di voler raggruppare n unità in g gruppi distinti: al crescere di n e g il numero di modi diversi di

generare tali gruppi diventa rapidamente un numero molto grande

. Per qualunque caso pratico è pertanto

impossibile esaminare tutti i raggruppamenti possibili e si impone l’esigenza di trovare delle strategie, cioè

degli algoritmi, più efficienti.

Il termine cluster è stato utilizzato inizialmente da Tryon (1939); i principi dell’analisi sono stati formalizzati da

Sneath e Sokal in Principles of Numerical Taxonomy, 1963.

Il numero di modi diversi è 𝑔𝑛𝑔!

⁄ ; es. per n = 20 e g = 5 è circa 7,9 ∙ 1011 cioè poco meno di 800 miliardi.

data analysis corso della beffa, Dispense di Statistica

Documenti correlati

Anteprima parziale del testo

Scarica data analysis corso della beffa e più Dispense in PDF di Statistica solo su Docsity!

IULM

Cluster analysis

1. Generalità

2. Metodi

2.1. Metodi gerarchici

3. Interpretazione dei cluster

3.1. Numerosità dei cluster

4. Considerazioni sui dati

5. Stabilità dei cluster

6. Considerazioni conclusive

7. Esempio: segmentazione della clientela