Docsity
Docsity

Prepara i tuoi esami
Prepara i tuoi esami

Studia grazie alle numerose risorse presenti su Docsity


Ottieni i punti per scaricare
Ottieni i punti per scaricare

Guadagna punti aiutando altri studenti oppure acquistali con un piano Premium


Guide e consigli
Guide e consigli


Clustering analysis applicata, Appunti di Statistica Inferenziale

clustering o analisi dei gruppi (dal termine inglese cluster analysis introdotto da Robert Tryon nel 1939) è un insieme di tecniche di analisi multivariata dei dati volte alla selezione e raggruppamento di elementi omogenei in un insieme di dati

Tipologia: Appunti

2018/2019

Caricato il 21/05/2019

michele-papasidero
michele-papasidero 🇮🇹

5

(1)

2 documenti

1 / 81

Toggle sidebar

Questa pagina non è visibile nell’anteprima

Non perderti parti importanti!

bg1
Clustering
Sistemi informativi per le Decisioni
Slide a cura di Prof. Claudio Sartori
pf3
pf4
pf5
pf8
pf9
pfa
pfd
pfe
pff
pf12
pf13
pf14
pf15
pf16
pf17
pf18
pf19
pf1a
pf1b
pf1c
pf1d
pf1e
pf1f
pf20
pf21
pf22
pf23
pf24
pf25
pf26
pf27
pf28
pf29
pf2a
pf2b
pf2c
pf2d
pf2e
pf2f
pf30
pf31
pf32
pf33
pf34
pf35
pf36
pf37
pf38
pf39
pf3a
pf3b
pf3c
pf3d
pf3e
pf3f
pf40
pf41
pf42
pf43
pf44
pf45
pf46
pf47
pf48
pf49
pf4a
pf4b
pf4c
pf4d
pf4e
pf4f
pf50
pf51

Anteprima parziale del testo

Scarica Clustering analysis applicata e più Appunti in PDF di Statistica Inferenziale solo su Docsity!

Clustering

Sistemi informativi per le Decisioni

Slide a cura di Prof. Claudio Sartori

Clustering

Scenario: Analisi e gestione dei mercati „

Customer profiling

Quali tipi di cliente acquistano quali prodotti?

Clustering, classificazione

„

Identificare le richieste dei clienti

Trovare il prodotto migliore per clienti diversi

Predire quali fattori possono attrarrenuovi clienti

„

Produrre informazioni di sommario

Rapporti multi-dimensionali

Sintesi statistiche descrittive

Clustering

Clustering - descrizione del problema

„

input:

un insieme di N oggetti d-dimensionali

„

output:

determinare un partizionamento naturaledell'insieme di dato in k clusters + rumore

proprietà desiderate nei cluster:

„

oggetti nello stesso cluster sono simili^ Î

massimizzata la similarità intra-cluster

„

oggetti in cluster diversi sono differenti^ Î

minimizzata la similarità inter-cluster

Clustering

Prospettiva di ricerca „

Dal passato...^

il clustering è un problema ben noto in statistica

ricerche più recenti

„^

machine learning „^

database „^

visualizzazione

... per il futuro^

algoritmi efficaci ed efficienti per il clustering di grandi insiemidi dati (in rapido aumento), con elevato numero di dimensioni,molto rumore

richiede scalabilità rispetto a:

„^

numero di punti dati (N) „^

numero di dimensioni (d) „^

livello di rumore „^

frequenza di aumento del numero di punti dati

Clustering

Alcuni datiPotrebberofacilmente esseremodellati comeuna distribuzionegaussiana con 5componentiMa cerchiamouna soluzione più“amichevole”e soddisfacente...

Clustering

Compressione con perdita Supponiamo di dovertrasmettere le coordinatedi punti presi a casoda questo insieme: dovremoideare un meccanismodi codifica/decodifica.Limitazione: ci è permessodi trasmettere soltanto due bitper punto. La trasmissione sarà con perdita (lossy)Perdita =

somma dei quadrati

degli errori tra le coordinatedecodificate e quelle originali.Quale codifica/decodificaminimizza la perdita?

Clustering

Idea due Supponiamo di dovertrasmettere le coordinatedi punti presi a casoda questo insieme: dovremoideare un meccanismodi codifica/decodifica.Limitazione: ci è permessodi trasmettere soltanto due bitper punto. La trasmissione sarà con perdita (lossy)Perdita =

somma dei quadrati

degli errori tra le coordinatedecodificate e quelle originali.Quale codifica/decodificaminimizza la perdita?

Idee migliori?

partizionare lo spazio in una griglia,decodificare ogni coppia di bit come ilcentroide di tutti i dati nella rispettiva griglia

Clustering

K-means

  1. chiedi all’utente quanti

cluster vuole

(es. k=5)

Clustering

K-means

  1. chiedi all’utente quanti

cluster vuole

(es. k=5)

  1. scegli a caso

k

posizioni

come centri

  1. ogni punto trova quale è

il suo centro più vicino

Clustering

K-means

  1. chiedi all’utente quanti

cluster vuole

(es. k=5)

  1. scegli a caso

k

posizioni

come centri

  1. ogni punto trova quale è

il suo centro più vicino

  1. ogni centro trova

il centroide dei puntiche possiede...

Clustering

K-meansPartenza Example generated byDan Pelleg’s super-duperfast K-means system:

Dan Pelleg and AndrewMoore. Accelerating Exactk-means Algorithms withGeometric Reasoning.Proc. Conference onKnowledge Discovery inDatabases 1999,(KDD99) (available onwww.autonlab.org/pap.html

)

Clustering

K-meanscontinua…

Clustering

K-meanscontinua…

Clustering

K-meanscontinua…