Docsity
Docsity

Prepare-se para as provas
Prepare-se para as provas

Estude fácil! Tem muito documento disponível na Docsity


Ganhe pontos para baixar
Ganhe pontos para baixar

Ganhe pontos ajudando outros esrudantes ou compre um plano Premium


Guias e Dicas
Guias e Dicas


kdd - clustering, Notas de estudo de Sistemas de Informação

KDD - Clustering

Tipologia: Notas de estudo

2016

Compartilhado em 18/08/2016

rodrigo-leite-duraes-11
rodrigo-leite-duraes-11 🇧🇷

4.5

(2)

20 documentos

1 / 57

Toggle sidebar

Esta página não é visível na pré-visualização

Não perca as partes importantes!

bg1
Clustering
Clustering
Prof. Rodrigo Leite Durães.
pf3
pf4
pf5
pf8
pf9
pfa
pfd
pfe
pff
pf12
pf13
pf14
pf15
pf16
pf17
pf18
pf19
pf1a
pf1b
pf1c
pf1d
pf1e
pf1f
pf20
pf21
pf22
pf23
pf24
pf25
pf26
pf27
pf28
pf29
pf2a
pf2b
pf2c
pf2d
pf2e
pf2f
pf30
pf31
pf32
pf33
pf34
pf35
pf36
pf37
pf38
pf39

Pré-visualização parcial do texto

Baixe kdd - clustering e outras Notas de estudo em PDF para Sistemas de Informação, somente na Docsity!

ClusteringClustering

Prof. Rodrigo Leite Durães. [email protected]

O que é Análise de Agrupamentos?O que é Análise de Agrupamentos?

 (^) Cluster: um grupo de objetos

  • Similares entre si quando no mesmo grupo
  • Dissimilares em relação a objetos em outros grupos  (^) Análise de Agrupamentos
  • Agrupamento de objetos em grupos  (^) Agrupamento é um método de classificação não supervisionada: as classes não são definidas previamente  (^) Aplicações típicas
  • Como uma ferramenta autonoma para obter pistas sobre a distribuição de dados
  • Como uma^ etapa de preprocessamento^ para outros algoritmos

Exemplos de Aplicações de ClusteringExemplos de Aplicações de Clustering

 (^) Marketing: Ajuda os marqueteiros a descobrir grupos de clientes e usa esse conhecimento para orientar as campanhas publicitárias

 (^) Solo: Identificação de áreas de propriedades similares

 (^) Seguro: Identificação de grupos de segurados com um custo médio elevado de reembolso

 (^) Planejamento Urbano: Identificação de grupos de habitação segundo o tipo, valor e localização geográfica

O que é um bom agrupamento?O que é um bom agrupamento?

 (^) Um bom método de agrupamento fornece grupos de

alta qualidade com

  • Alta similaridade intra-grupo
  • baixa similaridade inter-grupo  (^) A qualidade do resultado de um agrupamento depende

tanto da medida de similaridade usada pelo método como da sua implementação.

 (^) A qualidade de um método de agrupamento é também

medido pela sua habilidade para descobrir os padrões escondidos.

a) aquisição dos dados

  1. Seleção das observações (indivíduos, objetos, casos, itens)
  2. Seleção das variáveis (caracteres, descritores) e das correspondentes escalas
  3. Construção da Tabela de Dados b) Pré-processamento dos dados
  4. Mudança de escala
  5. Normalização
  6. Extração de caracteres

Principais Etapas da Formação de Principais Etapas da Formação de

AgrupamentosAgrupamentos

c) Construção da Tabela de Dados d) Cálculo da Proximidade

  1. Escolha de um Índice de Proximidade
  2. Construção da Matriz de Proximidades e) Seleção de um Algoritmo de Formação de Grupos em função do tipo de agrupamento desejado f) Análise e Interpretação dos Resultados

Principais Etapas da Formação de Principais Etapas da Formação de

AgrupamentosAgrupamentos

Tipos de Dados

 (^) Variáveis de escala intervalar:

 (^) Variáveis Binárias:

 (^) Variáveis Nominais, Ordinais, Proporcionais:

 (^) Variáveis de tipo mixto:

Dissimilaridade entre objetosDissimilaridade entre objetos

 (^) Distancias são normalmente usadas como medida de

dissimilaridade entre objetos

 Entre as mais populares: distancia de Minkowski

onde i = ( xi1, xi2, …, xip) e j = ( xj1, xj2, …, xjp) são dois vetores p- dimensionais, e q é um inteiro positivo

 Se q = 1 , d é a distância de Manhattan

d ( i , j )^ q^ (| x i 1  x j 1 | q | x i 2  x j 2 |^ q ...| x ipx j p | q )

d ( i , j )| x i 1  x j 1 || x i 2  x j 2 |...| x ip  xjp |

Outros aspectos relativos aos índices de proximidade

  • Escala das Variáveis
  • Correlação entre as Variáveis
  • Descrições heterogêneas (Variáveis de diferentes tipos)
  • Índices de proximidade entre padrões descritos por strings ou árvores
  • Índices de proximidade dependentes do contexto

Estruturas classificatóriasEstruturas classificatórias

0

1

2

3

4

5

0 1 2 3 4 5

e e

e (^) e e 1 2

(^43) 5

K P l

K P

1

1 ) 1 , , tem- se

0

1

2

3

4

5

0 1 2 3 4 5

e e

e (^) e e 1 2

(^43) 5

Cobertura Partição

Pl P m

m K então

3 ) , 1 ,, el m

Métodos de AgrupamentoMétodos de Agrupamento

Em Taxinomia Numérica distingue-se três grupos de Em Taxinomia Numérica distingue-se três grupos de métodos métodos

Técnicas de Otimização Técnicas de Otimização

Objetivo: obter uma partição. Número de grupos Objetivo: obter uma partição. Número de grupos fornecido pelo usuário fornecido pelo usuário

Técnicas hierárquicas Técnicas hierárquicas

Objetivo: obter uma hierarquia (ou uma pirâmide) Objetivo: obter uma hierarquia (ou uma pirâmide) Pode-se obter uma partição “cortando-se” a Pode-se obter uma partição “cortando-se” a hierarquia em um determinado nível. hierarquia em um determinado nível.

Métodos de AgrupamentoMétodos de Agrupamento

Técnicas de Cobertura Técnicas de Cobertura

Objetivo: obter grupos que eventualmente podem Objetivo: obter grupos que eventualmente podem partilhar indivíduos. partilhar indivíduos.

Outros Aspectos Relativos aos Métodos de Outros Aspectos Relativos aos Métodos de Agrupamento Agrupamento

Métodos Aglomerativos versus Métodos Divisivos Métodos Aglomerativos versus Métodos Divisivos

Métodos Monotéticos versus Métodos Politeticos Métodos Monotéticos versus Métodos Politeticos

Principais Métodos de AgrupamentoPrincipais Métodos de Agrupamento

 (^) Métodos que fornecem uma partição: Construa várias

partições que são então avaliadas segundo algum critério

 (^) Métodos Hierarquicos: Fornece uma decomposição

hierarquica dos objetos segundo um critério particular

 (^) Métodos de Densidade: basedos em conectividade e

funções de densidade

 (^) Grid: baseado em estruturas de níveis de granularidade

multipla

 (^) Modelo: Supõe-se um modelo para cada cluster e tenta-

se achar o melhor ajustamento entre o modelo e o cluster

Métodos que fornecem uma partição:Métodos que fornecem uma partição:

Conceitos básicos Conceitos básicos

 (^) Métodos que fornecem uma partição: Produz uma

partição de uma base de dados D de n objetos em k

grupos

 Dado k, encontre uma partição em k grupos que otimiza

um dado critério

  • Otimo global: enumeração exaustiva de todas as partições
  • Heuristicas: k-means
  • k-means (MacQueen’67): Cada grupo é representado pelo seu centro