Docsity
Docsity

Prepare-se para as provas
Prepare-se para as provas

Estude fácil! Tem muito documento disponível na Docsity


Ganhe pontos para baixar
Ganhe pontos para baixar

Ganhe pontos ajudando outros esrudantes ou compre um plano Premium


Guias e Dicas
Guias e Dicas


Atributos: Impacto de Irrelevantes em Algoritmos de Aprendizado de Máquina, Notas de estudo de Biomedicina

Este documento discute o problema de seleção de atributos irrelevantes em algoritmos de aprendizado de máquina, explicando suas consequências negativas, como redução da acurácia de classificação e aumento do tempo de processamento. O texto também apresenta diferentes abordagens automáticas e manuais para resolver este problema, como filtros, wrapper e seleção antes do aprendizado.

Tipologia: Notas de estudo

Antes de 2010

Compartilhado em 19/11/2010

Wandersson_Saraiva
Wandersson_Saraiva 🇧🇷

4.4

(51)

186 documentos

1 / 29

Toggle sidebar

Esta página não é visível na pré-visualização

Não perca as partes importantes!

bg1
1
Seleção de Atributos
Marcílio Souto
DIMAp/UFRN
pf3
pf4
pf5
pf8
pf9
pfa
pfd
pfe
pff
pf12
pf13
pf14
pf15
pf16
pf17
pf18
pf19
pf1a
pf1b
pf1c
pf1d

Pré-visualização parcial do texto

Baixe Atributos: Impacto de Irrelevantes em Algoritmos de Aprendizado de Máquina e outras Notas de estudo em PDF para Biomedicina, somente na Docsity!

Seleção de Atributos

Marcílio Souto

DIMAp/UFRN

Tópicos

Por que atributos irrelevantes são um

problema

Quais tipos de algoritmos de aprendizado

são afetados

Seleção de atributos antes do aprendizado

Benefícios

Abordagens automáticas

Wrapper

Filtros

Atributos irrelevantes 

Adição de atributos irrelevantes às instâncias de uma
base de dados, geralmente, “confunde” o algoritmo de
aprendizado

Experimento (exemplo)

Indutor de árvores de decisão (C4.5)
 Base de dados D

Adicione às instâncias em D um atributo binário
cujos valores sejam gerados aleatoriamente

Resultado

A acurácia da classificação cai

Em geral, de 5% a 10% nos conjuntos de testes

Explicação

Em algum momento durante a geração das árvores:

O atributo irrelevante é escolhido

Isto causa erros aleatórios durante o teste

Por que o atributo irrelevante é escolhido?

Na medida em que a árvore é construída, menos e
menos dados estão disponíveis para auxiliar a
escolha do atributo

Chega a um ponto em que atributos aleatórios
parecem bons apenas por acaso

A chance disto acontece aumenta com a
profundidade da árvore

Atributos Irrelevantes x Algoritmos de AM  (^) Algoritmo que ignora atributos irrelevantes  (^) Naive Bayes  (^) Assume que todos os atributos são independentes entre si  (^) Suposição correta para atributos irrelevantes  Mas não para atributos redundantes  (^) O efeito do atributo redundante é multiplicado  P(Yes|X) = 0.20.350.23 = 0.  P(No|X) = 0.10.330.35 = 0.  P(Yes|X) = 0.20.35 0.23 * 0.23 =

 (^) P(No|X) = 0.10.33 0.35 * 0.35 =

Seleção de atributos antes do aprendizado 

Melhora o desempenho preditivo

Acelera o processo de aprendizado
 O processo de seleção de atributos, às vezes,
pode ser muito mais custoso que o processo de
aprendizado
 Ou seja, quando somarmos os custos das duas
etapas, pode não haver vantagem
 Produz uma representação mais compacta do
conceito a ser aprendido

O foco será nos atributos que realmente são
importantes para a definição do conceito

Seleção Automática  Implica em uma busca no “espaço” de atributos  Quantos subconjuntos há?  2 N^ , em que N é o número total de atributos  Portanto, na maioria dos casos práticos, uma busca exaustiva não é viável  Solução: busca heurística

Exemplo: Espaço de Atributos

Busca Heurística no Espaço de Atributos  Busca para trás (Eliminaçao Backward )  Similar a Seleção Forward  Começa com todo o conjunto de atributos, eliminando um atributo a cada passo  Tanto na Seleção Forward quanto na Eliminação Backward , pode-se adicionar um viés por subconjuntos pequenos  Por exemplo, pode-se requerer não apenas que a medida de avaliação crescer a cada passo, mas que ela cresça mais que uma determinada constante

Busca Heurística no Espaço de Atributos  Outros métodos de busca  Busca bidirecional  Best-first searchBeam search  Algoritmos genéticos  ......

Exemplo: Filtros

 Uso de uma indutor de árvores de decisão (AD) como
filtro para o k-NN

1) Aplique um indutor de AD para todo o conjunto
de treinamento

2) Selecione o subconjunto de atributos que
aparece na AD

3) Aplique o k-NN a apenas este subconjunto
 A combinação pode apresenta melhores resultados
do que cada método usando individualmente

Exemplo: Wrapper  (^) Busca para Frente (Seleção Forward ) + Naive Bayes  (^) (1) Inicialize com o conjunto vazio S={}  (^) (2) Resultado_S=  (^) (2) Para cada atributo s i que não esteja em S  (^) Avalie o resultado de (S U s i ): Resultado_^ si  (^) (3) Considere o atributo com maior Resultado_ s i  (^) SE (Resultado_ s i > Resultado_S) ENTAO (S=S U si ) & (Resultado_S= Resultado_ si ) Volte para o Passo (2) SENAO Pare

Análise de Componentes Principais (PCA)  (^) Dado um conjunto D com n instâncias e p atributos ( x 1 , x 2 ,..., xp ), uma transformação linear para um novo conjunto de atributos z 1 , z 2 ,..., zp pode ser calculada como:  Componentes Principais (PCs) são tipos específicos de combinações lineares que são escolhidas de tal modo que zp (PCs) tenham as seguintes características z 1 = a 11 x 1 + a 21 x 2 + ... + ap1 xp z 2 = a 12 x 1 + a 22 x 2 + ... + ap2 xp ... zp = a1p x 1 + a2p x 2 + ... + app xp

PCA: Características  (^) As p componentes principais (PC) são não-correlacionadas (independentes)  (^) As PCs são ordenadas de acordo com quantidade da variância dos dados originais que elas contêm (ordem decrescente)  A primeira PC “explica” (contém) a maior porcentagem da variabilidade do conjunto de dados original  (^) A segunda PC define a próxima maior parte, e assim por diante  (^) Em geral, apenas algumas das primeiras PCs são responsáveis pela maior parte da variabilidade do conjunto de dados  (^) O restante das PCs tem uma contribuição insignificante  (^) PCA é usada em Aprendizado de Máquina principalmente para a redução de dimensionalidade