Prepare-se para as provas
Obter pontos
Guias e Dicas
Venda na Docsity
Docsity I.A.
ENEM

Prepare-se para as provas

Estude fácil! Tem muito documento disponível na Docsity

Ganhe pontos para baixar

Ganhe pontos ajudando outros esrudantes ou compre um plano Premium

Guias e Dicas

Venda na Docsity

Docsity I.A.

Entrar Cadastre-se

Prepare-se para as provas

Estude fácil! Tem muito documento disponível na Docsity

Encontrar documentos

Prepare-se para as provas com trabalhos de outros alunos como você, aqui na Docsity

Encontra documentos específicos para os exames da tua universidade

Videoaulas

Prepare-se com as videoaulas e exercícios resolvidos criados a partir da grade da sua Universidade

Quiz

Responda perguntas de provas passadas e avalie sua preparação.

Docsity AINEW

Resuma seus documentos, faça perguntas, converta-os em questionários e mapas conceituais

TCC e ENEM 2026

Estude com provas passadas, TCCs e dicas úteis

Explorar perguntas

Tire suas dúvidas lendo as respostas dadas por outros alunos como você.

Ganhe pontos para baixar

Ganhe pontos ajudando outros esrudantes ou compre um plano Premium

Compartilhe documentos

20 Pontos

Por cada documento compartilhado

Responda às perguntas

5 Pontos

por cada resposta enviada (máx. 1 por dia)

Todas as maneiras de obter pontos grátis

Ganhe pontos imediatamente

Escolha um Plano Premium com todos os pontos que precisa

Oportunidades de estudo

Escolha seu próximo programa de estudos

Entre em contato direto com as melhores Universidades do mundo. Pesquise entre milhares de Universidades e parceiros oficiais

Comunidade

Pergunte à comunidade

Peça ajuda à comunidade e tire suas dúvidas relacionadas ao estudo

Guias grátis

Os eBooks que salvam estudantes!

Baixe gratuitamente nossos guias de estudo, métodos para diminuir a ansiedade, dicas de TCC preparadas pelos professores da Docsity

Atributos: Impacto de Irrelevantes em Algoritmos de Aprendizado de Máquina, Notas de estudo de Biomedicina

Universidade Federal de Pernambuco (UFPE)Biomedicina

Este documento discute o problema de seleção de atributos irrelevantes em algoritmos de aprendizado de máquina, explicando suas consequências negativas, como redução da acurácia de classificação e aumento do tempo de processamento. O texto também apresenta diferentes abordagens automáticas e manuais para resolver este problema, como filtros, wrapper e seleção antes do aprendizado.

Tipologia: Notas de estudo

Antes de 2010

Compartilhado em 19/11/2010

Wandersson_Saraiva 🇧🇷

4.4

(51)

186 documentos

1 / 29

Esta página não é visível na pré-visualização

Não perca as partes importantes!

Seleção de Atributos

Marcílio Souto

DIMAp/UFRN

Descubra Notas de estudo de Biomedicina Universidade Federal de Pernambuco (UFPE)

Documentos relacionados

Curvas de aprendizado

aprendizado - maquina

(1)

Aprendizado de máquina

avaliando aprendizado microbiologia

(3)

aprendizado de maquinas

Avaliando o aprendizado

Mente humana aprendizado

Apostila para aprendizado

Dificuldade de aprendizado

RESUMO DO APRENDIZADO

AVALIANDO APRENDIZADO - BASES FÍSICAS

(1)

Automação slides para aprendizado

(1)

Pré-visualização parcial do texto

Baixe Atributos: Impacto de Irrelevantes em Algoritmos de Aprendizado de Máquina e outras Notas de estudo em PDF para Biomedicina, somente na Docsity!

Seleção de Atributos

Marcílio Souto

DIMAp/UFRN

Tópicos



Por que atributos irrelevantes são um

problema



Quais tipos de algoritmos de aprendizado

são afetados



Seleção de atributos antes do aprendizado



Benefícios



Abordagens automáticas



Wrapper



Filtros

Atributos irrelevantes 

Adição de atributos irrelevantes às instâncias de uma

base de dados, geralmente, “confunde” o algoritmo de

aprendizado



Experimento (exemplo)



Indutor de árvores de decisão (C4.5)

 Base de dados D



Adicione às instâncias em D um atributo binário

cujos valores sejam gerados aleatoriamente



Resultado



A acurácia da classificação cai



Em geral, de 5% a 10% nos conjuntos de testes

Explicação



Em algum momento durante a geração das árvores:



O atributo irrelevante é escolhido



Isto causa erros aleatórios durante o teste



Por que o atributo irrelevante é escolhido?



Na medida em que a árvore é construída, menos e

menos dados estão disponíveis para auxiliar a

escolha do atributo



Chega a um ponto em que atributos aleatórios

parecem bons apenas por acaso



A chance disto acontece aumenta com a

profundidade da árvore

Atributos Irrelevantes x Algoritmos de AM  (^) Algoritmo que ignora atributos irrelevantes  (^) Naive Bayes  (^) Assume que todos os atributos são independentes entre si  (^) Suposição correta para atributos irrelevantes  Mas não para atributos redundantes  (^) O efeito do atributo redundante é multiplicado  P(Yes|X) = 0.20.350.23 = 0.  P(No|X) = 0.10.330.35 = 0.  P(Yes|X) = 0.20.35 0.23 * 0.23 =

 (^) P(No|X) = 0.10.33 0.35 * 0.35 =

Seleção de atributos antes do aprendizado 

Melhora o desempenho preditivo



Acelera o processo de aprendizado

 O processo de seleção de atributos, às vezes,

pode ser muito mais custoso que o processo de

aprendizado

 Ou seja, quando somarmos os custos das duas

etapas, pode não haver vantagem

 Produz uma representação mais compacta do

conceito a ser aprendido



O foco será nos atributos que realmente são

importantes para a definição do conceito

Seleção Automática  Implica em uma busca no “espaço” de atributos  Quantos subconjuntos há?  2 N^ , em que N é o número total de atributos  Portanto, na maioria dos casos práticos, uma busca exaustiva não é viável  Solução: busca heurística

Exemplo: Espaço de Atributos

Busca Heurística no Espaço de Atributos  Busca para trás (Eliminaçao Backward )  Similar a Seleção Forward  Começa com todo o conjunto de atributos, eliminando um atributo a cada passo  Tanto na Seleção Forward quanto na Eliminação Backward , pode-se adicionar um viés por subconjuntos pequenos  Por exemplo, pode-se requerer não apenas que a medida de avaliação crescer a cada passo, mas que ela cresça mais que uma determinada constante

Busca Heurística no Espaço de Atributos  Outros métodos de busca  Busca bidirecional  Best-first search  Beam search  Algoritmos genéticos  ......

Exemplo: Filtros

 Uso de uma indutor de árvores de decisão (AD) como

filtro para o k-NN



1) Aplique um indutor de AD para todo o conjunto

de treinamento



2) Selecione o subconjunto de atributos que

aparece na AD



3) Aplique o k-NN a apenas este subconjunto

 A combinação pode apresenta melhores resultados

do que cada método usando individualmente

Exemplo: Wrapper  (^) Busca para Frente (Seleção Forward ) + Naive Bayes  (^) (1) Inicialize com o conjunto vazio S={}  (^) (2) Resultado_S=  (^) (2) Para cada atributo s i que não esteja em S  (^) Avalie o resultado de (S U s i ): Resultado_^ si  (^) (3) Considere o atributo com maior Resultado_ s i  (^) SE (Resultado_ s i > Resultado_S) ENTAO (S=S U si ) & (Resultado_S= Resultado_ si ) Volte para o Passo (2) SENAO Pare

Análise de Componentes Principais (PCA)  (^) Dado um conjunto D com n instâncias e p atributos ( x 1 , x 2 ,..., xp ), uma transformação linear para um novo conjunto de atributos z 1 , z 2 ,..., zp pode ser calculada como:  Componentes Principais (PCs) são tipos específicos de combinações lineares que são escolhidas de tal modo que zp (PCs) tenham as seguintes características z 1 = a 11 x 1 + a 21 x 2 + ... + ap1 xp z 2 = a 12 x 1 + a 22 x 2 + ... + ap2 xp ... zp = a1p x 1 + a2p x 2 + ... + app xp

PCA: Características  (^) As p componentes principais (PC) são não-correlacionadas (independentes)  (^) As PCs são ordenadas de acordo com quantidade da variância dos dados originais que elas contêm (ordem decrescente)  A primeira PC “explica” (contém) a maior porcentagem da variabilidade do conjunto de dados original  (^) A segunda PC define a próxima maior parte, e assim por diante  (^) Em geral, apenas algumas das primeiras PCs são responsáveis pela maior parte da variabilidade do conjunto de dados  (^) O restante das PCs tem uma contribuição insignificante  (^) PCA é usada em Aprendizado de Máquina principalmente para a redução de dimensionalidade