Baixe aprendizado - maquina e outras Notas de estudo em PDF para Sistemas de Informação, somente na Docsity!
Mineração de Dados e
Aprendizado de Máquinas.
Rodrigo Leite Durães.
Mineração de dados
Extrair informações úteis de bilhões de bits
de dados.
O processo nãotrivial de identificar padr ões
válidos, novos, potencialmente úteis e
compreensíveis em dados.
Técnicas/ferramentas para apresentar e
analisar dados.
Mineração de dados
descobre padrões, tendências, infere regras
suporta, revisa e examina decisões
Áreas de pesquisa relacionadas
Aprendizagem de máquina, reconhecimento
de padrões, bancos de dados, estatística e
Visualização de dados.
Machine Learning
Abordagens
Baseado em lógica
Algoritmos genéticos
Programação genética
Redes neurais
Tarefas
Associação
Agrupamento (Clustering)
Classificação
Exemplo: Extraído de Freitas & Lavington 98
Uma editora internacional publica o livro “Guia
de Restaurantes Franceses na Inglaterra” em 3
países: Inglaterra, França e Alemanha.
A editora tem um banco de dados sobre clientes
nesses 3 países, e deseja saber quais clientes
são mais prováveis compradores do livro (para
fins de mala direta direcionada).
Atributo meta: comprar (sim/não)
Para coletar mais dados: enviar material de
propaganda para uma amostra de clientes,
registrando se cada cliente que recebeu a
propaganda comprou ou não o livro.
Exemplo de Classificação Sexo País Idade Compra M França 25 Sim M Inglaterra 21 Sim F França 23 Sim F Inglaterra 34 Sim F França 30 Não M Alemanha 21 Não M Alemanha 20 Não F Alemanha 18 Não F França 34 Não M França 55 Não
Exemplo: [Freitas & Lavington 98]
leite café cerveja pão manteiga arroz feijão 1 não sim não sim sim não não 2 sim não sim sim sim não não 3 não sim não sim sim não não 4 sim sim não sim sim não não 5 não não sim não não não não 6 não não não não sim não não 7 não não não sim não não não 8 não não não não não não sim 9 não não não não não sim sim 10 não não não não não sim não
Descoberta de Regras de Associação
Uma regra de associação é um relacionamento
SE (X) ENTÃO (Y), onde X e Y são conjuntos
de itens, com interseção vazia.
A cada regra são atribuídos 2 fatores:
Suporte (Sup.) = No. de registros com X e
Y /No. Total de registros
Confiança (Conf.) = No. de registros com X e
Y/ No. de registros com X
Tarefa: descobrir todas as regras de associação
com um mínimo Sup e um mínimo Conf.
Sup. = No. de registros com X e Y /No. Total de registros, Conf = No. de registros com X e Y/ No. de registros com X
Regra: SE (manteiga) ENTÃO (pão). Conf. = 0,
Conjunto de Items Frequente:
café,pão,manteiga Sup.=0,
Regra: SE (café E pão) ENTÃO (manteiga).
Conf.=
Regra: SE (café E manteiga) ENTÃO (pão).
Conf.=
Regra: SE (café) ENTÃO (manteiga E pão).
Conf.=
Descobrindo regras de associação Algoritmo tem 2 fases. Fase I: Descobrir conjuntos de itens frequentes. Descobrir todos os conjuntos de itens com suporte maior ou igual ao mínimo suporte especificado pelo usuário. (^) Fase II: Descobrir regras com alto fator de confiança. A partir dos conjuntos de itens frequentes, descobrir regras de associação com fator de confiança maior ou igual ao especificado pelo usuário.
Calcular suporte de conjuntos com 2
itens
Passo 2: Calcular suporte de conjuntos com 2 itens
Otimização: Se um item I não é frequente, um
conjunto com 2 itens, um dois quais é o item I, não
pode ser frequente. Logo, conjuntos contendo item
I podem ser ignorados.
Conjunto de itens: café, pão. Sup = 0,3.
Conjunto de itens: café, manteiga. Sup = 0,3.
Conjunto de itens: manteiga, pão. Sup = 0,4.
Conjuntos de itens frequentes (Sup > = 0,3):
{café, pão}, {café, manteiga}, {manteiga, pão}
Calcular suporte de conjuntos com 3
itens.
Passo 3: Calcular suporte de conjuntos com 3 itens.
Otimização:Se o conjunto de itens {I, J} não
é frequente, um conjunto com 3 itens
incluindo os itens {I, J} não pode ser
frequente. Logo, conjuntos contendo itens
{I, J} podem ser ignorados.
Conjunto de itens: café, pão, manteiga. Sup
Conjuntos de itens frequentes (Sup >= 0,3):
{café, pão, manteiga}.