Baixe kdd - introdução e outras Notas de estudo em PDF para Sistemas de Informação, somente na Docsity!
Introdução à Descoberta de
Conhecimento e Mineração de
Dados
Rodrigo Leite Durães.
Introdução
Introdução: por que Data Mining?
- (^) Estamos nos afogando em dados, mas
sedentos por informação!
Introdução: por que Data Mining?
- (^) A solução: data warehousing e data mining :
- (^) Data warehousing e on-line analytical processing (OLAP);
- (^) Extração de conhecimentos interessantes (regras, regularidades, padrões, restrições) a partir das grandes bases de dados.
Introdução: o que é data mining?
- (^) Data mining (descoberta de conhecimento em BD):
- (^) Extração de padrões de informação de interesse (não- trivial, implícita, previamente desconhecida e potencialmente útil) de grandes DBs.
- (^) Conceitos relacionados :
- (^) Descoberta de conhecimento em BD (KDD), extração de conhecimento, análise de padrões em dados, information harvesting , business intelligence , etc.
- (^) O que não é data mining****?
- (^) Processamento dedutivo de consultas;
- (^) Sistemas especialistas e pequenos programas estatísticos e de aprendizagem de máquina.
Introdução: potenciais aplicações
- (^) Análise de DB e suporte à decisão :
- (^) Análise e gerenciamento de mercado:
- (^) Marketing dirigido, gerenciamento de relações com consumidores, análise de cestas de mercado, vendas cruzadas, segmentação de mercado;
- (^) Análise e gerenciamento de risco:
- (^) Previsões, retenção de clientes, controle de qualidade, análise de competitividade;
- (^) Análise e gerenciamento de fraudes.
- Outras aplicações :
- (^) Mineração de textos (documentos, emails, news) e Web mining.
- (^) Resposta inteligente a consultas.
Análise e gerenciamento de mercado
- (^) Perfil do consumidor:
- (^) data mining pode informar que tipos de consumidores compram quais produtos (agrupamento ou classificação);
- (^) Identificação dos requisitos dos clientes:
- (^) Identifcação dos melhores produtos para os diferentes clientes;
- (^) Uso de predição para encontrar quais fatores atrairão os consumidores;
- (^) Fornecimento de informação sumarizada:
- (^) Relatórios multidimensionais sumarizados;
- (^) Informações estatísticas sumarizadas (tendência central e variação dos dados)
Análise corporativa e gerenciamento
de risco
- (^) Planejamento financeiro e avaliação de crédito:
- (^) Análise e previsão de fluxo de caixa;
- (^) Análise contingente para avaliação de crédito;
- (^) Análise seccional e temporal (razão financeira, análise de tendência, etc.)
- (^) Planejamento de recursos:
- (^) Sumarização e comparação de recursos e gastos;
- (^) Competição:
- (^) Monitoramento de competidores e mercado;
- (^) Agrupamento de clientes em classes e procedimentos de preços baseados em classes;
- (^) Estratégias para fixação de preços em mercado competitivo.
Detecção e gerenciamento de
fraudes
- (^) Detecção de tratamento médico inapropriado:
- (^) A Australian Health Insurance Commission identificou que em muitos casos exames desnecessários eram solicitados (economia de AD$1milhão /ano).
- (^) Detecção de fraudes telefônicas:
- (^) Modelo de chamadas telefônicas: destino da chamada, duração, horário e dia da semana; análise de padrões para detectar desvios;
- (^) A British Telecom identificou grupos de clientes com chamadas freqüentes dentro do grupo, especialmente em telefones celulares, e detectou uma fraude milionária.
- (^) Venda a varejo:
- (^) Analistas estimam que 38% das perdas no varejo são devidas a empregados desonestos.
Outras aplicações
- (^) Esportes:
- (^) IBM Advanced Scout analisou as estatísticas dos jogos da NBA (cestas, bloqueios, assistências, faltas, etc) para auxiliar os times do New York Knicks e do Miami Heat;
- (^) Astronomia:
- (^) JPL e o Observatório do Monte Palomar descobriram 22 quasars com o auxílio de data mining ;
- (^) Ajuda o uso da Internet:
- (^) IBM Surf-Aid aplica algoritmos de data mining a logs de acessos Web à páginas de vendas, de forma a descobrir preferências e comportamentos dos clientes e efetuar análise da efetividade do Web marketing, melhorar a organização do site Web, etc.
KDD e Data Mining
Data mining é o coração
do processo KDD
Data Cleaning Data Integration Databases Data Warehouse Task-relevant Data Selection Data Mining Pattern Evaluation
Passos do processo de KDD
- (^) Estudo sobre o domínio de aplicação:
- (^) Conhecimento relevante a priori e metas da aplicação;
- (^) Criação de um dataset alvo:
- (^) Limpeza e pré-processamento dos dados:
- (^) Pode corresponder a 60 % do esforço;
- (^) Redução e transformação dos dados:
- (^) Encontrar atributos relevantes, redução de dimensionalidade, representação de invariantes;
Data Mining e Business Intelligence Increasing potential to support business decisions End User Business Analyst Data Analyst DBA Making Decisions Data Presentation Visualization Techniques Data Mining Information Discovery Data Exploration OLAP, MDA Statistical Analysis, Querying and Reporting Data Warehouses / Data Marts Data Sources Paper, Files, Information Providers, Database Systems, OLTP
Arquitetura de um sistema de DM típico Data Warehouse Data cleaning & data integration Filtering Databases Database or data warehouse server
Data mining engine
Pattern evaluation
Graphical user interface Knowledge- base