Docsity
Docsity

Prepare-se para as provas
Prepare-se para as provas

Estude fácil! Tem muito documento disponível na Docsity


Ganhe pontos para baixar
Ganhe pontos para baixar

Ganhe pontos ajudando outros esrudantes ou compre um plano Premium


Guias e Dicas
Guias e Dicas


Data Mining: Descubra Padrões Valiosos em Grandes Volumes de Dados, Notas de estudo de Sistemas de Informação

Data mining é um processo de análise de dados que envolve a descoberta de informações relevantes em grandes volumes de dados. O objetivo é identificar padrões válidos, novos, potencialmente úteis e compreensíveis, que podem ser utilizados para análises complexas, tendências escondidas, inferências, detecções de fraude e perfil de comportamento. As ferramentas de data mining estão relacionadas com o tratamento especial da informação, sendo necessário a presença de estatísticos com conhecimento em técnicas e algoritmos estatísticos. O processo requer interação forte com analistas humanos, que são responsáveis pela determinação do valor dos padrões encontrados.

Tipologia: Notas de estudo

2016

Compartilhado em 18/08/2016

rodrigo-leite-duraes-11
rodrigo-leite-duraes-11 🇧🇷

4.5

(2)

20 documentos

1 / 12

Toggle sidebar

Esta página não é visível na pré-visualização

Não perca as partes importantes!

bg1
Data Mining
Data Mining
Rodrigo Leite Durães
Rodrigo Leite Durães
rodrigo_l_d
rodrigo_l_d@
@yahoo.com
yahoo.com
.br
.br
pf3
pf4
pf5
pf8
pf9
pfa

Pré-visualização parcial do texto

Baixe Data Mining: Descubra Padrões Valiosos em Grandes Volumes de Dados e outras Notas de estudo em PDF para Sistemas de Informação, somente na Docsity!

Rodrigo Leite Durães Rodrigo Leite Durães

rodrigo_l_d rodrigo_l_d@@yahoo.comyahoo.com

.br .br

 Processo de “mineração de dados” e descobertaProcesso de “mineração de dados” e descoberta

de informações relevantes em grandes volumes de informações relevantes em grandes volumes

de dados. de dados.

 "... processo não-trivial de identificar, em dados,"... processo não-trivial de identificar, em dados,

padrões válidos, novos, potencialmente úteis e padrões válidos, novos, potencialmente úteis e

ultimamente ultimamente compreensíveis”compreensíveis” (Fayyad(Fayyad etet al.al.

 (^) As ferramentas deAs ferramentas de (^) MiningMining estão muito relacionadas com oestão muito relacionadas com o tratamento tratamento especialespecial dada informação,informação, porpor isso,isso, umum subconjunto de dados extraídos do subconjunto de dados extraídos do Data WarehouseData Warehouse e dee de Data Marts Data Marts será o alvo dessas análises mais sofisticadas.será o alvo dessas análises mais sofisticadas.

 (^) Dependendo da complexidade do projeto pode serDependendo da complexidade do projeto pode ser necessário a necessário a presença de um estatísticopresença de um estatístico , com, com conhecimento em técnicas e algoritmos estatísticos, por conhecimento em técnicas e algoritmos estatísticos, por exemplo, exemplo, (^) árvores de decisão, análises de conglomerados,árvores de decisão, análises de conglomerados, análise de regressão, métodos preditivos com séries análise de regressão, métodos preditivos com séries temporais e o recurso matemático/computacional de redes temporais e o recurso matemático/computacional de redes neurais neurais ..

 O Data Mining ainda requer uma interação muitoO Data Mining ainda requer uma interação muito

forte com analistas humanos, que são, em última forte com analistas humanos, que são, em última

instância, instância, osos principaisprincipais responsáveisresponsáveis pelapela

determinação do valor dos padrões encontrados. determinação do valor dos padrões encontrados.

Além disso, o direcionamento da exploração de Além disso, o direcionamento da exploração de

dados dados éé tambémtambém tarefatarefa fundamentalmentefundamentalmente

confiada a analistas humanos, um aspecto que confiada a analistas humanos, um aspecto que

não pode ser desprezado em nenhum projeto que não pode ser desprezado em nenhum projeto que

queira ser bem sucedido. queira ser bem sucedido.

DW / DM Outros dados Internos

Outros dados Externos

Conjunto total de dados

Dado preparado

Data Mining

De forma interativa e freqüentemente usando visualização gráfica, um analista refina e conduz o processo até que valiosos padrões apareçam.

Observe que todo esse processo parece indicar uma hierarquia , algo que começa em instâncias elementares (embora volumosas) e terminam em um ponto relativamente concentrado, mas muito valioso.

Encontrar padrões requer que os dados brutos sejam sistematicamente " simplificados " de forma a desconsiderar aquilo que é específico e privilegiar aquilo que é genérico. Faz-se isso porque não é necessário muito conhecimento a extrair de eventos isolados.

Data Mining

Não há como explorar uma informação em particular para

que no futuro a empresa lucre mais. Apenas com

conhecimento genérico é que isto pode ser obtido. Por essa

razão devemos, em Data Mining, controlar nossa vontade

de "não perder dados". Para que o processo dê certo, é

necessário sim desprezar os eventos particulares para só

manter aquilo que é genérico.

OLAP x Data Mining: OLAP x Data Mining:

 OLAP ajuda as organizações a descobrir as medidas, porOLAP ajuda as organizações a descobrir as medidas, por

exemplo, descobrir que as vendas caíram, produtividade exemplo, descobrir que as vendas caíram, produtividade

melhorou, qual está sendo o tempo de resposta de um melhorou, qual está sendo o tempo de resposta de um

serviço, o estoque disponível. Simplesmente OLAP nos diz serviço, o estoque disponível. Simplesmente OLAP nos diz

“O que aconteceu”. “O que aconteceu”.

 Data Mining ajuda as organizações a descobrir “o porqueData Mining ajuda as organizações a descobrir “o porque

isso aconteceu”, além de poder ser usado para prever, ou isso aconteceu”, além de poder ser usado para prever, ou

seja, nos dizer seja, nos dizer “O que vai acontecer no futuro”,“O que vai acontecer no futuro”, essesesses

resultados são gerados através da percepção de padrões resultados são gerados através da percepção de padrões

de dados disponíveis dentro e fora da organização. de dados disponíveis dentro e fora da organização.