Docsity
Docsity

Prepare-se para as provas
Prepare-se para as provas

Estude fácil! Tem muito documento disponível na Docsity


Ganhe pontos para baixar
Ganhe pontos para baixar

Ganhe pontos ajudando outros esrudantes ou compre um plano Premium


Guias e Dicas
Guias e Dicas


Minação de Dados: Explorando Padrões Consistentes em Grandes Volumes de Dados, Notas de estudo de Sistemas de Informação

Minação de dados, também conhecida como prospecção de dados, é o processo de explorar grandes quantidades de dados em busca de padrões consistentes, como regras de associação ou sequências temporais. Através da aplicação de algoritmos de aprendizagem e classificação baseados em redes neurais e estatística, é possível extrair ou auxiliar na evidência de padrões em grandes conjuntos de dados, auxiliando na descoberta de conhecimento. A mineração de dados tem aplicabilidade tanto em pesquisa científica quanto em empresas maduras, inovadoras e competitivas.

Tipologia: Notas de estudo

Antes de 2010

Compartilhado em 30/07/2010

elton-marinho-marinho-8
elton-marinho-marinho-8 🇧🇷

9 documentos

1 / 19

Toggle sidebar

Esta página não é visível na pré-visualização

Não perca as partes importantes!

bg1
DATA MINING
MINERAÇÃO DE DADOS
Sistemas de Informação II
Prof. Esp. Elton Marinho
FAFICH -Faculdade de Filosofia e Ciências
Humanas de Goiatuba
pf3
pf4
pf5
pf8
pf9
pfa
pfd
pfe
pff
pf12
pf13

Pré-visualização parcial do texto

Baixe Minação de Dados: Explorando Padrões Consistentes em Grandes Volumes de Dados e outras Notas de estudo em PDF para Sistemas de Informação, somente na Docsity!

DATA MINING

MINERAÇÃO DE DADOS

Sistemas de Informação II

Prof. Esp. Elton Marinho

FAFICH -Faculdade de Filosofia e Ciências

Humanas de Goiatuba

Mineração de dados

Prospecção de dados (português europeu) ou mineração de dados (português brasileiro) (também conhecida pelo termo inglês data mining) é o processo de explorar grandes quantidades de dados à procura de padrões consistentes, como regras de associação ou sequências temporais, para detectar relacionamentos sistemáticos entre variáveis, detectando assim novos subconjuntos de dados.

Saiba Mais... ...  A mineração de dados é formada por um conjunto de ferramentas e técnicas que através do uso de algoritmos de aprendizagem ou classificação baseados em redes neurais e estatística, são capazes de explorar um conjunto de dados, extraindo ou ajudando a evidenciar padrões nestes dados, auxiliando na descoberta de conhecimento. Esse conhecimento pode ser apresentado por essas ferramentas de diversas formas: agrupamentos, hipóteses, regras, árvores de decisão, grafos, ou dendrogramas.

Como é feito isso?

 O ser humano sempre aprendeu observando padrões,
formulando hipóteses e testando-as para descobrir regras.
A novidade da era do computador é o volume enorme de
dados que não pode mais ser examinado à procura de
padrões em um prazo de tempo razoável.
 A solução é instrumentalizar o próprio computador para
detectar relações que sejam novas e úteis. A mineração
de dados (MD) surge para essa finalidade e pode ser
aplicada tanto para a pesquisa cientifica como para
impulsionar a lucratividade da empresa madura, inovadora
e competitiva.

Um exemplo real: Wal-Mart  (^) Embora recente, a história da mineração de dados já tem casos bem conhecidos. O mais divulgado é o da cadeia estado-unidense Wal-Mart, que identificou um hábito curioso dos consumidores. Ao procurar eventuais relações entre o volume de vendas e os dias da semana, o software apontou que, às sextas-feiras, as vendas de cervejas cresciam na mesma proporção que as de fraldas. Crianças bebendo cerveja? Não.  (^) Uma investigação mais detalhada revelou que, ao comprar fraldas para seus bebês, os pais aproveitavam para abastecer as reservas de cerveja para o final de semana

Vestibular PUC-RJ  (^) Utilizando as técnicas da mineração de dados, um programa de obtenção de conhecimento depois de examinar milhares de alunos forneceu a seguinte regra: se o candidato é do sexo feminino, trabalha e teve aprovação com boas notas no vestibular, então não efetivava a matrícula. Estranho, ninguém havia pensado nisso. Mas uma reflexão justifica a regra oferecida pelo programa: de acordo com os costumes do Rio de Janeiro, uma mulher em idade de vestibular, se trabalha é porque precisa, e neste caso deve ter feito inscrição para ingressar na universidade pública gratuita. Se teve boas notas provavelmente foi aprovada na universidade pública onde efetivará matrícula. Claro que há exceções: pessoas que moram em frente à PUC, pessoas mais velhas, de alto poder aquisitivo e que voltaram a estudar por outras razões que ter uma profissão, etc.. Mas a grande maioria obedece à regra anunciada.

New York Times:  (^) A sempre crescente preocupação americana com o Terrorismo trouxe a tona um assunto altamente relevante, mas nem sempre presente, nas discussões sobre Data Mining : a Privacidade. O jornal The New York Times publicou recentemente um artigo que sobre os três temas.  (^) Segundo o Jornal, desde os atentados de 11 de setembro de 2001 o governo federal americano tem feito uso maciço de softwares de mineração de dados a fim de identificar possíveis terroristas. Em geral, são analisados registros sobre hábitos de viagem, uso do e-mail, transações financeira e outros. O grande problema é que os dados dos suspeitos são vasculhados sem mandados judiciais.  (^) Um grupo formado por políticos e cientistas realizou um estudo para verificar a real eficiência dos métodos. Num trabalho de 352 página o grupo adverte que “será extremamente difícil de alcançar” os objetivos iniciais do projeto, ou seja, encontrar possíveis terroristas, devido a problemas legais, tecnológicos e logísticos.

Você sabe o que é uma rede neural?  (^) As redes neurais artificiais são um método para solucionar problemas através da simulação do cérebro humano, inclusive em seu comportamento, ou seja, aprendendo, errando e fazendo descobertas. São técnicas computacionais que apresentam um modelo inspirado na estrutura neural de organismos inteligentes e que adquirem conhecimento através da experiência.  (^) As redes neurais possuem nós ou unidades de processamento. Cada unidade possui ligações para outras unidades, nas quais recebem e enviam sinais. Cada unidade pode possuir memória local. Essas unidades são a simulação dos neurônios, recebendo e retransmitindo informações. Somam-se as entradas e se retorna uma saída, caso esta seja maior que o valor da soma.

O Caso da Nossa Caixa  (^) “O Banco Nossa Caixa acaba de inaugurar um sistema de prevenção a transações financeiras fraudulentas baseada em redes neurais. O banco investiu R$ 20 milhões no projeto, que também inclui softwares, hardwares e serviços. A solução beneficiará cerca de 2,5 milhões de clientes que usam frequentemente o cartão de débito e deverá atingir cerca de 500 mil usuários do Net Banking da Nossa Caixa.  (^) O sistema opera como um “cérebro eletrônico” que interage com uma ampla base de informações constituída a partir da correlação de dados provenientes dos canais de atendimento, tipos de transações e locais comumente usados pelos clientes, além do controle realizado pelas redes neurais e implementação de regras de negócios.  (^) José Waldir Carvalho, gerente do departamento de Segurança da Informação da Nossa Caixa, afirma que o sistema é inovador porque vai além da adoção isolada de redes neurais e emprega ferramentas usadas para proteger os ativos de tecnologia da informação do próprio banco (hardwares, softwares e conectividade) e integra toda a rede de agências e NetBanking. A “inteligência artificial” constrói o perfil do usuário a partir do reconhecimento das transações mais comuns e dos valores normalmente movimentados por meio de cartão de débito, além de considerar os endereços mais freqüentes dos canais mais utilizados, inclusive nas operações feitas pelo NetBanking.

E ainda...  (^) O cruzamento de todos esses dados permite identificar os padrões comportamentais das operações de cada cliente, identificar e interromper transações suspeitas em tempo real. Essa operação é feita por meio de cálculos estatísticos que determinam o “score” que deve ser usado para alto, médio e baixo risco das transações realizadas. A cada transação o sistema aprende como é o comportamento do cliente.  (^) Ao detectar uma possível fraude, o sistema pode exigir, por exemplo, dados ao cliente que confirmem ou não a suspeição, solicitando informações pessoais ao cliente. Se os indícios de violação forem procedentes, a transação poderá ser imediatamente bloqueada.  (^) Desenvolvida com tecnologia de ponta pelo Centro de Pesquisa e Desenvolvimento em Telecomunicações (CPqD), o modelo de redes neurais usado pelo Banco Nossa Caixa faz parte de uma solução antifraude que vem sendo implantada pelo banco desde abril de 2008.”

Então...

 Encontrar padrões requer que os dados brutos sejam

sistematicamente "simplificados" de forma a

desconsiderar aquilo que é específico e privilegiar

aquilo que é genérico. Faz-se isso porque não parece

haver muito conhecimento a extrair de eventos isolados.

 Uma loja de sua rede que tenha vendido a um cliente

uma quantidade impressionante de um determinado

produto em uma única data pode apenas significar que

esse cliente em particular procurava grande quantidade

desse produto naquele exato momento.

 Mas isso provavelmente não indica nenhuma tendência

de mercado.

Localizando padrões

Padrões são unidades de informação que se repetem. A tarefa de localizar padrões não é privilégio da mineração de dados.

O cérebro dos seres humanos utiliza-se de processos similares, pois muito do conhecimento que temos em nossa mente é, de certa forma, um processo que depende da localização de padrões.

Isso é tudo pessoal!

Obrigado!

Prof. Esp. Elton Marinho