Docsity
Docsity

Prepare-se para as provas
Prepare-se para as provas

Estude fácil! Tem muito documento disponível na Docsity


Ganhe pontos para baixar
Ganhe pontos para baixar

Ganhe pontos ajudando outros esrudantes ou compre um plano Premium


Guias e Dicas
Guias e Dicas


Métodos de Aprendizagem Automática, Exercícios de Algoritmos

Falar em algoritmos de aprendizagem automática conduz, normalmente, à referência de dois paradigmas: aprendizagem supervisionada e não supervisionada (Stimpson ...

Tipologia: Exercícios

2023

Compartilhado em 17/01/2023

Jandiara62
Jandiara62 🇵🇹

4.9

(37)

3.2K documentos

1 / 72

Toggle sidebar

Esta página não é visível na pré-visualização

Não perca as partes importantes!

bg1
i
Métodos de Aprendizagem Automática
Flávia Alexandra Jorge Serras
Um estudo baseado na avaliação e previsão de
clientes bancários
Trabalho de Projeto apresentado como requisito parcial para
obtenção do grau de Mestre em Gestão de Informação
pf3
pf4
pf5
pf8
pf9
pfa
pfd
pfe
pff
pf12
pf13
pf14
pf15
pf16
pf17
pf18
pf19
pf1a
pf1b
pf1c
pf1d
pf1e
pf1f
pf20
pf21
pf22
pf23
pf24
pf25
pf26
pf27
pf28
pf29
pf2a
pf2b
pf2c
pf2d
pf2e
pf2f
pf30
pf31
pf32
pf33
pf34
pf35
pf36
pf37
pf38
pf39
pf3a
pf3b
pf3c
pf3d
pf3e
pf3f
pf40
pf41
pf42
pf43
pf44
pf45
pf46
pf47
pf48

Pré-visualização parcial do texto

Baixe Métodos de Aprendizagem Automática e outras Exercícios em PDF para Algoritmos, somente na Docsity!

i

Métodos de Aprendizagem Automática

Flávia Alexandra Jorge Serras

Um estudo baseado na avaliação e previsão de

clientes bancários

Trabalho de Projeto apresentado como requisito parcial para

obtenção do grau de Mestre em Gestão de Informação

ii

NOVA Information Management School

Instituto Superior de Estatística e Gestão de Informação

Universidade Nova de Lisboa

MÉTODOS DE APRENDIZAGEM AUTOMÁTICA: UM ESTUDO

BASEADO NA AVALIAÇÃO E PREVISÃO DE CLIENTES BANCÁRIOS

por

Flávia Alexandra Jorge Serras

Trabalho de Projeto apresentado como requisito parcial para a obtenção do grau de Mestre em Gestão de Informação, Especialização em Gestão do Conhecimento e Business Intelligence

Orientador: Leonardo Vanneschi

Coorientador: Mauro Castelli

Novembro 2015

iv

AGRADECIMENTOS

Feeling gratitude and not expressing it is like wrapping a present and not giving it. ” William Arthur Ward

Este trabalho resultou de um longo caminho (com algumas pedras...) percorrido com a ajuda de pessoas fabulosas que, felizmente, tive a sorte de encontrar na minha vida. Não faria qualquer sentido começar este trabalho sem mencionar estas pessoas e sem expressar o quão grata eu lhes estou!

Começo por mencionar o Professor Dr. Leonardo Vanneschi, a quem eu devo todo o meu respeito e admiração pelos seus vastos conhecimentos, pela sua competência e pelo seu profissionalismo. Obrigada pelos seus ensinamentos, pelas suas críticas e pela sua assertividade. Obrigada pela sua compreensão, paciência, carinho e apoio. Agradeço ainda por, tão prontamente, ter aceitado orientar-me neste projeto, aumentando a admiração que tenho por si e realizando assim o sonho, que já me acompanhava há algum tempo, de trabalhar consigo.

Ao meu coorientador, o Professor Dr. Mauro Castelli, dirijo-lhe as minhas palavras de agradecimento, pelos seus valiosos conhecimentos, por todo o apoio técnico que me deu e pelo carinho demonstrado. Hoje reconheço e admiro as suas capacidades e qualidades enquanto investigador e orientador. E se antes, por não o conhecer, precisei da indicação do Professor Dr. Leonardo Vanneschi, hoje, sei que não precisaria de qualquer ajuda para escolher o meu coorientador!

Dirijo-me ainda à minha coordenadora de núcleo Marta Veloso que, com as suas meigas palavras e com o seu enorme coração, me conseguiu transmitir a calma e a confiança necessárias para levar este projeto a bom porto. Obrigada pela compreensão, pela flexibilidade e acima de tudo pela amizade.

Não podia não mencionar a mulher mais importante da minha vida. A minha heroína, a minha amiga, a minha mãe. Obrigada mãe pelo amor incondicional, pelas palavras tranquilizadoras, pelas saudades suportadas e pela tolerância à minha rabugice extra.

Obrigada ao meu pai por acreditar em mim e por me motivar a ir sempre mais além.

Obrigada à minha irmã por continuar a ser a minha fonte de inspiração e o modelo de pessoa que continuo a imitar.

Obrigada ao Valter, à Fi e à Inês pela paciência, pelas críticas, pelos conselhos e pelas dicas. Obrigada pela vossa disponibilidade, pelo vosso carinho e pela vossa amizade.

Obrigada aos meus amigos e à minha família por perdoarem a minha ausência e por estarem sempre do meu lado.

Para terminar, dirijo o meu último, enorme e especial obrigada ao Fábio. Obrigada pelo companheirismo, pela amizade, pela confiança, pela paciência e pelo teu amor. Obrigada por seres quem és e por estares sempre ao meu lado. Obrigada por acreditares em mim e por me incentivares a lutar. Por tudo, obrigada!

v

RESUMO

Data Mining surge, hoje em dia, como uma ferramenta importante e crucial para o sucesso de um negócio. O considerável volume de dados que atualmente se encontra disponível, por si só, não traz valor acrescentado. No entanto, as ferramentas de Data Mining , capazes de transformar dados e mais dados em conhecimento, vêm colmatar esta lacuna, constituindo, assim, um trunfo que ninguém quer perder.

O presente trabalho foca-se na utilização das técnicas de Data Mining no âmbito da atividade bancária, mais concretamente na sua atividade de telemarketing.

Neste trabalho são aplicados catorze algoritmos a uma base de dados proveniente do call center de um banco português, resultante de uma campanha para a angariação de clientes para depósitos a prazo com taxas de juro favoráveis. Os catorze algoritmos aplicados no caso prático deste projeto podem ser agrupados em sete grupos: Árvores de Decisão, Redes Neuronais, Support Vector Machine , Voted Perceptron , métodos Ensemble, aprendizagem Bayesiana e Regressões. De forma a beneficiar, ainda mais, do que a área de Data Mining tem para oferecer, este trabalho incide ainda sobre o redimensionamento da base de dados em questão, através da aplicação de duas estratégias de seleção de atributos: Best First e Genetic Search.

Um dos objetivos deste trabalho prende-se com a comparação dos resultados obtidos com os resultados presentes no estudo dos autores Sérgio Moro, Raul Laureano e Paulo Cortez (Sérgio Moro, Laureano, & Cortez, 2011).

Adicionalmente, pretende-se identificar as variáveis mais relevantes aquando da identificação do potencial cliente deste produto financeiro.

Como principais conclusões, depreende-se que os resultados obtidos são comparáveis com os resultados publicados pelos autores mencionados, sendo os mesmos de qualidade e consistentes. O algoritmo Bagging é o que apresenta melhores resultados e a variável referente à duração da chamada telefónica é a que mais influencia o sucesso de campanhas similares.

PALAVRAS-CHAVE

Data Mining ; Knowledge Discovery Database ; Machine Learning

vii

    1. Introdução ÍNDICE
    • 1.1. Objetivos................................................................................................................
    • 1.2. Relevância e Motivação
    • 1.3. Estrutura
    1. Introdução ao Data mining
    • 2.1. Descoberta de Conhecimento em Bases de Dados...............................................
    • 2.2. Data Mining
      • 2.2.1. Algumas aplicações de Data Mining
      • 2.2.2. Desafios do Data Mining
    • 2.3. Data Mining e Aprendizagem Automática
    1. Técnicas de Classificação
    • 3.1. Conceitos Iniciais
      • 3.1.1. Modelos Preditivos
      • 3.1.2. Aprendizagem Supervisionada e Não Supervisionada
      • 3.1.3. O Problema da sobreaprendizagem
      • 3.1.4. A escolha do melhor modelo
    • 3.2. Modelos de Aprendizagem Supervisionada
      • 3.2.1. Árvores de Decisão
      • 3.2.2. Redes Neuronais Artificiais...........................................................................
      • 3.2.3. Support Vector Machines
      • 3.2.4. Voted Perceptron
      • 3.2.5. Métodos Ensemble.......................................................................................
      • 3.2.6. Aprendizagem Bayesiana
      • 3.2.7. Regressões
    1. Seleção de Variáveis
    • 4.1. Genetic Search
    • 4.2. Best First
    • 4.3. Seleção de atributos baseada na correlação das variáveis
    1. Metodologia e Resultados Experimentais
    • 5.1. Ferramentas analíticas
    • 5.2. Apresentação dos dados
    • 5.3. A escolha dos Algoritmos
    • 5.4. Parametrização dos Algoritmos
    • 5.5. Metodologia aplicada viii
    • 5.6. Resultados Obtidos..............................................................................................
      • 5.6.1. Resultados obtidos antes da seleção de atributos.......................................
      • 5.6.2. Resultados obtidos com a seleção de atributos: estratégia Best First
      • 5.6.3. Resultados obtidos com a seleção de atributos: estratégia Genetic Search
      • 5.6.4. Síntese dos Resultados
      • 5.6.5. Análise comparativa de resultados
    1. Conclusões
    • 6.1. Limitações e recomendações para trabalhos futuros
    1. Bibliografia

x

Figura 24 - Identificação dos melhores valores para cada uma das medidas de qualidade

disponíveis, bem como a identificação do algoritmo responsável pelos melhores valores

e ainda a identificação do data set base, isto é, sem seleção de atributos ("Bank") ou com

seleção de atributos ("Bank_BF" ou "Bank_GS"). ............................................................ 48

Figura 25 - Identificação dos melhores valores para cada uma das medidas de qualidade

disponíveis, bem como a identificação do algoritmo responsável pelos melhores valores

e ainda a identificação do data set base, isto é, sem seleção de atributos ("BankAdd") ou

com seleção de atributos ("BankAdd_BF" ou "BankAdd_GS"). ....................................... 48

Figura 26 - Ranking das variáveis com maior relevância no data set "Bank" aquando da

aplicação do algoritmo que gerou os melhores resultados, o algoritmo Bagging. ......... 50

Figura 27 - Ranking das variáveis com maior relevância no data set "BankAdd" aquando da

aplicação do algoritmo que gerou os melhores resultados, o algoritmo Bagging. ......... 51

xi

ÍNDICE DE TABELAS

Tabela 1 - Matriz de Confusão (retirado de Dean, 2014)........................................................... 8

Tabela 2 - Fórmulas para calcular diferentes medidas de qualidade (retirado de Bradley, 1997)

Tabela 3 - Cálculo da Entropia e do Coeficiente de Gini (retirado de Du & Zhan, 2002) ........ 12

Tabela 4 - Funções Kernel mais comuns (retirado de Dean, 2014) ......................................... 22

Tabela 5 - Descrição do Data set "BankAdd" ........................................................................... 35

Tabela 6 - Descrição do Data set "Bank" .................................................................................. 35

Tabela 7 – Síntese dos resultados obtidos após a aplicação dos algoritmos sobre o conjunto

de treino do data set “ Bank ”. Apresentação da média dos valores obtidos por cada uma

das partições para cada medida de qualidade. ............................................................... 41

Tabela 8 - Síntese dos resultados obtidos após a aplicação dos algoritmos sobre o conjunto de

teste do data set “ Bank ”. Apresentação da média dos valores obtidos por cada uma das

partições para cada medida de qualidade. ...................................................................... 41

Tabela 9 - Síntese dos resultados obtidos após a aplicação dos algoritmos sobre o conjunto de

treino do data set “ BankAdd ”. Apresentação da média dos valores obtidos por cada uma

das partições para cada medida de qualidade. ............................................................... 42

Tabela 10 - Síntese dos resultados obtidos após a aplicação dos algoritmos sobre o conjunto

de teste do data set “ BankAdd ”. Apresentação da média dos valores obtidos por cada

uma das partições para cada medida de qualidade. ....................................................... 42

Tabela 11 – Síntese dos resultados obtidos após a aplicação dos algoritmos sobre o conjunto

de treino do data set “ Bank_BF ”. Apresentação da média dos valores obtidos por cada

uma das partições para cada medida de qualidade. ....................................................... 43

Tabela 12 - Síntese dos resultados obtidos após a aplicação dos algoritmos sobre o conjunto

de teste do data set “ Bank_BF ”. Apresentação da média dos valores obtidos por cada

uma das partições para cada medida de qualidade. ....................................................... 44

Tabela 13 – Síntese dos resultados obtidos após a aplicação dos algoritmos sobre o conjunto

de treino do data set “ BankAdd_BF ”. Apresentação da média dos valores obtidos por

cada uma das partições para cada medida de qualidade. ............................................... 44

Tabela 14 – Síntese dos resultados obtidos após a aplicação dos algoritmos sobre o conjunto

de teste do data set “ BankAdd_BF ”. Apresentação da média dos valores obtidos por cada

uma das partições para cada medida de qualidade. ....................................................... 45

Tabela 15 – Síntese dos resultados obtidos após a aplicação dos algoritmos sobre o conjunto

de treino do data set “ Bank_GS ”. Apresentação da média dos valores obtidos por cada

uma das partições para cada medida de qualidade. ....................................................... 46

xiii

LISTA DE SIGLAS E ABREVIATURAS

KDD Knowledge Discovery Database

DM Data Mining

ML Machine Learning

ANN Artificial Neural Networks

SVM Support Vector Machine

BN Bayesian Networks

CFS Correlation-based Feature Subset Selection

1. INTRODUÇÃO

O considerável número de campanhas de marketing com as quais nos deparamos atualmente não para de aumentar. Como consequência, o seu efeito já não é tão eficaz como quando estas eram em menor número (Sérgio Moro et al., 2011). Surge, assim, a necessidade de investir em campanhas de marketing direto.

Segundo Kotler e Armstrong “marketing direto consiste no contacto direto com os seus consumidores- alvo, muitas vezes numa base interativa de um para um” (Kotler & Armstrong, 2012). Ou seja, consiste num processo que seleciona o público-alvo de determinada campanha, através do estudo das suas caraterísticas e necessidades (Ling & Li, 1998). Desta forma a campanha é direcionada para um público específico, produzindo assim melhores resultados. Vendas através de contacto pessoal, vendas por telefone, campanhas por e-mail, campanhas por catálogo e campanhas online são alguns dos exemplos mais comuns de campanhas de marketing direto (Kotler & Armstrong, 2012). O presente projeto foca- se nas vendas por telefone, mais conhecidas por telemarketing.

De uma forma generalizada, telemarketing consiste na oferta de produtos e/ou serviços a clientes através do contacto telefónico. Apesar de ser um método com grande potencial na obtenção de novos clientes, a tolerância das pessoas e a sua recetividade a este tipo de campanhas é cada vez menor, consequência direta do seu excesso de utilização por parte das empresas (Queensland Government, 2014). Os bancos, as seguradoras e as indústrias de retalho utilizam cada vez mais o telemarketing para angariar novos clientes (Ling & Li, 1998). Para que uma campanha deste cariz tenha sucesso, esta precisa de ser muito bem segmentada, de forma a maximizar a coincidência entre os clientes contactados e aqueles que vão de facto adquirir o produto/serviço alvo da campanha (Queensland Government, 2014).

Data Mining surge assim como uma ferramenta que auxilia a atividade de telemarketing, dando potencial aos resultados obtidos.

1.1. OBJETIVOS

Este projeto tem, na sua génese, um conjunto de dados proveniente do call center de um banco português. Este conjunto de dados é resultado direto de várias campanhas de marketing direcionadas para a angariação de clientes de depósitos a prazo com taxas de juro favoráveis. Esta base de dados foi previamente utilizada num estudo desenvolvido pelos autores Sérgio Moro, Raul Laureano e Paulo Cortez (Sérgio Moro et al., 2011), onde foram utilizadas técnicas de Data Mining para auxiliar a atividade de telemarketing, através da identificação de caraterísticas fulcrais para o sucesso das campanhas.

O objetivo geral deste projeto prende-se com a confirmação de que as técnicas de Data Mining constituem uma ferramenta importante e com potencial no âmbito do setor financeiro.

Como objetivos mais específicos realçam-se: (1) a utilização de técnicas de Data Mining , para além das utilizadas pelos autores mencionados, com o intuito de alcançar melhores resultados, (2) a pré-seleção de atributos antes da aplicação das várias técnicas de Data Mining para perceber o seu impacto nos resultados obtidos e (3) a identificação das variáveis com maior relevância nesta campanha, de forma a potenciar os resultados de próximas campanhas com moldes semelhantes.

2. INTRODUÇÃO AO DATA MINING

A quantidade de dados existente no mundo, não para de aumentar (I. H. Witten, Frank, & Hall, 2011). Estima-se que mais de 90% da totalidade do conhecimento que temos hoje começou a ser adquirido por volta de 1950 (Nisbet, Elder, & Miner, 2009).

Um fator crítico de sucesso das empresas é a sua capacidade de tomar partido de toda a informação disponível. Este desafio torna-se mais difícil com o constante aumento do volume de informação, tanto interno como externo às empresas uma vez que quanto maior for a quantidade de informação disponível, menor será a proporção de dados que o ser humano consegue analisar (Angelis, Polzonetti, & Re, n.d.; I. H. Witten et al., 2011).

A informação dispersa pelo volume de dados disponível poderá ser decisiva no sucesso de um negócio e uma mais-valia aquando da tomada de decisão. Torna-se assim indispensável encontrar a melhor forma de extrair toda a informação que se encontra camuflada numa base de dados. As teorias e ferramentas capazes de auxiliar os humanos na extração de informação útil dos grandes volumes de dados disponíveis são a base da descoberta de conhecimento em bases de dados (Lavalle, Hopkins, Lesser, Shockley, & Kruschwitz, 2010).

2.1. DESCOBERTA DE CONHECIMENTO EM BASES DE DADOS

A Descoberta de Conhecimento em Bases de Dados, doravante designada por KDD (do inglês Knowledge Discovery Database ), pode ser considerada como um campo interdisciplinar que envolve diferentes conceitos de aprendizagem automática, de estatística, de consultas em bases de dados e de visualização (Wang, 2009). É um processo que extrai dos dados padrões novos, válidos, com potencial e com significado (Fayyad, Piatetsky-Shapiro, & Smyth, 1996).

Os sistemas KDD enfrentam, no entanto, alguns problemas com as bases de dados reais uma vez que estas tendem a ser dinâmicas, incompletas, redundantes, com ruído e de grandes dimensões (Matheus, Chan, & Piatetsky-Shapiro, 1993). Segundo Fayyad, a descoberta de conhecimento em bases de dados traduz-se num processo iterativo e interativo que envolve cinco etapas, tal como se pode ver na Figura 1.

Figura 1 - Processo KDD (adaptado de Fayyad et al., 1996)

Estas etapas, de uma forma resumida, consistem (1) na seleção ou segmentação de um subconjunto de dados relevantes para um objetivo em concreto, (2) na eliminação de informação desnecessária e na consistência do formato dos dados, (3) na transformação dos dados em dados adequados e úteis para a etapa de Data Mining , (4) na extração de padrões dos dados e (5) na conversão dos padrões obtidos em conhecimento (Pujari, 2001).

São as três primeiras etapas do processo KDD que garantem a qualidade dos resultados obtidos nas duas últimas (Fayyad et al., 1996).

Os dados subjacentes a este projeto foram previamente e, fora do âmbito deste trabalho, submetidos às três primeiras etapas do processo KDD. No entanto e de forma a tentar melhorar os resultados obtidos, a etapa 2 será novamente aplicada à base de dados disponível, através da redução do número de variáveis existentes (tópico abordado no capítulo 4). O grande foco deste projeto recai, essencialmente, nas duas últimas etapas do processo KDD: Data Mining e Interpretação/Avaliação.

2.2. DATA MINING

Data Mining é uma área relativamente recente que começou a ser desenvolvida nos anos 90 e que ganhou identidade própria nos primeiros anos do século XXI (Nisbet et al., 2009). Alguns autores defendem KDD e Data Mining como sinónimo (Kononenko & Matjaz, 2007). No entanto, e tal como defende Fayyad na Figura 1, Data Mining é uma etapa específica do processo KDD.

O que é, afinal, Data Mining (DM)? A definição de DM depende, em grande parte, do background e da visão de cada autor (Friedman, 1997). Segundo vários autores da literatura, Data Mining é

“… a extração de informação implícita, anteriormente desconhecida e potencialmente útil dos dados” (I. H. Witten et al., 2011);  “… utilizado para descobrir padrões e relações nos dados, com ênfase em grandes bases de dados”(Friedman, 1997);  “… a aplicação de algoritmos específicos para a extração de padrões dos dados” (Fayyad et al., 1996);  “…um método direcionado para a descoberta de mensagens escondidas, tais como tendências, padrões e relações existentes nos dados” (Hsu & Ho, 2012).

No fundo, o processo de DM consiste na atribuição de significado aos dados e na resultante extração de conhecimento. As ferramentas de DM permitem às organizações tomar decisões fundamentadas e eficientes, uma vez que preveem tendências e acontecimentos através da leitura de padrões encobertos pelas bases de dados (Silltow, 2006).

Data Mining consiste assim na junção de várias áreas de interesse já bastante cimentadas, tais como a análise de dados tradicional, a inteligência artificial e a aprendizagem automática (Nisbet et al., 2009).

indisponibilidade da informação, comprometendo assim a qualidade dos dados (Hashemi & Yang, 2009).

Interação do utilizador e conhecimento prévio. Ter conhecimento prévio das ferramentas de DM potencia a sua utilização. Normalmente, os analistas não são especialistas neste tipo de ferramentas, subaproveitando assim os recursos disponíveis (Pujari, 2001).

Volume e atualizações. As bases de dados disponíveis são dinâmicas e de grandes dimensões. Desta forma, à medida que estas são atualizadas, por inserção, atualização ou remoção de dados, torna-se difícil garantir a consistência e a precisão dos dados disponíveis (Pujari, 2001).

2.3. DATA MINING E APRENDIZAGEM AUTOMÁTICA

Data Mining é uma disciplina que se encontra relacionada com várias áreas, uma das quais a Aprendizagem Automática (Fayyad et al., 1996). A Aprendizagem Automática (adiante designada por ML, do inglês Machine Learning ) é “uma área focada no desenvolvimento de teorias computacionais de aprendizagem e na construção de sistemas de aprendizagem” (Michalski, Carbonell, & Mitchell, 1986). Para o âmbito deste projeto, ML pode ser descrita como o conjunto de alguns princípios e algoritmos utilizados em DM (Kononenko & Matjaz, 2007).

A Figura 2 retrata, de uma forma sumária, a relação existente entre Machine Learning , Data Mining e Knowledge Discovery Database.

Como já referido anteriormente, KDD consiste num processo composto por várias etapas, uma das quais DM. DM surge assim como parte integrante do processo KDD. No que diz respeito a ML, esta área não se cinge apenas à área de DM na medida em que engloba outros campos que ultrapassam o âmbito de DM.

Os capítulos seguintes aprofundam a relação existente entre Data Mining e Aprendizagem Automática através da apresentação e explicação das várias técnicas de ML utilizadas em DM.

Figura 2 - Relação entre Machine Learning, Data Mining e Knowledge Discovery Database (retirado de Kononenko & Matjaz, 2007)

3. TÉCNICAS DE CLASSIFICAÇÃO

Os métodos de aprendizagem automática constituem uma ferramenta poderosa que consegue realizar operações de otimização com a mínima intervenção humana (Cui, Wong, & Lui, 2006). O presente capítulo destina-se a apresentar, numa primeira fase, alguns conceitos introdutórios e, numa segunda e última fase, a enumeração e descrição dos métodos de aprendizagem automática utilizados no âmbito deste projeto de mestrado.

3.1. CONCEITOS INICIAIS 3.1.1. Modelos Preditivos

Existem inúmeros métodos utilizados para criar modelos preditivos e estão constantemente a ser desenvolvidos mais (Finlay, 2014). O grande objetivo da classificação, um caso específico dos modelos preditivos, consiste em criar uma regra que, com base em dados externos, consegue assignar um objeto a uma ou mais classes (Maimon & Rokack, 2005). O caso específico deste trabalho consiste num problema de classificação.

Antes de entrar em maior detalhe sobre os vários modelos subjacentes a este projeto, é necessário relembrar que "os dados são o combustível que conduz o processo analítico" (Finlay, 2014). Existem, assim, dois tipos de dados que são necessários constar da amostra utilizada para desenvolver um modelo:

  1. Dados preditivos , utilizados para prever;
  2. Dados comportamentais , que consistem no comportamento que se pretende prever.

Os métodos utilizados para construir modelos preditivos começam por aplicar técnicas matemáticas/estatísticas de forma a encontrar a relação existente entre estes dois tipos de dados. A relação encontrada é capturada e absorvida pelo modelo preditivo. Depois do modelo preditivo ser criado, este pode ser aplicado a novos casos (Finlay, 2014).

3.1.2. Aprendizagem Supervisionada e Não Supervisionada

Falar em algoritmos de aprendizagem automática conduz, normalmente, à referência de dois paradigmas: aprendizagem supervisionada e não supervisionada (Stimpson & Cummings, 2014). Na aprendizagem supervisionada são apresentados dois conjuntos de dados, o conjunto de input e o conjunto de output esperado (Winandy, Borges Filho, & Bento, 2007). Na aprendizagem não supervisionada apenas é apresentado um conjunto de input (Alpaydin, 2004).

A aprendizagem supervisionada está diretamente relacionada com a previsão enquanto a aprendizagem não supervisionada se relaciona mais com a descoberta de padrões num conjunto de dados (Stimpson & Cummings, 2014).

Subjacente a este projeto está uma aprendizagem supervisionada.

3.1.3. O Problema da sobreaprendizagem

Para o sucesso da aplicação das técnicas de ML, uma das abordagens defendidas resume-se nas três etapas que se seguem (Ling & Li, 1998):