Baixe Data Warehouse Introdução e outras Notas de estudo em PDF para Sistemas de Informação, somente na Docsity!
Data Warehouse
ETL
Rodrigo Leite Durães
Introdução
- (^) Um dos desafios da implantação de um DW é a integração dos dados de fontes heterogêneas e complexas, padronizando informações, mantendo sua consistência.
- (^) A maioria dos projetos gasta a maior parte do tempo e dos esforços nessa fase.
- (^) O sucesso do DW depende, em grande parte, da eficiência e eficácia do processo de ETC.
- (^) Nesse processo há necessidade de criar as rotinas de extração dos dados que podem ser desenvolvidas por programadores em qualquer linguagem de programação ou pode-se utilizar ferramentas específicas para isso.
ETC
- (^) Primeiramente são definidas as fontes de dados e realizada a extração, que consiste em coletar os dados das diversas fontes em diferentes plataformas. O segundo passo consiste em limpar e transformar esses dados. Com isso são eliminadas as inconsistências e realizada a padronização dos dados para garantir que o DW possuirá informações válidas, úteis e significativas. Após garantir a consistência, pode-se carregar os dados no DW.
- (^) Assim, para possibilitar maior produtividade, evitando atrasos e re-trabalho, o ideal é determinar o melhor caminho para o transporte dos dados fontes para o DW antes de iniciar a construção das rotinas de ETC.
- (^) Para fazer a melhor escolha, deve-se priorizar os requisitos do processo de ETC e selecionar a ferramenta que fornece a maioria deles.
ETC
- (^) Para isso, é necessário realizar o projeto ETL do DW, analisar os dados fontes, identificar os mapeamentos de dados, obter ou criar os dados externos, determinar a lógica de conversão dos dados e especificar as rotinas de ETC.
- (^) Existem sistemas que são programados para detectar automaticamente a ocorrência de mudanças significativas nas fontes, tornando o processo de atualização mais transparente para o usuário. Alterar a aplicação que gerencia a fonte de informação a fim de enviar notificações de alteração para o DW.
- (^) Detectar modificações através da comparação dos registros correntes da fonte com os registros carregados anteriormente. À medida que os dados das fontes aumentam, o número de comparações deve aumentar, o que pode inviabilizar o processo.
ETC
- (^) Há soluções com custo zero de aquisição pois vêm
embutidas em um SGBD , como por exemplo o
PL/SQL no Oracle e o DTS no SQL Server.
- (^) Tais recursos podem ser utilizados para realizar o
ETC, mas podem ser limitados exigindo uma
maior codificação dos processos.
- (^) Além disso, podem ser restritas , já que
geralmente fornecem suporte apenas ao SGBD
que acompanham , enquanto as ferramentas ETC
completas podem fornecer suporte a diversos tipos
de arquivos e SGBDs.
ETC
- (^) As ferramentas ETC próprias , desenvolvidas utilizando alguma linguagem de programação, apesar de atender às necessidades, podem tornar o processo de manutenção dos procedimentos ETC muito complexo. Além disso, caso o processo de transformação e limpeza seja complexo, pode haver perda de performance com o uso de linguagens procedurais.
- (^) Os produtos de mercado podem variar de ferramentas mais simples e baratas até ferramentas completas, robustas e mais caras.
- (^) Essas ferramentas permitem maior produtividade na criação e manutenção do processo ETC, fornecem métodos de captura/integração de metadados , permitem documentação do projeto e dos processos, pode fornecer interface gráfica para o desenvolvedor permitindo edição, verificação de sintaxe, acesso aos SGBDs, além de proporcionar segurança e organização do projeto tipicamente a partir de um único ponto de acesso.
Critérios para escolha da ferramenta Arquitetura Geral
- (^) Plataforma de execução do produto: pode restringir a capacidade de expansão sem adicionar mais servidores quando houver crescimento do volume de dados. Extração e Carga de Dados
- (^) Suporte nativo aos principais SGBDs, bem como suporte a conexão ODBC para um vasto conjunto de bancos de dados. Integração de Dados
- (^) Suporte a diversos formatos de dados, incluindo COBOL, ASCII, Excel e XML
- (^) Nível de integração com aplicações de terceiros, incluindo sistemas de ERP
Critérios para escolha da ferramenta
Limpeza e Transformação de Dados
- (^) Transformação baseada em regras: possibilidade de
especificar qual transformação será executada somente
quando determinada condição ocorrer, sendo capaz de
juntar diversas regras de maneiras diferentes.
Administração
- (^) Apresentar administração centralizada: é preciso ter um
único lugar para visualizar o processo ETC inteiro, mesmo
se as tarefas estiverem executando em diferentes
plataformas de origem e destino e diferentes sistemas
operacionais.
Ambiente de Desenvolvimento
- (^) Ambientes gráficos de interface com o usuário.
Performance
- (^) Características que permitem processamento distribuído e
particionado para obter uma performance melhor.
Programação de Execução de Tarefas (Scheduling)
- (^) Habilidade de programar a execução de sessões ETC em um
determinado tempo ou evento.
Continuidade
- (^) Capacidade de suportar o nível de processamento em caso
de crescimento de origens, destinos e volumes de dados.
- (^) Facilidade de desenvolver e modificar tarefas e rotinas.
- (^) Freqüência e complexidade das atualizações do produto.
- (^) Capacidade de suporte para o crescimento da plataforma.
Critérios para escolha da ferramenta
Custo
- (^) O custo pode limitar as opções de aquisição de uma ferramenta ETC, já que os orçamentos dispõem de recursos limitados que nem sempre permitem a escolha da melhor ferramenta Conformidade
- (^) Suporte aos tipos de origens de dados a serem utilizados, por exemplo, arquivos de mainframe.
- (^) Disponibilidade do recurso de importação ou exportação de metadados com ferramentas específicas utilizadas no desenvolvimento do DW.
Critérios para escolha da ferramenta
Não existe uma única resposta certa na escolha da ferramenta. Por isso, ao escolher uma ferramenta, além de conhecer suas potencialidades, é necessário entender antecipadamente seus pontos fracos e estar preparado para atenuar suas conseqüências.
Processo de escolha da ferramenta