Docsity
Docsity

Prepare-se para as provas
Prepare-se para as provas

Estude fácil! Tem muito documento disponível na Docsity


Ganhe pontos para baixar
Ganhe pontos para baixar

Ganhe pontos ajudando outros esrudantes ou compre um plano Premium


Guias e Dicas
Guias e Dicas


Big Data e Data Warehouse, Resumos de Aplicações de Ciências da Computação

Uma visão geral sobre Big Data e Data Warehouse, incluindo definições, ferramentas e técnicas utilizadas para lidar com grandes quantidades de dados. Ele também aborda a diferença entre dados estruturados, semi estruturados e não estruturados, além de fornecer informações sobre a importância do armazenamento e análise de dados históricos. útil para estudantes e profissionais que desejam entender melhor como lidar com grandes quantidades de dados em um ambiente empresarial.

Tipologia: Resumos

2022

À venda por 13/02/2023

dangoncalves
dangoncalves 🇧🇷

16 documentos

1 / 3

Toggle sidebar

Esta página não é visível na pré-visualização

Não perca as partes importantes!

bg1
Big Data e Data Warehouse
A combinação de Big Data e Data Warehousing pode ser muito efetiva, pois permite que as empresas
aproveitem ao máximo os dados gerados por seus aplicativos e dispositivos digitalmente conectados. Por
exemplo, as empresas podem coletar grandes quantidades de dados de sensores em seus equipamentos
de produção, armazená-los em um data Warehouse e, em seguida, usar técnicas avançadas de análise para
otimizar seus processos de produção e tomar decisões mais informadas.
Big Data
Big Data é um termo amplo que se refere a quantidades massivas de dados gerados por aplicações e
dispositivos digitalmente conectados. Estes dados podem ser estruturados, semiestruturados ou não
estruturados e podem ser gerados em uma taxa tão rápida que é difícil para as empresas processá-los
usando técnicas convencionais.
Para lidar com Big Data, existem diversas ferramentas e técnicas que ajudam a armazenar, processar e
analisar grandes quantidades de dados. Algumas das ferramentas mais populares incluem:
Apache Hadoop: é uma plataforma de processamento distribuído de Big Data que permite
armazenar e processar grandes quantidades de dados em clusters de computadores.
Apache Spark: é uma plataforma de processamento em larga escala que permite processar grandes
quantidades de dados em tempo real.
Apache Flink: é uma plataforma de processamento de fluxo de dados que permite processar
grandes quantidades de dados em tempo real e em larga escala.
Um Breve Resumo sobre Dados Estruturados, Semi Estruturados e Não Estruturados
Dados estruturados são aqueles que seguem uma forma definida e padronizada, como tabelas em uma
planilha ou banco de dados relacional. Eles são fáceis de armazenar, acessar e processar, pois seguem um
esquema predefinido de colunas e linhas. Exemplos de dados estruturados incluem informações de clientes,
vendas e transações financeiras.
Dados semi estruturados são aqueles que têm algum grau de estruturação, mas não são tão rigorosos quanto
os dados estruturados. Eles geralmente incluem tags ou marcações que permitem ao sistema entender a
estrutura dos dados, mas ainda há uma certa flexibilidade na forma como os dados são armazenados.
Exemplos de dados semi estruturados incluem arquivos XML e JSON.
Dados não estruturados são aqueles que não têm uma forma definida ou padrão, como imagens, vídeos,
áudios, documentos de texto e mensagens de e-mail. Esses tipos de dados são difíceis de armazenar, acessar e
processar, pois não seguem um esquema predefinido. No entanto, eles ainda são importantes para muitas
empresas, pois podem conter informações valiosas.
Ao lidar com dados estruturados, semi estruturados e não estruturados, é importante compreender as
diferenças entre eles e as melhores abordagens para processá-los. Por exemplo, é possível utilizar técnicas de
Big Data, como processamento distribuído e análise de texto não estruturado, para transformar dados não
estruturados em dados mais facilmente analisáveis. Além disso, existem ferramentas de ETL (Extração,
Transformação e Carregamento) que podem ser usadas para integrar dados de diferentes fontes e formatos
em uma única data warehouse.
pf3

Pré-visualização parcial do texto

Baixe Big Data e Data Warehouse e outras Resumos em PDF para Aplicações de Ciências da Computação, somente na Docsity!

Big Data e Data Warehouse

A combinação de Big Data e Data Warehousing pode ser muito efetiva, pois permite que as empresas

aproveitem ao máximo os dados gerados por seus aplicativos e dispositivos digitalmente conectados. Por

exemplo, as empresas podem coletar grandes quantidades de dados de sensores em seus equipamentos

de produção, armazená-los em um data Warehouse e, em seguida, usar técnicas avançadas de análise para

otimizar seus processos de produção e tomar decisões mais informadas.

Big Data

Big Data é um termo amplo que se refere a quantidades massivas de dados gerados por aplicações e

dispositivos digitalmente conectados. Estes dados podem ser estruturados, semiestruturados ou não

estruturados e podem ser gerados em uma taxa tão rápida que é difícil para as empresas processá-los

usando técnicas convencionais.

Para lidar com Big Data, existem diversas ferramentas e técnicas que ajudam a armazenar, processar e

analisar grandes quantidades de dados. Algumas das ferramentas mais populares incluem:

  • Apache Hadoop: é uma plataforma de processamento distribuído de Big Data que permite

armazenar e processar grandes quantidades de dados em clusters de computadores.

  • Apache Spark: é uma plataforma de processamento em larga escala que permite processar grandes

quantidades de dados em tempo real.

  • Apache Flink: é uma plataforma de processamento de fluxo de dados que permite processar

grandes quantidades de dados em tempo real e em larga escala.

Um Breve Resumo sobre Dados Estruturados, Semi Estruturados e Não Estruturados Dados estruturados são aqueles que seguem uma forma definida e padronizada, como tabelas em uma planilha ou banco de dados relacional. Eles são fáceis de armazenar, acessar e processar, pois seguem um esquema predefinido de colunas e linhas. Exemplos de dados estruturados incluem informações de clientes, vendas e transações financeiras. Dados semi estruturados são aqueles que têm algum grau de estruturação, mas não são tão rigorosos quanto os dados estruturados. Eles geralmente incluem tags ou marcações que permitem ao sistema entender a estrutura dos dados, mas ainda há uma certa flexibilidade na forma como os dados são armazenados. Exemplos de dados semi estruturados incluem arquivos XML e JSON. Dados não estruturados são aqueles que não têm uma forma definida ou padrão, como imagens, vídeos, áudios, documentos de texto e mensagens de e-mail. Esses tipos de dados são difíceis de armazenar, acessar e processar, pois não seguem um esquema predefinido. No entanto, eles ainda são importantes para muitas empresas, pois podem conter informações valiosas. Ao lidar com dados estruturados, semi estruturados e não estruturados, é importante compreender as diferenças entre eles e as melhores abordagens para processá-los. Por exemplo, é possível utilizar técnicas de Big Data, como processamento distribuído e análise de texto não estruturado, para transformar dados não estruturados em dados mais facilmente analisáveis. Além disso, existem ferramentas de ETL (Extração, Transformação e Carregamento) que podem ser usadas para integrar dados de diferentes fontes e formatos em uma única data warehouse.

  • Apache Storm: é uma plataforma de processamento de fluxo de dados que permite processar

grandes quantidades de dados em tempo real e em larga escala.

Além dessas ferramentas, existem diversos métodos e técnicas que podem ser usados para analisar Big

Data, incluindo mineração de dados, aprendizado de máquina e análise de redes sociais.

Para aprender mais sobre Big Data, existem diversos materiais de apoio disponíveis, incluindo livros, cursos

online, artigos e conferências. Alguns dos livros mais populares sobre o assunto incluem "Big Data: A

Revolution That Will Transform How We Live, Work, and Think" de Viktor Mayer-Schönberger e Kenneth

Cukier e "Hadoop: The Definitive Guide" de Tom White. Além disso, existem diversos cursos online sobre

Big Data disponíveis em plataformas como Coursera e Udemy.

Data Warehouse

Data Warehouse é um tipo de sistema de banco de dados que é projetado especificamente para

armazenar e processar grandes quantidades de dados históricos. Ele é usado para fornecer uma visão geral

dos dados da empresa, ajudando a tomar decisões informadas e a compreender tendências ao longo do

tempo.

Os data Warehouse são diferentes de outros tipos de bancos de dados, como bancos de dados

transacionais, que são projetados para processar transações em tempo real e atualizar informações em

tempo real. Em vez disso, os data Warehouse são otimizados para armazenar e analisar grandes

quantidades de dados históricos, permitindo que as empresas façam análises detalhadas e obtenham

insights valiosos.

Algumas características importantes de um data Warehouse incluem a capacidade de integrar dados de

diferentes fontes, a capacidade de armazenar dados em larga escala e a capacidade de processar dados em

paralelo para melhorar o desempenho. Além disso, os data Warehouse geralmente incluem ferramentas

de BI (Business Intelligence) para ajudar os usuários a visualizar e analisar os dados.

Algumas das ferramentas mais comuns usadas para criar e gerenciar data Warehouse incluem:

  • Oracle Warehouse Builder: é uma ferramenta de construção de data Warehouse da Oracle que

permite aos usuários criar e gerenciar data Warehouse em um ambiente de banco de dados Oracle.

  • Microsoft SQL Server Integration Services (SSIS): é uma ferramenta de ETL (Extração,

Transformação e Carregamento) da Microsoft que permite aos usuários integrar dados de fontes

diversas e carregá-los em um data Warehouse.

  • Informática Power Center: é uma ferramenta de ETL da Informática que permite aos usuários

integrar dados de fontes diversas e carregá-los em um data Warehouse.

Existem várias ferramentas de data Warehouse disponíveis no mercado, incluindo o Amazon Redshift, o

Microsoft Azure Synapse Analytics e o Google BigQuery. Além disso, existem técnicas e métodos, como a

modelagem de dados estrela e a modelagem de dados snowflake, que podem ser usados para projetar e

construir data Warehouse eficientes e escaláveis.

Ao escolher uma solução de data warehouse, é importante considerar a escala e as necessidades de

armazenamento de dados da empresa, bem como as necessidades de análise e BI. Além disso, é

importante considerar a integração com outras ferramentas e tecnologias, como bancos de dados

transacionais e sistemas de análise de dados, para garantir uma solução abrangente e integrada.