






































Estude fácil! Tem muito documento disponível na Docsity
Ganhe pontos ajudando outros esrudantes ou compre um plano Premium
Prepare-se para as provas
Estude fácil! Tem muito documento disponível na Docsity
Prepare-se para as provas com trabalhos de outros alunos como você, aqui na Docsity
Encontra documentos específicos para os exames da tua universidade
Prepare-se com as videoaulas e exercícios resolvidos criados a partir da grade da sua Universidade
Responda perguntas de provas passadas e avalie sua preparação.
Ganhe pontos para baixar
Ganhe pontos ajudando outros esrudantes ou compre um plano Premium
Curso de introdução à big data e Hadoop. Aborda conceitos bancos de dados e Big Data. Introduz ao ambiente Hadoop ensinando a utilizar o serviço de forma introdutória.
Tipologia: Slides
1 / 46
Esta página não é visível na pré-visualização
Não perca as partes importantes!







































Elissandro Amauri Sofiati Arquiteto de Dados
● (^) Profissional de TI há mais de 20 anos ● (^) Sempre aprendendo ● (^) https://www.linkedin.com/in/easofiati ● (^) https://github.com/easofiati
Big Data
Hadoop
[Nome do palestrante] [Posição]
[Nome do palestrante] [Posição]
Atualmente temos dados sendo gerados a todo instante, sendo que a quantidade de dados está crescendo cada vez mais e ainda, são dados dos mais diversos tipos.
Como, onde e com que frequência esses dados são gerados?
Um exemplo de geração de dados. Quando você abre o browser, os seguintes dados são gerados:
[Nome do palestrante] [Posição]
Cerca de 90% de todos os dados existentes, foram gerados nos últimos 4 anos e a maior parte desses dados são dados não estruturados.
Dados estruturados: são aqueles que possuem estruturas bem definidas, rígidas, a qual foi previamente planejada para armazená-los. Por exemplo: banco de dados, planilha de Excel, arquivo delimitado, arquivo posicional, entre outros.
Dados semiestruturados: não possuem estrutura totalmente rígida e nem estrutura totalmente flexível, sendo uma representação heterogênea entre estruturado e não estruturado. Por exemplo: JSON, XML, entre outros
temos o termo “real time” e “batch”.
[Nome do palestrante] [Posição]