Docsity
Docsity

Prepara tus exámenes
Prepara tus exámenes

Prepara tus exámenes y mejora tus resultados gracias a la gran cantidad de recursos disponibles en Docsity


Consigue puntos base para descargar
Consigue puntos base para descargar

Gana puntos ayudando a otros estudiantes o consíguelos activando un Plan Premium


Orientación Universidad
Orientación Universidad


amazon redshit que es, Ejercicios de Análisis de Redes

hola este es un doc con alguna caracterisitcas de amazon redshift

Tipo: Ejercicios

2020/2021

Subido el 19/06/2021

juan-ferrer
juan-ferrer 🇲🇽

1 documento

1 / 8

Toggle sidebar

Esta página no es visible en la vista previa

¡No te pierdas las partes importantes!

bg1
Amazon Redshift, Revolucion en data
warehouse.
Hoy en día, es común en una organización tener un sistema heterogéneo de Aplicaciones, Sistemas Operativos, Bases de Datos, HW, SW;
en el tema de las aplicaciones algunas por su naturaleza integran un determinado motor de Base de Datos de alguna marca específica o
bien, open source.
Para el usuario final esto es completamente transparente y no se diga para las unidades de negocio que forman la empresa. Los servicios
están soportados en Bases de Datos distribuidas, estructuradas o NoSQL e incluso el origen de la información que se procesa no
necesariamente su fuente es una Base de Datos. Lo importante de lo anterior es el almacenamiento de información, sin considerar el
origen, ni la ubicación geográfica donde se genera, ni los medios como se obtienen.
El Data Warehouse concentra y almacena de forma estructurada toda la información obtenida a partir de las múltiples fuentes de datos en
nuestra organización, permitiendo así una rápida integración con herramientas de minería de datos, análisis y reportes (dashboards).
Cómo funciona el Data Warehouse
Funciona un poco diferente a las bases de datos convencionales (OLTP - OnLine Transactional Processing). Como su nombre lo indica,
manejan los datos transaccionales y los datos de cara a los procesos principales de la organización. Al ser transaccionales comúnmente
manejan segundo a segundo operaciones de consulta, inserción, borrado y actualización de datos según los requerimientos del usuario
(por ejemplo, una reserva de cine).
Los Data Warehouse usan OLAP (OnLine Analytical Processing). Son datos que, aunque no están disponibles en tiempo real, pueden ser
analizados de forma rápida y masiva sin interrumpir los procesos del usuario. Esto le otorga a los científicos de datos una perspectiva más
amplia para tomar decisiones (por ejemplo, total de ventas a través del tiempo). Como el Data Warehouse está diseñado con una finalidad
analítica, este proceso puede llegar a ser hasta 1000 veces más rápido que una base de datos convencional.
Amazon Redshift
Amazon sigue expandiendo su oferta de servicios basados en cloud computing a través de la línea AWS (Amazon Web Services). En esta
ocasión ha presentado una nueva oferta para el almacenamiento de grandes volúmenes de datos relacionales denominada Amazon
Redshift.
Básicamente se trata de un Data Warehouse optimizado para albergar bases de datos relacionales provenientes de múltiples fuentes y
sistemas y ofrecer un alto rendimiento en procesos de análisis e informes. En este tipo de infraestructuras se recopilan los datos de
transacciones financieras, de ventas, de cadenas de suministro y se unifican para que los responsables de las compañías puedan analizarlos
y tomar las decisiones correctas para los negocios.
pf3
pf4
pf5
pf8

Vista previa parcial del texto

¡Descarga amazon redshit que es y más Ejercicios en PDF de Análisis de Redes solo en Docsity!

Amazon Redshift, Revolucion en data

warehouse.

Hoy en día, es común en una organización tener un sistema heterogéneo de Aplicaciones, Sistemas Operativos, Bases de Datos, HW, SW; en el tema de las aplicaciones algunas por su naturaleza integran un determinado motor de Base de Datos de alguna marca específica o bien, open source. Para el usuario final esto es completamente transparente y no se diga para las unidades de negocio que forman la empresa. Los servicios están soportados en Bases de Datos distribuidas, estructuradas o NoSQL e incluso el origen de la información que se procesa no necesariamente su fuente es una Base de Datos. Lo importante de lo anterior es el almacenamiento de información, sin considerar el origen, ni la ubicación geográfica donde se genera, ni los medios como se obtienen. El Data Warehouse concentra y almacena de forma estructurada toda la información obtenida a partir de las múltiples fuentes de datos en nuestra organización, permitiendo así una rápida integración con herramientas de minería de datos, análisis y reportes (dashboards).

Cómo funciona el Data Warehouse

Funciona un poco diferente a las bases de datos convencionales (OLTP - OnLine Transactional Processing). Como su nombre lo indica, manejan los datos transaccionales y los datos de cara a los procesos principales de la organización. Al ser transaccionales comúnmente manejan segundo a segundo operaciones de consulta, inserción, borrado y actualización de datos según los requerimientos del usuario (por ejemplo, una reserva de cine). Los Data Warehouse usan OLAP (OnLine Analytical Processing). Son datos que, aunque no están disponibles en tiempo real, pueden ser analizados de forma rápida y masiva sin interrumpir los procesos del usuario. Esto le otorga a los científicos de datos una perspectiva más amplia para tomar decisiones (por ejemplo, total de ventas a través del tiempo). Como el Data Warehouse está diseñado con una finalidad analítica, este proceso puede llegar a ser hasta 1000 veces más rápido que una base de datos convencional.

Amazon Redshift

Amazon sigue expandiendo su oferta de servicios basados en cloud computing a través de la línea AWS (Amazon Web Services). En esta ocasión ha presentado una nueva oferta para el almacenamiento de grandes volúmenes de datos relacionales denominada Amazon Redshift. Básicamente se trata de un Data Warehouse optimizado para albergar bases de datos relacionales provenientes de múltiples fuentes y sistemas y ofrecer un alto rendimiento en procesos de análisis e informes. En este tipo de infraestructuras se recopilan los datos de transacciones financieras, de ventas, de cadenas de suministro y se unifican para que los responsables de las compañías puedan analizarlos y tomar las decisiones correctas para los negocios.

Redshift es la solución de Amazon para almacenar y analizar grandes volúmenes de datos. Se trata de una herramienta que permite la integración con data lakes y el ecosistema de AWS (Amazon Web Services). Las principales características de Amazon Redshift son:  Gran rendimiento a la hora de trabajar con grandes volúmenes de datos, desde Gigabytes a Petabytes. Con las vistas materializadas se pueden realizar consultas de forma rápida para paneles, consultas BI y trabajos de procesamientos de datos ELT (extract, load and transform).  Es capaz de soportar miles de consultas simultáneas.  Dispone de escalabilidad máxima para adaptar el servicio a las necesidades reales.  Cuenta con precios flexibles para poder ahorrar pagando solamente por lo necesario.  Las principales tareas de mantenimiento y aprovisionamiento (es posible crear un nuevo almacén de datos con apenas unos clics) están automatizadas por lo que es muy fácil de administrar.

Esquema de data warehouse.

La arquitectura del Data Warehouse consta de tres capas, definidas como Data Modeling & Design, más una de capa destinada al acceso de datos.

Staging

Consiste en una copia directa de los datos en bruto del sistema fuentes (Source Systems) En esta capa no se aplica ningún tipo de transformación de datos ni reglas de negocio. Cada sistema fuente se almacena en un esquema diferente dentro de la capa de Staging. Adicionalmente, en esta capa también se encuentran almacenados los datos maestros (Masterdata). Esta capa puede contener datos de procesos destinados a la calidad de dato que posteriormente pueden ser exportados en la herramienta de Business Intelligence para aplicar correcciones.

Core

En esta capa se realiza la integración de datos. Aquí es donde se definen los conceptos de negocio. Los datos no son volátiles y cada cambio en el sistema fuente se ve reflejado en la capa Core manteniendo el histórico de los mismos. En esta capa se deben definir cuáles serán las Claves únicas de negocio para su posterior relación entre conceptos (por ejemplo, identificador único de cliente o de producto, transversal a toda la compañía). No se aplica ninguna regla de negocio, únicamente se limpian, transforman e integran los datos para enriquecer a la siguiente capa de áreas temáticas.

Data Mart

En esta capa se almacenan todos los cubos y dimensiones de las diferentes áreas temáticas. Estos datos serán explotados posteriormente por el sistema de reporting. Aquí es donde se aplican las reglas de negocio, ya que en función del área temática éstas pueden variar. La granularidad de los datos puede cambiar, ya que en esta capa se suelen realizar los cálculos y agregaciones para que el sistema de reporting sea capaz de presentar los datos de forma eficaz.

Aplicaciones cliente

Amazon Redshift se integra con diversas herramientas de carga de datos y ETL (extracción, transformación y carga) y con diversas herramientas de generación de informes de inteligencia empresarial (BI), minería de datos y análisis

Conexiones

Amazon Redshift se comunica con las aplicaciones cliente mediante los controladores JDBC y ODBC estándar del sector para PostgreSQL. Para obtener más información, consulte Amazon Redshift and PostgreSQL JDBC and ODBC.

Clústeres

Un clúster se compone de uno o varios nodos de computación. Si un clúster se aprovisiona con dos o más nodos de computación, un nodo principal adicional coordina los nodos de computación y administra la comunicación externa. La aplicación cliente interactúa de forma directa solo con el nodo principal

Nodo principal

El nodo principal administra las comunicaciones con los programas de clientes y todas las comunicaciones con los nodos de computación

Nodos de computación

El nodo principal compila un código para los elementos individuales del plan de ejecución y lo asigna a los nodos de computación individuales. Los nodos de computación ejecutan el código compilado y envían resultados intermedios de vuelta al nodo principal para la agregación final.

Sectores del nodo

Un nodo de computación está particionado en sectores. A cada sector se le asigna una parte de la memoria y del espacio en disco del nodo, donde se procesa una parte de la carga de trabajo asignada al nodo.

Red interna

Amazon Redshift aprovecha las conexiones de ancho de banda alto, la gran proximidad y los protocolos de comunicación personalizados para proporcionar una comunicación de red privada de muy alta velocidad entre el nodo principal y los nodos de computación.

Bases de datos

Un clúster contiene una o varias bases de datos. Los datos de usuario se almacenan en los nodos de computación. El cliente SQL se comunica con el nodo principal y este coordina la ejecución de consultas con los nodos de computación.

Tipos de Datos de Data Warehouse Amazon

Redshift

Enterprise Data Warehouse

Es un almacenamiento de datos centralizado, unifica toda la información de una organización para que toda la empresa pueda tener acceso. Ofrece un servicio en el que apoya la toma de decisiones en la empresa. Se enfoca principalmente en organizar y representar los datos, también se obtiene la capacidad de clasificar los datos según el usuario y dar acceso de acuerdo a las restricciones internas.

Operational Data Store (ODS)

También conocido como ODS, es un almacén de datos, que cuando el almacenamiento de datos y los sistemas OLTP no admiten las necesidades de los informes de las organizaciones. En ODS, todo el almacenamiento de datos se actualiza en tiempo real y/o con baja latencia de actualización, y por eso mismo se utiliza habitualmente para actividades rutinarias, como es el almacenamiento de registros de la operación de la empresa y transacciones de venta.

Data Mart

Un Data Mart es un subconjunto del almacenamiento de datos orientado a un área específica, también conocido como base de información departamental. Está especialmente diseñado para una línea de negocio particular, como ventas o finanzas. En un Data Mart independiente, los datos pueden recopilarse directamente de las fuentes. Tiene diversas funciones como organizar la información para posteriormente analizarla, realizar indicadores (KPI), evaluar los objetivos del sector que se está analizando, etc. El objetivo es realizar un análisis detallado sobre lo que ocurre en un negocio.

Parámetros de configuración de la data

warehouse.

Los procesos ETL son una parte de la integración de datos, pero es un elemento importante cuya función completa el resultado de todo el desarrollo de la cohesión de aplicaciones y sistemas La palabra ETL corresponde a las siglas en inglés de:

  • Extraer: extract.
  • Transformar: transform.
  • Y Cargar: load. Con ello, queremos decir que todo proceso ETL consta precisamente de estas tres fases: extracción, transformación y carga. Vamos a definir en qué consisten cada una de estas fases.
Extraer los datos desde los sistemas de origen.
Analizar los datos extraídos obteniendo un chequeo.
Interpretar este chequeo para verificar que los datos extraídos
cumplen la pauta o
estructura que se esperaba. Si no fuese así, los datos deberían
ser rechazados.
Convertir los datos a un formato preparado para iniciar el
proceso de transformación

Fase de

Extracción

La fase de transformación de los procesos de ETL aplica una
serie de reglas de negocio o funciones sobre los datos extraídos
para convertirlos en datos que serán cargados.
Deben consideras que sean:
Declarativas.
Independiente
Claras.
Inteligibles.
Con una finalidad útil para el negocio.

Fase de

Transformación

En esta fase, los datos procedentes de la fase anterior (fase de
transformación) son cargados en el sistema de destino.
Dependiendo de los requerimientos de la organización, este
proceso puede abarcar una amplia variedad de acciones
diferentes.
Acumulación simple : esta manera de cargar los datos consiste
en realizar un resumen de todas las transacciones comprendidas
en el período de tiempo seleccionado
Rolling : este proceso sería el más recomendable en los casos en
que se busque mantener varios niveles de granularidad

Fase de Proceso

de Carga