




Prepara tus exámenes y mejora tus resultados gracias a la gran cantidad de recursos disponibles en Docsity
Gana puntos ayudando a otros estudiantes o consíguelos activando un Plan Premium
Prepara tus exámenes
Prepara tus exámenes y mejora tus resultados gracias a la gran cantidad de recursos disponibles en Docsity
Prepara tus exámenes con los documentos que comparten otros estudiantes como tú en Docsity
Encuentra los documentos específicos para los exámenes de tu universidad
Estudia con lecciones y exámenes resueltos basados en los programas académicos de las mejores universidades
Responde a preguntas de exámenes reales y pon a prueba tu preparación
Consigue puntos base para descargar
Gana puntos ayudando a otros estudiantes o consíguelos activando un Plan Premium
Comunidad
Pide ayuda a la comunidad y resuelve tus dudas de estudio
Ebooks gratuitos
Descarga nuestras guías gratuitas sobre técnicas de estudio, métodos para controlar la ansiedad y consejos para la tesis preparadas por los tutores de Docsity
hola este es un doc con alguna caracterisitcas de amazon redshift
Tipo: Ejercicios
1 / 8
Esta página no es visible en la vista previa
¡No te pierdas las partes importantes!





Hoy en día, es común en una organización tener un sistema heterogéneo de Aplicaciones, Sistemas Operativos, Bases de Datos, HW, SW; en el tema de las aplicaciones algunas por su naturaleza integran un determinado motor de Base de Datos de alguna marca específica o bien, open source. Para el usuario final esto es completamente transparente y no se diga para las unidades de negocio que forman la empresa. Los servicios están soportados en Bases de Datos distribuidas, estructuradas o NoSQL e incluso el origen de la información que se procesa no necesariamente su fuente es una Base de Datos. Lo importante de lo anterior es el almacenamiento de información, sin considerar el origen, ni la ubicación geográfica donde se genera, ni los medios como se obtienen. El Data Warehouse concentra y almacena de forma estructurada toda la información obtenida a partir de las múltiples fuentes de datos en nuestra organización, permitiendo así una rápida integración con herramientas de minería de datos, análisis y reportes (dashboards).
Funciona un poco diferente a las bases de datos convencionales (OLTP - OnLine Transactional Processing). Como su nombre lo indica, manejan los datos transaccionales y los datos de cara a los procesos principales de la organización. Al ser transaccionales comúnmente manejan segundo a segundo operaciones de consulta, inserción, borrado y actualización de datos según los requerimientos del usuario (por ejemplo, una reserva de cine). Los Data Warehouse usan OLAP (OnLine Analytical Processing). Son datos que, aunque no están disponibles en tiempo real, pueden ser analizados de forma rápida y masiva sin interrumpir los procesos del usuario. Esto le otorga a los científicos de datos una perspectiva más amplia para tomar decisiones (por ejemplo, total de ventas a través del tiempo). Como el Data Warehouse está diseñado con una finalidad analítica, este proceso puede llegar a ser hasta 1000 veces más rápido que una base de datos convencional.
Amazon sigue expandiendo su oferta de servicios basados en cloud computing a través de la línea AWS (Amazon Web Services). En esta ocasión ha presentado una nueva oferta para el almacenamiento de grandes volúmenes de datos relacionales denominada Amazon Redshift. Básicamente se trata de un Data Warehouse optimizado para albergar bases de datos relacionales provenientes de múltiples fuentes y sistemas y ofrecer un alto rendimiento en procesos de análisis e informes. En este tipo de infraestructuras se recopilan los datos de transacciones financieras, de ventas, de cadenas de suministro y se unifican para que los responsables de las compañías puedan analizarlos y tomar las decisiones correctas para los negocios.
Redshift es la solución de Amazon para almacenar y analizar grandes volúmenes de datos. Se trata de una herramienta que permite la integración con data lakes y el ecosistema de AWS (Amazon Web Services). Las principales características de Amazon Redshift son: Gran rendimiento a la hora de trabajar con grandes volúmenes de datos, desde Gigabytes a Petabytes. Con las vistas materializadas se pueden realizar consultas de forma rápida para paneles, consultas BI y trabajos de procesamientos de datos ELT (extract, load and transform). Es capaz de soportar miles de consultas simultáneas. Dispone de escalabilidad máxima para adaptar el servicio a las necesidades reales. Cuenta con precios flexibles para poder ahorrar pagando solamente por lo necesario. Las principales tareas de mantenimiento y aprovisionamiento (es posible crear un nuevo almacén de datos con apenas unos clics) están automatizadas por lo que es muy fácil de administrar.
La arquitectura del Data Warehouse consta de tres capas, definidas como Data Modeling & Design, más una de capa destinada al acceso de datos.
Consiste en una copia directa de los datos en bruto del sistema fuentes (Source Systems) En esta capa no se aplica ningún tipo de transformación de datos ni reglas de negocio. Cada sistema fuente se almacena en un esquema diferente dentro de la capa de Staging. Adicionalmente, en esta capa también se encuentran almacenados los datos maestros (Masterdata). Esta capa puede contener datos de procesos destinados a la calidad de dato que posteriormente pueden ser exportados en la herramienta de Business Intelligence para aplicar correcciones.
En esta capa se realiza la integración de datos. Aquí es donde se definen los conceptos de negocio. Los datos no son volátiles y cada cambio en el sistema fuente se ve reflejado en la capa Core manteniendo el histórico de los mismos. En esta capa se deben definir cuáles serán las Claves únicas de negocio para su posterior relación entre conceptos (por ejemplo, identificador único de cliente o de producto, transversal a toda la compañía). No se aplica ninguna regla de negocio, únicamente se limpian, transforman e integran los datos para enriquecer a la siguiente capa de áreas temáticas.
En esta capa se almacenan todos los cubos y dimensiones de las diferentes áreas temáticas. Estos datos serán explotados posteriormente por el sistema de reporting. Aquí es donde se aplican las reglas de negocio, ya que en función del área temática éstas pueden variar. La granularidad de los datos puede cambiar, ya que en esta capa se suelen realizar los cálculos y agregaciones para que el sistema de reporting sea capaz de presentar los datos de forma eficaz.
Amazon Redshift se integra con diversas herramientas de carga de datos y ETL (extracción, transformación y carga) y con diversas herramientas de generación de informes de inteligencia empresarial (BI), minería de datos y análisis
Amazon Redshift se comunica con las aplicaciones cliente mediante los controladores JDBC y ODBC estándar del sector para PostgreSQL. Para obtener más información, consulte Amazon Redshift and PostgreSQL JDBC and ODBC.
Un clúster se compone de uno o varios nodos de computación. Si un clúster se aprovisiona con dos o más nodos de computación, un nodo principal adicional coordina los nodos de computación y administra la comunicación externa. La aplicación cliente interactúa de forma directa solo con el nodo principal
El nodo principal administra las comunicaciones con los programas de clientes y todas las comunicaciones con los nodos de computación
El nodo principal compila un código para los elementos individuales del plan de ejecución y lo asigna a los nodos de computación individuales. Los nodos de computación ejecutan el código compilado y envían resultados intermedios de vuelta al nodo principal para la agregación final.
Un nodo de computación está particionado en sectores. A cada sector se le asigna una parte de la memoria y del espacio en disco del nodo, donde se procesa una parte de la carga de trabajo asignada al nodo.
Amazon Redshift aprovecha las conexiones de ancho de banda alto, la gran proximidad y los protocolos de comunicación personalizados para proporcionar una comunicación de red privada de muy alta velocidad entre el nodo principal y los nodos de computación.
Un clúster contiene una o varias bases de datos. Los datos de usuario se almacenan en los nodos de computación. El cliente SQL se comunica con el nodo principal y este coordina la ejecución de consultas con los nodos de computación.
Es un almacenamiento de datos centralizado, unifica toda la información de una organización para que toda la empresa pueda tener acceso. Ofrece un servicio en el que apoya la toma de decisiones en la empresa. Se enfoca principalmente en organizar y representar los datos, también se obtiene la capacidad de clasificar los datos según el usuario y dar acceso de acuerdo a las restricciones internas.
También conocido como ODS, es un almacén de datos, que cuando el almacenamiento de datos y los sistemas OLTP no admiten las necesidades de los informes de las organizaciones. En ODS, todo el almacenamiento de datos se actualiza en tiempo real y/o con baja latencia de actualización, y por eso mismo se utiliza habitualmente para actividades rutinarias, como es el almacenamiento de registros de la operación de la empresa y transacciones de venta.
Un Data Mart es un subconjunto del almacenamiento de datos orientado a un área específica, también conocido como base de información departamental. Está especialmente diseñado para una línea de negocio particular, como ventas o finanzas. En un Data Mart independiente, los datos pueden recopilarse directamente de las fuentes. Tiene diversas funciones como organizar la información para posteriormente analizarla, realizar indicadores (KPI), evaluar los objetivos del sector que se está analizando, etc. El objetivo es realizar un análisis detallado sobre lo que ocurre en un negocio.
Los procesos ETL son una parte de la integración de datos, pero es un elemento importante cuya función completa el resultado de todo el desarrollo de la cohesión de aplicaciones y sistemas La palabra ETL corresponde a las siglas en inglés de: