



















Prepara tus exámenes y mejora tus resultados gracias a la gran cantidad de recursos disponibles en Docsity
Gana puntos ayudando a otros estudiantes o consíguelos activando un Plan Premium
Prepara tus exámenes
Prepara tus exámenes y mejora tus resultados gracias a la gran cantidad de recursos disponibles en Docsity
Prepara tus exámenes con los documentos que comparten otros estudiantes como tú en Docsity
Encuentra los documentos específicos para los exámenes de tu universidad
Estudia con lecciones y exámenes resueltos basados en los programas académicos de las mejores universidades
Responde a preguntas de exámenes reales y pon a prueba tu preparación
Consigue puntos base para descargar
Gana puntos ayudando a otros estudiantes o consíguelos activando un Plan Premium
Comunidad
Pide ayuda a la comunidad y resuelve tus dudas de estudio
Ebooks gratuitos
Descarga nuestras guías gratuitas sobre técnicas de estudio, métodos para controlar la ansiedad y consejos para la tesis preparadas por los tutores de Docsity
primera evidencia de certus ciclo para que se puedan ayudar
Tipo: Esquemas y mapas conceptuales
1 / 27
Esta página no es visible en la vista previa
¡No te pierdas las partes importantes!




















N° de orden Integrante Tema a exponer 1 Kimberly Giomara torres rojas 2 Tito Escalante Cristhian 3 Sandoval Bances Cesar Joel 4 Ipanaque Effio Xiomara 5 Daniela Chumacero Castillo
Tema: Herramientas de analítica para el procesamiento del análisis de datos en big data desde un enfoque de la metodología del procesamiento de datos. Curso: Big data aplicada a los negocios Profesora: Guillermo Fernando Marcas Huaranga Integrantes: Torres Rojas Kimberly Giomara Sandoval Bances Cesar Joel Ipanaque Effio Xiomara Chumacero Castillo Daniela Roxana Tito Escalante Cristhian Lima-Perú 2023
Índice
Es la forma en que se aborda el proceso de recopilación, almacenamiento, procesamiento y análisis de datos. Esta metodología se basa en un enfoque sistemático y estructurado para garantizar que los datos se procesen de manera efectiva y eficiente para que se obtengan conclusiones precisas y útiles a partir de ellos. A) Tipos de metodología de procesamiento de datos:
- Procesamiento por lotes: Es una técnica utilizada para el procesamiento de grandes cantidades de datos por lotes. Este se ejecuta en un momento específico y procesa datos de forma secuencial, lo que puede ayudar a ahorrar tiempo y recursos en el procesamiento de tareas repetitivas como la facturación, la nómina y la contabilidad. - Procesamiento de flujos: Es una técnica en tiempo real que se utiliza para analizar y procesar datos que se generan continuamente en un flujo, como datos generados por sensores o dispositivos. Este tipo de procesamiento aporta un análisis más rápido de cantidades más pequeñas de datos que el procesamiento por lotes, lo que permite a las empresas tomar decisiones en tiempo real y responder a los cambios del mercado de forma rápida y efectiva. - Procesamiento de datos distribuido: Es una técnica en la que se procesan grandes conjuntos de datos mediante el uso de múltiples nodos de procesamiento que trabajan en paralelo. Cada nodo puede tener su propio conjunto de datos y procesarlos localmente, lo que permite una mayor escalabilidad y rendimiento del sistema en comparación con el procesamiento centralizado en una sola máquina. El procesamiento de datos distribuido se utiliza a menudo en aplicaciones de big data y análisis de datos, ya que permite procesar grandes volúmenes de datos de manera eficiente utilizando hardware de bajo costo y bajo consumo. B) Pasos del procesamiento de datos El procesamiento de datos puede o no puede distinguirse de la conversión de datos, que implica el cambio de datos en otro formato, y no implica ninguna manipulación de datos. Durante el procesamiento, los datos brutos se utilizan como una entrada para producir información como una salida, normalmente en forma de informes y otras herramientas analíticas. Los pasos de procesamiento de datos son los siguientes: - Recopilación de datos: Este es el primer paso en el procesamiento de datos. Los datos se obtienen de las fuentes disponibles, incluidos los archivos de testo y los almacenes de datos. Es importante que las
- Optimización de procesos y recursos : Permite identificar oportunidades de optimización en los procesos y recursos utilizados en una organización. Al analizar los datos, se pueden identificar ineficiencias, identificar áreas de mejora y optimizar recursos, lo que puede resultar en ahorro de costos y aumento de la eficiencia operativa. - Descubrimiento de insights y patrones ocultos: Es posible descubrir insights y patrones que no son visibles a simple vista. El análisis de datos puede revelar relaciones complejas o patrones ocultos en grandes volúmenes de datos, lo que puede conducir a descubrimientos significativos, nuevas oportunidades o soluciones innovadoras. - Mejora en la planificación y estrategia: Puede proporcionar una base sólida para la planificación estratégica y la toma de decisiones a largo plazo. Al analizar datos históricos, tendencias y proyecciones, se pueden obtener información valiosa para la planificación y formulación de estrategias empresariales, lo que permite una toma de decisiones más informada y acertada. - Mayor competitividad: Puede conferir una ventaja competitiva a las organizaciones. Al aprovechar los datos como recurso estratégico, las organizaciones pueden tomar decisiones más informadas, identificar oportunidades y optimizar procesos, lo que puede ayudar a mantenerse por delante de la competencia en un entorno empresarial competitivo. - Reproducibilidad y transparencia: Implica la documentación rigurosa de los pasos y técnicas utilizadas en el procesamiento de datos, lo que permite la reproducibilidad y la transparencia de los resultados obtenidos. Esto es especialmente importante en la investigación científica y en la generación de conocimiento, ya que permite a otros investigadores o partes interesadas verificar y validar los resultados obtenidos. 5.2 HERRAMIENTAS ANALÍTICAS Las herramientas analíticas de Big Data son aplicaciones, recursos y programas que permiten a las empresas modernas procesar, analizar y visualizar grandes conjuntos de datos en distintos contextos. Estas herramientas pueden extraer información valiosa y proporcionar información significativa para la toma de decisiones. Entre las herramientas analíticas de big data tenemos las siguientes: A. Python Python es un lenguaje de programación ampliamente utilizado en las aplicaciones web, el desarrollo de software, la ciencia de datos y el machine learning (ML). Los desarrolladores utilizan Python porque es eficiente y fácil de aprender, además de que se puede ejecutar en muchas plataformas diferentes. El software Python se puede descargar gratis, se integra bien a todos los tipos de sistemas y aumenta la velocidad del desarrollo.
Características de la herramienta Python: -Tiene código abierto: Python es un lenguaje de programación de código abierto, lo que significa que su código fuente está disponible para cualquier persona para descargar y modificar. -Tiene lenguaje interpretado: Python es un lenguaje interpretado, lo que significa que ejecuta directamente el código líneo por línea. Si existen errores en el código del programa, su ejecución se detiene. Así, los programadores pueden encontrar errores en el código con rapidez. -Su lenguaje es fácil de utilizar: Python utiliza palabras similares a las del inglés. A diferencia de otros lenguajes de programación, Python no utiliza llaves. En su lugar, utiliza sangría. -Su lenguaje es de alto nivel: Python es más cercano a los idiomas humanos que otros lenguajes de programación. Por lo tanto, los programadores no deben preocuparse sobre sus funcionalidades subyacentes, como la arquitectura y la administración de la memoria. -Su lenguaje de programación es orientado a objetos: Esto quiere decir que reconoce el concepto de encapsulación de clases y objetos, lo que hace que lo que se codifique con Python es más eficiente a largo plazo. -Tiene una gran cantidad de bibliotecas: Cuenta con una gran cantidad de bibliotecas de código abierto que permiten a los analistas de datos realizar tareas de análisis y visualización de datos con facilidad. Algunas de las bibliotecas más populares de Python son: -Matplotlib: Los desarrolladores utilizan Matplotlib para trazar los datos en gráficos de dos y tres dimensiones (2D y 3D) de alta calidad. Por lo general, se utiliza en las aplicaciones científicas. Con Matplotlib, puede visualizar los datos mostrándolos en diferentes gráficos, como los gráficos de barras y los de líneas. También puede trazar varios gráficos de una sola vez, y estos se pueden trasladar a todas las plataformas. -Pandas: Proporciona estructuras de datos optimizadas y flexibles que se pueden utilizar para manipular datos de serie temporal y datos estructurados, como las tablas y las matrices. Por ejemplo, puede utilizar Pandas para leer, escribir, combinar, filtrar y agrupar datos. Muchas personas lo utilizan para las tareas de ciencia de datos, análisis de datos y ML. -NumPy: Es una conocida biblioteca que utilizan los desarrolladores para crear y administrar matrices, manipular formas lógicas y efectuar operaciones de álgebra lineal con facilidad. NumPy admite la integración a muchos lenguajes, como C y C++. -Requests: Proporciona funciones útiles que se necesitan para el desarrollo web. Puede usarla para enviar solicitudes HTTP; agregar encabezados, parámetros de URL y datos; y llevar a cabo muchas más tareas cuando se comunica con aplicaciones web. -OpenCV-Python: Es una biblioteca que los desarrolladores utilizan para procesar imágenes para las aplicaciones de visión artificial. Proporciona muchas funciones para las tareas de procesamiento de imágenes, como la lectura y la escritura simultáneas de imágenes, la
Apache Hadoop es un entorno de trabajo para software, bajo licencia libre, para programar aplicaciones distribuidas que manejen grandes volúmenes de datos (big data). Permite a las aplicaciones trabajar con miles de nodos en red y petabytes de datos. Hadoop se inspiró en los documentos de Google sobre MapReduce y Google File System (GFS). Hadoop es un proyecto de la organización Apache que está siendo construido y usado por una comunidad global de contribuyentes, mediante el lenguaje de programación Java. Yahoo! ha sido el mayor contribuyente al proyecto, y usa Hadoop extensivamente en su negocio. Características de la herramienta Hadoop:
D) Apache Spark Apache Spark es un motor ultrarrápido para el almacenamiento y procesamiento de código abierto de alta velocidad que permite analizar grandes volumes de datos de manera rápida y eficiente. Fue desarrollada por el equipo de la Universidad de California en Berkeley y liberada como un proyecto de código abierto en 2010. Apache Spark se basa en una arquitectura en clúster, significa que los datos son procesados por diversas computadoras que trabajan en conjunto. Esta herramienta ofrece una potencia de procesamiento distribuido que acelera la detección de patrones en los datos, la clasificación organizada de información, la ejecución de cálculos intensivos y el procesamiento paralelo en clúster. Además, Spark cuenta con una amplia gama de bibliotecas y herramientas integradas, lo que la hace especialmente útil en áreas como el análisis financiero, la investigación científica y el marketing digital, entre otros. Los componentes principales que integran y potencian apache spark son los siguientes: Spark Core : Es el motor central de Spark y proporciona las funcionalidades básicas para la gestión y procesamiento de datos, incluyendo el control y programación de tareas, la gestión de memoria y la recuperación de fallos. Spark SQL : Es un módulo de Spark que permite a los usuarios trabajar con datos estructurados utilizando SQL (Structured Query Language), lo que significa que los usuarios pueden utilizar SQL para consultar y manipular datos en Spark, lo que hace que sea más fácil para los usuarios de SQL integrar Spark en su flujo de trabajo. Spark Streaming: Es un módulo que permite el procesamiento de grandes cantidades de datos en tiempo real mediante la ingestión de datos continuos y el procesamiento de los mismos. Es especialmente útil en aplicaciones de datos en tiempo real, como la detección de fraudes, la monitorización de redes o el análisis de sentimiento en las redes sociales. Spark MLlib (Machine Learning Library): Es una biblioteca de aprendizaje automático que proporciona una amplia gama algoritmos de aprendizaje para la minería de datos y la predicción, lo que permite a los usuarios la clasificación, la regresión, el filtrado colaborativo y la reducción de dimensiones en grandes conjuntos de datos de manera eficiente. GraphX: Esta biblioteca está diseñada para simplificar el procesamiento de grafos a gran escala y permitir la construcción de aplicaciones de análisis de grafos escalables. Esto permite a los usuarios realizar extracción, transformación y carga de datos de grafos en un mismo entorno. Además, GraphX está integrado con otras bibliotecas de Spark, como Spark SQL y MLlib, lo que permite la construcción de aplicaciones más complejas y completas de análisis de datos. E) Apache Storm Apache Storm es un sistema que sirve para procesar datos en tiempo real desde múltiples fuentes de manera distribuida, tolerante a fallos y en alta disponibilidad. Storm está principalmente pensado para trabajar con datos que deben ser analizados en tiempo real, por ejemplo datos de sensores que se emiten con una alta frecuencia o datos que provengan de las redes sociales donde a veces es importante saber qué se está compartiendo en este momento.
de datos, sistemas de almacenamiento distribuido, herramientas de visualización y otras librerías de análisis y procesamiento de datos. Esto permite a los usuarios aprovechar las capacidades de Python en combinación con otras herramientas y tecnologías para llevar a cabo análisis de datos más avanzados y completos.