


























Prepara tus exámenes y mejora tus resultados gracias a la gran cantidad de recursos disponibles en Docsity
Gana puntos ayudando a otros estudiantes o consíguelos activando un Plan Premium
Prepara tus exámenes
Prepara tus exámenes y mejora tus resultados gracias a la gran cantidad de recursos disponibles en Docsity
Prepara tus exámenes con los documentos que comparten otros estudiantes como tú en Docsity
Encuentra los documentos específicos para los exámenes de tu universidad
Estudia con lecciones y exámenes resueltos basados en los programas académicos de las mejores universidades
Responde a preguntas de exámenes reales y pon a prueba tu preparación
Consigue puntos base para descargar
Gana puntos ayudando a otros estudiantes o consíguelos activando un Plan Premium
Comunidad
Pide ayuda a la comunidad y resuelve tus dudas de estudio
Ebooks gratuitos
Descarga nuestras guías gratuitas sobre técnicas de estudio, métodos para controlar la ansiedad y consejos para la tesis preparadas por los tutores de Docsity
Este documento proporciona una introducción a los campos de la minería de datos y el big data, destacando su creciente importancia en la era digital. Describe el proceso de minería de datos, que incluye la definición de objetivos empresariales, la preparación de datos, la creación de modelos y la extracción de patrones. También se discuten las principales técnicas de minería de datos, como el árbol de decisiones y el algoritmo de k-vecinos más cercanos, así como las aplicaciones y beneficios de la minería de datos para las organizaciones. Además, se abordan los desafíos y consideraciones éticas relacionados con la minería de datos y la recopilación de datos. El documento también menciona herramientas y tecnologías relevantes, como el salford predictive modeler y las estrategias de integración de datos. En general, este documento proporciona una visión general sólida de los conceptos clave y las aplicaciones prácticas de la minería de datos y el big data.
Tipo: Apuntes
1 / 34
Esta página no es visible en la vista previa
¡No te pierdas las partes importantes!



























Independencia,^ “Año del Bicentenario, de la consolidación de nuestra y de la conmemoración de las heroicas batallas de Junín y Ayacucho”
Big data y minería de datos son campos que se han vuelto esenciales debido a que las principales firmas de consultoría e inteligencia de mercados pronosticaron para el año 2020 que el 50% de la inversión en tecnología estaría relacionada con análisis de grandes cantidades de datos, y que estos hechos significarían la entrada definitiva a la era digital. La pandemia del COVID-19 ha acelerado significativamente este proceso desde su inicio, aumentando significativamente la actividad del comercio electrónico y generando un volumen aún más elevado de datos.
El proceso de minería de datos comprende una serie de pasos que abarcan desde la recopilación de datos hasta la visualización para extraer información valiosa de grandes conjuntos de datos. Como ya hemos mencionado, las técnicas de minería de datos se utilizan para generar descripciones y previsiones sobre un conjunto de datos de destino. Los científicos de datos describen los datos mediante la observación de patrones, asociaciones y correlaciones. Así mismo, clasifican y agrupan en clúster los datos por medio de métodos de clasificación y regresión, e identifican valores atípicos para los casos de uso, como la detección de correo no deseado. Por lo general, la minería de datos consta generalmente de cuatro pasos principales:
1. Definir los objetivos de negocio: Esta parte puede ser la más difícil del proceso de minería de datos, un importante paso al que, sin embargo, muchas organizaciones apenas dedican tiempo. Los científicos de datos y las partes interesadas de la empresa deben colaborar para definir el problema de negocio, que resulta útil para conformar las preguntas y los parámetros de datos de un proyecto determinado. También puede ser necesario investigar un poco más para comprender el contexto empresarial de forma adecuada. 2. Preparar los datos: Una vez definido el alcance del problema, es más sencillo para los científicos de datos identificar qué conjunto de datos ayudará a dar respuesta a las preguntas correspondientes de la empresa. Una vez que recopilan los datos relevantes, estos se limpian para eliminar lo que no sirve, como los duplicados, los valores que faltan y los valores atípicos. Según el conjunto de datos, se puede efectuar otro paso más para reducir el número de dimensiones, ya que demasiadas características pueden ralentizar el cálculo posterior. Los científicos de datos intentan retener los
predictores más importantes para garantizar la precisión óptima dentro de cualquier modelo.
3. Crear modelos y realizar minería de patrones: En función del tipo de análisis, los científicos de datos pueden investigar las relaciones de datos que sean de interés, como los patrones secuenciales, las reglas de asociación o las correlaciones. Aunque los patrones que se repiten con mucha frecuencia tienen un mayor número de aplicaciones, hay veces que las desviaciones en los datos revisten un mayor interés, ya que subrayan áreas de posible fraude. También se pueden aplicar algoritmos de deep learning para clasificar o agrupar en clúster un conjunto de datos según los datos disponibles. Si los datos de entrada están etiquetados (es decir, aprendizaje supervisado), se puede utilizar un modelo de clasificación para categorizar los datos o, de forma alternativa, se puede aplicar una regresión para prever la probabilidad de que se realice una determinada asignación. Si el conjunto de datos no está etiquetado (es decir, aprendizaje no supervisado), los puntos de datos individuales del conjunto de entrenamiento se comparan entre sí para descubrir similitudes subyacentes y agruparlos en función de dichas características. 4. Evaluación de resultados e implementación de conocimientos: Una vez agregados los datos, los resultados deben evaluarse e interpretarse. Para finalizar los resultados, estos deben ser válidos, nuevos, útiles y comprensibles. Cuando se cumplen estos criterios, las organizaciones pueden utilizar este conocimiento para implementar nuevas estrategias y lograr los objetivos previstos.
K vecino más cercano (KNN): El algoritmo K vecino más cercano, que también se denomina algoritmo KNN, es un algoritmo no paramétrico que clasifica los puntos de datos en función de su proximidad y asociación con otros datos disponibles. Este algoritmo presupone que los puntos de datos similares se encuentran cerca unos de otros. En consecuencia, busca la distancia entre puntos de datos, generalmente mediante distancia euclídea, y luego asigna una categoría basada en el promedio o la categoría más frecuente.
APLICACIONES DE LA MINERÍA DE DATOS Las técnicas de minería de datos gozan de una amplia adopción entre los equipos de inteligencia empresarial y de analítica de datos, y les permiten extraer conocimientos para su organización y sector. Estos son algunos de los casos de uso de la minería de datos:
Ventas y Marketing: Las empresas recopilan una cantidad masiva de datos sobre sus clientes actuales y potenciales. Al observar la demografía de los consumidores y el comportamiento del usuario en línea, las empresas pueden utilizar los datos para optimizar sus campañas de marketing mediante mejoras de segmentación, ofertas de venta cruzada y programas de fidelidad del cliente, que generan un mayor ROI en las iniciativas de marketing. Los análisis predictivos también pueden servir a los equipos para definir las expectativas con los interesados y calcular la rentabilidad de los aumentos o disminuciones en la inversión de marketing.
Educación: Las instituciones educativas han empezado a recopilar datos para comprender a su población estudiantil y descubrir qué entornos tienen más posibilidades de éxito. Cuando los cursos se transfieren a plataformas en línea, pueden utilizar distintas dimensiones y métricas para observar y evaluar el rendimiento, como las pulsaciones, los perfiles de estudiante, las clases, las universidades, el tiempo dedicado, etc.
Optimización Operativa: La minería de procesos utiliza técnicas de minería de datos para reducir los costes en todas las funciones operativas, lo que permite que el funcionamiento de las organizaciones sea más eficiente. Esta práctica ha ayudado a identificar cuellos de botella de coste elevado y mejorar la toma de decisiones entre los líderes empresariales.
La minería de datos aporta una ventaja significativa al proporcionar inteligencia e información más relevante y oportuna (a la cual la empresa no tendría acceso de otra manera). Algunos beneficios de la minería de datos incluyen: Encontrar fácilmente los datos esenciales. El big data contiene información realmente útil, pero también hay muchos datos que no necesitas. La minería de datos permite diferenciar automáticamente la información valiosa e interpretarla en informes procesables.
Comprender mejor a los clientes y su recorrido. Con la minería de datos puedes recopilar datos de clientes de múltiples fuentes para formar perfiles informativos muy completos. Esto te brinda un conocimiento valioso sobre las tendencias, preferencias, comportamientos, similitudes y diferencias de los consumidores. Esta información te ayuda a brindar una mejor experiencia del cliente y lograr una comunicación más eficiente en todos los puntos de contacto. Tomar decisiones más rápidas y automatizadas. En lugar de que una persona revise todos los datos y elija las acciones a emprender, puedes automatizar ciertas decisiones. Por ejemplo, los bancos pueden usar software para identificar tendencias que revelan comportamientos fraudulentos y bloquear automáticamente cuentas en segundos, notificar a una persona responsable o solicitar verificación adicional de los usuarios.
Desarrollar campañas de marketing más efectivas y personalizadas. Con el conocimiento que obtienes de la minería de datos, los equipos de marketing pueden crear campañas mucho más personalizadas, adaptar el contenido y las recomendaciones de productos en función de preferencias y comportamientos conocidos, predecir tendencias de cómo los consumidores compran o navegan en tu sitio web, descubrir qué les impide comprar o qué los lleva a abandonar su carrito, crear segmentos de marketing precisos y ofrecer promociones personalizadas, entre otras cosas. No hace falta decir que estas campañas de marketing basadas en datos producen un ROI (retorno de inversión) significativamente más alto. TÉCNICAS DE MINERÍA DE DATOS: Las técnicas de minería de datos dependerán en su mayoría de las necesidades de cada empresa. Sin embargo, podemos categorizarlas en tres grandes grupos: las técnicas descriptivas, predictivas y prescriptivas. Veamos las características de cada una. Técnicas descriptivas de minería de datos
1. Técnicas de asociación Como ya lo explicamos, la minería de datos detecta patrones a través del reconocimiento de conjuntos de datos en intervalos regulares. Con estas funciones podrías saber cuáles son los productos o servicios que más se compran en determinada época del año, por ejemplo, en Navidad. Esta tarea tiene por objeto buscar nuevos eventos o atributos relevantes comparados con los ya existentes dentro de tu negocio. Por ejemplo, cuando un cliente adquiere un artículo específico, es común notar que los usuarios tienden a comprar otros productos o servicios relacionados con su primera compra. 2. Técnicas de Agrupamiento Una vez que los algoritmos detectan una regularidad en los datos y pueden asociarlos es más sencillo llevar a cabo un proceso de agrupamiento que englobe todos los resultados con el mismo comportamiento, valor o relevancia. Cuando una técnica de
generan respuestas a ciertos problemas, cediendo responsabilidades a las tecnologías.
7. Técnicas de Optimización Las técnicas de optimización generan simulaciones para la toma de decisión frente al resultado de una analítica de los datos, por lo tanto, obtienen una mejor respuesta basada en casos anteriores. Sin embargo, la optimización solo se da como una propuesta de plan de acción. A través de estas técnicas se puede establecer una mejor alternativa de ventas, marketing o atención para evitar situaciones similares en el futuro. DIFERENCIAS ENTRE LA MINERÍA DE DATOS Y LA RECOLECCIÓN DE DATOS La minería de datos y la recolección pueden ser procesos complementarios, si se realizan correctamente. La minería se dedica al análisis de grandes conjuntos de datos para derivar tendencias, mientras que la recolección consiste en extraer datos de diversas fuentes para luego construir el análisis. La recolección implica rastrear un sitio web para extraer sus datos, que luego se organizan en información inteligible. Y aunque es posible hacerlo de manera segura y ética, hay actores malintencionados que utilizan métodos de recolección para obtener direcciones de correo electrónico, listas de contactos, fotos, videos, texto o código, sin el consentimiento del usuario. Un ejemplo conocido de recolección de datos del que quizás hayas escuchado fue el escándalo de Cambridge Analytica y Facebook. Como informó The New York Times, la consultora política británica comenzó a recolectar datos de millones de usuarios de esta red social en 2014 para construir perfiles psicológicos de votantes e intentar venderlos a campañas políticas. Aunque este escándalo fue a gran escala y tuvo enormes repercusiones, cualquier tipo de empresa puede realizar prácticas de recolección de datos poco éticas, sin importar su tamaño. Por ejemplo, una pequeña empresa de medios espera crear recomendaciones de contenido más personalizadas para su audiencia, compuesta principalmente por mujeres de entre 18 y 24 años; para obtener más datos para construir estas campañas, esta empresa decide rastrear sitios web similares que a menudo son
visitados por su público objetivo y averiguar qué tipo de contenido consumen más allí. Sin embargo, estos datos fueron adquiridos sin el conocimiento de los usuarios, lo que ya constituye una mala práctica. Otro ejemplo es cuando una empresa busca ampliar el alcance de sus boletines informativos por correo electrónico, pero aún no tiene una gran cantidad de suscriptores. Por lo tanto, decide comprar una lista de contactos de un proveedor externo para llegar a más personas (la compra y venta de listas de contactos puede estar prohibida por varias leyes de protección de datos, así como el envío de correos electrónicos no solicitados especialmente si los usuarios no proporcionaron sus datos o no dieron su consentimiento).
¿CÓMO EVITAR PROBLEMAS CON LA MINERÍA DE DATOS? Los escenarios descritos anteriormente son ejemplos perfectos de lo que no debes hacer al implementar minería y recolección de datos. Por ejemplo, en el caso de Facebook-Cambridge Analytica, los datos se extrajeron sin el consentimiento o conocimiento de los usuarios; Facebook no protegió los datos de los usuarios frente a actores externos y los datos se utilizaron para fines con los que ellos no estaban de acuerdo conscientemente. Por eso es primordial estar al tanto de los posibles obstáculos que podrías enfrentar al utilizar la minería de datos y la recopilación de datos, y asegúrate de llevar a cabo estas prácticas de forma ética y transparente. Garantizar la protección de datos y la privacidad es la clave Al igual que cualquier proceso que involucra datos confidenciales, tu principal preocupación debe ser corroborar que todos los datos que estás recopilando y utilizando se hayan proporcionado con el consentimiento explícito y en pleno cumplimiento de las leyes de privacidad aplicables. Esto incluye proteger los datos en todas las etapas del proceso (recopilación, almacenamiento, análisis y eliminación). Las organizaciones deben establecer reglas internas para especificar para qué se pueden usar los datos y cómo deben analizarse e implementarse, además de garantizar que la información obtenida de la minería de datos no infrinja las políticas de privacidad. Como regla general, ser transparente, honesto y ético con los datos debe ser tu máxima prioridad. Algunas empresas pueden contratar personal especializado en ciencia de datos y seguridad para supervisar todos los procedimientos de análisis y gestión de datos.
2. Redes Sociales Las redes sociales son el lugar donde más datos se generan día con día. Actualmente hay más de 2900 millones de usuarios de Facebook, 2500 millones de YouTube y 1478 millones de Instagram. Esto significa que la información que se comparte a través de publicaciones, fotos y videos es realmente grande. La minería de datos permite analizar esta información de forma automatizada para generar experiencias únicas de navegación y dirigen la atención de los visitantes hacia ciertos tópicos. Esta es la forma en que plataformas como YouTube o TikTok saben qué contenidos les interesan a los usuarios. Las redes sociales han sacado provecho de la minería de datos para capitalizar la navegación de sus usuarios al vender sus perfiles de consumo a las empresas. Por ejemplo, Meta (empresa detrás de Facebook, Instagram y WhatsApp) utiliza la información de sus usuarios, sus historiales de navegación y sus visitas dentro de las plataformas para generar predicciones de consumo que son vendidas a los anunciantes. Si alguna vez te habías preguntado por qué te aparece publicidad en tu página principal que es diferente a la de tus colegas, esta es la razón.
3. Gestión de Clientes A menor escala las empresas pueden también aprovechar la minería de datos para mejorar las experiencias de compra de sus clientes. Para ello solo basta disponer de una base de datos en donde esté integrada la información de relevancia de sus consumidores. Cuanto más grande sea la cartera de clientes, mayor información podrán obtener a través de las técnicas de minería de datos. Una compañía puede aplicar estos recursos para detectar regularidades en el consumo de sus clientes, quienes pueden preferir una solución sobre otra o que han reducido su consumo a partir de un lanzamiento de la competencia. Las empresas pueden generar perfiles demográficos más específicos para saber a quién y cuándo ofrecer alguna solución comercial. Más allá de las ventas, las empresas pueden aplicar técnicas de minería de datos para ofrecer un mejor servicio al cliente y hacer un seguimiento a sus compras. Por ejemplo, al detectar comportamientos en sus clientes pueden predecir quiénes requieren mayor acompañamiento o intuir qué interacciones se generarán tras una compra. 4. Medicina En el área médica la minería de datos ha sido de primera importancia para la resolución de algunos de los episodios contemporáneos, como la pandemia de covid-
Actualmente existen algunas herramientas que las empresas pueden adoptar para crear su propia minería de datos. Conoce los principales softwares que podrían ayudarte:
1. IBM SPSS Esta herramienta de análisis estadístico avanzado permite tomar decisiones más inteligentes por medio de técnicas avanzadas. Cuenta con una interfaz fácil de usar para encontrar nuevas oportunidades, mejorar la eficiencia de tu negocio y minimizar los riesgos comerciales. Entre sus funciones analíticas se encuentran machine learning basado en inteligencia artificial, recolección de datos y presentación de resultados. Su principal ventaja competitiva es que otorga datos con hasta un 95 % de fiabilidad.
Este software cuenta con librerías y comandos muy potentes. Entre sus componentes puedes encontrar funciones de procesamiento de datos, características de puntuación y filtrado, evaluación del modelo y técnicas de exploración.
3. RAPIDMINER