






Prepara tus exámenes y mejora tus resultados gracias a la gran cantidad de recursos disponibles en Docsity
Gana puntos ayudando a otros estudiantes o consíguelos activando un Plan Premium
Prepara tus exámenes
Prepara tus exámenes y mejora tus resultados gracias a la gran cantidad de recursos disponibles en Docsity
Prepara tus exámenes con los documentos que comparten otros estudiantes como tú en Docsity
Encuentra los documentos específicos para los exámenes de tu universidad
Estudia con lecciones y exámenes resueltos basados en los programas académicos de las mejores universidades
Responde a preguntas de exámenes reales y pon a prueba tu preparación
Consigue puntos base para descargar
Gana puntos ayudando a otros estudiantes o consíguelos activando un Plan Premium
Comunidad
Pide ayuda a la comunidad y resuelve tus dudas de estudio
Ebooks gratuitos
Descarga nuestras guías gratuitas sobre técnicas de estudio, métodos para controlar la ansiedad y consejos para la tesis preparadas por los tutores de Docsity
analisis de data generada por todo
Tipo: Guías, Proyectos, Investigaciones
1 / 12
Esta página no es visible en la vista previa
¡No te pierdas las partes importantes!







Contenido FASE 1 ................................................................................................................ 2
1. Definición del Contexto Organizacional ............................................ 2 2. Establecimiento de Objetivos Estratégicos (SMART) ...................... 2 3. Diseño de indicadores claves de desempeño. (KPIs) ...................... 3 4. Selección de Fuentes y Referencias ................................................... 3 Fase 2 ................................................................................................................ 5 1. Recolección y Validación de Requisitos Técnicos. ........................... 5 2. Exploración Inicial de Datos (EDA Básico) ........................................ 5 3. Chequeos de Consistencia y Calidad .................................................. 6 Fase 3 ................................................................................................................ 7 1. Limpieza de Datos (Data Cleaning) .................................................... 7 2. Estandarización y Formateo ................................................................ 7 3. Ingeniería de Variables ........................................................................ 8 4. Selección de Datos .............................................................................. 10 Referencias....................................................................................................... 11
Caracterización: El presente estudio se enfoca en el análisis y procesamiento de datos industriales, dirigido a una óptima gestión ambiental, específicamente sobre la emisión al aire de fuentes industriales ubicadas a lo largo de la región de la Araucanía.
R Toma de decisiones T Cierre del periodo Objetivo: Implementar una comparativa de emisiones reales frente a los límites permitidos en la normativa nacional y local, generando una reducción en la interpretación de datos hacia el termino de cada semestre y año productivo.
riesgo en sus emisiones al aire, el objetivo es identificar que empresas necesitan una mayor fiscalización. Opera como un semáforo, a continuación, se detalla su clasificación. VERDE Emisión de bajo riesgo, no presenta riesgo para la salud. Fiscalización Anual. AMARILLO Emisión de mediano riesgo, presenta mediano riesgo para la salud. Fiscalización semestral. ROJO Emisión de alto riesgo, altamente riesgoso para la salud. Fiscalización mensual.
emisiones totales anuales disponibles en la data el objetivo es evaluar el riesgo sanitario en el tiempo. Para el cálculo se define la siguiente fórmula:
Emisiones acomuladas
cada fuente contra el resto de las industrias. Para el cálculo se define la
La base de dato seleccionada se obtuvo en el Portal de Datos Abiertos del Estado (Datos.gob), provienen específicamente de la subsecretaría del medio ambiente bajo el nombre de “Emisiones al aire de fuentes puntuales” (Datos.gob, 2024) del año 2024 en formato xlsx. Los datos se obtienen de reportes al RECT por el ministerio de Salud a través del Sistema de Declaraciones de Emisiones de Fuentes Fijas o formulario 138. Posterior a un análisis se concluyo el uso de esta base datos por su calidad en la cantidad de registros y variables, conteniendo más de 300.000 mil datos con 39 columnas de variables, esto otorga al estudio una mayor precisión y un gran espacio para desplazarse dentro de la data al trabajarla.
Imágenes obtenidas del archivo original. https://datosretc.mma.gob.cl/dataset/2733b0f0-428a-4594-afeb- 17780c8d47c1/resource/b82ed4a8-ed64-493a-8159-563abf0bf5ad/download/ ruea-ckan-2024.xlsx
En esta etapa vincular el archivo de datos subido a Drive fue lo primero para luego identificar que en los datos filtrados existen 619 filas y 9 columnas.
“tipofuente”: Hay 9 tipos de fuentes únicos. “ccsecundario”: Se encontraron 5 códigos de clasificación secundarios únicos.
La data se encuentra sin valores nulos, con una columna de float, 4 de int y otras 4 de object. Esto da un margen de trabajo bastante amplio para la realización de este estudio.
La limpieza de Datos Inicial se realizó directamente en Excel. La data solo pertenece a la región de la Araucanía y en rubro relacionado a industrias, además se identificaron las emisiones más peligrosas, con ayuda de Inteligencia Artificial, se pueden categorizar de manera que:
Compuestos Orgánicos Altamente Tóxicos (Riesgo Carcinogénico y Persistencia) incluyen a 999 y 98. Metales Pesados y Metaloides (Neurotoxicidad y Daño Sistémico) incluyen a 93, 250 y 260. Material Particulado y Derivados de Combustión (Riesgo Cardiopulmonar) que incluye a 341 y 998.
El proceso estandarizo los datos a minúsculas sin espacios y además se eliminaron filas repetidas. ID NOMBRE 93 Arsenic 98 Benzene 250 Lead 260 Mercury 341 PM2.5, primary 998 Black Carbon 999 PCDD-F
Este análisis nos proporciona una vista detallada de las principales fuentes de emisión y los contaminantes más significativos presentes en la Data.
Luego de todos los procesos, se puede definir que la columna región no aporta en nada al estudio, ya que ha sido filtrada con posterioridad para que solo se incluyan valores de la novena región. Es por aquello que se elimina de las columnas existentes en la Data. La Data actual cuenta con 8 columnas. Se comprueba que la columna ya no existe.