Docsity
Docsity

Prepara tus exámenes
Prepara tus exámenes

Prepara tus exámenes y mejora tus resultados gracias a la gran cantidad de recursos disponibles en Docsity


Consigue puntos base para descargar
Consigue puntos base para descargar

Gana puntos ayudando a otros estudiantes o consíguelos activando un Plan Premium


Orientación Universidad
Orientación Universidad


Minería de Datos algoritmos, Ejercicios de Minería de Datos

Practica sobre aplicación de algoritmos de minería.

Tipo: Ejercicios

2018/2019

Subido el 10/01/2019

cris-fu
cris-fu 🇪🇨

1 documento

1 / 10

Toggle sidebar

Esta página no es visible en la vista previa

¡No te pierdas las partes importantes!

bg1
CARRERA
DE
INGENIER
ÍA DE
SISTEMAS
2016
UNIDAD
ACADÉ
MA
NU
UNI
VER
SID
pf3
pf4
pf5
pf8
pf9
pfa

Vista previa parcial del texto

¡Descarga Minería de Datos algoritmos y más Ejercicios en PDF de Minería de Datos solo en Docsity!

CARRERA

DE

INGENIER

ÍA DE

SISTEMAS

UNIDAD

ACADÉ

MA

NU

UNI

VER

SID

DATAWAREHOUSE

Un DATAWAREHOUSE se construye a partir de recolectar los datos de los sistemas operacionales y colocarlos en un repositorio corporativo centralizado. Simplificando el problema de acceso a la información y en consecuencia, acelera el proceso de análisis, consultas y el menor tiempo de uso de la información.

Componentes de una arquitectura de Datawarehousing Sistema Fuente (Source System): Denominamos sistema fuente a todo aquel sistema que proporciona datos al datawarehouse para su análisis y explotación. Como ejemplo de un sistema fuente (los sistemas operacionales o transaccionales nombrados anteriormente son sistemas fuente) podemos mencionar a los existentes en los puestos de caja de un supermercado, que se encuentran permanentemente generando registros en bases de datos transaccionales.

Área de Staging (almacenamiento intermedio) de Datos: Como ya se mencionó anteriormente, cuando se quiere analizar el funcionamiento de una empresa o de un área en particular, es necesario obtener datos de distintos sistemas fuente para analizarlos en su conjunto. Volviendo al caso de un supermercado, quizás algún directivo o gerente del mismo desee obtener un reporte que indique cuál ha sido el efecto de publicitar una determinada oferta de un producto por televisión. Para poder lograr esto, puede ser necesario integrar los datos de los sistemas transaccionales de caja (que indiquen cantidad de unidades vendidas de un producto) con los sistemas de marketing (que indiquen cuando y en qué canal apareció la oferta).

En definitiva, la función de un Area de Staging de Datos es recibirlos datos de los sistemas transaccionales al fin de limpiarlos, transformarlos, combinarlos, integrarlos y eliminar datos duplicados preparando los mismos para ser usados en un datawarehouse o data mart.

Transformación : Conjunto de pasos (steps) interconectados por medio de saltos (hops) que procesan

registros a partir de un origen de datos y cuya salida son uno o mas registros. Los steps dentro de una transformación se procesan de manera simultánea y asíncrona.

Trabajo (Job): Conjunto de transformaciones, trabajos y pasos que se ejecutan de manera secuencial. El JOB en sí no maneja registros sino secuencias de tareas. La salida de cada job es un estado exitoso o fallido.

IMPLEMENTACIÒN ETL PENTAHO (SPOON) BD UcacueAcademico Análisis notas estudiantes

  1. CREACIÓN DE LA BASE DE DATOS QUE CONTENDRÁ EL REPOSITORIO Conectarse a la base de datos Postgres, accediendo al administrador pgADMIN, luego accedemos a crear una nueva base de datos, que nos va servir como repositorio.
  2. Creación del repositorio ■ Para crear el repositorio entramos a la carpeta donde descomprimimos el archivo pdi- open-3.1.0-826.zip del PDI y ejecutamos el archivo: ■ spoon.bat o de manera alternativa ■ kettle.exe

■ botón “New”. ■ Se presentará un cuadro de diálogo “Selecciona un catálogo”, donde presionaremos el botón “New”.

■ Llenamos los campos correspondientes a la conexión de base de datos, en nuestro caso a la base de postgres.

  1. Creaciones de las dimensiones ■ Una vez que hemos configurado el catálogo en donde se va almacenar los datos que son extraídos de la base de datos transaccional, empezamos a crear las dimensiones, mismas que se van a generar en el repositorio creado. Para lo cual necesitamos que las consultas en SQL para extraer los datos dela base de datos UcacueAcademico2009 se encuentren ya creadas, para generar las dimensiones y la tabla de hechos. Para crear las transformaciones debemos seguir los siguientes pasos: - Crear conexión a la base de datos se dónde se va extraer los datos

Al finalizar la transformación periodo quedaría de la siguiente manera.

El procedimiento anterior se va replicar para las demás dimensiones: facultad, estudiantes, materia, Periodo, Profesor

Dimensión Tiempo:

Para la dimensión tiempo se les facilitara la transformación que ya se encuentra construida.

  1. Creación tabla de hechos. El proceso para cargar la tabla de hechos es diferente al de las dimensiones lo primero que se hace es arrastrar al lienzo el step “Table Input” de la categoría Input, hacen doble click para que se abra, después se realiza la conexión a la base de datos transaccional que se utiliza, le da un nombre a la trasformación. Fact Notas y crea una consulta SELECT que va a contener las claves primarias de todas las dimensiones, además de las medidas que utilizaran como lo demuestra la siguiente figura.
  2. Actualizar las dimensiones y la tabla de hechos

JOB.- Es un conjunto de tareas para realizar una acción determinada, dispone de varios procesos que son diferentes a las transformaciones y a los saltos. Los Jobs pueden ejecutar una o varias trasformaciones, que permiten dividir los procesos en partes para su posterior ejecución. ETLNOTAS

2. Utilizando la base de datos CorporacionesUnidasGirosRestore, diseñar un modelo

dimensional en la cual analice los datos de giros. Ejecutar el proceso ETL de las

dimensiones y la tabla de hechos, utilizar postgres para la creación del repositorio.