Docsity
Docsity

Prepara tus exámenes
Prepara tus exámenes

Prepara tus exámenes y mejora tus resultados gracias a la gran cantidad de recursos disponibles en Docsity


Consigue puntos base para descargar
Consigue puntos base para descargar

Gana puntos ayudando a otros estudiantes o consíguelos activando un Plan Premium


Orientación Universidad
Orientación Universidad


Carga de dataset en RStudio, Resúmenes de Inteligencia Artificial

Guía para llevar a cabo la carga y lectura de un dataset en RStudio

Tipo: Resúmenes

2018/2019

Subido el 03/06/2019

laura-vargas-7
laura-vargas-7 🇨🇴

1 documento

1 / 7

Toggle sidebar

Esta página no es visible en la vista previa

¡No te pierdas las partes importantes!

bg1
TRAIN DATASET
1. Limpiar el dataset
1.1. Los datos estaban cortados según la cantidad de atributos de dataset, por esta razón fue
necesario unir la primera fila con la segundo y así sucesivamente. Para lograr esto se usó el
comando =A2&" "&A3 para cada una de las filas del dataset.
Figure SEQ Figure \* ARABIC 1: Antes de combinar las celdas.
Figure SEQ Figure \* ARABIC 2: Después de combinar las celdas.
1.2. Luego se copiaron los datos en otra hoja de Excel para poder usarlos como valores y no
como una fórmula.
Figure SEQ Figure \* ARABIC 3: Datos en nueva hoja.
1.3. Después de esto se usó un macro de Excel (Alt+F11) para eliminar las filas pares, ya que
estos datos estaban mal combinados.
Figure SEQ Figure \* ARABIC 4: Macro para eliminar filas pares.
pf3
pf4
pf5

Vista previa parcial del texto

¡Descarga Carga de dataset en RStudio y más Resúmenes en PDF de Inteligencia Artificial solo en Docsity!

TRAIN DATASET

  1. (^) Limpiar el dataset

1.1. Los datos estaban cortados según la cantidad de atributos de dataset, por esta razón fue necesario unir la primera fila con la segundo y así sucesivamente. Para lograr esto se usó el comando =A2&" "&A3 para cada una de las filas del dataset.

Figure SEQ Figure * ARABIC 1: Antes de combinar las celdas.

Figure SEQ Figure * ARABIC 2: Después de combinar las celdas.

1.2. Luego se copiaron los datos en otra hoja de Excel para poder usarlos como valores y no como una fórmula.

Figure SEQ Figure * ARABIC 3: Datos en nueva hoja.

1.3. Después de esto se usó un macro de Excel (Alt+F11) para eliminar las filas pares, ya que estos datos estaban mal combinados.

Figure SEQ Figure * ARABIC 4: Macro para eliminar filas pares.

Figure SEQ Figure * ARABIC 5: Datos luego de borrar filas pares.}

1.4. Luego de tener solo los datos correctos, se hizo la separación de los datos en columnas diferentes. En la sección DATOS – Texto en columnas, marcamos la opción “Delimitados”- Siguiente, seleccionamos la coma, como separador – Siguiente – Finalizar.

Figure 6: Paso 1.

Figure 9: Dataset final.

  1. Estadísticas de resumen
  2. Histograma

edad <- train_dataset$age

hist(edad)

Figure 10: Histograma de edad.

  1. Bloxplot

Se quiere saber la relación entre la edad y los años de casados que llevan las personas

boxplot(age~has_criminal_records,ylab="Age",xlab="Criminal Records", data = train_dataset)