Prepara tus exámenes
Consigue puntos
Orientación Universidad
Vende en Docsity
Docsity AI

Prepara tus exámenes

Prepara tus exámenes y mejora tus resultados gracias a la gran cantidad de recursos disponibles en Docsity

Consigue puntos base para descargar

Gana puntos ayudando a otros estudiantes o consíguelos activando un Plan Premium

Orientación Universidad

Vende en Docsity

Docsity AI

Inicia sesión Regístrate

Prepara tus exámenes

Prepara tus exámenes y mejora tus resultados gracias a la gran cantidad de recursos disponibles en Docsity

Busca documentos

Prepara tus exámenes con los documentos que comparten otros estudiantes como tú en Docsity

Busca tu universidad

Encuentra los documentos específicos para los exámenes de tu universidad

Video Cursos

Estudia con lecciones y exámenes resueltos basados en los programas académicos de las mejores universidades

Quiz

Responde a preguntas de exámenes reales y pon a prueba tu preparación

Docsity AINEW

Resume tus documentos, hazles preguntas, conviértelos en quiz y mapas conceptuales

Ver preguntas

Despeja tus dudas leyendo las respuestas a las preguntas que realizaron otros estudiantes como tú

Consigue puntos base para descargar

Gana puntos ayudando a otros estudiantes o consíguelos activando un Plan Premium

Compartir documentos

20 Puntos

Por cada documento subido

Responde a las preguntas

5 Puntos

por cada respuesta dada (máx. 1 al día)

Todos los modos para conseguir puntos gratis

Consigue puntos de inmediato

Elige un plan Premium con todos los puntos que necesitas.

Oportunidades de estudio

Elige tu próximo programa de estudio

Ponte en contacto inmediatamente con las mejores universidades del mundo. Busca entre miles de universidades en todo el mundo. Busca entre miles de universidades partner oficiales

Comunidad

Pregúntale a la comunidad

Pide ayuda a la comunidad y resuelve tus dudas de estudio

Ebooks gratuitos

¡Nuestros e-books salva-estudiantes!

Descarga nuestras guías gratuitas sobre técnicas de estudio, métodos para controlar la ansiedad y consejos para la tesis preparadas por los tutores de Docsity

ANALISIS DE DATOS EN R, Apuntes de Estadística Matemática

Universidad de San Buenaventura (USB) - Cali Estadística Matemática

Una guia para el desarrollo de analisis de datos en el software R estudio

Tipo: Apuntes

2018/2019

Subido el 26/04/2019

deividb2 🇨🇴

1 documento

1 / 15

Esta página no es visible en la vista previa

¡No te pierdas las partes importantes!

SOFTWARE PARA ANÁLISIS DE DATOS R

Por Ing. Wilson Castro Z.

R está disponible de forma gratuita y se puede descargar desde el Comprehensive R Archive

Network (CRAN) en su sitio web en http://www.r-project.org/. Los análisis se llevan a cabo

en R aplicando funciones en datos de R (almacenados como objetos R).

Las funciones de R se almacenan en paquetes. Solo cuando un paquete está cargado, su

contenido está disponible. Los paquetes básicos se instalan cuando instala R.

Los paquetes adicionales deben instalarse por separado.

Una vez que abra R, verá un mensaje: Escriba 1+1 y presione Enter. Con suerte verá la respuesta

2 devuelta en la siguiente línea. Alternativamente, puede escribir comandos en un

script haciendo clic en Archivo/ Nuevo Script.

Una vez instale R, también puede instalar un programa que facilite el manejo mediante una

interfaz gráfica muy amigable y con una gran disponibilidad de herramientas. Dos excelentes

aplicaciones son RStudio y RCmander. Para RStudio, se puede descargar desde su sitio en

https://www.rstudio.com/ y el segundo en https://www.rcommander.com/

RSTUDIO

Al instalar RStudio, puede observar en la interfaz gráfica varios paneles como se muestra

en la próxima figura.

En el panel superior izquierdo, se pueden crear R scripts, R notebooks y R markdown, este último

muy útil para crear documentos especializados como artículos de investigación.

El panel inferior es donde se encuentra la consola, que es donde se despliegan los resultados de

análisis y de cálculos numéricos o resultados de llamar funciones como median(). En los paneles

de la derecha, en el superior se tiene el historial con las variables utilizadas o creadas así como

los datasets abiertos, entre otras utilidades. En el panel inferior se muestran gráficos generados,

los paquetes o librerías en uso o disponibles, la ayuda y otros archivos.

Descubre Apuntes de Estadística Matemática Universidad de San Buenaventura (USB) - Cali

Documentos relacionados

Estadística: Origenes, Tipos de Datos y Análisis de Datos - Prof. Aragón

Preferencia de estudios en línea vs. presenciales en Universidad San Buenaventura: análisi

Introducción al IOS de CISCO y Gestión de Redes de Datos - Prof. Reyes

Tabla z Para estudiantes de ingenieria

Trabajo de Bioestadística: Análisis de Datos Médicos en Población Vulnerable

biblioteca para estudiar

Análisis estadístico Beck Adultos Mayores

Cómo el marketing digital impacta el posicionamiento de marca de ATOQUIM en Cali

Regresión Lineal: Temp. vs Azúcar y Costos de Publicidad vs Ventas

Ejemplo de cálculos estatísticos descriptivos en Universidad de San Buenaventura

Datos de Medidas en Arquitectura: Ejes X, Y y Z y Superficies

Buenas practicas en el desarrollo de software

Vista previa parcial del texto

¡Descarga ANALISIS DE DATOS EN R y más Apuntes en PDF de Estadística Matemática solo en Docsity!

SOFTWARE PARA ANÁLISIS DE DATOS R

Por Ing. Wilson Castro Z. R está disponible de forma gratuita y se puede descargar desde el Comprehensive R Archive Network (CRAN) en su sitio web en http://www.r-project.org/. Los análisis se llevan a cabo en R aplicando funciones en datos de R (almacenados como objetos R). Las funciones de R se almacenan en paquetes. Solo cuando un paquete está cargado, su contenido está disponible. Los paquetes básicos se instalan cuando instala R. Los paquetes adicionales deben instalarse por separado. Una vez que abra R, verá un mensaje: Escriba 1 +1 y presione Enter. Con suerte verá la respuesta 2 devuelta en la siguiente línea. Alternativamente, puede escribir comandos en un script haciendo clic en Archivo/ Nuevo Script. Una vez instale R, también puede instalar un programa que facilite el manejo mediante una interfaz gráfica muy amigable y con una gran disponibilidad de herramientas. Dos excelentes aplicaciones son RStudio y RCmander. Para RStudio, se puede descargar desde su sitio en https://www.rstudio.com/ y el segundo en https://www.rcommander.com / RSTUDIO Al instalar RStudio, puede observar en la interfaz gráfica varios paneles como se muestra en la próxima figura. En el panel superior izquierdo, se pueden crear R scripts, R notebooks y R markdown, este último muy útil para crear documentos especializados como artículos de investigación. El panel inferior es donde se encuentra la consola, que es donde se despliegan los resultados de análisis y de cálculos numéricos o resultados de llamar funciones como median (). En los paneles de la derecha, en el superior se tiene el historial con las variables utilizadas o creadas así como los datasets abiertos, entre otras utilidades. En el panel inferior se muestran gráficos generados, los paquetes o librerías en uso o disponibles, la ayuda y otros archivos.

En RStudio, iniciar un nuevo Script será como se muestra en la siguiente figura: Con sólo R o RStudio, se abrirá una nueva ventana de script. Al escribir comandos en esta ventana, puede enviar lotes de código a la vez resaltando el código y haciendo clic en Run o presionando las teclas Ctrl+Enter.

VECTORES

Si escribe e ingresa el código a continuación, R creará un vector numérico con cinco elementos: c (1,7,12,6,3) La función c combina sus argumentos para formar un vector. Ejemplo. Operaciones entre vectores: Cree los vectores u=(1,3,5) y v=(2,4,6) Realice las operaciones: a) u + v b) v – u c) 2u + 3v d) uv (multiplicación elemento a elemento) e) Producto escalar entre u y v Solución : a) u<-c(1,3,5) v<-c(2,4,6) u+v [1] 3 7 11 b) v-u [1] 1 1 1 c) 2u+3v [1] 8 18 28 d) uv [1] 2 12 30 e) u %*% v #Producto escalar o punto de vectores [,1] [1,] 44 Así, podemos almacenar un vector como un objeto bajo el nombre (identificador) x1, como: x1 = c (1,7,12,6,3) Escriba x1 y presiona enter, y verá el vector x1. Impreso como salida. El código y la salida se muestran a continuación: x 1 7 12 6 3 Podemos identificar elementos del vector x1 colocando corchetes [] después de x1. Por ejemplo x1[2] identificará al 2do. elemento de x1. El código x1[1: 3] identificará los primeros tres elementos de x1 y el código x1[x1> 6] identificará los elementos en x1 mayor que 6. El código y la salida para estos tres ejemplos son:

x1 [2] 7 x1 [1: 3] 1 7 12 x1 [x1> 6] 7 12

El operador : (usado en el segundo ejemplo) crea una secuencia de enteros incrementados en

A continuación, creamos otros cuatro vectores llamados x2, x3, x4 y x5: x2 = 2 * (1: 5) x3 = 2 * x1 + x x4 = x1> 6 x5 = c ("azul", "verde", "rojo", "verde", "púrpura") El código x2 = 2 * (1: 5) crea el vector 2, 4, 6, 8 y 10 que llamamos x2. El vector x3 resulta de operaciones aritméticas de x1 y x2. Los vectores x1, x2 y x3 son todos numéricos. Si aplica la función mode en x1 (es decir, escriba mode (x1) y presione Enter), devuelve la palabra "numeric" como salida. El vector x4 es un vector lógico. La función mode devolverá la palabra "logical" si envía el comando mode(x4). Los elementos de un vector de modo lógico son "VERDADERO" o "FALSO". Ingrese el código x4 para desplegar este vector (observe la salida abajo): x FALSO VERDADERO VERDADERO FALSO FALSO Los elementos segundo y tercero de x4 son VERDADEROS porque estos son mayores que 6. El vector x5 es un vector de caracteres. R distingue entre mayúsculas y minúsculas, por lo que nombrar el vector x5 no es lo mismo que nombrarlo X5. MATRICES Podemos crear una matriz numérica (llamada y ) usando los vectores x1, x2 y x3 como columnas de la matriz aplicando la función cbind (de column bind - unir columnas-): y = cbind (x1, x2, x3) Ingrese el código class(y) y se devolverá la palabra "matrix" como salida. Ingrese mode(y) y se devolverá la palabra "numeric" ya que y es una matriz numérica. No se pueden mezclar vectores numéricos y de caracteres en una matriz. Digite y seguido de presionar Enter , y la matriz se imprimirá (como se muestra a continuación):

longitud 2 como su primer elemento, el vector x1 como su segundo elemento, la matriz y como su tercer elemento, y el dataframe z como su cuarto elemento: > w = list(c("hola", "hasta pronto"),x1,y,z) > w [[1]] [1] "hola" "hasta pronto" [[2]] [1] 1 7 12 6 3 [[3]] x1 x2 x [1,] 1 2 4 [2,] 7 4 18 [3,] 12 6 30 [4,] 6 8 20 [5,] 3 10 16 [[4]] x1 x2 x3 x4 x 1 1 2 4 FALSE azul 2 7 4 18 TRUE verde 3 12 6 30 TRUE rojo 4 6 8 20 FALSE verde 5 3 10 16 FALSE púrpura Los corchetes dobles [[]] se pueden utilizar para acceder a elementos particulares de una lista. Si quiere acceder al dataframe z desde la lista, ingrese el código w [[4]] ya que z es el cuarto elemento de w. Si desea acceder a la primera fila de la tercera columna del cuarto elemento de w de la lista, ingrese el siguiente código: w[[4]] [1,3] Así la 1ra. fila de la 3ra. columna del 4to. elemento (que es z ) de w tiene el valor 4. > w[[4]] [1,3] [1] 4 Y si se quiere que aparezca “Rojo”: > w[[4]] [3,5] [1] rojo Levels: azul púrpura rojo verde Observe que de paso, R da los niveles de esta columna. PAQUETES, LIBRERÍAS Y DATOS Los paquetes ( packages en Inglés) son colecciones de funciones de R, datos y código compilado en un formato bien definido. Los directorios donde se almacenan los paquetes se llaman librerías ( library ). Para ver qué paquetes están instalados en su programa R, escriba y dé Enter con el comando

library (). Para ejecutar muchas de las funciones necesarias para realiza un análisis específico, por ejemplo de supervivencia en Bioestadística, necesitará instalar el paquete correspondiente (por ejemplo el paquete survivival ). Para instalar un paquete especifico (como el de supervivencia), directamente en R haga clic en Paquetes/ Instalar Paquete. Verá un encabezado llamado espejo CRAN con una lista de muchos países diferentes bajo ese título. Haga clic en uno de estos (por ejemplo, EE. UU. (AZ)) y luego desplácese abajo y haga clic en el paquete de su interés (por ejemplo Survivial) y luego haga clic en Aceptar. El paquete con sus muchas funciones específicas ahora debe ser instalado. En RStudio el proceso es más directo. Escriba en la consola: >library(nombre_paquete) Por ejemplo library(survival) y presione enter, y el paquete estará listo para su uso. Como prueba, si instaló el paquete survival, escriba la palabra kidney y pulsa enter. Un conjunto de datos o dataset llamado kidney (que es parte del paquete Survival) debe imprimirse en su pantalla. Una vez que el paquete de su interés está instalado, no tiene que reinstalarlo en cada sesión. Sin embargo, tendrá que escribir library (nombre_paquete) cada sesión antes de ejecutar las funciones de ese paquete o librería. Ejercicios. Describa la incorporación del conjunto de datos IRIS en la lbrería MASS. Que variables hay en este conjunto de datos? ¿Cuántos casos hay en este conjunto de datos? ¿Cuántas variables? Para cada variable, identifique su tipo de datos (por ejemplo, categórico, discreto). ¿Hay NA en el conjunto de datos?

SELECCIONAR SUBCONJUNTOS DE DATOS DE UN DATASET

A menudo es útil extraer los individuos (casos) de un conjunto de datos que tienen características específicas. Se logra esto a través de comandos con condicionales. Considere este ejemplo con el famoso dataset iris que contiene información de plantas: Estos comandos producen una serie lógica TRUE y FALSE, que indica si una planta es virginica o no. Es importante escribirlos exactamente según los conjuntos de datos. Supongamos que queremos extraer solo los datos de las especies VIRGINICA en la muestra. Podemos usar la función de subset de R para hacerlo. Por ejemplo, el comando: mdata <- subset(iris, iris$Species == ‘virginica’) este comando crea nuevos datos en mdata que contiene información solamente de Virginica. Ejemplos. De la especie VIRGINICA, tome los datos de longitud de pétalo entre 5.2 y 5.5: mdata=subset(iris,iris$Species=="virginica") subset(mdata,mdata$Petal.Length<=5.5 & mdata$Petal.Length>=5.2) #Trae entre 5.2 y 5.5.

Cree un nuevo objeto llamado Setosa que contenga todas las observaciones sobre las especies de Setosa que tienen longitud del pétalo según: a) Longitud de pétalo > 6.0. Setosa<-subset(iris,iris$Species=="setosa" & iris$Petal.Length> 6 ) El retultado es vacío porque no hay datos con estas características, como se puede observar al hacer un View(iris).

Se realizan otras consultas como <1.6 ya que valores >6 no existen para Setosa.

Setosa<-subset(iris,iris$Species=="setosa" & iris$Petal.Length>1.5) Setosa2<-subset(iris,iris$Species=="setosa" & iris$Petal.Length<1.3) Ahora observe otro ejemplo en que aparecen los datos vacío con cero, y esto obviamente afecta el resumen de estadísticos (summary()). Luego se deben “arreglar estos datos con NA en vez de cero. Debe instalar la librería faraway si quiere correr el ejemplo.

Ejercicios del Faraway

data(pima, package="faraway") head(pima) View(pima) #Muestra los datos del package pima (Se muestra la imagen a continuación):

Observe como los estadísticos reales ahora son muy diferentes. Esto es algo que el científico de datos debe hacer con frecuencia. GRAFICOS El paquete o librería básica de R contiene funciones para graficar como plot(), hist(), boxplot(), barplot() , etc. Para abrir la ayuda en R sobre cualquiera de estas funciones, con lo cual se pueden observer los parámetros requeridos, use ?nombre_funcion , como en ?barplot Cree un vector simulando 1000 números aleatorios dados por la distribución normal con media μ= 21 y desviación estándar σ = 3, que bien podría representar las edades de 1000 estudiantes universitarios de la U.S.B., y luego cree gráficos como el histograma de estos datos creados: edaduniv<-rnorm(1000,mean=21,sd=3) hist(edaduniv,main="Hist.de la Dist. de Edades est. Univ. en la U.S.B.") boxplot(edaduniv,main="Dist. de Edades est. Univ. en la U.S.B.")

Ahora si se grafica con plot, se genera un gráfico de dispersión, pues se grafica cada dato: plot(edaduniv,main="Dist. de Edades est. Univ. en la U.S.B.") Ahora el barplot o gráfica de barras, se la aplicamos a la matriz z de los vectores x1, x2 y x según: x1 = c (5,10,12,6,3) x2 = 2 * (1: 5) x3 = 2 * x1 - x y = cbind (x1, x2, x3) barplot(y)