









Prepara tus exámenes y mejora tus resultados gracias a la gran cantidad de recursos disponibles en Docsity
Gana puntos ayudando a otros estudiantes o consíguelos activando un Plan Premium
Prepara tus exámenes
Prepara tus exámenes y mejora tus resultados gracias a la gran cantidad de recursos disponibles en Docsity
Prepara tus exámenes con los documentos que comparten otros estudiantes como tú en Docsity
Encuentra los documentos específicos para los exámenes de tu universidad
Estudia con lecciones y exámenes resueltos basados en los programas académicos de las mejores universidades
Responde a preguntas de exámenes reales y pon a prueba tu preparación
Consigue puntos base para descargar
Gana puntos ayudando a otros estudiantes o consíguelos activando un Plan Premium
Comunidad
Pide ayuda a la comunidad y resuelve tus dudas de estudio
Ebooks gratuitos
Descarga nuestras guías gratuitas sobre técnicas de estudio, métodos para controlar la ansiedad y consejos para la tesis preparadas por los tutores de Docsity
Una guia para el desarrollo de analisis de datos en el software R estudio
Tipo: Apuntes
1 / 15
Esta página no es visible en la vista previa
¡No te pierdas las partes importantes!










Por Ing. Wilson Castro Z. R está disponible de forma gratuita y se puede descargar desde el Comprehensive R Archive Network (CRAN) en su sitio web en http://www.r-project.org/. Los análisis se llevan a cabo en R aplicando funciones en datos de R (almacenados como objetos R). Las funciones de R se almacenan en paquetes. Solo cuando un paquete está cargado, su contenido está disponible. Los paquetes básicos se instalan cuando instala R. Los paquetes adicionales deben instalarse por separado. Una vez que abra R, verá un mensaje: Escriba 1 +1 y presione Enter. Con suerte verá la respuesta 2 devuelta en la siguiente línea. Alternativamente, puede escribir comandos en un script haciendo clic en Archivo/ Nuevo Script. Una vez instale R, también puede instalar un programa que facilite el manejo mediante una interfaz gráfica muy amigable y con una gran disponibilidad de herramientas. Dos excelentes aplicaciones son RStudio y RCmander. Para RStudio, se puede descargar desde su sitio en https://www.rstudio.com/ y el segundo en https://www.rcommander.com / RSTUDIO Al instalar RStudio, puede observar en la interfaz gráfica varios paneles como se muestra en la próxima figura. En el panel superior izquierdo, se pueden crear R scripts, R notebooks y R markdown, este último muy útil para crear documentos especializados como artículos de investigación. El panel inferior es donde se encuentra la consola, que es donde se despliegan los resultados de análisis y de cálculos numéricos o resultados de llamar funciones como median (). En los paneles de la derecha, en el superior se tiene el historial con las variables utilizadas o creadas así como los datasets abiertos, entre otras utilidades. En el panel inferior se muestran gráficos generados, los paquetes o librerías en uso o disponibles, la ayuda y otros archivos.
En RStudio, iniciar un nuevo Script será como se muestra en la siguiente figura: Con sólo R o RStudio, se abrirá una nueva ventana de script. Al escribir comandos en esta ventana, puede enviar lotes de código a la vez resaltando el código y haciendo clic en Run o presionando las teclas Ctrl+Enter.
Si escribe e ingresa el código a continuación, R creará un vector numérico con cinco elementos: c (1,7,12,6,3) La función c combina sus argumentos para formar un vector. Ejemplo. Operaciones entre vectores: Cree los vectores u=(1,3,5) y v=(2,4,6) Realice las operaciones: a) u + v b) v – u c) 2u + 3v d) uv (multiplicación elemento a elemento) e) Producto escalar entre u y v Solución : a) u<-c(1,3,5) v<-c(2,4,6) u+v [1] 3 7 11 b) v-u [1] 1 1 1 c) 2u+3v [1] 8 18 28 d) uv [1] 2 12 30 e) u %*% v #Producto escalar o punto de vectores [,1] [1,] 44 Así, podemos almacenar un vector como un objeto bajo el nombre (identificador) x1, como: x1 = c (1,7,12,6,3) Escriba x1 y presiona enter, y verá el vector x1. Impreso como salida. El código y la salida se muestran a continuación: x 1 7 12 6 3 Podemos identificar elementos del vector x1 colocando corchetes [] después de x1. Por ejemplo x1[2] identificará al 2do. elemento de x1. El código x1[1: 3] identificará los primeros tres elementos de x1 y el código x1[x1> 6] identificará los elementos en x1 mayor que 6. El código y la salida para estos tres ejemplos son:
x1 [2] 7 x1 [1: 3] 1 7 12 x1 [x1> 6] 7 12
longitud 2 como su primer elemento, el vector x1 como su segundo elemento, la matriz y como su tercer elemento, y el dataframe z como su cuarto elemento: > w = list(c("hola", "hasta pronto"),x1,y,z) > w [[1]] [1] "hola" "hasta pronto" [[2]] [1] 1 7 12 6 3 [[3]] x1 x2 x [1,] 1 2 4 [2,] 7 4 18 [3,] 12 6 30 [4,] 6 8 20 [5,] 3 10 16 [[4]] x1 x2 x3 x4 x 1 1 2 4 FALSE azul 2 7 4 18 TRUE verde 3 12 6 30 TRUE rojo 4 6 8 20 FALSE verde 5 3 10 16 FALSE púrpura Los corchetes dobles [[]] se pueden utilizar para acceder a elementos particulares de una lista. Si quiere acceder al dataframe z desde la lista, ingrese el código w [[4]] ya que z es el cuarto elemento de w. Si desea acceder a la primera fila de la tercera columna del cuarto elemento de w de la lista, ingrese el siguiente código: w[[4]] [1,3] Así la 1ra. fila de la 3ra. columna del 4to. elemento (que es z ) de w tiene el valor 4. > w[[4]] [1,3] [1] 4 Y si se quiere que aparezca “Rojo”: > w[[4]] [3,5] [1] rojo Levels: azul púrpura rojo verde Observe que de paso, R da los niveles de esta columna. PAQUETES, LIBRERÍAS Y DATOS Los paquetes ( packages en Inglés) son colecciones de funciones de R, datos y código compilado en un formato bien definido. Los directorios donde se almacenan los paquetes se llaman librerías ( library ). Para ver qué paquetes están instalados en su programa R, escriba y dé Enter con el comando
library (). Para ejecutar muchas de las funciones necesarias para realiza un análisis específico, por ejemplo de supervivencia en Bioestadística, necesitará instalar el paquete correspondiente (por ejemplo el paquete survivival ). Para instalar un paquete especifico (como el de supervivencia), directamente en R haga clic en Paquetes/ Instalar Paquete. Verá un encabezado llamado espejo CRAN con una lista de muchos países diferentes bajo ese título. Haga clic en uno de estos (por ejemplo, EE. UU. (AZ)) y luego desplácese abajo y haga clic en el paquete de su interés (por ejemplo Survivial) y luego haga clic en Aceptar. El paquete con sus muchas funciones específicas ahora debe ser instalado. En RStudio el proceso es más directo. Escriba en la consola: >library(nombre_paquete) Por ejemplo library(survival) y presione enter, y el paquete estará listo para su uso. Como prueba, si instaló el paquete survival, escriba la palabra kidney y pulsa enter. Un conjunto de datos o dataset llamado kidney (que es parte del paquete Survival) debe imprimirse en su pantalla. Una vez que el paquete de su interés está instalado, no tiene que reinstalarlo en cada sesión. Sin embargo, tendrá que escribir library (nombre_paquete) cada sesión antes de ejecutar las funciones de ese paquete o librería. Ejercicios. Describa la incorporación del conjunto de datos IRIS en la lbrería MASS. Que variables hay en este conjunto de datos? ¿Cuántos casos hay en este conjunto de datos? ¿Cuántas variables? Para cada variable, identifique su tipo de datos (por ejemplo, categórico, discreto). ¿Hay NA en el conjunto de datos?
A menudo es útil extraer los individuos (casos) de un conjunto de datos que tienen características específicas. Se logra esto a través de comandos con condicionales. Considere este ejemplo con el famoso dataset iris que contiene información de plantas: Estos comandos producen una serie lógica TRUE y FALSE, que indica si una planta es virginica o no. Es importante escribirlos exactamente según los conjuntos de datos. Supongamos que queremos extraer solo los datos de las especies VIRGINICA en la muestra. Podemos usar la función de subset de R para hacerlo. Por ejemplo, el comando: mdata <- subset(iris, iris$Species == ‘virginica’) este comando crea nuevos datos en mdata que contiene información solamente de Virginica. Ejemplos. De la especie VIRGINICA, tome los datos de longitud de pétalo entre 5.2 y 5.5: mdata=subset(iris,iris$Species=="virginica") subset(mdata,mdata$Petal.Length<=5.5 & mdata$Petal.Length>=5.2) #Trae entre 5.2 y 5.5.
Cree un nuevo objeto llamado Setosa que contenga todas las observaciones sobre las especies de Setosa que tienen longitud del pétalo según: a) Longitud de pétalo > 6.0. Setosa<-subset(iris,iris$Species=="setosa" & iris$Petal.Length> 6 ) El retultado es vacío porque no hay datos con estas características, como se puede observar al hacer un View(iris).
Setosa<-subset(iris,iris$Species=="setosa" & iris$Petal.Length>1.5) Setosa2<-subset(iris,iris$Species=="setosa" & iris$Petal.Length<1.3) Ahora observe otro ejemplo en que aparecen los datos vacío con cero, y esto obviamente afecta el resumen de estadísticos (summary()). Luego se deben “arreglar estos datos con NA en vez de cero. Debe instalar la librería faraway si quiere correr el ejemplo.
data(pima, package="faraway") head(pima) View(pima) #Muestra los datos del package pima (Se muestra la imagen a continuación):
Observe como los estadísticos reales ahora son muy diferentes. Esto es algo que el científico de datos debe hacer con frecuencia. GRAFICOS El paquete o librería básica de R contiene funciones para graficar como plot(), hist(), boxplot(), barplot() , etc. Para abrir la ayuda en R sobre cualquiera de estas funciones, con lo cual se pueden observer los parámetros requeridos, use ?nombre_funcion , como en ?barplot Cree un vector simulando 1000 números aleatorios dados por la distribución normal con media μ= 21 y desviación estándar σ = 3, que bien podría representar las edades de 1000 estudiantes universitarios de la U.S.B., y luego cree gráficos como el histograma de estos datos creados: edaduniv<-rnorm(1000,mean=21,sd=3) hist(edaduniv,main="Hist.de la Dist. de Edades est. Univ. en la U.S.B.") boxplot(edaduniv,main="Dist. de Edades est. Univ. en la U.S.B.")
Ahora si se grafica con plot, se genera un gráfico de dispersión, pues se grafica cada dato: plot(edaduniv,main="Dist. de Edades est. Univ. en la U.S.B.") Ahora el barplot o gráfica de barras, se la aplicamos a la matriz z de los vectores x1, x2 y x según: x1 = c (5,10,12,6,3) x2 = 2 * (1: 5) x3 = 2 * x1 - x y = cbind (x1, x2, x3) barplot(y)