Docsity
Docsity

Prepara tus exámenes
Prepara tus exámenes

Prepara tus exámenes y mejora tus resultados gracias a la gran cantidad de recursos disponibles en Docsity


Consigue puntos base para descargar
Consigue puntos base para descargar

Gana puntos ayudando a otros estudiantes o consíguelos activando un Plan Premium


Orientación Universidad
Orientación Universidad


Practica 4, Ejercicios de Estadística

Asignatura: Estadistica, Profesor: Pilar , Carrera: Ingeniería Telemática, Universidad: UPCT

Tipo: Ejercicios

2012/2013

Subido el 11/09/2013

isagon94
isagon94 🇪🇸

4

(1)

1 documento

1 / 9

Toggle sidebar

Esta página no es visible en la vista previa

¡No te pierdas las partes importantes!

bg1
ESTUDIO DESCRIPTIVO DE UN CONJUNTO DE DATOS
Veamos cómo podemos obtener las principales herramientas vistas en clase para el análisis descriptivo
de un conjunto de datos mediante el uso del R.
Representación gráfica:
EJEMPLO 1:
La primera medición razonablemente precisa de la velocidad de la luz fue realizada por A. Michelson y
Simon Newcomb. Los datos corresponden a 66 mediciones hechas por Newcomb entre Julio y
Septiembre de 1882. Newcomb midió el tiempo en segundos que una
señal de luz tardaba en desplazarse desde su laboratorio sobre el rio Potomac a un espejo en
la base del monumento a Washington y volver (una distancia total de 7400 metros). Los datos están
expresados en nanosegundos y en diferencias respecto al valor 24800 de tal forma: datos=tiempo(en
nanosegundos)-24800 (fichero newcomb.dat)
28
26
33
24
34
27
16
40
-2
29
22
24
21
25
30
23
29
31
19
24
20
36
32
36
28
25
21
28
29
37
25
28
26
30
32
36
26
30
22
36
23
27
27
28
27
31
27
26
33
26
32
32
24
39
28
24
25
32
35
29
27
28
29
16
23
-44
Nota: Para Cargar los datos usamos:
newcomb.dat<-scan("C:/Users/Héctor/Desktop/Nueva carpeta (4)/newcomb.dat")
#añadimos el -44 que falta
newcomb.dat<-c(newcomb.dat,-44)
pf3
pf4
pf5
pf8
pf9

Vista previa parcial del texto

¡Descarga Practica 4 y más Ejercicios en PDF de Estadística solo en Docsity!

ESTUDIO DESCRIPTIVO DE UN CONJUNTO DE DATOS

Veamos cómo podemos obtener las principales herramientas vistas en clase para el análisis descriptivo de un conjunto de datos mediante el uso del R.

Representación gráfica:

EJEMPLO 1:

La primera medición razonablemente precisa de la velocidad de la luz fue realizada por A. Michelson y Simon Newcomb. Los datos corresponden a 66 mediciones hechas por Newcomb entre Julio y Septiembre de 1882. Newcomb midió el tiempo en segundos que una señal de luz tardaba en desplazarse desde su laboratorio sobre el rio Potomac a un espejo en la base del monumento a Washington y volver (una distancia total de 7400 metros). Los datos están expresados en nanosegundos y en diferencias respecto al valor 24800 de tal forma: datos=tiempo(en nanosegundos)-24800 (fichero newcomb.dat) 28 26 33 24 34 27 16 40 -2 29 22 24 21 25 30 23 29 31 19 24 20 36 32 36 28 25 21 28 29 37 25 28 26 30 32 36 26 30 22 36 23 27 27 28 27 31 27 26 33 26 32 32 24 39 28 24 25 32 35 29 27 28 29 16 23 -

Nota: Para Cargar los datos usamos: newcomb.dat<-scan("C:/Users/Héctor/Desktop/Nueva carpeta (4)/newcomb.dat") #añadimos el -44 que falta newcomb.dat<-c(newcomb.dat,-44)

EJERCICIOS:

1.- Calcula el histograma de la distribución:

hist(newcomb.dat, breaks=18)

Se trata de una distribución simétrica ignorando los dos valores negativos que se consideran atípicos. No tiene colas largas y sólo tiene un máximo, así que lo podemos considerar un histograma unimodal. No se observa dispersión de datos

2.- Calcula el diagrama de cajas. ¿Existen valores atípicos? Da el valor de los cuartiles.

boxplot(newcomb.dat)

Los valores atipicos se encuentran en los valores (-2,-44)

quantile(newcomb.dat)

Q1: 24 Q2: 27 Q3: 31

EJERCICIOS:

1.- Análisis descriptivo de cada una de las variables. Para hacer un estudio descriptivo calculamos el histograma de la variable x: hist(x, seq(1.6, 5.2, 0.2), prob=F)

¿Qué observas? Se ve una distribución de datos bimodal, dado que se ven dos grupos bien diferenciados por eso debemos separar los grupos y analizar sus datos por separado.

Vamos a separar los valores de la variable x en dos grupos: par(mfrow=c(2,2)) hist(x,seq(1.6, 5.2, 0.2), prob=F) hist(x[x<3.0]) hist(x[x>=3.0])

En el primer histograma (x < 3) observamos que la distribución tiene cola larga a la derecha. En el segundo histograma (x >= 3) se observa un histograma aproximadamente simétrico, unimodal con colas cortas a sus lados.

Si analizamos la variable y: _par(mfrow=c(2,2)) hist(y)

Sólo el intervalo menor que 65

hist(y[y<=65])_

Se observa un primer histograma bimodal (y) que tras descomponerlo en dos histogramas podemos analizarla mejor. En el histograma (y<= 65) apreciamos que la composición ya no es tan simétrica como en principio lo era. # Sólo el intervalo mayor que 65 hist(y[y>65]) hist(y[y>65],breaks=3)

En el otro histograma (y > 65) si tenemos un histograma simétrico. También observamos que al disminuir el número de breaks del histograma, se vuelve cada vez menos preciso a cada valor, pero sí que nos podemos ver mucho más nítida la forma del histograma.

2.- Estudio conjunto de ambas variables. Representamos la nube de puntos: plot(x,y)

¿Qué observas? Se aprecia que existe una relación lineal entre ambas variables. La asociación es positiva cuando “x” aumenta, “y” también aumenta.

Vamos a ajustar una recta mediante el método de mínimos cuadrados: #ajustamos una recta recta<-lm(x~y) summary(recta)

abline(recta)

plot(x,recta$fitted)

cor(x,y)

El coeficiente de determinación nos diceque este ajuste es bueno porque es un número muy cercano a 1