Docsity
Docsity

Prepara tus exámenes
Prepara tus exámenes

Prepara tus exámenes y mejora tus resultados gracias a la gran cantidad de recursos disponibles en Docsity


Consigue puntos base para descargar
Consigue puntos base para descargar

Gana puntos ayudando a otros estudiantes o consíguelos activando un Plan Premium


Orientación Universidad
Orientación Universidad


Análisis de frecuencias de variables cualitativas con R-Commander, Apuntes de Estadística

Cómo construir tablas de doble entrada para analizar la distribución de frecuencias de dos variables cualitativas, como sexo y actividad, usando el software r-commander. Se detalla el proceso de segmentación de variables numéricas en clases de intervalo, la creación de tablas de frecuencias absolutas conjuntas y la visualización de los resultados mediante diagramas de barras desapiladas. Además, se presentan opciones adicionales como el diagrama de caja y bigotes por grupos y la matriz de diagramas de dispersión.

Tipo: Apuntes

2012/2013

Subido el 22/10/2013

sitoperez
sitoperez 🇪🇸

4.3

(12)

27 documentos

1 / 12

Toggle sidebar

Esta página no es visible en la vista previa

¡No te pierdas las partes importantes!

bg1
Grado en Ciencia y Tecnología de los Alimentos M. Iniesta
Universidad de Murcia
Práctica 3:
Descripción bidimensional de datos
La siguiente práctica la realizamos con el chero
Pulse.rda
que contiene los datos
de pulsaciones (
Pulse1
) de un conjunto de individuos. La variable
Activity
indica el
nivel de actividad deportiva que realizan de manera habitual. La variable
Ran
indica
aquellos individuos que después de lanzar una moneda al aire y obtener cara estuvieron
corriendo durante 5 minutos. A todos los individuos (corrieran o no) se les volvió a medir
las pulsaciones (Pulse2). Además contiene los datos de sus pesos en libras (
Weight
) y
sus alturas en pulgadas (
Height
).
Además, usaremos el chero
Mundo.rda
.
1. Tablas de doble entrada
R-Commander
dispone de la opción para construir tablas de doble entrada para
una pareja de variables cualitativas, o en general, para parejas de factores. Además es
posible construir las distribuciones de frecuencias condicionadas por las o por colum-
nas. Las opciones se encuentran en
Tabla de doble entrada
del menú
Tabla de
contingencia
de
Estadísticos
.
Práctica 1.1 (Tabla de contingencia)
1. Realizar la tabla de doble entrada que
se encuentra en el menú
Tablas de contingencia
de
Estadísticos
, usando
Sex
como variable la y
Activity
como variable columna.
La opción señalada por defecto presenta las frecuencias absolutas de la tabla de
doble entrada. Señala la opción
Porcentajes totales
. Observa las frecuencias
conjuntas e interpreta su signicado.
2. Realiza las distribuciones de frecuencias de la variable
Actividad
condicionada a
cada uno de los sexos (distribuciones por las). Identica las dos distribuciones de
frecuencias que se generan.
3. Realiza las distribuciones de frecuencias de la variable
Sexo
condicionada a cada
una de las modalidades de la variable
Actividad
(distribuciones por columnas).
Identica las tres distribuciones de frecuencias que se generan.
4. Responde a las siguientes cuestiones:
a
) El número de individuos de la muestra que son hombres y realizan la actividad
B.
b
) El porcentaje que supone la frecuencia anterior.
c
) El porcentaje de individuos que practican la actividad B.
d
) El porcentaje de mujeres de la muestra.
Práctica 3 Curso 2011-12 Página: 1
pf3
pf4
pf5
pf8
pf9
pfa

Vista previa parcial del texto

¡Descarga Análisis de frecuencias de variables cualitativas con R-Commander y más Apuntes en PDF de Estadística solo en Docsity!

Grado en Ciencia y Tecnología de los Alimentos Universidad de Murcia

Práctica 3:

Descripción bidimensional de datos

La siguiente práctica la realizamos con el chero Pulse.rda que contiene los datos de pulsaciones (Pulse1) de un conjunto de individuos. La variableActivity indica el nivel de actividad deportiva que realizan de manera habitual. La variable Ran indica aquellos individuos que después de lanzar una moneda al aire y obtener cara estuvieron corriendo durante 5 minutos. A todos los individuos (corrieran o no) se les volvió a medir las pulsaciones (Pulse2). Además contiene los datos de sus pesos en libras (Weight) y sus alturas en pulgadas (Height). Además, usaremos el chero Mundo.rda.

1. Tablas de doble entrada

R-Commander dispone de la opción para construir tablas de doble entrada para una pareja de variables cualitativas, o en general, para parejas de factores. Además es posible construir las distribuciones de frecuencias condicionadas por las o por colum- nas. Las opciones se encuentran en Tabla de doble entrada del menú Tabla de contingencia de Estadísticos.

Práctica 1.1 (Tabla de contingencia) 1. Realizar la tabla de doble entrada que se encuentra en el menú Tablas de contingencia de Estadísticos, usando Sex como variable la y Activity como variable columna. La opción señalada por defecto presenta las frecuencias absolutas de la tabla de doble entrada. Señala la opción Porcentajes totales. Observa las frecuencias conjuntas e interpreta su signicado.

  1. Realiza las distribuciones de frecuencias de la variable Actividad condicionada a cada uno de los sexos (distribuciones por las). Identica las dos distribuciones de frecuencias que se generan.
  2. Realiza las distribuciones de frecuencias de la variable Sexo condicionada a cada una de las modalidades de la variable Actividad (distribuciones por columnas). Identica las tres distribuciones de frecuencias que se generan.
  3. Responde a las siguientes cuestiones:

a) El número de individuos de la muestra que son hombres y realizan la actividad B. b) El porcentaje que supone la frecuencia anterior. c) El porcentaje de individuos que practican la actividad B. d) El porcentaje de mujeres de la muestra.

Grado en Ciencia y Tecnología de los Alimentos Universidad de Murcia

e) El porcentaje que practican la actividad B en el conjunto de hombres. f) El porcentaje de hombres dentro de los que practican la actividad B.

  1. Indica qué tipo de frecuencia o porcentaje (conjunto, marginal o condicionado) es cada uno de los del apartado anterior.

Práctica 1.2 Mediante la opción Datos ->Modificar variables del conjunto de datos activo ->Segmentar variable numérica podemos crear una clasicación de los datos de una variable cuantitativa continua en clases de intervalo. Dicha variable segmentada en clases de intervalo puede ser usada para intervenir en una tabla de doble entrada. Por ejemplo, si quisiéramos hacer una tabla de frecuencias de la pareja de variables (Height, Weight) lo único que podemos hacer es mediante agrupaciones en clases de intervalo, al igual que hacíamos en el caso de una única variable cuantitativa continua. Usamos la opción Datos ->Modificar variables del conjunto de datos activo ->Segmentar variable numérica para crear la variable Height2 y Weight2 de forma que Height2 establece 3 niveles de altura H1, H2 y H3 de Height y Weight2 establece 3 niveles de peso W1, W2 y W3 de Weight. (En la imagen siguiente aparece para la variable Height)

Una vez que las dos variables están segmentadas en clases de intervalos podemos usarlas para llevar a cabo la tabla de frecuencias de doble entrada.

  1. Realiza la tabla de doble entrada de la pareja de variables (Height2, Weight2). ¾Qué porcentaje de individuos de la muestra tienen el mismo nivel de peso y altura?.
  2. Realiza la tabla de distribuciones de frecuencias por las. ¾Cuál es la distribución de frecuencias de la variable Weight2 (en porcentajes) de los individuos que tienen nivel medio de altura?. ¾Cuál es la moda en cada distribución?
  3. Realiza la tabla de distribuciones de frecuencias por columnas. ¾Cuál es la distribu- ción de frecuencias de la variable Height2 (en porcentajes) de los individuos que tienen nivel alto de peso?. ¾Cuál es la moda en cada distribución?. ¾Qué dirías respecto a la posible relación entre la pareja de variables?.

2. Grácas de una tabla de doble entrada

La gráca que se ha usado para representar grácamente la distribución de frecuen- cias de una variable cualitativa o de un factor ha sido, en el caso de una sola variable, el

Grado en Ciencia y Tecnología de los Alimentos Universidad de Murcia

barplot(table(Sexo,Actividad),beside=T) # Diagrama de barras desapiladas de la pareja de factores. En el eje horizontal se representan las clases del factor Actividad y para cada una se desapilan las correspondientes frecuencias conjuntas para cada uno de los sexos.

barplot(table(Sexo,Actividad),legend.tex=c("H","M"))# Igual que antes, añadiendo etiquetas para distinguir las clases del factor Sexo.

prop.table(table(Sexo, Actividad)) # Tabla de frecuencias relativas conjun- tas, en las Sexo y en columnas Actividad.

barplot(prop.table(table(Sexo, Actividad))) # Diagrama de barras de la pareja de factores pero ahora con frecuencias relativas.

prop.table(table(Sexo, Actividad),1) # Tabla de frecuencias relativas condi- cionadas por las (Sexo)

barplot(prop.table(table(Sexo, Actividad),1),beside=T) # Diagrama de barras de frecuencias relativas condicionadas por las (Sexo). Las tres barras del mismo color representan una distribución condicionada. Para que las variables fueran independientes las alturas de la pareja de barras (H y M) para cada clase de actividad deberían ser iguales.

barplot(prop.table(table(Sexo, Actividad),2),beside=T) # Diagrama de barras de frecuencias relativas condicionadas por columnas (Actividad). Las dos barras en cada modalidad de Actividad es la distribución del sexo condicionada a dicha actividad.

Podemos repetir las tablas y grácos anteriores para el objeto table(Actividad,Sexo). Interpreta cada una de las frecuencias de dichas tablas y grácos.

Práctica 2.2 Realiza los grácos para la pareja de variables (Height2, Weight2). De- scribe el comportamiento de la variable Weight2 en función de Height2.

3. Estadísticos y diagramas de caja por grupos

En general, cuando trabajamos con variables condicionadas Y |x, como variables uni- variantes, el tipo de tratamiento estadístico es el mismo que para la variable marginal Y. La diferencia es que nos interesa tratar todas las variables Y |x para analizar si su comportamiento depende del valor X = x (variables dependientes) o por el contrario en el comportamiento de todas las variables condicionadas Y |x no hay diferencias signica- tivas (variables independientes). Como ya dijimos, un resumen descriptivo de una variable cuantitativa puede venir da- do mediante el resumen descriptivo de la opción Estadísticos->Resúmenes->Resúmenes numéricos. Esta opción puede ser llevada a cabo para cada grupo de individuos según la clasicación hecha por el factor independiente X. La descripción anterior puede completarse mediante el diagrama de caja y big- otes por grupos, pues éste recoge para ser interpretadas las características de central- ización, localización, dispersión y forma de la distribución de frecuencias. Por ello, como

Grado en Ciencia y Tecnología de los Alimentos Universidad de Murcia

herramienta básica para analizar la dependencia entre una variable cuantitativa y una cualitativa vamos a usar este gráco.

Práctica 3.1 En la opción Estadísticos->Resúmenes->Resúmenes numéricos obten- emos algunos estadísticos básicos de la variable Pulse2 condicionada a las modalidades de Activity, seleccionando en la opción Resumir por grupos dicho factor.

  1. ¾Cuántos individuos de la muestra practican cada actividad?
  2. ¾Qué actividad presenta por término medio menores pulsaciones?
  3. ¾Qué muestra es la más homogénea?.

Práctica 3.2 (Diagrama de caja y bigotes por grupos) Vamos a construir el di- agrama de caja y bigotes de la variable Pulse2 para cada tipo de actividad. La opción la podemos encontrar en diagrama de caja del menú Grácas y seleccionando la op- ción Gráca por grupos. Discute las características de cada una de las tres muestras comparándolas entre ellas.

Práctica 3.3 (Diagrama de medias) Mediante la opción Gráfica de medias pode- mos visualizar las medias junto con sus desviaciones típicas de cierta variable cuantitati- va, cuando dichas medias se han calculado por niveles de cierto factor o atributo. Realiza el gráco de medias que se halla en el menú de grácas para la variable Pulse2 en fun- ción de las modalidades de Activity. Discute las grácas en términos de comparación de los valores medios y de dispersión de las tres muestras.

4. Diagrama de dispersión

Si la pareja de variables (X, Y ) son cuantitativas continuas y no están agrupadas en clases de intervalo no es posible realizar tablas de frecuencias porque la extensión de la tabla sería excesivamente larga. La forma de representación gráca es mediante nubes de puntos (xi, yi) de todas las parejas de valores observados. Cuando estudiamos la posible relación entre dos variables cuantitativas continuas es necesario en primer lugar intuir tanto la forma como la intensidad de la relación. Ello podemos llevarlo a cabo mediante un gráco llamado Diagrama de dispersión que representa en el plano bidimensional las parejas de valores (xi, yi), desde i = 1, 2 , ...., n. La forma de la nube puede indicarnos si existe una relación más o menos intensa entre dos variables, que en las próximas prácticas cuanticaremos mediante estadísticos.

Práctica 4.1 (Diagrama de dispersión) El siguiente gráco muestra el diagrama de dispersión para la pareja de variables (Height, Weight). Ha sido obtenido en Gráficas ->Diagrama de Dispersión. Hemos seleccionado Height como variable independiente y Weight como variable dependiente. En opciones hemos dejado únicamente la opción de cajas de dispersión marginales que efectúa una descripción marginal de cada una de ellas mediante el diagrama de caja y patillas. El resto de opciones no deben ser seleccionadas, pues de momento no se usan. La nube de puntos representa cada uno de los puntos observados respecto a la pareja de variables en estudio. La forma de la nube nos indica que puede haber cierta relación

Grado en Ciencia y Tecnología de los Alimentos Universidad de Murcia

i = 1, ...., n, el valor de la curva suavizada f (xi) en el punto (xi, yi) viene dado por la media aritmética de un número predeterminado de valores yj anteriores y posteriores a yi.

40 45 50 55 60 65 70 75

50

60

70

80

ESPMAS

ESPFEM

l

l

l

l

ll

ll l

l

ll l

l

l

l l

l

ll l

l

l l

l

l l l

l l l l l

l

l

l

l l l

l

l

l l

l l

l

l l

l

l

l

l l

l

l ll

l

l lll

l

l

l l l

l

l

l l l

l

l

l

ll

l

l

l

l l

l

l l

l

l

l

l

l l

l

l

l

l

l

ll

l

l

l

l l

l

l l

l

l

l

Cuando ambas líneas son parecidas indica que el ajuste lineal es apropiado para rela- cionar las variables en juego. En caso contrario, un ajuste no lineal sería más adecuado. En la gráca anterior observamos que para explicar la relación entre la pareja (ESPMAS, ESPFEM) la recta es la función más adecuada puesto que la recta de mínimos cuadrados y la línea suavizada son casi coincidentes.

Práctica 5.2 (Obtención de la recta de regresión) En los casos anteriores es posi- ble que interese obtener la expresión de la recta de regresión así como el grado de bondad del ajuste medido mediante el Coeciente de Determinación. Este parámetro es usado, además, para comparar la bondad del ajuste entre dos situaciones. Para obtener la recta de regresión debemos elegir la opción Estadísticos ->Ajuste de Modelos ->Regresión lineal. Elegimos en Variable explicada la variable de- pendiente, (ESPFEM en este caso) y en Variable explicativa la variable independi- ente (ESPMAS en este caso). Realizada esta opción con la pareja de variables (ESPMAS, ESPFEM) obtenemos que la recta de regresión es

ESP F EM = − 2 .55 + 1. 11 ∗ ESP M AS

con un coeciente de determinación

r^2 = 0. 965

De la expresión de la recta obtenemos que por cada año que aumenta ESPMAS hay un aumento medio de 1.11 años en ESPFEM. El coeciente de determinación indica que el 96.5 % de la varianza de ESPFEM queda explicada por su relación lineal con ESPMAS y es la medida de bondad del ajuste más habitual. El uso común de la recta de regresión es para estimar el valor medio de la variable dependiente cuando la variable independiente toma un valor jo.

Grado en Ciencia y Tecnología de los Alimentos Universidad de Murcia

Por ejemplo, supongamos que queremos estimar el valor medio de la variable ESPFEM para el conjunto de países cuyo valor de ESPMAS es de 75 años. Haríamos

ESP F EM = − 2 .55 + 1. 11 ∗ 75 = 79. 95

Es decir, el valor medio de ESPFEM es de 79.95 años.

6. Prácticas adicionales

  1. Repetir las tablas y grácos de la primera sección para la pareja de variables table(Smokes, Activity). Interpreta cada una de las frecuencias de dichas tablas y grácos. Responde a las siguientes cuestiones:

a) El número de individuos de la muestra que fuman y realizan la actividad B. b) El porcentaje que supone la frecuencia anterior. c) El porcentaje de individuos que fuman. d ) El porcentaje que practican la actividad B en el conjunto de fumadores. e) El porcentaje de fumadores dentro de los que practican la actividad B.

  1. Sabiendo que una libra es 0.453 kilos, transforma la variable Weight a kilos. Usa la opción Modificar variables del conjunto de datos activo ->Calcular una nueva variable para crear la variable Peso, expresada en kilos.
  2. Describir la variable Peso en función del sexo. Interpreta los estadísticos básicos para cada grupo.
  3. Crea una nueva variable llamada Dif para expresar la diferencia de pulsaciones Dif=Pulse2-Pulse1. Estudia el comportamiento de dicha variable en función de si se corrió 5 minutos o no (variable Ran). Obtener las características básicas de las dos muestras mediante:

a) Estadísticos básicos por grupos. b) Diagrama de caja por grupos c) Gráca de medias y desviaciones típicas.

  1. Sabiendo que una pulgada son 2.54 cm, crea una variable nueva llamada Altura para transformar la variable Height a metros con 2 cifras decimales.

Grado en Ciencia y Tecnología de los Alimentos Universidad de Murcia

de la variable Y sería Y = a + b ∗ X′, es decir, sería lineal respecto a la variable X′^ =

X

Regresión logarítmica Cuando vemos la nube con forma aproximada a la función y = a + b ∗ log(x) podemos realizar el cambio x′^ = log(x) y de esa forma la función de ajuste de la variable Y sería Y = a + b ∗ X′, es decir, sería lineal respecto a la variable X′^ = log(X).

Regresión potencial Cuando vemos la nube con forma aproximada a la función y = a ∗ xb^ podemos calcular logaritmos en ambos miembros de la expresión y = a ∗ xb resultando log(y) = log(a) + b ∗ log(x) es decir, podemos realizar el cambio y′^ = log(y) y el cambio x′^ = log(x) y de esa forma la función de ajuste de la variable Y ′^ = log(Y ) sería Y ′^ = a + b ∗ X′, es decir, sería lineal respecto a la variable X′^ = log(X).

Regresión exponencial Cuando vemos la nube con forma aproximada a la función y = a∗bx^ podemos calcular logaritmos en ambos miembros de la expresión y = a∗bx resultando log(y) = log(a) + x ∗ log(b) es decir, podemos realizar el cambio y′^ = log(y) y de esa forma la función de ajuste de la variable Y ′^ = log(Y ) sería Y ′^ = a + b′^ ∗ X, es decir, sería lineal respecto a la variable X con b′^ = log(b).

Práctica 7.1 Con los ejemplos anteriores observamos que la transformación logarítmica resuelve muchas situaciones de ajustes no lineales del tipo exponencial o potencial. En R y R-Commander, la función log(y) calcula el logaritmo natural, (en base e) del número y. Es decir, calcula el número x que verica exp(x)=y, donde exp(x) es la función exponencial ex. La función log(y,a) calcula el logaritmo del número y en base a. Es decir, calcula el número x que verica a ∧ (x) = y, donde a ∧ (x) es la función exponencial ax.

  1. Calcula el valor aproximado del número e haciendo exp(1).
  2. Calcula los valores siguientes: log(e), log(10), log(2), log(1), log(0.5), log(100), log(1000). Interpreta los resultados usando la función exponencial.
  3. Calcula los logaritmos de los mismos valores anteriores en base 10 e interpreta los resultados usando la función exponencial.
  4. Igual pero en base 2.
  5. Mediante la función curve(log(x),1,10) representa grácamente la función log(x) en el intervalo (1, 10).
  6. Si no cierras en gráco anterior y haces curve(log(x,10),1,10,add=T) se rep- resenta la función log(x,10) en el mismo gráco
  7. También hacemos curve(log(x,2),1,10,add=T) a continuación.

Grado en Ciencia y Tecnología de los Alimentos Universidad de Murcia

Práctica 7.2 1. Crea el chero Ajuste1.rda con los siguientes datos de la pareja de variables (X,Y): (1, 536), (1.2, 400), (1.5, 220), (2, 82), (3, 11), (4, 4), (5, 2).

  1. Crear el diagrama de dispersión de la pareja de variables (X,Y). El diagrama de dispersión también se puede hacer mediante el comando plot(X,Y) en la ventana de instrucciones.
  2. Crear las variables log(X) y log(Y) usando la opción Crear una nueva variable del submenú Modificar variables del conjunto de datos activo del menú Datos. Llámalas, por ejemplo LX y LY, respectivamente.
  3. Hacer el diagrama de dispersión de la pareja de variables (LX, LY)
  4. Hacer el ajuste lineal de la pareja anterior. La recta de regresión es

LY = 6. 63 − 3. 69 ∗ LX

con coeciente de determinación r^2 = 0. 9889 y r = −

0 .9889 = − 0. 9944 puesto que r tiene el mismo signo que la pendiente.

  1. Ajustar linealmente las variables (LX, LY) es equivalente a ajustar (X,Y) mediante un ajuste potencial del tipo y = a ∗ xb^ (ver regresión potencial) con log(a)=6.63, es decir, a = e^6.^63 = 757. 48 y b=-3.69. Es decir, Y = 757. 48 ∗ X−^3.^69 , en este caso.
  2. Si queremos estimar el valor medio de Y para un valor de X, por ejemplo para X = 2. 5 podemos hacer 758. 48 ∗ 2. 5 −^3.^69 = 25. 76
  3. También podemos hacer lo siguiente: partiendo de la recta de regresión LY = 6. 63 −
    1. 69 ∗ LX, sustituimos el valor X=2.5 y tenemos log(y) = 6. 63 − 3. 69 ∗ log(2.5) =
      1. Es decir, log(Y ) = 3. 2488 por lo que Y = exp(3.2488) = 25. 76.
  4. Podemos representar la ecuación potencial de regresión así:

Realizamos el diagrama de dispersión de la pareja (X,Y), desmarcando todas las opciones. Sin cerrar el gráco anterior hacemos curve(758. 48 ∗ x ∧ (− 3 .69), 1 , 5 , add = T ). De esa forma podemos representar el ajuste realizado visualizando la bon- dad del ajuste. La cuanticación de la bondad del ajuste es el parámetro r^2 = 0. 9889 del ajuste lineal entre (LX, LY). En la imagen siguiente aparece el gráco. Hemos ajustado las variables (LX, LY) donde LX=log(X) y LY=log(Y). Para ajustar a un modelo potencial podemos haber usado una tranformación loga- rítmica con cualquier otra base. Por ejemplo LX=log(X,10) y LY=log(Y,10), es decir usando la función logaritmo en base 10 en vez de logaritmos naturales. Los parámetros a y b cambian en este caso.