






Prepara tus exámenes y mejora tus resultados gracias a la gran cantidad de recursos disponibles en Docsity
Gana puntos ayudando a otros estudiantes o consíguelos activando un Plan Premium
Prepara tus exámenes
Prepara tus exámenes y mejora tus resultados gracias a la gran cantidad de recursos disponibles en Docsity
Prepara tus exámenes con los documentos que comparten otros estudiantes como tú en Docsity
Encuentra los documentos específicos para los exámenes de tu universidad
Estudia con lecciones y exámenes resueltos basados en los programas académicos de las mejores universidades
Responde a preguntas de exámenes reales y pon a prueba tu preparación
Consigue puntos base para descargar
Gana puntos ayudando a otros estudiantes o consíguelos activando un Plan Premium
Comunidad
Pide ayuda a la comunidad y resuelve tus dudas de estudio
Ebooks gratuitos
Descarga nuestras guías gratuitas sobre técnicas de estudio, métodos para controlar la ansiedad y consejos para la tesis preparadas por los tutores de Docsity
Cómo construir tablas de doble entrada para analizar la distribución de frecuencias de dos variables cualitativas, como sexo y actividad, usando el software r-commander. Se detalla el proceso de segmentación de variables numéricas en clases de intervalo, la creación de tablas de frecuencias absolutas conjuntas y la visualización de los resultados mediante diagramas de barras desapiladas. Además, se presentan opciones adicionales como el diagrama de caja y bigotes por grupos y la matriz de diagramas de dispersión.
Tipo: Apuntes
1 / 12
Esta página no es visible en la vista previa
¡No te pierdas las partes importantes!







Grado en Ciencia y Tecnología de los Alimentos Universidad de Murcia
La siguiente práctica la realizamos con el chero Pulse.rda que contiene los datos de pulsaciones (Pulse1) de un conjunto de individuos. La variableActivity indica el nivel de actividad deportiva que realizan de manera habitual. La variable Ran indica aquellos individuos que después de lanzar una moneda al aire y obtener cara estuvieron corriendo durante 5 minutos. A todos los individuos (corrieran o no) se les volvió a medir las pulsaciones (Pulse2). Además contiene los datos de sus pesos en libras (Weight) y sus alturas en pulgadas (Height). Además, usaremos el chero Mundo.rda.
R-Commander dispone de la opción para construir tablas de doble entrada para una pareja de variables cualitativas, o en general, para parejas de factores. Además es posible construir las distribuciones de frecuencias condicionadas por las o por colum- nas. Las opciones se encuentran en Tabla de doble entrada del menú Tabla de contingencia de Estadísticos.
Práctica 1.1 (Tabla de contingencia) 1. Realizar la tabla de doble entrada que se encuentra en el menú Tablas de contingencia de Estadísticos, usando Sex como variable la y Activity como variable columna. La opción señalada por defecto presenta las frecuencias absolutas de la tabla de doble entrada. Señala la opción Porcentajes totales. Observa las frecuencias conjuntas e interpreta su signicado.
a) El número de individuos de la muestra que son hombres y realizan la actividad B. b) El porcentaje que supone la frecuencia anterior. c) El porcentaje de individuos que practican la actividad B. d) El porcentaje de mujeres de la muestra.
Grado en Ciencia y Tecnología de los Alimentos Universidad de Murcia
e) El porcentaje que practican la actividad B en el conjunto de hombres. f) El porcentaje de hombres dentro de los que practican la actividad B.
Práctica 1.2 Mediante la opción Datos ->Modificar variables del conjunto de datos activo ->Segmentar variable numérica podemos crear una clasicación de los datos de una variable cuantitativa continua en clases de intervalo. Dicha variable segmentada en clases de intervalo puede ser usada para intervenir en una tabla de doble entrada. Por ejemplo, si quisiéramos hacer una tabla de frecuencias de la pareja de variables (Height, Weight) lo único que podemos hacer es mediante agrupaciones en clases de intervalo, al igual que hacíamos en el caso de una única variable cuantitativa continua. Usamos la opción Datos ->Modificar variables del conjunto de datos activo ->Segmentar variable numérica para crear la variable Height2 y Weight2 de forma que Height2 establece 3 niveles de altura H1, H2 y H3 de Height y Weight2 establece 3 niveles de peso W1, W2 y W3 de Weight. (En la imagen siguiente aparece para la variable Height)
Una vez que las dos variables están segmentadas en clases de intervalos podemos usarlas para llevar a cabo la tabla de frecuencias de doble entrada.
La gráca que se ha usado para representar grácamente la distribución de frecuen- cias de una variable cualitativa o de un factor ha sido, en el caso de una sola variable, el
Grado en Ciencia y Tecnología de los Alimentos Universidad de Murcia
barplot(table(Sexo,Actividad),beside=T) # Diagrama de barras desapiladas de la pareja de factores. En el eje horizontal se representan las clases del factor Actividad y para cada una se desapilan las correspondientes frecuencias conjuntas para cada uno de los sexos.
barplot(table(Sexo,Actividad),legend.tex=c("H","M"))# Igual que antes, añadiendo etiquetas para distinguir las clases del factor Sexo.
prop.table(table(Sexo, Actividad)) # Tabla de frecuencias relativas conjun- tas, en las Sexo y en columnas Actividad.
barplot(prop.table(table(Sexo, Actividad))) # Diagrama de barras de la pareja de factores pero ahora con frecuencias relativas.
prop.table(table(Sexo, Actividad),1) # Tabla de frecuencias relativas condi- cionadas por las (Sexo)
barplot(prop.table(table(Sexo, Actividad),1),beside=T) # Diagrama de barras de frecuencias relativas condicionadas por las (Sexo). Las tres barras del mismo color representan una distribución condicionada. Para que las variables fueran independientes las alturas de la pareja de barras (H y M) para cada clase de actividad deberían ser iguales.
barplot(prop.table(table(Sexo, Actividad),2),beside=T) # Diagrama de barras de frecuencias relativas condicionadas por columnas (Actividad). Las dos barras en cada modalidad de Actividad es la distribución del sexo condicionada a dicha actividad.
Podemos repetir las tablas y grácos anteriores para el objeto table(Actividad,Sexo). Interpreta cada una de las frecuencias de dichas tablas y grácos.
Práctica 2.2 Realiza los grácos para la pareja de variables (Height2, Weight2). De- scribe el comportamiento de la variable Weight2 en función de Height2.
En general, cuando trabajamos con variables condicionadas Y |x, como variables uni- variantes, el tipo de tratamiento estadístico es el mismo que para la variable marginal Y. La diferencia es que nos interesa tratar todas las variables Y |x para analizar si su comportamiento depende del valor X = x (variables dependientes) o por el contrario en el comportamiento de todas las variables condicionadas Y |x no hay diferencias signica- tivas (variables independientes). Como ya dijimos, un resumen descriptivo de una variable cuantitativa puede venir da- do mediante el resumen descriptivo de la opción Estadísticos->Resúmenes->Resúmenes numéricos. Esta opción puede ser llevada a cabo para cada grupo de individuos según la clasicación hecha por el factor independiente X. La descripción anterior puede completarse mediante el diagrama de caja y big- otes por grupos, pues éste recoge para ser interpretadas las características de central- ización, localización, dispersión y forma de la distribución de frecuencias. Por ello, como
Grado en Ciencia y Tecnología de los Alimentos Universidad de Murcia
herramienta básica para analizar la dependencia entre una variable cuantitativa y una cualitativa vamos a usar este gráco.
Práctica 3.1 En la opción Estadísticos->Resúmenes->Resúmenes numéricos obten- emos algunos estadísticos básicos de la variable Pulse2 condicionada a las modalidades de Activity, seleccionando en la opción Resumir por grupos dicho factor.
Práctica 3.2 (Diagrama de caja y bigotes por grupos) Vamos a construir el di- agrama de caja y bigotes de la variable Pulse2 para cada tipo de actividad. La opción la podemos encontrar en diagrama de caja del menú Grácas y seleccionando la op- ción Gráca por grupos. Discute las características de cada una de las tres muestras comparándolas entre ellas.
Práctica 3.3 (Diagrama de medias) Mediante la opción Gráfica de medias pode- mos visualizar las medias junto con sus desviaciones típicas de cierta variable cuantitati- va, cuando dichas medias se han calculado por niveles de cierto factor o atributo. Realiza el gráco de medias que se halla en el menú de grácas para la variable Pulse2 en fun- ción de las modalidades de Activity. Discute las grácas en términos de comparación de los valores medios y de dispersión de las tres muestras.
Si la pareja de variables (X, Y ) son cuantitativas continuas y no están agrupadas en clases de intervalo no es posible realizar tablas de frecuencias porque la extensión de la tabla sería excesivamente larga. La forma de representación gráca es mediante nubes de puntos (xi, yi) de todas las parejas de valores observados. Cuando estudiamos la posible relación entre dos variables cuantitativas continuas es necesario en primer lugar intuir tanto la forma como la intensidad de la relación. Ello podemos llevarlo a cabo mediante un gráco llamado Diagrama de dispersión que representa en el plano bidimensional las parejas de valores (xi, yi), desde i = 1, 2 , ...., n. La forma de la nube puede indicarnos si existe una relación más o menos intensa entre dos variables, que en las próximas prácticas cuanticaremos mediante estadísticos.
Práctica 4.1 (Diagrama de dispersión) El siguiente gráco muestra el diagrama de dispersión para la pareja de variables (Height, Weight). Ha sido obtenido en Gráficas ->Diagrama de Dispersión. Hemos seleccionado Height como variable independiente y Weight como variable dependiente. En opciones hemos dejado únicamente la opción de cajas de dispersión marginales que efectúa una descripción marginal de cada una de ellas mediante el diagrama de caja y patillas. El resto de opciones no deben ser seleccionadas, pues de momento no se usan. La nube de puntos representa cada uno de los puntos observados respecto a la pareja de variables en estudio. La forma de la nube nos indica que puede haber cierta relación
Grado en Ciencia y Tecnología de los Alimentos Universidad de Murcia
i = 1, ...., n, el valor de la curva suavizada f (xi) en el punto (xi, yi) viene dado por la media aritmética de un número predeterminado de valores yj anteriores y posteriores a yi.
40 45 50 55 60 65 70 75
50
60
70
80
ESPMAS
ESPFEM
l
l
l
l
ll
ll l
l
ll l
l
l
l l
l
ll l
l
l l
l
l l l
l l l l l
l
l
l
l l l
l
l
l l
l l
l
l l
l
l
l
l l
l
l ll
l
l lll
l
l
l l l
l
l
l l l
l
l
l
ll
l
l
l
l l
l
l l
l
l
l
l
l l
l
l
l
l
l
ll
l
l
l
l l
l
l l
l
l
l
Cuando ambas líneas son parecidas indica que el ajuste lineal es apropiado para rela- cionar las variables en juego. En caso contrario, un ajuste no lineal sería más adecuado. En la gráca anterior observamos que para explicar la relación entre la pareja (ESPMAS, ESPFEM) la recta es la función más adecuada puesto que la recta de mínimos cuadrados y la línea suavizada son casi coincidentes.
Práctica 5.2 (Obtención de la recta de regresión) En los casos anteriores es posi- ble que interese obtener la expresión de la recta de regresión así como el grado de bondad del ajuste medido mediante el Coeciente de Determinación. Este parámetro es usado, además, para comparar la bondad del ajuste entre dos situaciones. Para obtener la recta de regresión debemos elegir la opción Estadísticos ->Ajuste de Modelos ->Regresión lineal. Elegimos en Variable explicada la variable de- pendiente, (ESPFEM en este caso) y en Variable explicativa la variable independi- ente (ESPMAS en este caso). Realizada esta opción con la pareja de variables (ESPMAS, ESPFEM) obtenemos que la recta de regresión es
ESP F EM = − 2 .55 + 1. 11 ∗ ESP M AS
con un coeciente de determinación
r^2 = 0. 965
De la expresión de la recta obtenemos que por cada año que aumenta ESPMAS hay un aumento medio de 1.11 años en ESPFEM. El coeciente de determinación indica que el 96.5 % de la varianza de ESPFEM queda explicada por su relación lineal con ESPMAS y es la medida de bondad del ajuste más habitual. El uso común de la recta de regresión es para estimar el valor medio de la variable dependiente cuando la variable independiente toma un valor jo.
Grado en Ciencia y Tecnología de los Alimentos Universidad de Murcia
Por ejemplo, supongamos que queremos estimar el valor medio de la variable ESPFEM para el conjunto de países cuyo valor de ESPMAS es de 75 años. Haríamos
ESP F EM = − 2 .55 + 1. 11 ∗ 75 = 79. 95
Es decir, el valor medio de ESPFEM es de 79.95 años.
a) El número de individuos de la muestra que fuman y realizan la actividad B. b) El porcentaje que supone la frecuencia anterior. c) El porcentaje de individuos que fuman. d ) El porcentaje que practican la actividad B en el conjunto de fumadores. e) El porcentaje de fumadores dentro de los que practican la actividad B.
a) Estadísticos básicos por grupos. b) Diagrama de caja por grupos c) Gráca de medias y desviaciones típicas.
Grado en Ciencia y Tecnología de los Alimentos Universidad de Murcia
de la variable Y sería Y = a + b ∗ X′, es decir, sería lineal respecto a la variable X′^ =
Regresión logarítmica Cuando vemos la nube con forma aproximada a la función y = a + b ∗ log(x) podemos realizar el cambio x′^ = log(x) y de esa forma la función de ajuste de la variable Y sería Y = a + b ∗ X′, es decir, sería lineal respecto a la variable X′^ = log(X).
Regresión potencial Cuando vemos la nube con forma aproximada a la función y = a ∗ xb^ podemos calcular logaritmos en ambos miembros de la expresión y = a ∗ xb resultando log(y) = log(a) + b ∗ log(x) es decir, podemos realizar el cambio y′^ = log(y) y el cambio x′^ = log(x) y de esa forma la función de ajuste de la variable Y ′^ = log(Y ) sería Y ′^ = a + b ∗ X′, es decir, sería lineal respecto a la variable X′^ = log(X).
Regresión exponencial Cuando vemos la nube con forma aproximada a la función y = a∗bx^ podemos calcular logaritmos en ambos miembros de la expresión y = a∗bx resultando log(y) = log(a) + x ∗ log(b) es decir, podemos realizar el cambio y′^ = log(y) y de esa forma la función de ajuste de la variable Y ′^ = log(Y ) sería Y ′^ = a + b′^ ∗ X, es decir, sería lineal respecto a la variable X con b′^ = log(b).
Práctica 7.1 Con los ejemplos anteriores observamos que la transformación logarítmica resuelve muchas situaciones de ajustes no lineales del tipo exponencial o potencial. En R y R-Commander, la función log(y) calcula el logaritmo natural, (en base e) del número y. Es decir, calcula el número x que verica exp(x)=y, donde exp(x) es la función exponencial ex. La función log(y,a) calcula el logaritmo del número y en base a. Es decir, calcula el número x que verica a ∧ (x) = y, donde a ∧ (x) es la función exponencial ax.
Grado en Ciencia y Tecnología de los Alimentos Universidad de Murcia
Práctica 7.2 1. Crea el chero Ajuste1.rda con los siguientes datos de la pareja de variables (X,Y): (1, 536), (1.2, 400), (1.5, 220), (2, 82), (3, 11), (4, 4), (5, 2).
LY = 6. 63 − 3. 69 ∗ LX
con coeciente de determinación r^2 = 0. 9889 y r = −
0 .9889 = − 0. 9944 puesto que r tiene el mismo signo que la pendiente.
Realizamos el diagrama de dispersión de la pareja (X,Y), desmarcando todas las opciones. Sin cerrar el gráco anterior hacemos curve(758. 48 ∗ x ∧ (− 3 .69), 1 , 5 , add = T ). De esa forma podemos representar el ajuste realizado visualizando la bon- dad del ajuste. La cuanticación de la bondad del ajuste es el parámetro r^2 = 0. 9889 del ajuste lineal entre (LX, LY). En la imagen siguiente aparece el gráco. Hemos ajustado las variables (LX, LY) donde LX=log(X) y LY=log(Y). Para ajustar a un modelo potencial podemos haber usado una tranformación loga- rítmica con cualquier otra base. Por ejemplo LX=log(X,10) y LY=log(Y,10), es decir usando la función logaritmo en base 10 en vez de logaritmos naturales. Los parámetros a y b cambian en este caso.