



























Prepara tus exámenes y mejora tus resultados gracias a la gran cantidad de recursos disponibles en Docsity
Gana puntos ayudando a otros estudiantes o consíguelos activando un Plan Premium
Prepara tus exámenes
Prepara tus exámenes y mejora tus resultados gracias a la gran cantidad de recursos disponibles en Docsity
Prepara tus exámenes con los documentos que comparten otros estudiantes como tú en Docsity
Encuentra los documentos específicos para los exámenes de tu universidad
Estudia con lecciones y exámenes resueltos basados en los programas académicos de las mejores universidades
Responde a preguntas de exámenes reales y pon a prueba tu preparación
Consigue puntos base para descargar
Gana puntos ayudando a otros estudiantes o consíguelos activando un Plan Premium
Comunidad
Pide ayuda a la comunidad y resuelve tus dudas de estudio
Ebooks gratuitos
Descarga nuestras guías gratuitas sobre técnicas de estudio, métodos para controlar la ansiedad y consejos para la tesis preparadas por los tutores de Docsity
Asignatura: Análisis de Datos, Profesor: patricio patricio, Carrera: Biología, Universidad: UAM
Tipo: Ejercicios
1 / 35
Esta página no es visible en la vista previa
¡No te pierdas las partes importantes!




























2º de Biología Curso 2013-
1.- Se quiere comparar la capacidad pulmonar en niños, adultos y ancianos, obteniéndose los siguientes resultados:
Niños 8,4 7,6 7,9 8,0 8, Adultos 8,7 8,1 8,5 8,2 8, Ancianos 7,4 7,8 7,3 7,6 8,
Hacer un estudio completo.
2.- Las precipitaciones caídas en un país han disminuido de manera preocupante durante el último año. Antes de tomar ninguna medida se decide hacer un estudio previo para saber si el descenso de las lluvias se produjo de forma homogénea. Para ello se seleccionan aleatoriamente cinco estaciones meteorológicas en cada una de las cuatro regiones del país, obteniéndose los siguientes porcentajes de disminución de las precipitaciones en cada una de ellas:
Región Este Región Norte Región Oeste Región Sur 10,4 12,8 11,2 13, 12,8 14,2 9,8 14, 15,6 16,3 10,7 12, 9,2 10,1 6,3 15, 8,7 12,0 12,4 13,
(a) Plantear claramente todos los elementos y las hipótesis del modelo para comparar los porcentajes de disminución de las precipitaciones en las 4 regiones.
(b) ¿En qué zona parecen haber disminuido más las precipitaciones?
(c) Obtener la tabla ANOVA y contrastar la hipótesis nula de que las medias de disminución del porcentaje de lluvias en el país fueron las mismas en las cuatro regiones (tomar α=0,10).
(d) Comparar las medias de las diferentes regiones de dos en dos, con un nivel de confianza global del 90%.
3.- En un bosque próximo a una incineradora los árboles no crecen con normalidad. Se piensa que unos nuevos abonos americanos y australianos pueden ser la solución. Para ver si esta medida es efectiva, se utiliza el abono americano en un tercio de los árboles, el abono australiano en otro tercio, y para el tercio restante no se utiliza ningún abono. Después de 3 meses se han obtenido los siguientes resultados sobre el crecimiento en centímetros de 60 árboles en total:
¿Se puede afirmar que se obtienen diferencias en los resultados, con un nivel de significación 0,01? En caso necesario, efectuar una comparación de los crecimientos medios, con un nivel de significación conjunto de 0,15.
4.- En un estudio sobre la efectividad de los métodos para dejar de fumar se quiere saber si la reducción media en el número de cigarrillos diarios difiere de un método a otro entre hombres fumadores. Para ello se hace un experimento con 12 fumadores que consumían 60 cigarrillos diarios. Se aplica cada uno de los métodos a 4 de ellos, seleccionados aleatoriamente. El número de cigarrillos que deja de fumar cada individuo es:
Método I Método II Método III 50 41 49 51 40 47 51 39 45 52 40 47
(a) Indicar claramente todos los elementos y las hipótesis del modelo para comparar la disminución de consumo de cigarrillos conseguidos con los tres métodos.
(b) Contrastar, mediante el análisis de la varianza, si la reducción media en el número de cigarrillos es similar para los tres métodos con un nivel de significación α = 0,05.
(c) Obtener los intervalos de confianza para la diferencia entre las medias, con un nivel de confianza conjunto de 0.95. ¿Entre qué métodos se aprecian diferencias significativas?
5.- A continuación se muestran los datos recogidos en las inspecciones de cuatro gasolineras elegidas aleatoriamente. Los valores de la tabla reflejan los mililitros que faltan para completar un litro en distintas mediciones sobre el mismo surtidor de cada gasolinera.
Contrastar la hipótesis nula de que la cantidad media de gasolina que se sirve por litro no depende de la gasolinera (tomar α = 0,05).
(a) Indicar el modelo utilizado para analizar estos datos y el significado de cada uno de
sus elementos. Indicar los requisitos previos necesarios en el modelo utilizado y
comentar su cumplimiento en base a la información aportada.
(b) ¿Qué conclusión se obtiene de la tabla ANOVA con nivel de significación 0,05?
Indicar claramente las hipótesis nula y alternativa.
(c) Comparar todas las colonias de dos en dos, mediante los intervalos de confianza
correspondientes y con un nivel de significación conjunto de 0,06.
1.- Se quiere estudiar la producción de fresa que se obtiene con diferentes variedades. La producción obtenida con 3 variedades y en 4 tipos de suelo diferentes, se ofrece a continuación:
Tipos de suelo 1 2 3 4 1 6,3 6,9 5,3 6, Variedades 2 10,1 10,8 9,8 10, 3 8,4 9,4 9 9,
Hacer un estudio completo.
2.- En un estudio sobre el consumo de gasolina de distintos coches se realiza el siguiente experimento: se toman cuatro coches al azar de un fabricante español, cuatro de un francés, cuatro de un alemán, y cuatro de un japonés. Se prueba un coche de cada fabricante en una gran ciudad durante la hora punta, otro en ciudad fuera de la hora punta, otro se prueba en carretera de montaña y el otro en una carretera llana. El consumo en litros de gasolina por cada 100 kilómetros es:
Ciudad (h. punta) Ciudad (h. normal) Carretera montaña Carretera llana Español 14,7 9,4 7,2 6, Francés 11,6 7,7 6,8 6, Alemán 10,8 7,2 7,2 6, Japonés 16,0 10,0 9,3 7,
(a) Plantear el modelo adecuado para estudiar el consumo de gasolina con dos factores.
(b) ¿Qué modelo de coche parece que consume más y qué modelo de coche parece que consume menos? ¿En qué condiciones parece que se consume más y en qué condiciones parece que se consume menos?
(c) Obtener la tabla de análisis de la varianza y decidir si el modelo de coche tiene una influencia significativa sobre el consumo (al nivel de significación 0,05).
(d) Comparar de dos en dos el consumo medio de los cuatro modelos de coche, con un nivel de confianza conjunto del 95%. ¿Conclusiones?
(e) Finalmente, analizar los datos sin tener en cuenta las condiciones en que se conducen los coches, es decir, realizando un análisis de la varianza con un solo factor. Con este modelo, ¿influye el modelo de coche en el consumo de gasolina? ¿Coincide esta conclusión con la obtenida anteriormente? ¿Cuál sería el modelo adecuado y la conclusión correcta? ¿Por qué?
3.- Se quiere hacer un estudio de comparación pluviométrica entre 5 ciudades de una misma región. Para esto, se mide la lluvia recogida en esas 5 ciudades en 4 meses diferentes:
(b) Simplificar el modelo (si parece adecuado), obtener la tabla ANOVA para el modelo simplificado, y comentar los resultados.
6.- Una gran empresa desea saber si el absentismo laboral está relacionado con el tamaño del departamento y la antigüedad. Para el estudio se dispone de una muestra aleatoria de 60 empleados, de la que se conoce el número de días que no acudieron al puesto de trabajo en los últimos tres años. El tamaño del departamento se clasifica en pequeño , mediano y grande , y la antigüedad en más de 5 años y menos de 5 años. Los datos son:
(a) Plantear con detalle todos los elementos y las hipótesis del modelo de diseño de experimentos con dos factores y posible interacción para analizar esto datos.
(b) Decidir, a partir de los gráficos de residuos, si las hipótesis del modelo son aceptables, explicando las respuestas.
(c) Para un nivel de significación del 5%, ¿la antigüedad y el tamaño del departamento son factores relevantes para explicar el absentismo? ¿Qué podemos decir sobre la interacción?
(d) Como consecuencia de lo obtenido en el apartado anterior, simplificar el modelo todo lo posible, obtener la tabla ANOVA para el modelo simplificado, y sacar las conclusiones pertinentes (de nuevo, al 5%).
7.- Para estudiar el efecto de la iluminación (A=natural, B=muy fuerte, C=escasa) en la velocidad de lectura se realiza un experimento. Se mide el número de palabras leídas en un minuto para distintos tipos de papel y tamaño de letra. Los resultados que se obtienen son los siguientes:
¿Cuántos factores se consideran en el experimento? Construir con SPSS la tabla de análisis de la varianza y contrastar, con un nivel de significación α=0,05, si los factores afectan a la velocidad de lectura.
8.‐ Un fisiólogo vegetal investiga el efecto del estrés mecánico (agitarlas durante 20 minutos dos veces al día) y del nivel de luz en el crecimiento de 20 plantas de soja. Se asignaron 5 plantas, al azar, a cada combinación del tipo de luz (baja y moderada) con el tipo de estrés (sin y con estrés) Después de 16 días de crecimiento, se midió la superficie de las hojas de cada planta (en cm^2 ) Tras descartar la existencia de interacción entre el estrés y la luz, se obtuvieron los siguientes resultados:
Estadísticos descriptivos Variable dependiente: Superficie de las hojas de soja Estrés Nivel de luz Media Desviación típica N Sin estrés Luz baja 234,40 30,221 5 Luz moderada 316,60 15,159 5 Total 275,50 48,836 10 Con estrés Luz baja 207,00 18,152 5 Luz moderada 272,20 36,697 5 Total 239,60 43,884 10 Total Luz baja 220,70 27,584 10 Luz moderada 294,40 35,331 10 Total 257,55 48,797 20
cruzan todos los niveles de los dos factores y se obtienen tres réplicas completas del experimento. La siguiente tabla muestra los crecimientos medios que se obtienen para cada combinación de los dos factores:
Temp. Baja Temp. Media Temp. Alta Conc. Baja 51 46 42 Conc. Alta 59 54 48
Además, sabemos que SCT = 600. Nos planteamos las siguientes cuestiones: ¿Influye la concentración de CO_2 sobre el crecimiento? ¿Influye la temperatura sobre el crecimiento? ¿Se produce alguna interacción apreciable entre la concentración de CO_2 y la temperatura? Proponer un modelo adecuado y hacer el estudio para dar una respuesta razonada a estas tres preguntas a un nivel de significación 0,05.
11.- Se hace un estudio para ver de qué manera influyen el tipo de población (HABITAT) y el tipo de vivienda (TIPOVIV) sobre la cantidad de papel y cartón reciclados. Para esto, se toman datos del “número de kg. reciclados por vivienda en un mes” en 9 viviendas pequeñas (3 en ciudades pequeñas, 3 en ciudades medianas y 3 en ciudades grandes), y en 9 viviendas grandes (3 en ciudades pequeñas, 3 en ciudades medianas y 3 en ciudades grandes). Se analizan los resultados con el SPSS, obteniéndose los siguientes resultados:
(a) ¿Influye el tipo de población (HABITAT) sobre la cantidad reciclada? ¿Influye el tipo de vivienda (TIPOVIV) sobre la cantidad reciclada? ¿Existe interacción significativa entre los dos factores? Dar respuestas razonadas al nivel de significación 0,05 e indicar el modelo estadístico utilizado.
(b) Con los mismos datos, consideramos ahora un modelo de diseño de experimentos con un solo factor (el tipo de vivienda). Construir la tabla ANOVA para este diseño y tomar una decisión razonada (al nivel 0,05) sobre si el tipo de vivienda influye o no sobre la cantidad reciclada.
12.- Se está estudiando la influencia del nivel de riego y del tipo de fertilizante sobre el crecimiento de cierto tipo de arbustos al finalizar su primer año de vida. Se anota la altura alcanzada por 4 arbustos sometidos a un nivel bajo de riego, de otros 4 arbustos sometidos a un nivel moderado de riego, y de otros 4 con un alto nivel de riego. La mitad de los arbustos de cada grupo han sido fertilizados con una mezcla de guano de pollo y cascarilla de arroz, mientras que la otra mitad han sido fertilizados con una mezcla de guano de vacuno y serrín de pino. Se muestra a continuación una parte de los resultados obtenidos al analizar los datos con la ayuda de SPSS:
(a) Plantear con detalle todos los elementos e hipótesis del modelo de diseño de experimentos que se ha empleado. (b) La mezcla que se ha utilizado como fertilizante, ¿influye sobre el crecimiento de los arbustos al nivel de significación del 5%? En caso afirmativo, ¿entre qué mezclas de fertilizante encontramos diferencias significativas? Contestar razonadamente a partir de los resultados mostrados, al nivel de significación conjunto del 5%. (c) El nivel de riego, ¿influye sobre el crecimiento de los arbustos al nivel de significación del 5%? En caso afirmativo, ¿entre qué niveles de riego encontramos diferencias significativas? Contestar razonadamente a partir de los resultados mostrados, al nivel de significación conjunto del 5%. (d) A partir de lo obtenido en los apartados anteriores, simplificar el modelo si se considera adecuado (explicando la razón) y obtener la nueva tabla ANOVA. Sacar las conclusiones pertinentes a partir de esta nueva tabla (al 5%).
13.‐ En un experimento sobre el efecto de 3 venenos y 4 posibles tratamientos sobre la supervivencia (en horas) de un tipo de animales, se asignaron al azar 4 animales a cada combinación de veneno y tratamiento. Se obtuvieron los siguientes resultados:
Comparaciones múltiples (Bonferroni) Inversa de la supervivencia
(I)tratamiento (J)tratamiento
Diferencia de medias (I‐J) Error típ. Sig.
Intervalo de confianza 95% Límite inferior Límite superior 1 2 ,1657^ ,02000 ,000 ,1099 , 3 ,0572^ ,02000 ,042 ,0014 , 4 ,1358^ ,02000 ,000 ,0800 , 2 1 ‐,1657^ ,02000 ,000 ‐,2216 ‐, 3 ‐,1085^ ,02000 ,000 ‐,1644 ‐, 4 ‐,0299 ,02000 ,862 ‐,0858 , 3 1 ‐,0572^ ,02000 ,042 ‐,1131 ‐, 2 ,1085^ ,02000 ,000 ,0527 , 4 ,0786^ ,02000 ,002 ,0228 , 4 1 ‐,1358^ ,02000 ,000 ‐,1917 ‐, 2 ,0299 ,02000 ,862 ‐,0259 , 3 ‐,0786^ ,02000 ,002 ‐,1345 ‐, *. La diferencia de medias es significativa al nivel ,05.
(b) Con esta transformación ¿mejora o empeora el diagnóstico de los requisitos previos? (c) Indicar las conclusiones razonadas (a un nivel del 5%) que se obtienen de la tabla ANOVA, especificando la hipótesis nula y alternativa en cada caso. (d) Indicar los contrastes realizados y las conclusiones que se obtienen en la tabla de resultados de Bonferroni.
14.- Se piensa que puede haber dos factores que influyan sobre la mayor o menor contaminación por arsénico del suelo y del subsuelo. Un posible factor es la época del año (verano o invierno) y otro posible factor es el nivel de profundidad (en superficie, a media profundidad o a gran profundidad). Se toman 11 réplicas para cada combinación, obteniendo en total 66 datos sobre el contenido de arsénico (As). Se analizan estos datos con el SPSS mediante un modelo de diseño de experimentos y a continuación se ofrecen los resultados más interesantes:
Pruebas de los efectos inter-sujetos Variable dependiente: As
176,272 a^5 35,254 1,576 , 3897,140 1 3897,140 174,223 , 12,498 1 12,498 ,559 , 159,532 2 79,766 3,566 , 4,242 2 2,121 ,095 , 1342,125 60 22, 5415,537 66 1518,396 65
Fuente Modelo corregido Intersección Epoca Nivel Epoca * Nivel Error Total Total corregida
Suma de cuadrados tipo III gl
Media cuadrática F Significación
a.R cuadrado = ,116 (R cuadrado corregida = ,042)
1. Media global Variable dependiente: As
7,684 ,582 6,520 8,
Media Error típ. Límite inferior
Límite superior
Intervalo de confianza al 95%.
2. Epoca del año Variable dependiente: As
7,249 ,823 5,602 8, 8,119 ,823 6,473 9,
Epoca del año Verano Invierno
Media Error típ. Límite inferior
Límite superior
Intervalo de confianza al 95%.
3. Nivel Variable dependiente: As
8,372 1,008 6,355 10, 9,149 1,008 7,132 11, 5,532 1,008 3,515 7,
Nivel Superficie Profundidad media Gran profundidad
Media Error típ. Límite inferior
Límite superior
Intervalo de confianza al 95%.
4. Epoca del año * Nivel
Variable dependiente: As
8,009 1,426 5,157 10, 8,982 1,426 6,129 11, 4,756 1,426 1,904 7, 8,735 1,426 5,882 11, 9,316 1,426 6,464 12, 6,307 1,426 3,455 9,
Nivel Superficie Profundidad media Gran profundidad Superficie Profundidad media Gran profundidad
Epoca del año Verano
Invierno
Media Error típ. Límite inferior
Límite superior
Intervalo de confianza al 95%.
1.- Se quiere estudiar la posible relación lineal entre Y=“Porcentaje de asfalteno” y X=”Porcentaje de resina” en asfaltos utilizados para la fabricación de telas asfálticas. Se dispone de datos de 22 tipos diferentes de asfaltos:
(a) Plantear modelo e hipótesis. Mediante el análisis de los residuos, ¿qué se puede decir sobre dichas hipótesis?
(b) Obtener la recta de regresión y el coeficiente de correlación lineal r. ¿Qué indica el valor del coeficiente de correlación obtenido?
(c) ¿Influye el porcentaje de resina sobre el porcentaje de asfalteno? Obtener una conclusión, al nivel de significación 0,01.
(d) Estimar, con una confianza del 95%, el valor medio del porcentaje de asfalteno para aquellos asfaltos que tienen un 30% de resina.
2.- El muestreo de áreas contiguas se utiliza en Ecología para contar el número de especies distintas de plantas por área. El recuento se realiza de manera que cada siguiente área contigua tiene el doble de superficie, empezando por un área de 1 metro cuadrado. El modelo que relaciona Y = “Número de especies distintas” con X = “Superficie (en metros cuadrados)” es Y = a ln X + b (a = ”Índice de diversidad”, b = “Número de especies por unidad de área”). Ajustar dicho modelo a los datos:
Superficie 1 2 4 8 16 32 64 Especies distintas 2 4 7 11 16 19 21
3.- En un estudio sobre la resistencia a bajas temperaturas del bacilo de la fiebre tifoidea, se expusieron cultivos del bacilo durante diferentes periodos de tiempo a - grados centígrados. Los siguientes datos representan: X = “Tiempo de exposición (en semanas)” Y = “Porcentaje de bacilos supervivientes”
X 0 0,5 1 2 3 5 9 15 Y 100 42 14 7,5 0,4 0,11 0,05 0,
Ajustar una recta y una exponencial a los datos. Interpretar los resultados.
4.- Se estudia la influencia sobre el nivel de contaminación por nitratos (Y) del porcentaje de población conectada a sistemas de tratamiento de residuos (X) en 20 áreas de la UE. Los datos obtenidos son los siguientes:
Ajustar un modelo de regresión logarítmico Y=β_0 + β_1 ln X. ¿Es bueno este ajuste?
5.- Se lleva a cabo un estudio para tratar de explicar la supervivencia de cierta especie animal en función de las temperaturas máximas alcanzadas en los hábitats naturales en los que se desarrolla. Se seleccionan aleatoriamente 20 reservas naturales de esta especie y se mide el porcentaje de supervivientes al final del año, Y, y la temperatura máxima registrada en grados Farenheit, X. Los resultados que se obtienen son:
(a) Calcular la recta de regresión.
(b) Calcular la varianza residual S_R^2.
(c) Realizar el contraste de la regresión. A nivel α=0,05, ¿podemos rechazar la hipótesis nula de que la temperatura no afecta a la supervivencia?
(d) A continuación se presentan algunos gráficos de residuos estandarizados. Analizar gráficamente si se cumplen las hipótesis de normalidad, homocedasticidad y linealidad.
(a) Plantear con detalle todos los elementos e hipótesis del modelo de regresión que se ha empleado. ¿Qué podemos decir sobre las hipótesis del modelo a partir de los resultados mostrados? (b) Estimar puntualmente todos los parámetros del modelo y escribir la recta de regresión que expresa la altura alcanzada en función de los meses de desarrollo. ¿Qué porcentaje de variabilidad explica esta recta? (c) La edad del arbusto, ¿ha resultado ser una variable significativa para explicar la altura? Justificar la respuesta con un nivel de significación del 1%. (d) Estimar la altura media alcanzada por los arbustos al cabo de año y medio de vida. Dar un intervalo de confianza (al 99%) para esta altura media.
7.- Un estudio sobre el efecto de la temperatura en el rendimiento de un proceso químico proporciona los siguientes resultados:
Temperatura (X) -5 -4 -3 -2 -1 0 1 2 3 4 5 Rendimiento (Y) 1 5 4 7 10 8 9 13 14 13 18
(a) Asumiendo el modelo Y_i=β_0 + β_1 x_i +u_i, obtener las estimaciones de β_0 y β_1. ¿Cuál es la recta de regresión estimada? ¿Es bueno el ajuste?
(b) A partir de la tabla ANOVA decidir, con un nivel de significación α=0,05, si la temperatura influye de manera significativa sobre el rendimiento.
(c) Construir un intervalo de confianza al 95% para β_1.
(d) Construir un intervalo de confianza al 95% para estimar el rendimiento medio de todos los procesos que se desarrollan a una temperatura de x=3.
(e) Construir un intervalo de confianza al 95% para estimar el rendimiento de un nuevo proceso que se desarrolla a una temperatura de x=3.
8.‐ Se lleva a cabo un análisis estadístico con 15 plantas para expresar la variable Y=”Superficie de las hojas de la planta (en cm^2 )” en función de la variable X=”Iluminación (en lux)”. Se obtienen los siguientes resultados con SPSS:
(a) Plantea el modelo utilizado describiendo todos sus elementos y sus requisitos. Escribe la recta de regresión estimada y evalúa su ajuste a los datos. (b) ¿Tiene la iluminación una influencia significativa (al 1%) sobre la media de la superficie de las hojas? Justifica la respuesta. (c) Estima (al 99% de confianza) la superficie media de las hojas de todas las plantas que crecen bajo una iluminación de 700 lux.
9.- La víbora hocicuda ( Vipera latastei ) es una especie de víbora presente en la Península Ibérica y en el norte del Magreb. A partir de los datos de 12 víboras, se desea hacer un estudio estadístico sobre el número de ondulaciones de la banda dorsal o zigzag en función de la longitud de estas víboras. A continuación, se ofrecen algunos gráficos y tablas obtenidas con SPSS: