
















Prepara tus exámenes y mejora tus resultados gracias a la gran cantidad de recursos disponibles en Docsity
Gana puntos ayudando a otros estudiantes o consíguelos activando un Plan Premium
Prepara tus exámenes
Prepara tus exámenes y mejora tus resultados gracias a la gran cantidad de recursos disponibles en Docsity
Prepara tus exámenes con los documentos que comparten otros estudiantes como tú en Docsity
Encuentra los documentos específicos para los exámenes de tu universidad
Estudia con lecciones y exámenes resueltos basados en los programas académicos de las mejores universidades
Responde a preguntas de exámenes reales y pon a prueba tu preparación
Consigue puntos base para descargar
Gana puntos ayudando a otros estudiantes o consíguelos activando un Plan Premium
Comunidad
Pide ayuda a la comunidad y resuelve tus dudas de estudio
Ebooks gratuitos
Descarga nuestras guías gratuitas sobre técnicas de estudio, métodos para controlar la ansiedad y consejos para la tesis preparadas por los tutores de Docsity
Asignatura: Estadistica Inferencial, Profesor: Juan Javier Sánchez Carrión, Carrera: Sociología, Universidad: UCM
Tipo: Apuntes
1 / 24
Esta página no es visible en la vista previa
¡No te pierdas las partes importantes!

















Juan Javier Sánchez Carrión Catedrático de Sociología UCM .
(^1) No está autorizada la reproducción total o parcial de este texto sin el consentimiento del autor
2.- Muestra aleatoria simple (MAS)
Como su nombre indica el muestreo aleatorio simple es el más simple de los muestreos. Suele ser la base de comparación a la hora de ver la eficiencia de otros diseños diferentes. La lotería es un buen ejemplo de este tipo de diseño. Se distinguen entre dos situaciones diferentes según que la selección de las unidades de la población se haga sin o con reposición. En el primer caso una unidad elegida no puede volver a ser elegida de nuevo; en el segundo, sí.
Imaginemos que se entrevista a 300 estudiantes elegidos al azar de los 3.000 que estudian en una Universidad, de los cuales 210 contestan afirmativamente cuando se les pregunta si están de acuerdo con una determinada medida que piensa adoptar la Dirección (es decir, aprueban la medida). Queremos:
i/ Calcular la proporción de estudiantes que aprueban la medida en la muestra; ii/ Calcular su error típico; iii/ Calcular el coeficiente de variación de la proporción obtenida en i/; iv/ Estimar cuál será la proporción de estudiantes que aprueban la medida en toda la Universidad, con un nivel de confianza del 95,5%; v/ Calcular el total de alumnos que aprueban la medida en la población y su error típico. Estimar el total poblacional con un intervalo de confianza del 95,5%; y vi/ Por último, sea cual sea el error típico que obtengamos con nuestros datos, nos gustaría que este error tuviera un valor de 0,01; para ello, ¿qué tamaño de muestra tendríamos que utilizar?
i/ Proporción de alumnos a favor
n i i
y 1 [2.1]
= 300210 = 0,
Donde yi es el valor de cada individuo en la variable y , pudiendo adoptar los valores 0 (no aprueba) y 1 (aprueba la medida), y n el tamaño de la muestra. Recuerde el
y el error típico será igual a:
sy̅(0) = 0 , 000632 = 0,
iii/ Coeficiente de variación de p 1
El coeficiente de variación es una medida que relativiza el valor de la desviación típica muestral, al dividirlo por la media.
𝑐𝑣𝑦̅(0) = y ^
s (^) y (^) 0 [2.6]
= 0 , 00251 , 7 = 0,
Valor que, en general, se expresa como porcentaje: 1,76%.
iv/ Estimación de la proporción de alumnos que aprueban la medida en la Universidad
Estimaremos la proporción con un intervalo de confianza del 95,5%
Y = y ± (z0,955𝑠𝑦̅(0)) ttt [2.7] = 0,7 ± 0, = [0,75; 0,65]
Donde z0,955, según las Tablas de la Distribución Normal, tiene un valor de 2,
Podemos concluir que no es seguro, pues cuando se trabaja con muestras nunca se pueden tener certezas, pero lo más probable (0,955 sobre 1,000) es que la proporción (media) de alumnos de la Universidad (población) que aprueban la medida se encuentre comprendida entre 0,65 y 0,75 por 1,000, o entre el 65% y el 75% de los alumnos.
v/ Cálculo del total de alumnos que aprueban la medida, de su error típico y estimación del total poblacional
En ocasiones, en vez de medias o proporciones es interesante calcular totales, p.ej. de parados, de activos... en estos casos la forma de proceder es como sigue:
Total Y = Fy = 2100 Siendo: F = Nn = 3000300 = 10
Valor que se denomina factor de elevación.
n i i
y 1
Y el error típico del total será: s (^) y ( (^) 0 ) Nsy ( 0 )^ = (3000) (0,0251) = 75,
A partir de aquí podemos estimar el total a favor en la población con un intervalo de confianza del 95,5%:
Ŷ = Y ± (z0,955 sy ( 0 )) = 2100 ± (2) (75,3) = [2250,6; 1949,4]
Análogamente a iv/, lo más probable (95,5%) es que el número de alumnos que aprueba la medida se encuentre entre 1949 y 2251.
vi/ Tamaño de muestra para un error típico de 0,
n = N v s
s y
2 ( 0 )
2
n =
Alternativamente podemos calcular un tamaño de muestra provisional, como si la población fuera infinita (la fracción de muestreo fuera pequeña y la muestra hubiera sido extraída con reposición), para posteriormente ajustar este tamaño de muestra a la situación real:
3.- Muestra estratificada
Tanto por razones prácticas (falta de información, organización del trabajo de campo...) como estadísticas (básicamente mejorar la precisión de los estimadores) es muy normal que en lugar de muestras MAS trabajemos con muestras estratificadas. En este apartado distinguiremos según que la distribución de la muestra en los estratos (afijación) sea proporcional o no proporcional al peso que los mismos tienen en la población, con las distintas posibilidades que se dan en este último caso (muestreos Neyman y Óptimo). También aprovecharemos para mostrar qué efecto tiene sobre el tamaño de la muestra el que utilicemos el diseño estratificado, en sus distintas modalidades, frente al muestreo aleatorio simple (Moser y Kalton 1977: 85-100; Lepkowski y O’Muicheartaigh 1992).
3.1 Proporcional
Se sabe que los alumnos del ejemplo que estamos siguiendo en el libro están divididos en distintas Facultades y se utiliza esta información para estratificar la muestra y luego sacar un número de estudiantes de cada Facultad de manera aleatoria y en número proporcional al tamaño de cada Centro (Tabla3.1).
La muestra estratificada con afijación proporcional siempre reduce el error típico del estimador (en el peor de los casos lo deja igual al del muestreo aleatorio simple), a condición de que el criterio que se utilice para la estratificación esté relacionado con la variable objeto de estudio. En el límite, cuando la relación entre la variable de estudio (p. ej. Actitud hacia la medida de la dirección) y la variable que define los estratos (p. ej. la Facultad donde estudian los alumnos) fuera perfecta – todos los individuos de cada estrato (Facultad) tienen igual opinión y diferente a la de los del resto– bastaría con sacar un individuo de cada estrato para saber sin error (error variable de muestreo) lo que piensa toda la población. En la práctica no va a ocurrir esto, pero cuanto mayor sea la relación mencionada mayor será la ganancia (de precisión) que experimentemos al usar una muestra estratificada. Veamos el cálculo de la media (proporción) y de su precisión utilizando muestras estratificadas.
Tabla3. Distribución de los estudiantes según Facultades en una muestra estratificada con reparto proporcional
Facultades
Nh nh rh ph s^2 h Wh Whph W h^2 (1-fh) (^ s h^2 /nh) Economía 950 95 86 0,905 0,0860 0,3167 0,2866 0, Sociología 430 43 22 0,512 0.2499 0,1433 0,0733 0, Estadística 250 25 18 0,720 0,2016 0,0833 0,0599 0, Políticas 390 39 31 0,795 0,1630 0,1300 0,1033 0, Derecho 320 32 20 0,625 0,2344 0,1066 0,0666 0, Filosofía 660 66 33 0,500 0,2500 0,2200 0,1100 0, Total 3000 300 210 0,700 0,2100 1,0000 0,7000 0, Nhes el tamaño poblacional del estrato; nh el tamaño muestral del estrato: rh el número de alumnos del estrato que aprueban la medida; ph la proporción de alumnos que aprueban la medida; 𝑠ℎ^2 la varianza del estrato; Wh el peso del estrato en la población
i/ Proporción de alumnos a favor
H h 1
( W h y h) [3.1]
Donde W h = NN^ h es el peso que tiene cada estrato en la población y y h la media de cada estrato. Pueden verse sus valores en la Tabla3.1.
y w = (0,2866+…+0,1100) = 0,
Como podemos comprobar el resultado coincide con el de la muestra aleatoria simple. Lo que veremos a continuación es cómo cambia la varianza muestral debido al efecto de la estratificación.
ii/ Varianza del estimador
H h 1
W h^2 (1− f h) h
h n s^^2 [3.2]
Este valor, traducido a número de entrevistas, significa que con (300) (0,85918) ≐ 258
entrevistas hechas con un diseño estratificado obtenemos el mismo error que con las 300 hechas con una muestra aleatoria simple. Si traducimos esta reducción en el número de entrevistas a euros veremos que la diferencia entre utilizar uno u otro tipo de diseño muestral no es despreciable.
Alternativamente, si mantenemos las 300 entrevistas, al aplicar una distribución proporcional por facultades mejoramos la precisión de la estimación lo que se traduce en una reducción de los intervalos de confianza, tal como mostramos a continuación:
Muestra MAS simple
Muestra Estratificada
. Valor de la Proporción: [0,7±2 (0,02513)] [0,7±2 (0,02330)] . Intervalo de confianza [0,650; 0,750] [0,654; 0,746]
3.1.1 Ejercicio
Seleccionamos una muestra estratificada de convictos según tipo de delito. La duración media de la sentencia y otro tipo de información está incluida en la Tabla.
Tipo N h W h n h y̅ (^) ℎ sℎ^2 W h𝑠ℎ^2 Asesinato, secuestro
Robo, asalto 3250 0.13 1000 9.9 5.8 0, Hurto, otros delitos
Total 25000 1.00 5000 3,412 3,
(a) Estima la duración de la sentencia media y su error típico
b) Calcula el efecto del diseño para la media de (a). Varianza estimada para el total de la muestra s^2 = 3,412.
(c) Calcula el efecto del diseño si se utilizara una estratificación proporcional, en lugar de la estratificación que se muestra en la tabla
(Tomados de Sánchez Carrión, J. J. (2014) Manual de análisis estadístico de los datos, Madrid: Alianza Editorial)
Tabla de contingencia Cree otra vida tras muerte * Fín mundo próximo Fín mundo próximo sí no Total Cree otra vida tras muerte sí Recuento 66 455 521 Frecuencia esperada 59,4 461,6 521, % dentro de Fín mundo próximo
62,3% 55,3% 56,1%
no Recuento 40 368 408 Frecuencia esperada 46,6 361,4 408, % dentro de Fín mundo próximo
37,7% 44,7% 43,9%
Total Recuento 106 823 929 Frecuencia esperada 106,0 823,0 929, % dentro de Fín mundo próximo
100,0% 100,0% 100,0%
FIGURA 7.10 Relación entre Creencia en el fin del mundo y creencia en la existencia de otra vida después de la muerte.
2 𝐸𝐸 (^) 𝑖𝑖𝑖𝑖
𝐽𝐽 𝐼𝐼𝑖𝑖=1 𝑖𝑖 =
Donde Oij y Eij son los valores observados y esperados, respectivamente, en la casilla definida por la fila i y la columna j.
El valor esperado Eij = Pi.P.j Cuando se trate de la casilla 1,1 este valor será igual a:
E 11 = P1. P.1 =^106929929521 = 0,
Cantidad que expresada en valores absolutos sobre el total de casos, 2551, es igual a 59,5 casos, frente a los 66 observados.
Partimos de que hay un 7% más de gente que cree en otra vida entre las personas que piensan que el fin del mundo está próximo que entre aquellas que no creen en esta proximidad ( d = 7%). Tratándose de datos muestrales hay que ver la significación estadística de esta Diferencia. Para ello realizamos un Contraste de la Diferencia de Proporciones. Como todo Contraste, este también tiene su proceso:
i/ Modelo e Hipótesis del Contraste Lo primero que hacemos es definir el Modelo y las Hipótesis del Contraste: Modelo: se trata de dos submuestras aleatorias e independientes. No hay errores de medida. Hipótesis: la Hipótesis Nula ya hemos dicho que plantea la igualdad de Proporciones en las dos subpoblaciones. Mientras que las Hipótesis Alternativas muestran su diferencia. H 0 : P 1 = P 2 ; o D = 0 (implica que 𝑆𝑆 12 = 𝑆𝑆 22 ) 𝐻𝐻 1^ ′ : P 1 ╪ P 2 ; o D ╪ 0 𝐻𝐻 1^ ′′ : P 1 < P 2 𝐻𝐻 1^ ′′′ : P 1 > P 2 Donde D es la Diferencia de Proporciones en las subpoblaciones
ii/ Probabilidad de ocurrencia del estadístico Distribución Muestral de la Diferencia de Proporciones Partiendo de los supuestos del Contraste, si sacáramos infinitas submuestras de gente que acepta y de gente que cuestiona la proximidad del fin del mundo y calculáramos la Diferencia de Proporciones, dado el tamaño de las submuestras, su Distribución tendría forma Normal, con Media igual a la Diferencia de las Proporciones en las subpoblaciones y Desviación Típica igual a la suma de los Errores Típicos de cada una de las Proporciones: E(d)=D=0 [7.12] sd = �p1(1n1− p1)+ p2(1n2−p2)
Donde sd , p 1 y p 2 son estimadores de Sd , P 1 y P 2 , respectivamente.
La Distribución de las Diferencias tiene una forma Z Normal, con Probabilidad conocida.
Conocida la Media y la Desviación Típica de la Distribución Muestral podemos tipificar la Diferencia obtenida:
Zd = d^ −^ sdE(d)
= 0,07^ −^ 0, �0,623 (1 106 −0,377 ) + 0,553 (1 823 −0,447 )
A partir de este valor de la Diferencia estandarizada podemos calcular su valor-P. Mirando en la Tabla de la Distribución Normal tenemos una Probabilidad del 0, (Contraste de 2 Colas). Este valor es prácticamente el mismo que obteníamos cuando realizábamos el Contraste de la Chi-cuadrado. Para un Nivel de Significación del 5%, la Región Crítica del Contraste quedaría definida por los valores de 1,96≤ Z ≤-1,96.
iii/ Toma de decisión
A partir del valor de Z obtenido, si adoptamos el criterio estándar de rechazar como estadísticamente significativas todas aquellas Diferencias cuya Probabilidad de ocurrencia sea superior al 5%, no rechazaremos la Diferencia obtenida, puesto que su valor se halla muy alejado de la Diferencia estandarizada de ±1,96 ( Z correspondiente a ese Nivel de Significación): la diferencia de creyentes en otra vida no es distinta entre los que ven que el fin del mundo está próximo que entre los que niegan esta proximidad. En el caso de hacer un contraste de una sola cola el valor-p sería igual a 8,23 (nivel de significación del contraste). Igualmente, tampoco en este caso rechazaríamos H 0.
Ver si la satisfacción con la Sanidad pública es diferente entre hombres y mujeres. Utilizar Chi-cuadrado y Diferencia de proporciones/porcentajes.
Tabla de contingencia ¿Está Ud. satisfecho o insatisfecho con el modo en que el sistema sanitario público funciona en España? * Sexo Sexo Hombre Mujer Total ¿Está Ud. satisfecho o insatisfecho con el modo en que el sistema sanitario público funciona en España?
Suspende Recuento 118 132 250 Frecuencia esperada 124,2 125,8 250, % dentro de Sexo 10,5% 11,6% 11,1% Aprueba Recuento 1002 1003 2005 Frecuencia esperada 995,8 1009,2 2005, % dentro de Sexo 89,5% 88,4% 88,9% Total Recuento 1120 1135 2255 Frecuencia esperada 1120,0 1135,0 2255, % dentro de Sexo 100,0% 100,0% 100,0%
Pruebas de chi-cuadrado
Valor gl
Sig. asintótica (bilateral)
Sig. exacta (bilateral)
Sig. exacta (unilateral) Chi-cuadrado de Pearson ,685a^1 , Corrección por continuidadb^ ,578 1 , Razón de verosimilitudes ,685 1 , Estadístico exacto de Fisher ,421 , Asociación lineal por lineal ,684 1 , N de casos válidos 2255 a. 0 casillas (,0%) tienen una frecuencia esperada inferior a 5. La frecuencia mínima esperada es 124,17. b. Calculado sólo para una tabla de 2x2.
i/ Chi-cuadrado
A la vista del contraste de la Chi-cuadrado no podemos rechazar H 0 dada la altísima probabilidad de cometer un error de tipo I o α si así procediéramos: 0,408 -muy superior al 0,05 estándar.
ii/ Diferencia de porcentajes
Partimos de que hay un 1,1% más de mujeres que de hombres que suspenden la Sanidad pública (11,6% vs. 10,5%).
i/ Modelo e Hipótesis del Contraste
Modelo: se trata de dos submuestras aleatorias e independientes. En este caso sólo se adopta el Contraste en el que se asumen Varianzas iguales. Puesto que la Hipótesis Nula es que las Proporciones poblacionales son iguales, y la Varianza de una Proporción está basada en ese misma Proporción, sería contradictorio planear esta Hipótesis con un Modelo que postulase la diferencia de Varianzas. Hipótesis: la Hipótesis Nula ya hemos dicho que plantea la igualdad de Proporciones en las dos subpoblaciones. Mientras que la Hipótesis Alternativa muestra su diferencia. H 0 : P 1 = P 2 ; o D = 0 (implica que 𝑆 12 = 𝑆 22 ) H 1 : P 1 ╪ P 2 ; o D ╪ 0 Donde D es la Diferencia de Proporciones en las subpoblaciones ii/ Distribución Muestral de la Diferencia de Proporciones Partiendo de los supuestos del Contraste, si sacáramos infinitas submuestras de hombres y mujeres y calculáramos la Diferencia de Proporciones que suspenden la Sanidad, dado el tamaño de las submuestras, su Distribución tendría forma Normal, con Media igual a la Diferencia de las Proporciones en las subpoblaciones y Desviación Típica igual a la suma de los Errores Típicos de cada una de las Proporciones: E(d) = D = 0
Donde sd , p 1 y p 2 son estimadores de Sd , P 1 y P 2 , respectivamente. La Distribución de las Diferencias tiene una forma Z Normal, con Probabilidad conocida. iii/ Valor-P , Nivel de Significación y Región Crítica Conocida la Media y la Desviación Típica de la Distribución Muestral podemos tipificar la Diferencia obtenida:
3.- Ejercicio Análisis de la varianza Contrastar si hay diferencia de criminalidad entre los tres tipos de ciudades del ejemplo siguiente. Descriptivos Tasa criminalidad
N Media
Desviación típica
Error típico
Intervalo de confianza para la media al 95%
Mínimo Máximo
Límite inferior
Límite superior Industrial 8 8,5750 4,40803 1,55847 4,8898 12,2602 2,80 16, Servicios 8 5,6000 3,23287 1,14299 2,8973 8,3027 1,80 11, Administrativa 8 5,9500 4,17578 1,47636 2,4590 9,4410 1,60 12, Total 24 6,7083 4,02999 ,82262 5,0066 8,4100 1,60 16,
Prueba de homogeneidad de varianzas Tasa criminalidad Estadístico de Levene gl1 gl2 Sig. ,414 2 21 ,
ANOVA Tasa criminalidad Suma de cuadrados gl
Media cuadrática F Sig. Inter-grupos 42,303 2 21,152 1,341 , Intra-grupos 331,235 21 15, Total 373,538 23
Viendo la probabilidad de obtener ele estadístico F , con 2 y 21 grados de libertad, igual a 0,283, no podemos decir que haya diferencia (estadísticamente significativa) de criminalidad entre los tres tipos de ciudades.
Juan Javier Sánchez Carrión Catedrático de Sociología UCM
Estamos interesados en conocer la influencia que pueda tener la Edad en la Valoración que tienen los españoles de los profesores de universidad. Se saca una muestra aleatoria de 1046 personas y se obtienen los resultados que se muestran a continuación. i/ Completa las casillas que faltan en la Tabla 1. ii/ ¿Qué conclusiones sacas tú? Aprovecha toda la información que te facilito.
Tabla de contingencia Valoración profesores recodificada * E10a11r E10a11r 1,00 2,00 3,00 Total Valoración profesores recodificada
0-4 Recuento 14 5 33 Frecuencia esperada 12,4 5,0 33, % dentro de E10a11r3 2,8% 3,6% 3,2% 3,2% 5-6 Recuento 94 69 29 Frecuencia esperada 90,9 72,1 29, % dentro de E10a11r3 19,0% 17,6% 18,4% 18,4% 7-8 Recuento 214 135 55 404 Frecuencia esperada 191,2 151,8 61,0 404, % dentro de E10a11r3 43,2% 34,4% 34,8% 38,6% 9-10 Recuento 173 175 69 417 Frecuencia esperada 197,3 156,7 63,0 417, % dentro de E10a11r3 34,9% 44,5% 43,7% 39,9% Total Recuento 495 393 158 1046 Frecuencia esperada 495,0 393,0 158,0 1046, % dentro de E10a11r3 100,0% 100,0% 100,0% 100,0% Tabla 1. - Tabla de contingencia: Valoración profesores de universidad con Edad recodificada
Valor
Error típ. asint.(a)
T aproximada (b)
Sig. aproximada Nominal por nominal
Phi (^) ,105 , V de Cramer ,074 , Coeficiente de contingencia ,104^ , Ordinal por ordinal Gamma ,091^ ,044^ 2,087^ , N de casos válidos (^1046) a Asumiendo la hipótesis alternativa. b Empleando el error típico asintótico basado en la hipótesis nula.
Tabla 2. - Medidas simétricas de asociación entre variables