Docsity
Docsity

Prepara tus exámenes
Prepara tus exámenes

Prepara tus exámenes y mejora tus resultados gracias a la gran cantidad de recursos disponibles en Docsity


Consigue puntos base para descargar
Consigue puntos base para descargar

Gana puntos ayudando a otros estudiantes o consíguelos activando un Plan Premium


Orientación Universidad
Orientación Universidad


error típico, Apuntes de Estadística

Asignatura: Estadística II, Profesor: , Carrera: ADE + Dret, Universidad: UV

Tipo: Apuntes

2012/2013

Subido el 08/12/2013

cavaes
cavaes 🇪🇸

4.2

(14)

28 documentos

1 / 14

Toggle sidebar

Esta página no es visible en la vista previa

¡No te pierdas las partes importantes!

bg1
Publicado en: Morales Vallejo, Pedro (2008) Estadística aplicada a las Ciencias Sociales.
Madrid: Universidad Pontificia Comillas ([email protected])
Estadística inferencial:
el error típico de la media
©Pedro Morales Vallejo,
Universidad Pontificia Comillas, Madrid
Facultad de Ciencias Humanas y Sociales
(última revisión 21 de Septiembre de 2007)
Índice
1. Introducción: estadística descriptiva y estadística inferencial:
estadísticos y parámetros, poblaciones y muestras............................................................ 3
2. Las distribuciones muestrales y el error típico.................................................................... 3
3. El error típico de la media................................................................................................... 5
4. Utilidad del error típico de la media................................................................................... 6
4.1. Establecer entre qué limites (intervalos de confianza) se encuentra la media (µ)
de la población (establecer parámetros poblacionales).............................................. 6
4.2. Establecer los intervalos de confianza de una proporción .......................................... 8
4.3. Comparar la media de una muestra con la media de una población............................ 10
4.4. Calcular el tamaño N de la muestra para extrapolar los resultados a la población ..... 12
5. Referencias bibliográficas................................................................................................... 13
Anexo: Los intervalos de confianza de la media y de las proporciones en Internet............... 14
pf3
pf4
pf5
pf8
pf9
pfa
pfd
pfe

Vista previa parcial del texto

¡Descarga error típico y más Apuntes en PDF de Estadística solo en Docsity!

Publicado en: Morales Vallejo, Pedro (2008) Estadística aplicada a las Ciencias Sociales.

Madrid: Universidad Pontificia Comillas ([email protected])

Estadística inferencial:

el error típico de la media

©Pedro Morales Vallejo, Universidad Pontificia Comillas, Madrid Facultad de Ciencias Humanas y Sociales (última revisión 21 de Septiembre de 2007)

Índice

1. Introducción: estadística descriptiva y estadística inferencial:

estadísticos y parámetros, poblaciones y muestras ............................................................ 3

2. Las distribuciones muestrales y el error típico.................................................................... 3

3. El error típico de la media................................................................................................... 5

4. Utilidad del error típico de la media................................................................................... 6

4.1. Establecer entre qué limites (intervalos de confianza) se encuentra la media (μ)

de la población (establecer parámetros poblacionales).............................................. 6

4.2. Establecer los intervalos de confianza de una proporción .......................................... 8

4.3. Comparar la media de una muestra con la media de una población............................ 10

4.4. Calcular el tamaño N de la muestra para extrapolar los resultados a la población ..... 12

5. Referencias bibliográficas ................................................................................................... 13

Anexo: Los intervalos de confianza de la media y de las proporciones en Internet ............... 14

las características de la población. Hay varios métodos para elegir muestras aleatorias pero no los tratamos aquí.

3º De esta muestra podemos calcular la media. Seguimos extrayendo muestras aleatorias y calculando sus medias.

4º Al disponer de un número grande de medias tendríamos una distribución de estas medias; esa distribución es una distribución muestral: no se trata de una distribución de puntuaciones individuales sino de medias de muestras.

Un punto importante es que aunque las muestras no tengan una distribución normal, las medias de estas muestras sí tienden a seguir la distribución normal.

5º La desviación típica de estas distribuciones muestrales se denomina error típico y se puede estimar a partir de los datos de una muestra. Por lo tanto un error típico es la desviación típica de una distribución muestral, y se interpreta como cualquier desviación típica.

Dos distribuciones muestrales, con sus errores típicos, nos van a interesar de manera especial:

  1. la distribución muestral de las medias;
  2. la distribución muestral de las diferencias entre medias de la misma población.

Estas distribuciones muestrales son modelos teóricos que a partir de los datos de una muestra nos van a permitir inferir conclusiones acerca de la población a la que pertenece la muestra. Conociendo el error típico de estas distribuciones podemos estimar entre qué limites se encuentra la media de la población o si dos muestras proceden de poblaciones distintas con media distinta. Ahora nos centramos en el error típico de la media.

Conviene caer en la cuenta desde el principio de la utilidad del error típico de la media. Es fácil obtener la media de una muestra en cualquier variable de interés, pero con frecuencia lo que nos interesa no es la media como dato descriptivo de una muestra, sino conocer o tener una idea de por dónde anda la media en la población representada por esta muestra. La media de la población no la vamos a conocer, pero sí podremos estimar entre qué valores se encuentra.

La media de una muestra podemos interpretarla como una estimación (solamente una estimación sujeta a error) de la media de la población. Esta estimación será más precisa:

1º Si la muestra es aleatoria porque en ese caso representa mejor las características de la población

2º Si la muestra es grande (si la muestra comprendiera a toda la población tendríamos el dato exacto, no una estimación).

El error típico, como es la desviación típica de todas las posibles muestras de esa población, nos va a permitir localizar entre qué límites se encuentra la media de la población.

Este planteamiento es semejante al que nos encontramos en los sondeos de opinión, como son las encuestas pre-electorales. Si el 48% de los sujetos entrevistados dice que va a votar a un determinado candidato, esto no quiere decir que el 48% exacto de la población le vaya a votar. Sin embargo los datos obtenidos de una muestra nos van a permitir estimar un tanto por ciento mínimo probable y un tanto por ciento máximo probable de votantes a ese candidato: entre esos dos tantos por ciento se va a encontrar el tanto por ciento definitivo cuando todos hayan votado. De los datos de una muestra extrapolamos a la población, por eso se trata de estadística inferencial.

De manera análoga podemos pensar en distribuciones muestrales de otros estadísticos como proporciones, medianas, coeficientes de correlación, etc., y también en distribuciones muestrales de las diferencias entre proporciones, medianas, coeficientes de correlación, etc., con aplicaciones semejantes a las que vamos a ver con respecto a la media que son las de utilidad más inmediata y frecuente.

3. El error típico de la media

Según el teorema del límite central, si de cualquier población se extraen muestras aleatorias del mismo tamaño N, al aumentar el número de muestras sus medias se distribuyen normalmente, con media

μ y una desviación típica, o error típico σ (^) X = σ/ N

Esta distribución muestral de las medias es independiente de la distribución de la población: aunque la distribución en la población no sea normal, las medias de las muestras aleatorias extraídas de esa población sí tienden a tener una distribución normal.

El error típico de la media (desviación típica de la distribución muestral de las medias) podemos expresarlo de dos maneras:

σ (^) X =

σ Ν

[1]

En la fórmula [1] la desviación típica del numerador se supone calculada dividiendo por N-1 la suma de cuadrados (o la suma de las puntuaciones diferenciales, X- X , elevadas previamente al cuadrado).

σ (^) X =

σ Ν −

[2]

En la fórmula [2] la desviación típica se ha calculado dividiendo por N, como es normal hacerlo cuando se calcula la desviación típica como dato descriptivo de la muestra. Ambas fórmulas son equivalentes y dan el mismo resultado; la única diferencia está en cuándo se ha restado 1 a N.

En principio suponemos que la desviación típica de la muestra la hemos calculado dividiendo por N, como dato descriptivo de la dispersión en la muestra, por eso al calcular el error típico de la media utilizaremos la fórmula [2].

La desviación típica del numerador en ambas fórmulas es la calculada en la muestra, pero debería ser la desviación típica calculada con todos los sujetos de la población. Como desconocemos la desviación típica de la población, utilizamos la de la muestra como una estimación de la desviación típica de la población.

Observando la fórmula del error típico de la media podemos ver que:

1º Es claro que el error típico de la media será menor que la desviación típica de cualquier muestra: el cociente siempre será menor que el numerador. Esto quiere decir que las medias de las muestras son más estables y tienden a oscilar menos que las puntuaciones individuales; dicho de otra manera, las medias de muestras de la misma población se parecen entre sí más que los sujetos (u objetos) de una muestra entre sí.

2º Observando las fórmulas vemos también que el error típico de la media será más pequeño en la medida en que N sea grande: si aumentamos el denominador, disminuirá el cociente.

Es natural que al aumentar el número de sujetos (N) el error sea menor: la media de la muestra se aproximará más a la media de la población. Si N es muy grande, el error tiende a cero; y si N no comprende a una muestra sino a toda la población, el error sería cero: en este caso la media de la población coincide con la media de la muestra y no hay error muestral (o variación esperable de muestra a muestra).

3º Por otra parte si la desviación típica de la muestra es grande, el error típico estimado de la media será también mayor: si aumentamos el numerador, el cociente será mayor.

Hay un 68% de probabilidades de que la media de la población se encuentre entre la media de la muestra más menos un error típico: entre (62.8 - 1.47) y (62.8 + 1.47) = entre 61.33 y 64.27.

Hay un 95% de probabilidades de que la media de la población se encuentre entre la media de la muestra más menos 1.96 errores típicos: entre [62.8 - (1.96 x 1.47)] y [62.8 + (1.96 x 1.47)] = entre 59.92 y 65.68. Si deseamos mayor seguridad al establecer los límites probables entre los que se encuentra la media de la población, podemos tomar como límite 2.57 errores típicos, porque sabemos que entre la media más menos 2.57 desviaciones típicas se encuentra el 99% de los casos. En este caso:

El límite inferior de la media de la población sería [62.8 - (2.57 x 1.47)] = 59. El límite superior de la media de la población sería [62.8 + (2.57 x 1.47)] = 66. A estos límites, o valores extremos, superior e inferior, de la media en la población se les denomina intervalos de confianza, porque eso es precisamente lo que expresan: entre qué límites podemos situar la media de la población con un determinado grado de confianza o de seguridad (o de probabilidades de no equivocarnos). Los intervalos de confianza suelen denominarse en las encuestas de opinión márgenes de error.

Estos intervalos de confianza podemos establecerlos con diversos niveles de seguridad, que vendrán dados por el valor de z que escojamos, por lo que podemos expresarlos así:

intervalos de confianza de la media = X ± (z)

σ [3]

La cantidad que sumamos y restamos a la media de la muestra podríamos denominarla margen de error al estimar los límites probables de la media en la población y que podemos expresar de esta manera:

lamediadelapoblación

margen deerroralestimar = (^) ⎥ ⎦

dela media

error típico x expresadoporun valordez

nivel deconfianza [4]

Como ya hemos indicado estos límites o márgenes de error serán más ajustados cuando el número de sujetos sea mayor. Es útil visualizar el efecto del tamaño de la muestra en los intervalos de confianza (tabla 1). Queremos saber, por ejemplo, entre qué límites se encuentra la media de la población, estimada a partir de una muestra pequeña (N = 10) y de una muestra grande (N = 500), y con un niveles de confianza de .05 (que corresponde a z = 1.96). En ambos casos suponemos en las muestras una media = 8 y una desviación típica = 2.

N

Error típico de la media

Nivel de confianza

Límite mínimo de la media en la población

Límite máximo de la media en la población

(^10). 67 9

(z = 1.96)

8-(1.96)(.67) = 6.68 8+ (1.96)(.67)= 9.

(z = 1.96)

8-(1.96)(.09) = 7.82 8+ (1.96)(.09) = 8.

Tabla 1

Lo vemos con más claridad con una representación gráfica:

6 7 8 9 10 Límites extremos de la media de la población estimados a partir de N = 10 6.68 9.

Límites extremos de la media de la población estimados a partir de N = 500

7.82 8.

Con más sujetos los límites son más ajustados, hay más precisión ; con 10 sujetos situamos la media de la población entre 6.68 y 9.13 (una diferencia de 2.45 puntos), y con 500 sujetos entre 7.82 y 8.18 (una diferencia entre ambos límites de sólo .36).

También con un nivel de confianza más estricto (.01, que corresponde a z = 2.57, en vez de .05) tenemos una menor probabilidad de salir falsos profetas, más seguridad, pero los límites son más amplios (una mayor seguridad pero menor precisión). Si en el ejemplo anterior utilizamos .01 en vez de .05 con 500 sujetos veremos la diferencia (tabla 2).

N

Error típico de la media

Nivel de confianza

Límite mínimo de la media en la población

Límite máximo de la media en la población

(^500 ) 499

(z = 1.96)

(z = 2.57)

Tabla 2

Con una menor probabilidad de error (.01 en vez de .05) los límites extremos de la media en la población son 7.77 y 8.23, una diferencia de .46 en vez de.

Tanto X como σ son los valores calculados en una muestra. Naturalmente el valor exacto de la

media de la población (μ) no lo conocemos: puede estar en cualquier punto entre los valores extremos indicados. También puede estar fuera de los límites indicados, pero esto va siendo más improbable cuando establecemos unos intervalos de confianza más estrictos.

Es normal operar con un nivel de confianza del 95% (o, lo que es lo mismo, con una probabilidad de error, al situar los límites extremos de la media, de un 5%); en este caso z en la fórmula [3] será igual a 1.96; como se desprende de esta fórmula, a mayor valor de z (mayor seguridad) los límites serán más extremos.

Cuando calculamos la media de una muestra en una variable de interés ¿Es útil calcular además entre qué límites se encuentra la media de la población?

Con frecuencia nos bastará conocer la media de una muestra concreta como dato informativo, pero con frecuencia extrapolamos informalmente de la muestra a la población. Siempre es útil relativizar este tipo de información, y con mayor razón si de hecho (como es frecuente) estamos utilizando la media de una muestra como estimación de la media de la población2.

4.2. Establecer los intervalos de confianza de una proporción

El error típico de una proporción es un caso particular del error típico de la media pero dado el uso frecuente de proporciones y porcentajes es útil verlo por separado y con ejemplos ilustrativos.

2 Una de las recomendaciones de la American Psychological Association es calcular siempre los intervalos de confianza (Wilkinson, Leland and Task Force on Statistical Inference APA Board of Scientific Affairs 1999; American Psychological Association, 2001).

El ejemplo de los sondeos pre-electorales pone de relieve la importancia de calcular los intervalos de confianza de una proporción (y es lo que se hace y comunica cuando se publican estas encuestas), pero estos intervalos de confianza son informativos casi en cualquier situación. Cuando se hacen sondeos de opinión en grupos diversos (alumnos, padres de alumnos, grupos profesionales, etc.) prácticamente se tienen muestras (no responde toda la población) pero los resultados suelen interpretarse como si todos hubieran respondido; lo realmente informativo es aportar los intervalos de confianza, o entre qué límites se encuentran con toda probabilidad las respuestas si todos hubieran respondido.

Cuando distintos grupos responden a la misma pregunta ( o no en este caso, pero puede tratarse también de respuestas con valores continuos) es útil especificar el error típico de la proporción en cada muestra y los intervalos de confianza entre los que se encuentra la proporción de síes (o unos) en las poblaciones representadas por esas muestras (ejemplo en la tabla 3, con un nivel de confianza de .05 ó z = 1.96).

Muestras de distinto tamaño

Proporción (ó %) en la muestra

Error típico Intervalos de confianza en las poblaciones representadas por esas muestras 45 50 55 60 65 70 75 80

A, N = 300 (^) .60 .0283 54 60 65

B, N = (^80) .60 .0548 49 60 71

Tabla 3

En la tabla 3 podemos observar que en las muestras A y B responde afirmativamente la misma proporción de sujetos (un 60%), pero al extrapolar los resultados a las poblaciones representadas por esas muestras el margen de error es mucho menor en la muestra A porque se trata de más sujetos.

Al hablar de extrapolar a la población los resultados de una muestra (en este caso y en cualquier otro) hay que hacer una observación importante. Estamos suponiendo que esa muestra es representativa de la población, que no está sesgada, y es esto lo se intenta conseguir con las muestras aleatorias. Cuando éste no es el caso (responden los sujetos disponibles, los que quieren, etc.) siempre podemos pensar en la población que pueda estar representada por esa muestra y ser cautelosos al generalizar los resultados. En cualquier caso siempre es más seguro informar sobre los intervalos de confianza sin limitarnos a una proporción o porcentaje aparentemente exacto.

4.3. Comparar la media de una muestra con la media de una población

Se trata ahora de verificar si podemos considerar que una muestra, cuya media conocemos,

pertenece a una población cuya media también conocemos. Si tenemos la media de una muestra ( X ) y la media de una población (μ), podemos preguntarnos ¿Es posible afirmar que nuestra muestra, cuya media

conocemos, pertenece a (es una muestra aleatoria de) una población con media μ? Si la respuesta es no, podremos afirmar que la muestra pertenece a una población distinta, con una media distinta.

Al hablar de diferencias estadísticamente significativas estamos hablando de diferencias no aleatorias, no explicadas por el error muestral, no esperables por azar. Esto lo afirmaremos con una determinada probabilidad de error; es el nivel de significación o nivel de confianza.

Es más frecuente comparar las medias de dos muestras (para comprobar si proceden de o pertenecen a poblaciones distintas), pero también tiene su interés el comparar la media de una muestra con la media de una población cuando ésta es conocida por otras investigaciones o estudios, o es la conclusión lógica de una determinada teoría, o simplemente la media de la población es una hipótesis de trabajo; siempre podemos pensar en medias hipotéticas.

Lo veremos con un ejemplo. Un profesor pone a sus alumnos una serie de problemas y obtiene estos resultados: N = 40, X = 12.6 y σ = 4.25. El profesor piensa que un resultado óptimo y posible hubiera sido obtener una media de 15, y se pregunta ¿puede considerarse esta muestra de 40 alumnos como una muestra aleatoria de una población cuya media fuera μ = 15?

Este tipo de planteamientos puede tener su interés cuando la media de la población es una hipótesis plausible o hay datos de otros estudios, etc. Vamos a suponer que el nivel de confianza que nos ponemos es de α = .01 (que corresponde a z = 2.57; probabilidad de equivocarnos: 1% o menos; sólo el 1% de los

casos cae más allá de ±2.57).

Podemos solucionar el problema de dos maneras.

1º Nuestra muestra pertenece a una población cuya media en principio desconocemos. Lo que sí podemos hacer es estimar el límite máximo de la media de la población a la que pertenece nuestra muestra, tal como hemos visto antes, y con un riesgo máximo de error del 1%, tal como hemos fijado previamente.

  1. Calculamos el error típico de la media, σ (^) X =

σ

  1. ¿Cuáles serán los límites superior e inferior de la media de la población, con una probabilidad de error del 1%?

El límite superior será X +(2.57)(σ (^) X ) = 12.6 + (2.57)(.68) = 14. El límite inferior será X - (2.57)(σ (^) X ) = 12.6 – (2.57)(.68) = 10.

Podemos considerar que nuestra muestra, con una media de 12.6, pertenece a una población cuya media estará entre 10.85 y 14.34, y esto podemos afirmarlo con una probabilidad de error del 1%.

  1. Nuestra conclusión es clara: nuestra muestra con media de 12.6 no pertenece a una población hipotética cuya media fuera 15 porque el límite máximo de la población de nuestra media es 14.35 y no llega a 15, luego nuestra muestra pertenece a otra población con otra media, cuyo límite inferior no es 15.

Podemos visualizar el resultado con un sencillo gráfico:

Límites probables extremos de la media de la población a la que pertenece esta muestra: ↓ ↓ 10.85 14.

Media de la población de referencia, término de comparación ↓ 15

Salta a la vista que la media de la población de referencia es mayor que el límite superior de la media de la población representada por esa muestra.

2º De hecho el procedimiento utilizado habitualmente para comprobar si la media de una muestra difiere significativamente de la media de una población suele ser otro que nos permite llegar a las mismas conclusiones. Nos basta calcular una puntuación típica (z), que nos dirá en cuántos errores típicos se aparta nuestra media de la media de la población. El procedimiento y la fórmula apropiada están puestos y explicados como un caso más del contraste de medias.

Hacemos algunas observaciones ya que el exponer y justificar brevemente estas fórmulas tiene un valor complementario para entender mejor el concepto y utilidad del error típico, pero no tratamos aquí de manera expresa sobre el tamaño de la muestra, tipos de muestreos y cómo hacerlos, etc.^3

a) Estas fórmulas para calcular el tamaño de la muestra son válidas aun cuando las preguntas no sean dicotómicas (estamos utilizando el error típico de una proporción, cuya varianza máxima es pq = .25). b) Son válidas cuando se hace un muestreo aleatorio simple; hay variantes cuando se utilizan otros tipos de muestreo (como el estratificado). c) Suponemos que la población a la que se extrapolan los resultados es grande, de tamaño indefinido y que podemos no conocer con exactitud. Con poblaciones menores y cuyo tamaño conocemos hay fórmulas más ajustadas; más o menos a partir de poblaciones en torno a los 30.000 sujetos el tamaño necesario de la muestra no varía mucho; al aumentar el tamaño de la población no aumenta proporcionalmente el tamaño necesario de la muestra.

5. Referencias bibliográficas

AMERICAN P SYCHOLOGICAL ASSOCIATION (2001). Publication manual of the American Psychological Association (5 th^ Edit). Washington D.C.: Author HERNÁNDEZ S AMPIERI , ROBERTO ; F ERNÁNDEZ COLLADO , CARLOS Y BAPTISTA LUCIO , P ILAR (2000). Metodología de la Investigación. Segunda Edición. México: McGraw-Hill MORALES VALLEJO , P EDRO. Tamaño necesario de la muestra: ¿Cuántos sujetos necesitamos?

http://www.upco.es/personal/peter/investigacion/Tama%F1oMuestra.pdf (última revisión, 23,

Nov., 2006) RODRÍGUEZ OSUNA , JACINTO (1993). Métodos de muestreo. Casos prácticos. Cuadernos metodológicos. Madrid: Centro de Investigaciones Sociológicas (CIS). S ALKIND , NEIL J. (1998). Métodos de Investigación, 3ª edición, México: Prentice-Hall S TATP AC INC (2003) Questionnaires & Survey Design http://www.statpac.com/surveys/index.htm#toc (en Sampling Methods) WILKINSON , LELAND AND TASK F ORCE ON S TATISTICAL INFERENCE APA B OARD OF S CIENTIFIC A FFAIRS (1999 ) Statistical Methods in Psychology Journals: Guidelines and Explanations American Psychologist August 1999, Vol. 54, No. 8, 594– (http://www.apa.org/journals/amp/amp548594.html).

3 Puede verse más información en la bibliografía mencionada y en otras muchas publicaciones; sobre el tamaño de la muestra necesario también con otras finalidades (construir una escala de actitudes, hacer un análisis factorial, etc.) puede verse Morales (2006)

Anexo. Los intervalos de la media y de las proporciones en Internet

Varios programas disponibles en Internet nos dan los intervalos de confianza de una media o proporción para un determinado nivel de confianza, lo mismo que el tamaño de la muestra necesario pra determinados márgenes de error.

Algunas direcciones relacionadas con encuestas de opinion :

CREATIVE RESEARCH S YSTEMS. The Survey System Sample Size Calculador http://www.surveysystem.com/sscalc.htm

CUSTOMINSIGHT. COM. Survey Random Sample Calculator (Home: http://www.custominsight.com/index.asp) http://www.custominsight.com/articles/random-sample- calculator.asp

DIMENSION RESEARCH , INC. Confident Intervals for Means Calculador http://www.dimensionresearch.com/resources/calculators/conf_means.html ( home: http://www.dimensionresearch.com/index.html )

Además, entre otras direcciones.

LOWRY , RICHARD , VASSARS TATS : WEB S ITE FOR S TATISTICAL COMPUTATION ,Vassar College, Poughkeepsie, NY, USA; http://faculty.vassar.edu/lowry/VassarStats.html ( menú en proportions: the confidence interval of a proportion; en t test & procedures: .95 and .99 Confidence Intervals for the Estimated Mean of a Population).