





























































Prepara tus exámenes y mejora tus resultados gracias a la gran cantidad de recursos disponibles en Docsity
Gana puntos ayudando a otros estudiantes o consíguelos activando un Plan Premium
Prepara tus exámenes
Prepara tus exámenes y mejora tus resultados gracias a la gran cantidad de recursos disponibles en Docsity
Prepara tus exámenes con los documentos que comparten otros estudiantes como tú en Docsity
Encuentra los documentos específicos para los exámenes de tu universidad
Estudia con lecciones y exámenes resueltos basados en los programas académicos de las mejores universidades
Responde a preguntas de exámenes reales y pon a prueba tu preparación
Consigue puntos base para descargar
Gana puntos ayudando a otros estudiantes o consíguelos activando un Plan Premium
Comunidad
Pide ayuda a la comunidad y resuelve tus dudas de estudio
Ebooks gratuitos
Descarga nuestras guías gratuitas sobre técnicas de estudio, métodos para controlar la ansiedad y consejos para la tesis preparadas por los tutores de Docsity
Asignatura: Introducció a l'estadística, Profesor: , Carrera: Administració i Direcció d'Empreses, Universidad: UA
Tipo: Apuntes
1 / 69
Esta página no es visible en la vista previa
¡No te pierdas las partes importantes!






























































Curso 2014-
En este tema se estudia cÛmo resumir numÈricamente la informaciÛn contenida en un conjunto de observaciones de una o dos variables estadÌsticas numÈricas; especÌÖcamente, estudiaremos medidas que indican por dÛnde est·n las observaciones, medidas que indican cu·nta variabilidad hay en ellas y, cuando hay dos variables, medidas que indica cu·nta relaciÛn hay entre las dos variables. Distinguiremos entre medidas sobre la poblaciÛn y medidas sobre la muestra. Las medidas poblacionales pueden calcularse cuando hay una cantidad Önita de elementos en la poblaciÛn y los observamos a todos; en este caso, llamaremos N al n˙mero de elementos de la poblaciÛn. Pero lo m·s habitual es que sÛlo observemos una muestra de la poblaciÛn y que sÛlo podamos calcular medidas muestrales; en este caso, llamaremos n al n˙mero de elementos de la muestra. A la variable de interÈs la designaremos como X y a las observaciones de esta variable como X 1 , ..., Xn (o con subÌndice N si se observa toda la poblaciÛn). Si hay dos variables, las designaremos como X e Y.
La medida de tendencia central m·s sencilla es la media. A la media de una muestra se le denomina media muestral y suele representarse como X , es decir:
X =
X 1 + X 2 + + Xn n
∑ni = 1 Xi n Cuando se observan todos los elementos de la poblaciÛn, puede calcularse tambiÈn la media de todos ellos; al resultado se le llama media poblacional y suele representarse como μ X , o simplemente μ si no hay ambig¸edad, es decir:
μ =
N i = 1 Xi N ObsÈrvese que, para calcular la media muestral (o poblacional), no es imprescindible conocer una a una todas las observaciones: basta con saber cu·ntas observaciones hay en la muestra (o en la poblaciÛn), y cu·l es su suma.
EJEMPLO 1: Queremos analizar el tiempo (en horas) que cada semana dedican al estudio los estudiantes de EconomÌa. Para ello hemos seleccionado una muestra de 13 estudiantes de EconomÌa, y les hemos preguntado el tiempo que dedicaron al estudio en la ˙ltima semana. Los resultados han sido:
24 15 23 27 34 21 20 10 21 18 23 21 29
Para el c·lculo de la media muestral se requiere la suma de todas las observaciones. En este caso: X 1 + X 2 + + X 13 = 286
Por tanto la media muestral es:
X = X 1 + X 2 + + X 13 13 =^
286 13 =^ 22 horas
Veamos ahora quÈ ocurre cuando n es par. Supongamos, por ejemplo, que n = 6. En este caso la muestra ordenada es: X( 1 ), X( 2 ), X( 3 ), X( 4 ), X( 5 ), X( 6 ) Ahora ninguna observaciÛn ocupa exactamente el centro: X( 3 ) no est· en el centro porque tiene 2 observaciones por debajo de ella y 3 por encima, y X( 4 ) no est· en el centro porque tiene 3 observaciones por debajo de ella y 2 por encima. En casos como este en que ninguna observaciÛn ocupa el centro se deÖne la mediana muestral como la media de las dos observaciones m·s cercanas al centro, es decir, X( 3 ) y X( 4 ). Por tanto, si n = 6 la mediana muestral es (X( 3 ) + X( 4 ))/2. An·logamente, si n = 8 el centro est· entre X( 4 ) y X( 5 ), y la mediana muestral es (X( 4 ) + X( 5 ))/2; y, en general, si n es un n˙mero par, el centro est· entre X( n 2 ) y X( n 2 + 1 ), luego:
Si n es par, Mediana(X ) =
X( n 2 ) + X( n 2 + 1 ) 2
En general, se llama la posiciÛn de la mediana muestral a la posiciÛn n+ 2 1 de la muestra ordenada, sin distinguir si n es par o impar. Utilizando este concepto, un procedimiento alternativo para calcular la mediana muestral es: Ordenamos la muestra. Calculamos n+ 2 1 , y llamamos m a su parte entera (es decir, m es el n˙mero entero que se obtiene eliminando los decimales de n+ 2 1 ). Finalmente:
Mediana(X ) =
8
< :
X(m) si n+ 2 1 = m
X(m) +X(m+ 1 ) 2 si^
n+ 1 2 =^ m^ +^0.^5
La mediana poblacional se deÖne igual que la mediana muestral, pero teniendo en cuenta que en ese caso lo que se observa es toda la poblaciÛn (en la notaciÛn, simplemente hay que reeemplazar n por N en lo anterior).
ComparaciÛn entre media y mediana: La media y la mediana habitualmente son similares, pero no siempre. Suelen diferir cuando la distancia que hay entre las observaciones centrales y las menores es diferente a la que hay entre las observaciones centrales y las mayores; esto puede ocurrir si hay observaciones atÌpicas (muy alejadas del centro) a la derecha pero no a la izquierda, o al contrario. Por ejemplo, si la muestra es 3, 5, 6, 7, 9, la media y la mediana muestral son 6; pero si la muestra es 3, 5, 6, 7, 109, la media muestral es 26, mientras que la mediana muestral es 6. La media tiene la ventaja de que utiliza toda la informaciÛn disponible sobre la variable, y no solo la informaciÛn del centro; pero por esa razÛn quiz· el resultado que se obtenga con la media puede no ser representativo del centro de la variable. Esto ˙ltimo ocurre especialmente cuando hay observaciones atÌpicas en la muestra; por eso, en esos casos suele preferirse la mediana como medida representativa del centro. Tradicionalmente la media ha sido una medida m·s utilizada que la mediana por su facilidad matem·tica.
La ˙ltima medida de tendencia central que estudiaremos es la moda. La moda muestral es la observaciÛn de la muestra que m·s se repite. Cuando todos las observaciones de la muestra son diferentes se dice que la moda no existe (esto suele ocurrir cuando la variable es numÈrica continua y las observaciones se dan con suÖcientes decimales). En otras ocasiones puede haber m·s de una moda; por ejemplo, si nuestro conjunto de observaciones fueran 1, 1, 2, 2, 3, 4, 5, entonces habrÌa dos modas: 1 y 2. La moda poblacional se deÖne igual que la moda muestral, pero teniendo en cuenta que en ese caso lo que se observa es toda la poblaciÛn. ObsÈrvese que, en realidad, lo que la moda indica es cu·l es el valor m·s frecuente, y no cu·l es el centro. Por esta razÛn, la moda es menos utilizada que la media y la mediana.
Tanto en este subapartado como en el siguiente daremos las deÖniciones para el caso muestral. Las deÖniciones para el caso poblacional son an·logas (cambiando en la notaciÛn n por N). Intuitivamente el primer cuartil va a ser un valor que deja aproximadamente el 25% de las observaciones por debajo de Èl y el 75% de las observaciones por encima. Ahora bien, la deÖniciÛn precisa del primer cuartil puede hacerse de diversas maneras, no todas ellas coincidentes. Nosotros lo que haremos ser· deÖnir primero cu·l ha de ser la posiciÛn del primer cuartil, y despuÈs deÖniremos el primer cuartil utilizando las observaciones que estÈn alrededor de esa posiciÛn en la muestra (o poblaciÛn) ordenada. Antes hemos visto que la mediana, que es el valor que deja aproximadamente el 50% de las observaciones por debajo de Èl y el 50% de las observaciones por encima de Èl, tiene como posiciÛn 1 2 (n^ +^1 ).^ La posiciÛn del primer cuartil la vamos a deÖnir de modo an·logo, cambiando el factor 12 por el factor 14.
Suponemos que tenemos una muestra ordenada X( 1 ), ..., X(n). Se llama posiciÛn del primer cuartil muestral a la posiciÛn 14 (n + 1 ) de la muestra ordenada. Llamando m a la parte entera de 14 (n + 1 ), se llama primer cuartil muestral (o cuartil inferior muestral) a:
Q 1 (X ) =
8
<
:
X(m) si 14 (n + 1 ) = m 3 X(m) +X(m+ 1 ) 4 si^
1 4 (n^ +^1 ) =^ m^ +^0.^25 X(m) +X(m+ 1 ) 2 si^ 1 4 (n^ +^1 ) =^ m^ +^0.^5 X(m) + 3 X(m+ 1 ) 4 si^ 1 4 (n^ +^1 ) =^ m^ +^0.^75
El tercer cuartil va a ser un valor que deja aproximadamente el 75% de las observaciones por debajo de Èl y el 25% de las observaciones por encima. TambiÈn hay varios modos de deÖnir de modo preciso el tercer cuartil. La deÖniciÛn que veremos aquÌ ser· similar a la hecha para el primer cuartil: Se llama posiciÛn del tercer cuartil muestral a la posiciÛn 34 (n + 1 ) de la muestra ordenada. Llamando m a la parte entera de 34 (n + 1 ), se llama tercer cuartil muestral (o cuartil superior muestral) a:
Q 3 (X ) =
8
<
:
X(m) si 34 (n + 1 ) = m
3 X(m) +X(m+ 1 ) 4 si^ 3 4 (n^ +^1 ) =^ m^ +^0.^25 X(m) +X(m+ 1 ) 2 si^
3 4 (n^ +^1 ) =^ m^ +^0.^5 X(m) + 3 X(m+ 1 ) 4 si^
3 4 (n^ +^1 ) =^ m^ +^0.^75
EJEMPLO 1 (Cont.): La muestra de tiempos de estudio de los 13 estudiantes de EconomÌa, una vez ordenados los tiempos de menor a mayor, es:
10 15 18 20 21 21 21 23 23 24 27 29 34
Como hay n = 13 observaciones, la posiciÛn del tercer cuartil muestral en la muestra ordenada es:
posiciÛn del tercer cuartil = 3 4 ( 13 + 1 ) = 10. 5
Por tanto, el tercer cuartil muestral es la media entre la dÈcima observaciÛn y la undÈcima, es decir:
Q 3 (X ) =
X( 10 ) + X( 11 ) 2 = 24 + 27 2 = 25 .5 horas
El rango (muestral o poblacional) se deÖne como la diferencia entre la mayor de las observaciones y la menor; por tanto, es la longitud del menor intervalo que contiene a todas las observaciones. ObsÈrvese que el rango: tiene la misma unidad de medida que X ; es una medida de variabilidad que no tiene en cuenta como se distribuyen las observaciones dentro de su rango de variaciÛn (por esta razÛn, no es muy utilizada en la pr·ctica, a pesar de su sencillez); es una medida que se ve muy afectada por observaciones atÌpicas. EJEMPLO 1 (Cont.): La muestra ordenada es: 10 15 18 20 21 21 21 23 23 24 27 29 34 El rango muestral es la diferencia entre la mayor observaciÛn y la menor: Rango(X ) = Max(Xi ) Min(Xi ) = 34 10 = 24 horas.
Se llama rango intercuartÌlico (muestral o poblacional) a la diferencia entre el tercer cuartil y el primer cuartil, es decir:
RIQ(X ) = Q 3 (X ) Q 1 (X )
Por tanto, el rango intercuartÌlico indica la longitud del intervalo que contiene aproximadamente al 50% de observaciones centrales. ObsÈrvese que: la unidad de medida del rango intercuartÌlico es la misma que la de X ; el rango intercuartÌlico es una medida de variabilidad central: un valor pequeÒo de RIQ(X ) indica que todas las observaciones centrales est·n muy concentradas (poca variabilidad en el centro), mientras que un valor grande indica lo contrario; el rango intercuartÌlico no se ve afectado por la presencia de observaciones atÌpicas, pues Èstas no afectan a los cuartiles.