











Prepara tus exámenes y mejora tus resultados gracias a la gran cantidad de recursos disponibles en Docsity
Gana puntos ayudando a otros estudiantes o consíguelos activando un Plan Premium
Prepara tus exámenes
Prepara tus exámenes y mejora tus resultados gracias a la gran cantidad de recursos disponibles en Docsity
Prepara tus exámenes con los documentos que comparten otros estudiantes como tú en Docsity
Encuentra los documentos específicos para los exámenes de tu universidad
Estudia con lecciones y exámenes resueltos basados en los programas académicos de las mejores universidades
Responde a preguntas de exámenes reales y pon a prueba tu preparación
Consigue puntos base para descargar
Gana puntos ayudando a otros estudiantes o consíguelos activando un Plan Premium
Comunidad
Pide ayuda a la comunidad y resuelve tus dudas de estudio
Ebooks gratuitos
Descarga nuestras guías gratuitas sobre técnicas de estudio, métodos para controlar la ansiedad y consejos para la tesis preparadas por los tutores de Docsity
Asignatura: estadistica, Profesor: Joaquin Joaquin, Carrera: Relaciones Laborales y Recursos Humanos, Universidad: US
Tipo: Apuntes
1 / 19
Esta página no es visible en la vista previa
¡No te pierdas las partes importantes!












Departamento de Estad´ıstica e Investigaci´on Operativa Universidad de Sevilla
y, realizando los c´alculos, resulta:
xi ni fi Ni Fi 0 20 0 ′ 13333 20 0 ′ 13333 1 35 0 ′ 23333 55 0 ′ 36667 2 62 0 ′ 41333 117 0 ′ 78000 3 24 0 ′ 16000 141 0 ′ 94000 4 5 0 ′ 03333 146 0 ′ 97333 5 3 0 ′ 02000 149 0 ′ 99333 6 1 0 ′ 00667 150 1 ′ 00000 150 1
EJEMPLO 2 Los valores siguientes proceden de una prueba de evaluaci´on realizada sobre 175 estudiantes, y cuyo rango te´orico de valores es el intervalo [0, 100]:
76 66 77 50 81 69 75 73 84 62 65 71 93 54 70 55 86 63 84 76 80 88 78 69 77 75 52 60 68 71 84 70 89 78 87 98 80 76 55 65 77 64 82 70 75 73 82 72 84 75 85 78 83 74 81 68 76 77 61 66 85 58 92 96 51 87 78 77 90 75 62 81 63 72 68 76 72 86 80 92 79 84 70 50 70 71 77 69 75 91 80 87 83 64 85 61 77 65 67 74 90 78 82 73 88 85 89 65 75 76 84 55 81 75 77 69 83 70 86 69 96 79 98 51 97 63 90 54 74 71 89 76 82 71 83 77 84 78 90 53 98 75 69 64 70 81 77 67 83 79 85 76 72 57 76 65 71 74 94 75 66 95 80 91 80 56 83 82 60 74 81 79 80 61 79
Agrupando en intervalos obtenemos:
(Li− 1 , Li] xi ni Ni fi Fi (46′ 5 , 55 ′5] 51 11 11 11 / 175 11 / 175 (55′ 5 , 64 ′5] 60 16 27 16 / 175 27 / 175 (64′ 5 , 73 ′5] 69 39 66 39 / 175 66 / 175 (73′ 5 , 82 ′5] 78 63 129 63 / 175 129 / 175 (82′ 5 , 91 ′5] 87 35 164 35 / 175 164 / 175 (91′ 5 , 100 ′5] 96 11 175 11 / 175 175 / 175 175 1
y, realizando las operaciones, resulta:
(Li− 1 , Li] xi ni Ni fi Fi (46′ 5 , 55 ′5] 51 11 11 0 ′ 06286 0 ′ 06286 (55′ 5 , 64 ′5] 60 16 27 0 ′ 09143 0 ′ 15429 (64′ 5 , 73 ′5] 69 39 66 0 ′ 22286 0 ′ 37714 (73′ 5 , 82 ′5] 78 63 129 0 ′ 36000 0 ′ 73714 (82′ 5 , 91 ′5] 87 35 164 0 ′ 20000 0 ′ 93714 (91′ 5 , 100 ′5] 96 11 175 0 ′ 06286 1 ′ 00000 175 1
A continuaci´on se describen los principales par´ametros de dispersi´on.
La varianza es una medida de dispersi´on que se basa en la desviaci´on de las observaciones con respecto a su media aritm´etica, y se denota por S^2 (a veces se emplea la notaci´on S x^2 para indicar que se refiere a la variable X). Simb´olicamente, si tenemos las observaciones num´ericas, x 1 , x 2 ,... , xn
la varianza vendr´a dada por,
S^2 =
n
∑^ n
i=
(xi − x)^2
Por ejemplo, consideremos las dos series de observaciones, que supondremos provienen de medir una magnitud en dos poblaciones, 6, 6, 7, 7, 8, 9, 9, 10, 10 y 1, 2, 4, 6, 8, 10, 12, 14, 15.
Ambas tienen como media aritm´etica el valor 8. Sin embargo sus varianzas son, para la primera serie:
S^2 =
y para la segunda:
S^2 =
Observemos que la segunda serie tiene una varianza muy superior a la primera. En t´ermi- nos generales podemos pues decir que est´a m´as dispersa. M´as adelante veremos que este
En este caso, la varianza ser´a:
S^2 =
n
∑^ k
i=
nix^2 i − x^2
y para los datos anteriores se tiene para la media aritm´etica,
x =
La media de los cuadrados se har´a de forma totalmente similar pero operando con los valores elevados al cuadrado, es decir:
1 n
∑^ k
i=
nix^2 i =
y la varianza ser´a pues, S^2 = 4′ 6 − (1′813)^2 = 1′313 hijos^2
siendo la desviaci´on t´ıpica, S =
1 ′313 = 1′145 hijos
B. Datos agrupados en intervalos
Vamos a considerar nuevamente los datos del Ejemplo 2. Recu´erdese que n = 175. Tene- mos numerosos datos y adem´as con muchos valores distintos. Podemos hacer la siguiente clasificaci´on agrupando los datos por intervalos de clase,
(Li− 1 , Li] xi x^2 i ni (46′ 5 , 55 ′5] 51 512 11 (55′ 5 , 64 ′5] 60 602 16 (64′ 5 , 73 ′5] 69 692 39 (73′ 5 , 82 ′5] 78 782 63 (82′ 5 , 91 ′5] 87 872 35 (91′ 5 , 100 ′5] 96 962 11
La marca de clase se toma como valor representativo de todas las observaciones de esa clase. Obs´ervese que, por comodidad para los c´alculos, hemos a˜nadido a la tabla una nueva columna con los cuadrados de las marcas de clase. Se tiene pues,
x =
n
∑^ k
i=
nix^2 i =
La varianza ser´a pues,
S^2 = 5836′ 99 − (75′6)^2 = 124′63 puntos^2
siendo la desviaci´on t´ıpica,
S =
124 ′63 = 11′16 puntos
Observaci´on: Resaltemos que, al igual que ocurr´ıa con la media aritm´etica, cuando los datos se agrupan en intervalos, no vamos a obtener exactamente el mismo valor que si aplic´aramos la f´ormula directamente a los datos iniciales aunque s´ı un valor aproximado.
Observaci´on: Es importante observar que, en forma an´aloga a como ocurre con la media aritm´etica, la varianza tiene el inconveniente de ser sensible a la presencia de valores marcadamente separados de la masa principal de los datos.
Observaci´on: Otra medida de dispersi´on similar a la varianza, muy utilizada es la cuasi- varianza, se define como:
S c^2 =
n − 1
∑^ n
i=
(xi − x)^2 =
n − 1
∑^ k
i=
(xi − x)^2 ni
al igual que en el caso de la varianza, se define una medida asociada a la cuasivarianza pero expresada en las unidades de medida de la variable, que es la cuasidesviaci´on t´ıpica:
Sc =
n − 1
∑^ n
i=
(xi − x)^2 =
n − 1
∑^ k
i=
(xi − x)^2 ni
Propiedades de la varianza.
S^2 a+x = S x^2 , siendo a un n´umero real cualquiera.
S^2 ax = a^2 S x^2 , siendo a un n´umero real cualquiera.
S^2 x+y 6 = S x^2 + S^2 y en general.
S^2 = 0 si y s´olo si la variable X es constante.
La varianza est´a afectada por la magnitud media de las cantidades as´ı como por las unidades en las que est´en medidas.
Ejemplo: Las estaturas, en cent´ımetros, de cinco alumnos de Primero de Ense˜nanza Se- cundaria Obligatoria son 145, 139, 135, 143 y 135. Y las de seis alumnos de Cuarto de Ense˜nanza Secundaria Obligatoria son 163, 174, 175, 169, 171 y 178.
La varianza de las estaturas de los alumnos de Primero es S^2 = 16′64. Y la de los de Cuarto S^2 = 23′2222. Aparentemente los de cuarto presentan m´as dispersi´on, no obstante podemos plantearnos que el hecho de que los de Cuarto sean globalmente m´as altos puede afectar a la varianza, y es posible que intr´ınsecamente las estaturas de los de Cuarto est´en menos dispersas que las de los de Primero.
|x|
10, 12 y 15.
x =
|x|
Como puede verse los coeficientes de variaci´on son iguales lo que nos dice que la dis- persi´on intr´ınseca es la misma. Es decir, este coeficiente no est´a afectado por la unidad de medida que se emplee.
Podemos pues concluir que el coeficiente de variaci´on es una medida de dispersi´on adi- mensional y adem´as compensada del efecto que produce la mayor o menor magnitud global de las cantidades.
Se define el recorrido de una variable, cuyos valores est´an ordenados:
x 1 , x 2 ,... , xn
como R = xn − x 1
En el caso de que los datos se encuentren agrupados en intervalos, se calcula restando al extremo superior del ´ultimo intervalo, el extremo inferior del primero. Esta es una medida de dispersi´on muy f´acil de calcular e interpretar aunque no tiene buenas propiedades.
Por otro lado, sabemos que el primer cuartil, Q 1 deja a su izquierda el 25 % de las observaciones, y que el tercer cuartil Q 3 deja a su izquierda el 75 %. Esto significa que entre Q 1 y Q 3 se encuentran el 50 % central de las observaciones. El intervalo [Q 1 , Q 3 ] se denomina intervalo intercuart´ılico.
La distancia entre ambos valores, Q 1 y Q 3 , es decir, la longitud del intervalo inter- cuart´ılico, puede ser considerada como una medida de dispersi´on que se denomina recorri- do intercuart´ılico y se denota IQR, es decir,
IQR = Q 3 − Q 1
Esta medida de dispersi´on es robusta por serlo tambi´en los cuartiles, es decir, est´a poco influenciada por la presencia de valores muy extremos. Veamos algunos ejemplos.
Para los datos, 1 , 3 , 7 , 8 , 9 , 9 , 10 , 12 , 13 , 13 , 14 , 15
se tiene que, Q 1 = 7′ 5 Q 3 = 13
luego, IQR = 13 − 7 ′5 = 5′ 5
Si tenemos los datos siguientes,
xi ni Ni 1 10 10 3 14 24 4 16 40 7 30 70 8 10 80 9 8 88
entonces: Q 1 = 3 Q 3 = 7 ⇒ IQR = Q 3 − Q 1 = 7 − 3 = 4
Y para los datos, (Li− 1 , Li] xi ni Ni (46′ 5 , 55 ′5] 51 11 11 (55′ 5 , 64 ′5] 60 16 27 (64′ 5 , 73 ′5] 69 39 66 (73′ 5 , 82 ′5] 78 63 129 (82′ 5 , 91 ′5] 87 35 164 (91′ 5 , 100 ′5] 96 11 175
se tendr´a:
Q 1 = 68′ 365 Q 3 = 83′ 078 ⇒ IQR = Q 3 − Q 1 = 83′ 078 − 68 ′365 = 14′ 713
Ya hemos visto c´omo la dispersi´on hace referencia al grado de separaci´on o desviaci´on de los datos u observaciones, con respecto a valores medios y/o entre ellos mismos. Un concepto que guarda bastante relaci´on es el de concentraci´on, y hace referencia al grado de uniformidad en el reparto del total de la variable sobre cada uno de los individuos o elementos.
As´ı, el estudio de la concentraci´on es de gran inter´es en el ´ambito econ´omico, cuando se trata de estudiar el grado de equidad en el reparto de la riqueza, los salarios, o bienes en general. De hecho, este concepto se emplea frecuentemente en estudios sobre el reparto de bienes como riqueza o salario, en empresas, clases sociales, pa´ıses o regiones geogr´aficas en general.
Por ejemplo, los cinco trabajadores de la empresa A ganan mensualmente 1400, 1500, 1390, 1600, 1550 Euros. Los cuatro empleados de la empresa B ganan mensualmente 1300, 1400, 1350, 5000 Euros. Los sueldos de la empresa A presentan menos concentraci´on que los de la empresa B pues el total est´a m´as uniformemente repartido en A que en B.
P 1 P 2
Q 1
Q 2
(0,0)
(100,100)
Con objeto de construir un par´ametro que cuantifique la concentraci´on, podemos razonar de la siguiente forma. La superficie, δ, de la regi´on comprendida entre la bisectriz y la curva de Lorenz ser´a tanto m´as peque˜na cuanto menor concentraci´on haya. El m´ınimo valor de dicha superficie es 0 y la cota superior 100^2 /2 = 5000. Podemos pues construir el siguiente par´ametro de concentraci´on:
IG = δ 5000
2 δ 10000
que verifica 0 ≤ IG ≤ 1. Dicho par´ametro se denomina ´ındice de Gini ´o coeficiente de Gini, y se determina mediante la siguiente f´ormula:
∑^ k
i=
(Pi− 1 Qi − PiQi− 1 )
Desde el punto de vista pr´actico, se suele trabajar con la siguiente aproximaci´on, que ser´a la que usaremos en adelante:
IG = 1 −
∑k− 1 ∑^ i=1^ Qi k− 1 i=1 Pi
En el caso del ejemplo anterior, el ´ındice de Gini ser´a:
que nos indica poca concentraci´on.
Veamos c´omo se hace el estudio de la concentraci´on si los datos est´an agrupados en intervalos. Cuando estemos en esta situaci´on, procederemos de la siguiente forma, que ilus- traremos directamente sobre un ejemplo concreto. Consideremos la siguiente tabla de fre- cuencias, obtenida al agrupar en intervalos una serie de datos num´ericos, donde x 1 , x 2 , · · · , xk son ahora las marcas de clase:
Intervalo xi ni Fi si Si Pi Qi (0′ 5 , 1 ′5] 1 5 5 /50 = 0′ 10 5 5 10 ′ 00 3 ′ 16 (1′ 5 , 2 ′5] 2 14 19 /50 = 0′ 38 28 33 38 ′ 00 20 ′ 88 (2′ 5 , 3 ′5] 3 15 34 /50 = 0′ 68 45 78 68 ′ 00 49 ′ 36 (3′ 5 , 4 ′5] 4 7 41 /50 = 0′ 82 28 106 82 ′ 00 67 ′ 08 (4′ 5 , 5 ′5] 5 4 45 /50 = 0′ 90 20 126 90 ′ 00 79 ′ 74 (5′ 5 , 6 ′5] 6 3 48 /50 = 0′ 96 18 144 96 ′ 00 91 ′ 14 (6′ 5 , 7 ′5] 7 2 50 /50 = 1′ 00 14 158 100 ′ 00 100 ′ 00
Nuevamente observamos que se han construido una serie de columnas adicionales a las usuales. Las nuevas cantidades empleadas se explican a continuaci´on.
si. Es la suma de las observaciones en cada intervalo. Usualmente no se dispone de estas observaciones, emple´andose entonces como aproximaci´on la suma de las marcas de clase, es decir, si = ni xi.
Si. Es la cantidad anterior, acumulada, es decir, Si = s 1 + s 2 + · · · + si.
Pi. Representa el porcentaje de observaciones menores o iguales que xi, es decir, Pi = 100 × Fi. Observemos que siempre se verificar´a Pk = 100.
Qi. Es el porcentaje que representa Si con respecto a la suma total Sk, es decir, Qi = 100 × Si/Sk. Observemos que siempre se verificar´a Qk = 100.
Representando entonces los puntos (0, 0), (P 1 , Q 1 ), (P 2 , Q 2 ),...,(Pk, Qk) = (100, 100), y uni´endolos por segmentos rectil´ıneos obtendremos una poligonal que ser´a la curva de Lorenz ´o curva de concentraci´on, cuya interpretaci´on es la misma que hemos visto anteriormente. Nuevamente, se puede calcular el ´ındice de Gini como IG = 2δ/ 1002 , donde la divisi´on por 100^2 se hace a efectos de normalizar la cantidad para que siga verificando 0 ≤ IG ≤ 1. La expresi´on para calcular dicho ´ındice es, por supuesto, la misma de antes, es decir:
IG = 1 −
∑k− 1 ∑^ i=1^ Qi k− 1 i=1 Pi que aplicada a los datos de nuestro ejemplo proporciona,
IG = 0 ′ 189
es decir, poca concentraci´on.
Finalmente veremos c´omo calcular el ´ındice de Gini para distribuciones no agrupadas por frecuencias. Lo haremos con un peque˜no ejemplo, pero suficiente para mostrar el m´eto- do. Supongamos cinco sueldos, en miles de Euros, 4, 3, 2, 2, 1. Primero se ordenan de menor a mayor, y se construye la siguiente tabla, que es an´aloga a las calculadas para las distribuciones anteriores:
Definici´on 1 Se llamar´a “OUTLIER” a aquella observaci´on que siendo at´ıpica y/o err´onea, tiene un comportamiento muy diferente respecto al resto de los datos, en relaci´on al an´alisis que se desea realizar sobre las observaciones.
A continuaci´on veremos un m´etodo para detectar “outliers”. Este m´etodo se basa en los cuartiles, que como sabemos, son par´ametros resistentes o robustos. Consiste en calcular, a partir de Q 1 , Q 3 ´e IQR los siguientes valores,
f 1 = Q 1 − 1 ′ 5 × IQR f 2 = Q 3 + 1′ 5 × IQR
que se denominan vallas interiores. Y los valores,
F 1 = Q 1 − 3 × IQR F 2 = Q 3 + 3 × IQR
denominados vallas exteriores.
Toda observaci´on que quede fuera de las vallas interiores ser´a considerada como posible “OUTLIER”y se llamar´a valor “outside”, y se considera como valor an´omalo. Los valores que adem´as est´en fuera de las vallas exteriores se consideran como valores muy an´omalos, se llaman ”far outside^2 los consideramos “OUTLIER”.
Por ejemplo, para los datos de las estaturas de los alumnos,
Q 1 = 147 Q 3 = 154 IQR = 7
siendo pues,
Vallas interiores,
f 1 = 147 − 1 ′ 5 × 7 = 136′ 5 f 2 = 154 + 1′ 5 × 7 = 164′ 5
Vallas exteriores,
F 1 = 147 − 3 × 7 = 126 F 2 = 154 + 3 × 7 = 175
Luego el valor 190 es un valor muy an´omalo, que requiere un estudio pormenorizado. Puede ser un error en las observaciones, o que realmente existe un alumno de elevada estatura.
Este tipo de diagramas expresa muy claramente la distribuci´on de los datos: su valor central, simetr´ıa, concentraci´on y observaciones an´omalas que se diferencian marcadamente del resto. Para construirlo seguiremos los siguientes pasos,
En la Figura 1, se expone de forma esquem´atica un diagrama de caja. N´otese la nomen- clatura empleada para denotar y distinguir las observaciones “outlier”, seg´un est´en fuera de los diferentes tipos de vallas.
F 1 f 1 Q 1 Me Q 3 f 2 F 2
2
Figura 1. Diagrama de caja o “box-plot”. Las observaciones que queden fuera de las vallas interiores pero no fuera de las exteriores se han representado con 2 , y las que queden fuera de las vallas exteriores con .
Es interesante emplear este diagrama para comparar varios conjuntos de datos, suponien- do por supuesto que dicha comparaci´on tenga sentido. Por ejemplo, para los conjuntos de datos relativos a las puntuaciones de 175 alumnos por una parte, y de 120 por otra, podemos construir los correspondientes diagramas de caja, y ubicarlos en un mismo gr´afico, con una escala com´un. Se tiene:
a partir de los cuales tenemos,
IQR = Q 3 − Q 1 = 6′ 5 f 1 = Q 1 − 1 ′ 5 × IQR = 42′ 25 f 2 = Q 3 + 1′ 5 × IQR = 68′ 25
F 1 = Q 1 − 3 × IQR = 32′ 5 F 2 = Q 3 + 3 × IQR = 78
La puntuaci´on m´ınima es ahora 34, y la m´axima 62. As´ı pues, existen observaciones por debajo de la valla interior inferior, en concreto, 34, 39 y 41, que son consideradas como “outliers”. Por encima de la valla interior superior no hay observaciones. Los valores adyacentes son ahora las observaciones 43 y 62. N´otese que no hay observaciones fuera de las vallas exteriores, es decir, muy an´omalas.
En la Figura 2 exponemos los diagramas de caja correspondientes, realizados a mano. Esta gr´afica nos permite captar globalmente las particularidades de cada conjunto de datos, y tambi´en realizar una comparaci´on entre ellos. Obs´ervese como las puntuaciones del grupo de 175 estudiantes son globalmente mejores que las del grupo de 120 estudiantes. Por ejem- plo, se puede observar que las medianas de ambos grupos de puntuaciones difieren en casi 20 unidades.
Obs´ervese tambi´en que en el grupo de 175 estudiantes no se detectan “outliers”, al contrario de lo que sucede en el grupo de 120 estudiantes en el que se observan tres “out- liers”, que por no estar fuera de las vallas exteriores han sido representados por peque˜nos cuadrados, es decir, 2. Recu´erdese que algunos programas de ordenador, emplean s´ımbolos distintos, por ejemplo peque˜nos c´ırculos, es decir, ◦.
Figura 2. Diagramas de caja para los datos correspondientes a 175 alumnos y 120 alumnos. Realizado a mano.