Prepara tus exámenes
Consigue puntos
Orientación Universidad
Vende en Docsity
Docsity AI

Prepara tus exámenes

Prepara tus exámenes y mejora tus resultados gracias a la gran cantidad de recursos disponibles en Docsity

Consigue puntos base para descargar

Gana puntos ayudando a otros estudiantes o consíguelos activando un Plan Premium

Orientación Universidad

Vende en Docsity

Docsity AI

Inicia sesión Regístrate

Prepara tus exámenes

Prepara tus exámenes y mejora tus resultados gracias a la gran cantidad de recursos disponibles en Docsity

Busca documentos

Prepara tus exámenes con los documentos que comparten otros estudiantes como tú en Docsity

Busca tu universidad

Encuentra los documentos específicos para los exámenes de tu universidad

Video Cursos

Estudia con lecciones y exámenes resueltos basados en los programas académicos de las mejores universidades

Quiz

Responde a preguntas de exámenes reales y pon a prueba tu preparación

Docsity AINEW

Resume tus documentos, hazles preguntas, conviértelos en quiz y mapas conceptuales

Ver preguntas

Despeja tus dudas leyendo las respuestas a las preguntas que realizaron otros estudiantes como tú

Consigue puntos base para descargar

Gana puntos ayudando a otros estudiantes o consíguelos activando un Plan Premium

Compartir documentos

20 Puntos

Por cada documento subido

Responde a las preguntas

5 Puntos

por cada respuesta dada (máx. 1 al día)

Todos los modos para conseguir puntos gratis

Consigue puntos de inmediato

Elige un plan Premium con todos los puntos que necesitas.

Oportunidades de estudio

Elige tu próximo programa de estudio

Ponte en contacto inmediatamente con las mejores universidades del mundo. Busca entre miles de universidades en todo el mundo. Busca entre miles de universidades partner oficiales

Comunidad

Pregúntale a la comunidad

Pide ayuda a la comunidad y resuelve tus dudas de estudio

Ebooks gratuitos

¡Nuestros e-books salva-estudiantes!

Descarga nuestras guías gratuitas sobre técnicas de estudio, métodos para controlar la ansiedad y consejos para la tesis preparadas por los tutores de Docsity

LECCION, Apuntes de Estadística

Universidad de Sevilla (US)Estadística

Asignatura: estadistica, Profesor: Joaquin Joaquin, Carrera: Relaciones Laborales y Recursos Humanos, Universidad: US

Tipo: Apuntes

2016/2017

Subido el 04/01/2017

alvaroufdez 🇪🇸

4.4

(7)

10 documentos

1 / 19

Esta página no es visible en la vista previa

¡No te pierdas las partes importantes!

Estad´ıstica

Grado en Relaciones Laborales y Recursos Humanos

Primer Curso

Facultad de Ciencias del Trabajo

Universidad de Sevilla

Tema 5

Medidas de dispersi´on y concentraci´on

Departamento de Estad´ıstica e Investigaci´on Operativa

Universidad de Sevilla

Descubre Apuntes de Estadística Universidad de Sevilla (US)

Documentos relacionados

Trabajo DE ESTADISTICA DESCRIPTITIVA CON EJERCICIOS RESUELTOS Y TODA LA MATERIA DEL CUATRIMESTRE

(8)

Medidas de Localización

Examen política

(5)

Lección 3 estadistica

(1)

Leccion uno diapositivas

Prevencion II

(3)

Modulos Prevencion de riesgos laborales

(7)

TRABAJO DE MANIPULACIÓN DE CARGAS

(2)

Economia industrial

(3)

Constitucional II Lección IV

(1)

LECCIÓN 6. JURISDICCIÓN

Lección 4 y 5

(1)

Vista previa parcial del texto

¡Descarga LECCION y más Apuntes en PDF de Estadística solo en Docsity!

Estad´ıstica

Grado en Relaciones Laborales y Recursos Humanos

Primer Curso

Facultad de Ciencias del Trabajo

Universidad de Sevilla

Tema 5

Medidas de dispersi´on y concentraci´on

Departamento de Estad´ıstica e Investigaci´on Operativa Universidad de Sevilla

´Indice

1. Introducci´on
1. Medidas de dispersi´on
- 2.1. Varianza y desviaci´on t´ıpica
- 2.2. Coeficiente de variaci´on de Pearson
- 2.3. Recorrido y recorrido intercuart´ılico
1. Medidas de concentraci´on. Curva de Lorenz. ´Indice de Gini
- evaluable) 4. Detecci´on de valores singulares. Diagramas de caja (complemento no
- 4.1. Observaciones “OUTLIER”. Detecci´on
- 4.2. Diagrama de caja o “Box-Plot”

y, realizando los c´alculos, resulta:

xi ni fi Ni Fi 0 20 0 ′ 13333 20 0 ′ 13333 1 35 0 ′ 23333 55 0 ′ 36667 2 62 0 ′ 41333 117 0 ′ 78000 3 24 0 ′ 16000 141 0 ′ 94000 4 5 0 ′ 03333 146 0 ′ 97333 5 3 0 ′ 02000 149 0 ′ 99333 6 1 0 ′ 00667 150 1 ′ 00000 150 1

EJEMPLO 2 Los valores siguientes proceden de una prueba de evaluaci´on realizada sobre 175 estudiantes, y cuyo rango te´orico de valores es el intervalo [0, 100]:

76 66 77 50 81 69 75 73 84 62 65 71 93 54 70 55 86 63 84 76 80 88 78 69 77 75 52 60 68 71 84 70 89 78 87 98 80 76 55 65 77 64 82 70 75 73 82 72 84 75 85 78 83 74 81 68 76 77 61 66 85 58 92 96 51 87 78 77 90 75 62 81 63 72 68 76 72 86 80 92 79 84 70 50 70 71 77 69 75 91 80 87 83 64 85 61 77 65 67 74 90 78 82 73 88 85 89 65 75 76 84 55 81 75 77 69 83 70 86 69 96 79 98 51 97 63 90 54 74 71 89 76 82 71 83 77 84 78 90 53 98 75 69 64 70 81 77 67 83 79 85 76 72 57 76 65 71 74 94 75 66 95 80 91 80 56 83 82 60 74 81 79 80 61 79

Agrupando en intervalos obtenemos:

(Li− 1 , Li] xi ni Ni fi Fi (46′ 5 , 55 ′5] 51 11 11 11 / 175 11 / 175 (55′ 5 , 64 ′5] 60 16 27 16 / 175 27 / 175 (64′ 5 , 73 ′5] 69 39 66 39 / 175 66 / 175 (73′ 5 , 82 ′5] 78 63 129 63 / 175 129 / 175 (82′ 5 , 91 ′5] 87 35 164 35 / 175 164 / 175 (91′ 5 , 100 ′5] 96 11 175 11 / 175 175 / 175 175 1

y, realizando las operaciones, resulta:

(Li− 1 , Li] xi ni Ni fi Fi (46′ 5 , 55 ′5] 51 11 11 0 ′ 06286 0 ′ 06286 (55′ 5 , 64 ′5] 60 16 27 0 ′ 09143 0 ′ 15429 (64′ 5 , 73 ′5] 69 39 66 0 ′ 22286 0 ′ 37714 (73′ 5 , 82 ′5] 78 63 129 0 ′ 36000 0 ′ 73714 (82′ 5 , 91 ′5] 87 35 164 0 ′ 20000 0 ′ 93714 (91′ 5 , 100 ′5] 96 11 175 0 ′ 06286 1 ′ 00000 175 1

2. Medidas de dispersi´on

A continuaci´on se describen los principales par´ametros de dispersi´on.

2.1. Varianza y desviaci´on t´ıpica

La varianza es una medida de dispersi´on que se basa en la desviaci´on de las observaciones con respecto a su media aritm´etica, y se denota por S^2 (a veces se emplea la notaci´on S x^2 para indicar que se refiere a la variable X). Simb´olicamente, si tenemos las observaciones num´ericas, x 1 , x 2 ,... , xn

la varianza vendr´a dada por,

S^2 =

∑^ n

(xi − x)^2

Por ejemplo, consideremos las dos series de observaciones, que supondremos provienen de medir una magnitud en dos poblaciones, 6, 6, 7, 7, 8, 9, 9, 10, 10 y 1, 2, 4, 6, 8, 10, 12, 14, 15.

Ambas tienen como media aritm´etica el valor 8. Sin embargo sus varianzas son, para la primera serie:

S^2 =

((6 − 8)^2 + (6 − 8)^2 + (7 − 8)^2 + (7 − 8)^2 + (8 − 8)^2 +

+(9 − 8)^2 + (9 − 8)^2 + (10 − 8)^2 + (10 − 8)^2 ) = 2′ 22

y para la segunda:

S^2 =

((1 − 8)^2 + (2 − 8)^2 + (4 − 8)^2 + (6 − 8)^2 + (8 − 8)^2 +

+(10 − 8)^2 + (12 − 8)^2 + (14 − 8)^2 + (15 − 8)^2 ) = 23′ 33

Observemos que la segunda serie tiene una varianza muy superior a la primera. En t´ermi- nos generales podemos pues decir que est´a m´as dispersa. M´as adelante veremos que este

En este caso, la varianza ser´a:

S^2 =

∑^ k

nix^2 i − x^2

y para los datos anteriores se tiene para la media aritm´etica,

x =

(0 × 20 + 1 × 35 + 2 × 62 + 3 × 24 + 4 × 5 + 5 × 3 + 6 × 1) = 1′ 813

La media de los cuadrados se har´a de forma totalmente similar pero operando con los valores elevados al cuadrado, es decir:

1 n

∑^ k

nix^2 i =

(0^2 × 20 + 1^2 × 35 + 2^2 × 62 + 3^2 × 24 + 4^2 × 5 + 5^2 × 3 + 6^2 × 1) = 4′ 6

y la varianza ser´a pues, S^2 = 4′ 6 − (1′813)^2 = 1′313 hijos^2

siendo la desviaci´on t´ıpica, S =

1 ′313 = 1′145 hijos

B. Datos agrupados en intervalos

Vamos a considerar nuevamente los datos del Ejemplo 2. Recu´erdese que n = 175. Tene- mos numerosos datos y adem´as con muchos valores distintos. Podemos hacer la siguiente clasificaci´on agrupando los datos por intervalos de clase,

(Li− 1 , Li] xi x^2 i ni (46′ 5 , 55 ′5] 51 512 11 (55′ 5 , 64 ′5] 60 602 16 (64′ 5 , 73 ′5] 69 692 39 (73′ 5 , 82 ′5] 78 782 63 (82′ 5 , 91 ′5] 87 872 35 (91′ 5 , 100 ′5] 96 962 11

La marca de clase se toma como valor representativo de todas las observaciones de esa clase. Obs´ervese que, por comodidad para los c´alculos, hemos a˜nadido a la tabla una nueva columna con los cuadrados de las marcas de clase. Se tiene pues,

x =

(51 × 11 + 60 × 16 + 69 × 39 + 78 × 63 + 87 × 35 + 96 × 11) = 75′ 6

∑^ k

nix^2 i =

(51^2 × 11 + 60^2 × 16 + 69^2 × 39 + 78^2 × 63 + 87^2 × 35 + 96^2 × 11) = 5836′ 99

La varianza ser´a pues,

S^2 = 5836′ 99 − (75′6)^2 = 124′63 puntos^2

siendo la desviaci´on t´ıpica,

S =

124 ′63 = 11′16 puntos

Observaci´on: Resaltemos que, al igual que ocurr´ıa con la media aritm´etica, cuando los datos se agrupan en intervalos, no vamos a obtener exactamente el mismo valor que si aplic´aramos la f´ormula directamente a los datos iniciales aunque s´ı un valor aproximado.

Observaci´on: Es importante observar que, en forma an´aloga a como ocurre con la media aritm´etica, la varianza tiene el inconveniente de ser sensible a la presencia de valores marcadamente separados de la masa principal de los datos.

Observaci´on: Otra medida de dispersi´on similar a la varianza, muy utilizada es la cuasi- varianza, se define como:

S c^2 =

n − 1

∑^ n

(xi − x)^2 =

n − 1

∑^ k

(xi − x)^2 ni

al igual que en el caso de la varianza, se define una medida asociada a la cuasivarianza pero expresada en las unidades de medida de la variable, que es la cuasidesviaci´on t´ıpica:

Sc =

n − 1

∑^ n

(xi − x)^2 =

n − 1

∑^ k

(xi − x)^2 ni

Propiedades de la varianza.

S^2 a+x = S x^2 , siendo a un n´umero real cualquiera.

S^2 ax = a^2 S x^2 , siendo a un n´umero real cualquiera.

S^2 x+y 6 = S x^2 + S^2 y en general.

S^2 = 0 si y s´olo si la variable X es constante.

2.2. Coeficiente de variaci´on de Pearson

La varianza est´a afectada por la magnitud media de las cantidades as´ı como por las unidades en las que est´en medidas.

Ejemplo: Las estaturas, en cent´ımetros, de cinco alumnos de Primero de Ense˜nanza Se- cundaria Obligatoria son 145, 139, 135, 143 y 135. Y las de seis alumnos de Cuarto de Ense˜nanza Secundaria Obligatoria son 163, 174, 175, 169, 171 y 178.

La varianza de las estaturas de los alumnos de Primero es S^2 = 16′64. Y la de los de Cuarto S^2 = 23′2222. Aparentemente los de cuarto presentan m´as dispersi´on, no obstante podemos plantearnos que el hecho de que los de Cuarto sean globalmente m´as altos puede afectar a la varianza, y es posible que intr´ınsecamente las estaturas de los de Cuarto est´en menos dispersas que las de los de Primero.

CV =

S

|x|

10, 12 y 15.

x =

(10 + 12 + 15) = 12′ 3333 S =

CV =

S

|x|

Como puede verse los coeficientes de variaci´on son iguales lo que nos dice que la dis- persi´on intr´ınseca es la misma. Es decir, este coeficiente no est´a afectado por la unidad de medida que se emplee.

Podemos pues concluir que el coeficiente de variaci´on es una medida de dispersi´on adi- mensional y adem´as compensada del efecto que produce la mayor o menor magnitud global de las cantidades.

2.3. Recorrido y recorrido intercuart´ılico

Se define el recorrido de una variable, cuyos valores est´an ordenados:

x 1 , x 2 ,... , xn

como R = xn − x 1

En el caso de que los datos se encuentren agrupados en intervalos, se calcula restando al extremo superior del ´ultimo intervalo, el extremo inferior del primero. Esta es una medida de dispersi´on muy f´acil de calcular e interpretar aunque no tiene buenas propiedades.

Por otro lado, sabemos que el primer cuartil, Q 1 deja a su izquierda el 25 % de las observaciones, y que el tercer cuartil Q 3 deja a su izquierda el 75 %. Esto significa que entre Q 1 y Q 3 se encuentran el 50 % central de las observaciones. El intervalo [Q 1 , Q 3 ] se denomina intervalo intercuart´ılico.

La distancia entre ambos valores, Q 1 y Q 3 , es decir, la longitud del intervalo inter- cuart´ılico, puede ser considerada como una medida de dispersi´on que se denomina recorri- do intercuart´ılico y se denota IQR, es decir,

IQR = Q 3 − Q 1

Esta medida de dispersi´on es robusta por serlo tambi´en los cuartiles, es decir, est´a poco influenciada por la presencia de valores muy extremos. Veamos algunos ejemplos.

Para los datos, 1 , 3 , 7 , 8 , 9 , 9 , 10 , 12 , 13 , 13 , 14 , 15

se tiene que, Q 1 = 7′ 5 Q 3 = 13

luego, IQR = 13 − 7 ′5 = 5′ 5

Si tenemos los datos siguientes,

xi ni Ni 1 10 10 3 14 24 4 16 40 7 30 70 8 10 80 9 8 88

entonces: Q 1 = 3 Q 3 = 7 ⇒ IQR = Q 3 − Q 1 = 7 − 3 = 4

Y para los datos, (Li− 1 , Li] xi ni Ni (46′ 5 , 55 ′5] 51 11 11 (55′ 5 , 64 ′5] 60 16 27 (64′ 5 , 73 ′5] 69 39 66 (73′ 5 , 82 ′5] 78 63 129 (82′ 5 , 91 ′5] 87 35 164 (91′ 5 , 100 ′5] 96 11 175

se tendr´a:

Q 1 = 68′ 365 Q 3 = 83′ 078 ⇒ IQR = Q 3 − Q 1 = 83′ 078 − 68 ′365 = 14′ 713

3. Medidas de concentraci´on. Curva de Lorenz. ´Indice de

Gini

Ya hemos visto c´omo la dispersi´on hace referencia al grado de separaci´on o desviaci´on de los datos u observaciones, con respecto a valores medios y/o entre ellos mismos. Un concepto que guarda bastante relaci´on es el de concentraci´on, y hace referencia al grado de uniformidad en el reparto del total de la variable sobre cada uno de los individuos o elementos.

As´ı, el estudio de la concentraci´on es de gran inter´es en el ´ambito econ´omico, cuando se trata de estudiar el grado de equidad en el reparto de la riqueza, los salarios, o bienes en general. De hecho, este concepto se emplea frecuentemente en estudios sobre el reparto de bienes como riqueza o salario, en empresas, clases sociales, pa´ıses o regiones geogr´aficas en general.

Por ejemplo, los cinco trabajadores de la empresa A ganan mensualmente 1400, 1500, 1390, 1600, 1550 Euros. Los cuatro empleados de la empresa B ganan mensualmente 1300, 1400, 1350, 5000 Euros. Los sueldos de la empresa A presentan menos concentraci´on que los de la empresa B pues el total est´a m´as uniformemente repartido en A que en B.

P 1 P 2

Q 1

Q 2

(0,0)

(100,100)

Con objeto de construir un par´ametro que cuantifique la concentraci´on, podemos razonar de la siguiente forma. La superficie, δ, de la regi´on comprendida entre la bisectriz y la curva de Lorenz ser´a tanto m´as peque˜na cuanto menor concentraci´on haya. El m´ınimo valor de dicha superficie es 0 y la cota superior 100^2 /2 = 5000. Podemos pues construir el siguiente par´ametro de concentraci´on:

IG = δ 5000

2 δ 10000

que verifica 0 ≤ IG ≤ 1. Dicho par´ametro se denomina ´ındice de Gini ´o coeficiente de Gini, y se determina mediante la siguiente f´ormula:

IG =

∑^ k

(Pi− 1 Qi − PiQi− 1 )

Desde el punto de vista pr´actico, se suele trabajar con la siguiente aproximaci´on, que ser´a la que usaremos en adelante:

IG = 1 −

∑k− 1 ∑^ i=1^ Qi k− 1 i=1 Pi

En el caso del ejemplo anterior, el ´ındice de Gini ser´a:

IG = 1 −

que nos indica poca concentraci´on.

Veamos c´omo se hace el estudio de la concentraci´on si los datos est´an agrupados en intervalos. Cuando estemos en esta situaci´on, procederemos de la siguiente forma, que ilus- traremos directamente sobre un ejemplo concreto. Consideremos la siguiente tabla de fre- cuencias, obtenida al agrupar en intervalos una serie de datos num´ericos, donde x 1 , x 2 , · · · , xk son ahora las marcas de clase:

Intervalo xi ni Fi si Si Pi Qi (0′ 5 , 1 ′5] 1 5 5 /50 = 0′ 10 5 5 10 ′ 00 3 ′ 16 (1′ 5 , 2 ′5] 2 14 19 /50 = 0′ 38 28 33 38 ′ 00 20 ′ 88 (2′ 5 , 3 ′5] 3 15 34 /50 = 0′ 68 45 78 68 ′ 00 49 ′ 36 (3′ 5 , 4 ′5] 4 7 41 /50 = 0′ 82 28 106 82 ′ 00 67 ′ 08 (4′ 5 , 5 ′5] 5 4 45 /50 = 0′ 90 20 126 90 ′ 00 79 ′ 74 (5′ 5 , 6 ′5] 6 3 48 /50 = 0′ 96 18 144 96 ′ 00 91 ′ 14 (6′ 5 , 7 ′5] 7 2 50 /50 = 1′ 00 14 158 100 ′ 00 100 ′ 00

Nuevamente observamos que se han construido una serie de columnas adicionales a las usuales. Las nuevas cantidades empleadas se explican a continuaci´on.

si. Es la suma de las observaciones en cada intervalo. Usualmente no se dispone de estas observaciones, emple´andose entonces como aproximaci´on la suma de las marcas de clase, es decir, si = ni xi.

Si. Es la cantidad anterior, acumulada, es decir, Si = s 1 + s 2 + · · · + si.

Pi. Representa el porcentaje de observaciones menores o iguales que xi, es decir, Pi = 100 × Fi. Observemos que siempre se verificar´a Pk = 100.

Qi. Es el porcentaje que representa Si con respecto a la suma total Sk, es decir, Qi = 100 × Si/Sk. Observemos que siempre se verificar´a Qk = 100.

Representando entonces los puntos (0, 0), (P 1 , Q 1 ), (P 2 , Q 2 ),...,(Pk, Qk) = (100, 100), y uni´endolos por segmentos rectil´ıneos obtendremos una poligonal que ser´a la curva de Lorenz ´o curva de concentraci´on, cuya interpretaci´on es la misma que hemos visto anteriormente. Nuevamente, se puede calcular el ´ındice de Gini como IG = 2δ/ 1002 , donde la divisi´on por 100^2 se hace a efectos de normalizar la cantidad para que siga verificando 0 ≤ IG ≤ 1. La expresi´on para calcular dicho ´ındice es, por supuesto, la misma de antes, es decir:

IG = 1 −

∑k− 1 ∑^ i=1^ Qi k− 1 i=1 Pi que aplicada a los datos de nuestro ejemplo proporciona,

IG = 0 ′ 189

es decir, poca concentraci´on.

Finalmente veremos c´omo calcular el ´ındice de Gini para distribuciones no agrupadas por frecuencias. Lo haremos con un peque˜no ejemplo, pero suficiente para mostrar el m´eto- do. Supongamos cinco sueldos, en miles de Euros, 4, 3, 2, 2, 1. Primero se ordenan de menor a mayor, y se construye la siguiente tabla, que es an´aloga a las calculadas para las distribuciones anteriores:

Definici´on 1 Se llamar´a “OUTLIER” a aquella observaci´on que siendo at´ıpica y/o err´onea, tiene un comportamiento muy diferente respecto al resto de los datos, en relaci´on al an´alisis que se desea realizar sobre las observaciones.

A continuaci´on veremos un m´etodo para detectar “outliers”. Este m´etodo se basa en los cuartiles, que como sabemos, son par´ametros resistentes o robustos. Consiste en calcular, a partir de Q 1 , Q 3 ´e IQR los siguientes valores,

f 1 = Q 1 − 1 ′ 5 × IQR f 2 = Q 3 + 1′ 5 × IQR

que se denominan vallas interiores. Y los valores,

F 1 = Q 1 − 3 × IQR F 2 = Q 3 + 3 × IQR

denominados vallas exteriores.

Toda observaci´on que quede fuera de las vallas interiores ser´a considerada como posible “OUTLIER”y se llamar´a valor “outside”, y se considera como valor an´omalo. Los valores que adem´as est´en fuera de las vallas exteriores se consideran como valores muy an´omalos, se llaman ”far outside^2 los consideramos “OUTLIER”.

Por ejemplo, para los datos de las estaturas de los alumnos,

Q 1 = 147 Q 3 = 154 IQR = 7

siendo pues,

Vallas interiores,

f 1 = 147 − 1 ′ 5 × 7 = 136′ 5 f 2 = 154 + 1′ 5 × 7 = 164′ 5

Vallas exteriores,

F 1 = 147 − 3 × 7 = 126 F 2 = 154 + 3 × 7 = 175

Luego el valor 190 es un valor muy an´omalo, que requiere un estudio pormenorizado. Puede ser un error en las observaciones, o que realmente existe un alumno de elevada estatura.

4.2. Diagrama de caja o “Box-Plot”

Este tipo de diagramas expresa muy claramente la distribuci´on de los datos: su valor central, simetr´ıa, concentraci´on y observaciones an´omalas que se diferencian marcadamente del resto. Para construirlo seguiremos los siguientes pasos,

Fijar la escala de acuerdo con los valores m´ınimo y m´aximo.
Localizar la mediana y los cuartiles, Q 1 y Q 3 , y dibujar un rect´angulo o caja que conecte estos ´ultimos, y dentro del mismo, marcar la mediana con un segmento. Clara- mente, la amplitud de la caja ser´a el recorrido intercuart´ılico, IQR.

Hallar las vallas interiores y exteriores para detectar valores extremos. Las obser- vaciones que queden fuera de las vallas interiores pero no fuera de las exteriores se representan como peque˜nos cuadrados o peque˜nos c´ırculos, y las que queden fuera de las vallas exteriores con asteriscos u otros s´ımbolos. Esta regla var´ıa seg´un las implementaciones de los programas inform´aticos.
A cada lado de la caja se trazan segmentos rectil´ıneos que terminan en las obser- vaciones m´as extremas dentro de las vallas interiores. Dichas observaciones se denominan valores adyacentes.

En la Figura 1, se expone de forma esquem´atica un diagrama de caja. N´otese la nomen- clatura empleada para denotar y distinguir las observaciones “outlier”, seg´un est´en fuera de los diferentes tipos de vallas.

F 1 f 1 Q 1 Me Q 3 f 2 F 2

Figura 1. Diagrama de caja o “box-plot”. Las observaciones que queden fuera de las vallas interiores pero no fuera de las exteriores se han representado con 2 , y las que queden fuera de las vallas exteriores con .

Es interesante emplear este diagrama para comparar varios conjuntos de datos, suponien- do por supuesto que dicha comparaci´on tenga sentido. Por ejemplo, para los conjuntos de datos relativos a las puntuaciones de 175 alumnos por una parte, y de 120 por otra, podemos construir los correspondientes diagramas de caja, y ubicarlos en un mismo gr´afico, con una escala com´un. Se tiene:

a partir de los cuales tenemos,

IQR = Q 3 − Q 1 = 6′ 5 f 1 = Q 1 − 1 ′ 5 × IQR = 42′ 25 f 2 = Q 3 + 1′ 5 × IQR = 68′ 25

F 1 = Q 1 − 3 × IQR = 32′ 5 F 2 = Q 3 + 3 × IQR = 78

La puntuaci´on m´ınima es ahora 34, y la m´axima 62. As´ı pues, existen observaciones por debajo de la valla interior inferior, en concreto, 34, 39 y 41, que son consideradas como “outliers”. Por encima de la valla interior superior no hay observaciones. Los valores adyacentes son ahora las observaciones 43 y 62. N´otese que no hay observaciones fuera de las vallas exteriores, es decir, muy an´omalas.

En la Figura 2 exponemos los diagramas de caja correspondientes, realizados a mano. Esta gr´afica nos permite captar globalmente las particularidades de cada conjunto de datos, y tambi´en realizar una comparaci´on entre ellos. Obs´ervese como las puntuaciones del grupo de 175 estudiantes son globalmente mejores que las del grupo de 120 estudiantes. Por ejem- plo, se puede observar que las medianas de ambos grupos de puntuaciones difieren en casi 20 unidades.

Obs´ervese tambi´en que en el grupo de 175 estudiantes no se detectan “outliers”, al contrario de lo que sucede en el grupo de 120 estudiantes en el que se observan tres “out- liers”, que por no estar fuera de las vallas exteriores han sido representados por peque˜nos cuadrados, es decir, 2. Recu´erdese que algunos programas de ordenador, emplean s´ımbolos distintos, por ejemplo peque˜nos c´ırculos, es decir, ◦.

Figura 2. Diagramas de caja para los datos correspondientes a 175 alumnos y 120 alumnos. Realizado a mano.