Docsity
Docsity

Prepara tus exámenes
Prepara tus exámenes

Prepara tus exámenes y mejora tus resultados gracias a la gran cantidad de recursos disponibles en Docsity


Consigue puntos base para descargar
Consigue puntos base para descargar

Gana puntos ayudando a otros estudiantes o consíguelos activando un Plan Premium


Orientación Universidad
Orientación Universidad


LECCION, Apuntes de Estadística

Asignatura: estadistica, Profesor: Joaquin Joaquin, Carrera: Relaciones Laborales y Recursos Humanos, Universidad: US

Tipo: Apuntes

2016/2017

Subido el 04/01/2017

alvaroufdez
alvaroufdez 🇪🇸

4.4

(7)

10 documentos

1 / 19

Toggle sidebar

Esta página no es visible en la vista previa

¡No te pierdas las partes importantes!

bg1
Estad´ıstica
Grado en Relaciones Laborales y Recursos Humanos
Primer Curso
Facultad de Ciencias del Trabajo
Universidad de Sevilla
Tema 5
Medidas de dispersi´on y concentraci´on
Departamento de Estad´ıstica e Investigaci´on Operativa
Universidad de Sevilla
pf3
pf4
pf5
pf8
pf9
pfa
pfd
pfe
pff
pf12
pf13

Vista previa parcial del texto

¡Descarga LECCION y más Apuntes en PDF de Estadística solo en Docsity!

Estad´ıstica

Grado en Relaciones Laborales y Recursos Humanos

Primer Curso

Facultad de Ciencias del Trabajo

Universidad de Sevilla

Tema 5

Medidas de dispersi´on y concentraci´on

Departamento de Estad´ıstica e Investigaci´on Operativa Universidad de Sevilla

´Indice

    1. Introducci´on
    1. Medidas de dispersi´on
    • 2.1. Varianza y desviaci´on t´ıpica
    • 2.2. Coeficiente de variaci´on de Pearson
    • 2.3. Recorrido y recorrido intercuart´ılico
    1. Medidas de concentraci´on. Curva de Lorenz. ´Indice de Gini
    • evaluable) 4. Detecci´on de valores singulares. Diagramas de caja (complemento no
    • 4.1. Observaciones “OUTLIER”. Detecci´on
    • 4.2. Diagrama de caja o “Box-Plot”

y, realizando los c´alculos, resulta:

xi ni fi Ni Fi 0 20 0 ′ 13333 20 0 ′ 13333 1 35 0 ′ 23333 55 0 ′ 36667 2 62 0 ′ 41333 117 0 ′ 78000 3 24 0 ′ 16000 141 0 ′ 94000 4 5 0 ′ 03333 146 0 ′ 97333 5 3 0 ′ 02000 149 0 ′ 99333 6 1 0 ′ 00667 150 1 ′ 00000 150 1

EJEMPLO 2 Los valores siguientes proceden de una prueba de evaluaci´on realizada sobre 175 estudiantes, y cuyo rango te´orico de valores es el intervalo [0, 100]:

76 66 77 50 81 69 75 73 84 62 65 71 93 54 70 55 86 63 84 76 80 88 78 69 77 75 52 60 68 71 84 70 89 78 87 98 80 76 55 65 77 64 82 70 75 73 82 72 84 75 85 78 83 74 81 68 76 77 61 66 85 58 92 96 51 87 78 77 90 75 62 81 63 72 68 76 72 86 80 92 79 84 70 50 70 71 77 69 75 91 80 87 83 64 85 61 77 65 67 74 90 78 82 73 88 85 89 65 75 76 84 55 81 75 77 69 83 70 86 69 96 79 98 51 97 63 90 54 74 71 89 76 82 71 83 77 84 78 90 53 98 75 69 64 70 81 77 67 83 79 85 76 72 57 76 65 71 74 94 75 66 95 80 91 80 56 83 82 60 74 81 79 80 61 79

Agrupando en intervalos obtenemos:

(Li− 1 , Li] xi ni Ni fi Fi (46′ 5 , 55 ′5] 51 11 11 11 / 175 11 / 175 (55′ 5 , 64 ′5] 60 16 27 16 / 175 27 / 175 (64′ 5 , 73 ′5] 69 39 66 39 / 175 66 / 175 (73′ 5 , 82 ′5] 78 63 129 63 / 175 129 / 175 (82′ 5 , 91 ′5] 87 35 164 35 / 175 164 / 175 (91′ 5 , 100 ′5] 96 11 175 11 / 175 175 / 175 175 1

y, realizando las operaciones, resulta:

(Li− 1 , Li] xi ni Ni fi Fi (46′ 5 , 55 ′5] 51 11 11 0 ′ 06286 0 ′ 06286 (55′ 5 , 64 ′5] 60 16 27 0 ′ 09143 0 ′ 15429 (64′ 5 , 73 ′5] 69 39 66 0 ′ 22286 0 ′ 37714 (73′ 5 , 82 ′5] 78 63 129 0 ′ 36000 0 ′ 73714 (82′ 5 , 91 ′5] 87 35 164 0 ′ 20000 0 ′ 93714 (91′ 5 , 100 ′5] 96 11 175 0 ′ 06286 1 ′ 00000 175 1

2. Medidas de dispersi´on

A continuaci´on se describen los principales par´ametros de dispersi´on.

2.1. Varianza y desviaci´on t´ıpica

La varianza es una medida de dispersi´on que se basa en la desviaci´on de las observaciones con respecto a su media aritm´etica, y se denota por S^2 (a veces se emplea la notaci´on S x^2 para indicar que se refiere a la variable X). Simb´olicamente, si tenemos las observaciones num´ericas, x 1 , x 2 ,... , xn

la varianza vendr´a dada por,

S^2 =

n

∑^ n

i=

(xi − x)^2

Por ejemplo, consideremos las dos series de observaciones, que supondremos provienen de medir una magnitud en dos poblaciones, 6, 6, 7, 7, 8, 9, 9, 10, 10 y 1, 2, 4, 6, 8, 10, 12, 14, 15.

Ambas tienen como media aritm´etica el valor 8. Sin embargo sus varianzas son, para la primera serie:

S^2 =

((6 − 8)^2 + (6 − 8)^2 + (7 − 8)^2 + (7 − 8)^2 + (8 − 8)^2 +

+(9 − 8)^2 + (9 − 8)^2 + (10 − 8)^2 + (10 − 8)^2 ) = 2′ 22

y para la segunda:

S^2 =

((1 − 8)^2 + (2 − 8)^2 + (4 − 8)^2 + (6 − 8)^2 + (8 − 8)^2 +

+(10 − 8)^2 + (12 − 8)^2 + (14 − 8)^2 + (15 − 8)^2 ) = 23′ 33

Observemos que la segunda serie tiene una varianza muy superior a la primera. En t´ermi- nos generales podemos pues decir que est´a m´as dispersa. M´as adelante veremos que este

En este caso, la varianza ser´a:

S^2 =

n

∑^ k

i=

nix^2 i − x^2

y para los datos anteriores se tiene para la media aritm´etica,

x =

(0 × 20 + 1 × 35 + 2 × 62 + 3 × 24 + 4 × 5 + 5 × 3 + 6 × 1) = 1′ 813

La media de los cuadrados se har´a de forma totalmente similar pero operando con los valores elevados al cuadrado, es decir:

1 n

∑^ k

i=

nix^2 i =

(0^2 × 20 + 1^2 × 35 + 2^2 × 62 + 3^2 × 24 + 4^2 × 5 + 5^2 × 3 + 6^2 × 1) = 4′ 6

y la varianza ser´a pues, S^2 = 4′ 6 − (1′813)^2 = 1′313 hijos^2

siendo la desviaci´on t´ıpica, S =

1 ′313 = 1′145 hijos

B. Datos agrupados en intervalos

Vamos a considerar nuevamente los datos del Ejemplo 2. Recu´erdese que n = 175. Tene- mos numerosos datos y adem´as con muchos valores distintos. Podemos hacer la siguiente clasificaci´on agrupando los datos por intervalos de clase,

(Li− 1 , Li] xi x^2 i ni (46′ 5 , 55 ′5] 51 512 11 (55′ 5 , 64 ′5] 60 602 16 (64′ 5 , 73 ′5] 69 692 39 (73′ 5 , 82 ′5] 78 782 63 (82′ 5 , 91 ′5] 87 872 35 (91′ 5 , 100 ′5] 96 962 11

La marca de clase se toma como valor representativo de todas las observaciones de esa clase. Obs´ervese que, por comodidad para los c´alculos, hemos a˜nadido a la tabla una nueva columna con los cuadrados de las marcas de clase. Se tiene pues,

x =

(51 × 11 + 60 × 16 + 69 × 39 + 78 × 63 + 87 × 35 + 96 × 11) = 75′ 6

n

∑^ k

i=

nix^2 i =

(51^2 × 11 + 60^2 × 16 + 69^2 × 39 + 78^2 × 63 + 87^2 × 35 + 96^2 × 11) = 5836′ 99

La varianza ser´a pues,

S^2 = 5836′ 99 − (75′6)^2 = 124′63 puntos^2

siendo la desviaci´on t´ıpica,

S =

124 ′63 = 11′16 puntos

Observaci´on: Resaltemos que, al igual que ocurr´ıa con la media aritm´etica, cuando los datos se agrupan en intervalos, no vamos a obtener exactamente el mismo valor que si aplic´aramos la f´ormula directamente a los datos iniciales aunque s´ı un valor aproximado.

Observaci´on: Es importante observar que, en forma an´aloga a como ocurre con la media aritm´etica, la varianza tiene el inconveniente de ser sensible a la presencia de valores marcadamente separados de la masa principal de los datos.

Observaci´on: Otra medida de dispersi´on similar a la varianza, muy utilizada es la cuasi- varianza, se define como:

S c^2 =

n − 1

∑^ n

i=

(xi − x)^2 =

n − 1

∑^ k

i=

(xi − x)^2 ni

al igual que en el caso de la varianza, se define una medida asociada a la cuasivarianza pero expresada en las unidades de medida de la variable, que es la cuasidesviaci´on t´ıpica:

Sc =

n − 1

∑^ n

i=

(xi − x)^2 =

n − 1

∑^ k

i=

(xi − x)^2 ni

Propiedades de la varianza.

S^2 a+x = S x^2 , siendo a un n´umero real cualquiera.

S^2 ax = a^2 S x^2 , siendo a un n´umero real cualquiera.

S^2 x+y 6 = S x^2 + S^2 y en general.

S^2 = 0 si y s´olo si la variable X es constante.

2.2. Coeficiente de variaci´on de Pearson

La varianza est´a afectada por la magnitud media de las cantidades as´ı como por las unidades en las que est´en medidas.

Ejemplo: Las estaturas, en cent´ımetros, de cinco alumnos de Primero de Ense˜nanza Se- cundaria Obligatoria son 145, 139, 135, 143 y 135. Y las de seis alumnos de Cuarto de Ense˜nanza Secundaria Obligatoria son 163, 174, 175, 169, 171 y 178.

La varianza de las estaturas de los alumnos de Primero es S^2 = 16′64. Y la de los de Cuarto S^2 = 23′2222. Aparentemente los de cuarto presentan m´as dispersi´on, no obstante podemos plantearnos que el hecho de que los de Cuarto sean globalmente m´as altos puede afectar a la varianza, y es posible que intr´ınsecamente las estaturas de los de Cuarto est´en menos dispersas que las de los de Primero.

CV =

S

|x|

10, 12 y 15.

x =

(10 + 12 + 15) = 12′ 3333 S =

CV =

S

|x|

Como puede verse los coeficientes de variaci´on son iguales lo que nos dice que la dis- persi´on intr´ınseca es la misma. Es decir, este coeficiente no est´a afectado por la unidad de medida que se emplee.

Podemos pues concluir que el coeficiente de variaci´on es una medida de dispersi´on adi- mensional y adem´as compensada del efecto que produce la mayor o menor magnitud global de las cantidades.

2.3. Recorrido y recorrido intercuart´ılico

Se define el recorrido de una variable, cuyos valores est´an ordenados:

x 1 , x 2 ,... , xn

como R = xn − x 1

En el caso de que los datos se encuentren agrupados en intervalos, se calcula restando al extremo superior del ´ultimo intervalo, el extremo inferior del primero. Esta es una medida de dispersi´on muy f´acil de calcular e interpretar aunque no tiene buenas propiedades.

Por otro lado, sabemos que el primer cuartil, Q 1 deja a su izquierda el 25 % de las observaciones, y que el tercer cuartil Q 3 deja a su izquierda el 75 %. Esto significa que entre Q 1 y Q 3 se encuentran el 50 % central de las observaciones. El intervalo [Q 1 , Q 3 ] se denomina intervalo intercuart´ılico.

La distancia entre ambos valores, Q 1 y Q 3 , es decir, la longitud del intervalo inter- cuart´ılico, puede ser considerada como una medida de dispersi´on que se denomina recorri- do intercuart´ılico y se denota IQR, es decir,

IQR = Q 3 − Q 1

Esta medida de dispersi´on es robusta por serlo tambi´en los cuartiles, es decir, est´a poco influenciada por la presencia de valores muy extremos. Veamos algunos ejemplos.

Para los datos, 1 , 3 , 7 , 8 , 9 , 9 , 10 , 12 , 13 , 13 , 14 , 15

se tiene que, Q 1 = 7′ 5 Q 3 = 13

luego, IQR = 13 − 7 ′5 = 5′ 5

Si tenemos los datos siguientes,

xi ni Ni 1 10 10 3 14 24 4 16 40 7 30 70 8 10 80 9 8 88

entonces: Q 1 = 3 Q 3 = 7 ⇒ IQR = Q 3 − Q 1 = 7 − 3 = 4

Y para los datos, (Li− 1 , Li] xi ni Ni (46′ 5 , 55 ′5] 51 11 11 (55′ 5 , 64 ′5] 60 16 27 (64′ 5 , 73 ′5] 69 39 66 (73′ 5 , 82 ′5] 78 63 129 (82′ 5 , 91 ′5] 87 35 164 (91′ 5 , 100 ′5] 96 11 175

se tendr´a:

Q 1 = 68′ 365 Q 3 = 83′ 078 ⇒ IQR = Q 3 − Q 1 = 83′ 078 − 68 ′365 = 14′ 713

3. Medidas de concentraci´on. Curva de Lorenz. ´Indice de

Gini

Ya hemos visto c´omo la dispersi´on hace referencia al grado de separaci´on o desviaci´on de los datos u observaciones, con respecto a valores medios y/o entre ellos mismos. Un concepto que guarda bastante relaci´on es el de concentraci´on, y hace referencia al grado de uniformidad en el reparto del total de la variable sobre cada uno de los individuos o elementos.

As´ı, el estudio de la concentraci´on es de gran inter´es en el ´ambito econ´omico, cuando se trata de estudiar el grado de equidad en el reparto de la riqueza, los salarios, o bienes en general. De hecho, este concepto se emplea frecuentemente en estudios sobre el reparto de bienes como riqueza o salario, en empresas, clases sociales, pa´ıses o regiones geogr´aficas en general.

Por ejemplo, los cinco trabajadores de la empresa A ganan mensualmente 1400, 1500, 1390, 1600, 1550 Euros. Los cuatro empleados de la empresa B ganan mensualmente 1300, 1400, 1350, 5000 Euros. Los sueldos de la empresa A presentan menos concentraci´on que los de la empresa B pues el total est´a m´as uniformemente repartido en A que en B.

P 1 P 2

Q 1

Q 2

(0,0)

(100,100)

Con objeto de construir un par´ametro que cuantifique la concentraci´on, podemos razonar de la siguiente forma. La superficie, δ, de la regi´on comprendida entre la bisectriz y la curva de Lorenz ser´a tanto m´as peque˜na cuanto menor concentraci´on haya. El m´ınimo valor de dicha superficie es 0 y la cota superior 100^2 /2 = 5000. Podemos pues construir el siguiente par´ametro de concentraci´on:

IG = δ 5000

2 δ 10000

que verifica 0 ≤ IG ≤ 1. Dicho par´ametro se denomina ´ındice de Gini ´o coeficiente de Gini, y se determina mediante la siguiente f´ormula:

IG =

∑^ k

i=

(Pi− 1 Qi − PiQi− 1 )

Desde el punto de vista pr´actico, se suele trabajar con la siguiente aproximaci´on, que ser´a la que usaremos en adelante:

IG = 1 −

∑k− 1 ∑^ i=1^ Qi k− 1 i=1 Pi

En el caso del ejemplo anterior, el ´ındice de Gini ser´a:

IG = 1 −

que nos indica poca concentraci´on.

Veamos c´omo se hace el estudio de la concentraci´on si los datos est´an agrupados en intervalos. Cuando estemos en esta situaci´on, procederemos de la siguiente forma, que ilus- traremos directamente sobre un ejemplo concreto. Consideremos la siguiente tabla de fre- cuencias, obtenida al agrupar en intervalos una serie de datos num´ericos, donde x 1 , x 2 , · · · , xk son ahora las marcas de clase:

Intervalo xi ni Fi si Si Pi Qi (0′ 5 , 1 ′5] 1 5 5 /50 = 0′ 10 5 5 10 ′ 00 3 ′ 16 (1′ 5 , 2 ′5] 2 14 19 /50 = 0′ 38 28 33 38 ′ 00 20 ′ 88 (2′ 5 , 3 ′5] 3 15 34 /50 = 0′ 68 45 78 68 ′ 00 49 ′ 36 (3′ 5 , 4 ′5] 4 7 41 /50 = 0′ 82 28 106 82 ′ 00 67 ′ 08 (4′ 5 , 5 ′5] 5 4 45 /50 = 0′ 90 20 126 90 ′ 00 79 ′ 74 (5′ 5 , 6 ′5] 6 3 48 /50 = 0′ 96 18 144 96 ′ 00 91 ′ 14 (6′ 5 , 7 ′5] 7 2 50 /50 = 1′ 00 14 158 100 ′ 00 100 ′ 00

Nuevamente observamos que se han construido una serie de columnas adicionales a las usuales. Las nuevas cantidades empleadas se explican a continuaci´on.

si. Es la suma de las observaciones en cada intervalo. Usualmente no se dispone de estas observaciones, emple´andose entonces como aproximaci´on la suma de las marcas de clase, es decir, si = ni xi.

Si. Es la cantidad anterior, acumulada, es decir, Si = s 1 + s 2 + · · · + si.

Pi. Representa el porcentaje de observaciones menores o iguales que xi, es decir, Pi = 100 × Fi. Observemos que siempre se verificar´a Pk = 100.

Qi. Es el porcentaje que representa Si con respecto a la suma total Sk, es decir, Qi = 100 × Si/Sk. Observemos que siempre se verificar´a Qk = 100.

Representando entonces los puntos (0, 0), (P 1 , Q 1 ), (P 2 , Q 2 ),...,(Pk, Qk) = (100, 100), y uni´endolos por segmentos rectil´ıneos obtendremos una poligonal que ser´a la curva de Lorenz ´o curva de concentraci´on, cuya interpretaci´on es la misma que hemos visto anteriormente. Nuevamente, se puede calcular el ´ındice de Gini como IG = 2δ/ 1002 , donde la divisi´on por 100^2 se hace a efectos de normalizar la cantidad para que siga verificando 0 ≤ IG ≤ 1. La expresi´on para calcular dicho ´ındice es, por supuesto, la misma de antes, es decir:

IG = 1 −

∑k− 1 ∑^ i=1^ Qi k− 1 i=1 Pi que aplicada a los datos de nuestro ejemplo proporciona,

IG = 0 ′ 189

es decir, poca concentraci´on.

Finalmente veremos c´omo calcular el ´ındice de Gini para distribuciones no agrupadas por frecuencias. Lo haremos con un peque˜no ejemplo, pero suficiente para mostrar el m´eto- do. Supongamos cinco sueldos, en miles de Euros, 4, 3, 2, 2, 1. Primero se ordenan de menor a mayor, y se construye la siguiente tabla, que es an´aloga a las calculadas para las distribuciones anteriores:

Definici´on 1 Se llamar´a “OUTLIER” a aquella observaci´on que siendo at´ıpica y/o err´onea, tiene un comportamiento muy diferente respecto al resto de los datos, en relaci´on al an´alisis que se desea realizar sobre las observaciones.

A continuaci´on veremos un m´etodo para detectar “outliers”. Este m´etodo se basa en los cuartiles, que como sabemos, son par´ametros resistentes o robustos. Consiste en calcular, a partir de Q 1 , Q 3 ´e IQR los siguientes valores,

f 1 = Q 1 − 1 ′ 5 × IQR f 2 = Q 3 + 1′ 5 × IQR

que se denominan vallas interiores. Y los valores,

F 1 = Q 1 − 3 × IQR F 2 = Q 3 + 3 × IQR

denominados vallas exteriores.

Toda observaci´on que quede fuera de las vallas interiores ser´a considerada como posible “OUTLIER”y se llamar´a valor “outside”, y se considera como valor an´omalo. Los valores que adem´as est´en fuera de las vallas exteriores se consideran como valores muy an´omalos, se llaman ”far outside^2 los consideramos “OUTLIER”.

Por ejemplo, para los datos de las estaturas de los alumnos,

Q 1 = 147 Q 3 = 154 IQR = 7

siendo pues,

Vallas interiores,

f 1 = 147 − 1 ′ 5 × 7 = 136′ 5 f 2 = 154 + 1′ 5 × 7 = 164′ 5

Vallas exteriores,

F 1 = 147 − 3 × 7 = 126 F 2 = 154 + 3 × 7 = 175

Luego el valor 190 es un valor muy an´omalo, que requiere un estudio pormenorizado. Puede ser un error en las observaciones, o que realmente existe un alumno de elevada estatura.

4.2. Diagrama de caja o “Box-Plot”

Este tipo de diagramas expresa muy claramente la distribuci´on de los datos: su valor central, simetr´ıa, concentraci´on y observaciones an´omalas que se diferencian marcadamente del resto. Para construirlo seguiremos los siguientes pasos,

  1. Fijar la escala de acuerdo con los valores m´ınimo y m´aximo.
  2. Localizar la mediana y los cuartiles, Q 1 y Q 3 , y dibujar un rect´angulo o caja que conecte estos ´ultimos, y dentro del mismo, marcar la mediana con un segmento. Clara- mente, la amplitud de la caja ser´a el recorrido intercuart´ılico, IQR.
  1. Hallar las vallas interiores y exteriores para detectar valores extremos. Las obser- vaciones que queden fuera de las vallas interiores pero no fuera de las exteriores se representan como peque˜nos cuadrados o peque˜nos c´ırculos, y las que queden fuera de las vallas exteriores con asteriscos u otros s´ımbolos. Esta regla var´ıa seg´un las implementaciones de los programas inform´aticos.
  2. A cada lado de la caja se trazan segmentos rectil´ıneos que terminan en las obser- vaciones m´as extremas dentro de las vallas interiores. Dichas observaciones se denominan valores adyacentes.

En la Figura 1, se expone de forma esquem´atica un diagrama de caja. N´otese la nomen- clatura empleada para denotar y distinguir las observaciones “outlier”, seg´un est´en fuera de los diferentes tipos de vallas.

F 1 f 1 Q 1 Me Q 3 f 2 F 2

2 

Figura 1. Diagrama de caja o “box-plot”. Las observaciones que queden fuera de las vallas interiores pero no fuera de las exteriores se han representado con 2 , y las que queden fuera de las vallas exteriores con .

Es interesante emplear este diagrama para comparar varios conjuntos de datos, suponien- do por supuesto que dicha comparaci´on tenga sentido. Por ejemplo, para los conjuntos de datos relativos a las puntuaciones de 175 alumnos por una parte, y de 120 por otra, podemos construir los correspondientes diagramas de caja, y ubicarlos en un mismo gr´afico, con una escala com´un. Se tiene:

a partir de los cuales tenemos,

IQR = Q 3 − Q 1 = 6′ 5 f 1 = Q 1 − 1 ′ 5 × IQR = 42′ 25 f 2 = Q 3 + 1′ 5 × IQR = 68′ 25

F 1 = Q 1 − 3 × IQR = 32′ 5 F 2 = Q 3 + 3 × IQR = 78

La puntuaci´on m´ınima es ahora 34, y la m´axima 62. As´ı pues, existen observaciones por debajo de la valla interior inferior, en concreto, 34, 39 y 41, que son consideradas como “outliers”. Por encima de la valla interior superior no hay observaciones. Los valores adyacentes son ahora las observaciones 43 y 62. N´otese que no hay observaciones fuera de las vallas exteriores, es decir, muy an´omalas.

En la Figura 2 exponemos los diagramas de caja correspondientes, realizados a mano. Esta gr´afica nos permite captar globalmente las particularidades de cada conjunto de datos, y tambi´en realizar una comparaci´on entre ellos. Obs´ervese como las puntuaciones del grupo de 175 estudiantes son globalmente mejores que las del grupo de 120 estudiantes. Por ejem- plo, se puede observar que las medianas de ambos grupos de puntuaciones difieren en casi 20 unidades.

Obs´ervese tambi´en que en el grupo de 175 estudiantes no se detectan “outliers”, al contrario de lo que sucede en el grupo de 120 estudiantes en el que se observan tres “out- liers”, que por no estar fuera de las vallas exteriores han sido representados por peque˜nos cuadrados, es decir, 2. Recu´erdese que algunos programas de ordenador, emplean s´ımbolos distintos, por ejemplo peque˜nos c´ırculos, es decir, ◦.

Figura 2. Diagramas de caja para los datos correspondientes a 175 alumnos y 120 alumnos. Realizado a mano.