Docsity
Docsity

Prepara tus exámenes
Prepara tus exámenes

Prepara tus exámenes y mejora tus resultados gracias a la gran cantidad de recursos disponibles en Docsity


Consigue puntos base para descargar
Consigue puntos base para descargar

Gana puntos ayudando a otros estudiantes o consíguelos activando un Plan Premium


Orientación Universidad
Orientación Universidad


Cálculo de la moda en datos agrupados y cualitativos, Resúmenes de Estadística

Este artículo explica detalladamente la fórmula para calcular la moda en datos agrupados y su interpretación, así como la forma de calcular la moda para datos cualitativos. Además, se presentan ejemplos y gráficos que ilustran el proceso de cálculo.

Tipo: Resúmenes

2021/2022

Subido el 10/10/2022

pablo.ramirez
pablo.ramirez 🇪🇸

4.5

(2)

76 documentos

1 / 16

Toggle sidebar

Esta página no es visible en la vista previa

¡No te pierdas las partes importantes!

bg1
Revista de Educación Matemática
Volumen 36, N°1 (2021), páginas 75 90 V
Unión Matemática Argentina - Famaf (UNC)
Artículo de Matemática
ACERCA DE LA MODA
Eugenio Saavedra Gallardo.
Resumen. Después de hacer una brevesíntesis sobre la medida de tendencia central moda,
en datos no agrupados, se construye la fórmula para la moda en datos agrupados. Esta
construcción se realiza a través de una relación de proporcionalidad, que se deriva como
consecuencia de la búsqueda de un punto, cuya abscisa es la moda.
Abstract. After a brief synthesis of the definition and main properties of the mode (a
measure of central tendency) for ungrouped data, we derive a formula for it in the case of
grouped data. Our construction is based on a proportionality relation, that is derived as a
consequence of searching for a point whose abscissa is the mode.
§1. Introducción
A lo largo de varios años en que nuestra facultad ha realizado perfeccionamientos
para docentes de nuestro sistema escolar (en que han participado alrededor de
700 docentes), hemos observado cómo la gran mayoría de ellos aplican a “ciegas”
fórmulas utilizadas en estadística descriptiva, por ejemplo, el caso de los percentiles
o el de la moda para datos agrupados en intervalos.
Probablemente esta “ceguera” es producto de la forma en que se presenta, al
menos en el sistema escolar, la estadística descriptiva, generalmente solo a través
de fórmulas. Caso particular de lo anterior es el de la moda para datos agrupados,
la cual puede encontrarse en textos escolares (por ejemplo, las referencias
(
Bennett,
2015) y
(
León,2012)), o en otros libros (por ejemplo las referencias
(
Bacchini,2018)
y
(
Salazar,2018)), y en muchos otros sitios, entre los cuales, solo por nombrar
algunos, están las referencias
(
Farigua,2016;Sectormatematica,s.f.;Superprof,
s.f.;Wiki2,s.f.). En todos ellos, lo que se entrega es solo una fórmula para su
cálculo, junto a una identificación de los símbolos que componen dicha fórmula.
Sin embargo es preciso señalar que existen algunos sitios web donde se muestra,
Palabras clave: Medidas de tendencia central, moda, datos agrupados.
Keywords: Measures of central tendency, mode, grouped data.
75
pf3
pf4
pf5
pf8
pf9
pfa
pfd
pfe
pff

Vista previa parcial del texto

¡Descarga Cálculo de la moda en datos agrupados y cualitativos y más Resúmenes en PDF de Estadística solo en Docsity!

Revista de Educación Matemática Volumen 36, N° 1 (2021), páginas 75 – 90 V Unión Matemática Argentina - Famaf (UNC)

Artículo de Matemática

ACERCA DE LA MODA

Eugenio Saavedra Gallardo.

Resumen. Después de hacer una breve síntesis sobre la medida de tendencia central moda, en datos no agrupados, se construye la fórmula para la moda en datos agrupados. Esta construcción se realiza a través de una relación de proporcionalidad, que se deriva como consecuencia de la búsqueda de un punto, cuya abscisa es la moda.

Abstract. After a brief synthesis of the definition and main properties of the mode (a measure of central tendency) for ungrouped data, we derive a formula for it in the case of grouped data. Our construction is based on a proportionality relation, that is derived as a consequence of searching for a point whose abscissa is the mode.

§1. Introducción

A lo largo de varios años en que nuestra facultad ha realizado perfeccionamientos para docentes de nuestro sistema escolar (en que han participado alrededor de 700 docentes), hemos observado cómo la gran mayoría de ellos aplican a “ciegas” fórmulas utilizadas en estadística descriptiva, por ejemplo, el caso de los percentiles o el de la moda para datos agrupados en intervalos.

Probablemente esta “ceguera” es producto de la forma en que se presenta, al menos en el sistema escolar, la estadística descriptiva, generalmente solo a través de fórmulas. Caso particular de lo anterior es el de la moda para datos agrupados, la cual puede encontrarse en textos escolares (por ejemplo, las referencias ( Bennett,

  1. y (León, 2012)), o en otros libros (por ejemplo las referencias (Bacchini, 2018) y (Salazar, 2018)), y en muchos otros sitios, entre los cuales, solo por nombrar algunos, están las referencias ( Farigua, 2016; Sectormatematica, s.f.; Superprof, s.f.; Wiki2, s.f.). En todos ellos, lo que se entrega es solo una fórmula para su cálculo, junto a una identificación de los símbolos que componen dicha fórmula. Sin embargo es preciso señalar que sí existen algunos sitios web donde se muestra,

Palabras clave : Medidas de tendencia central, moda, datos agrupados. Keywords : Measures of central tendency, mode, grouped data.

75

76 Eugenio Saavedra G.

en forma bastante resumida, la construcción de dicha fórmula (entre otras, las referencias (Firmfunda, s.f.; Topperlearning, s.f.; Math.Stackexchange, s.f.). Motivados por lo anterior se escribe este artículo, con el objetivo de construir detalladamente la fórmula para calcular la moda en datos agrupados, y de esta manera mostrar de forma pormenorizada qué es lo que se pretende capturar con ella. La construcción se realiza por medio de una relación de proporcionalidad que involucra tanto la frecuencia del intervalo modal como la de los intervalos contiguos. Esta relación de proporcionalidad se deriva como consecuencia de la busqueda de un punto del cual la moda es su abscisa, además la busqueda de este punto se hace tanto desde una mirada algebraica (intersección de dos rectas en el plano), cómo desde una mirada geométrica (semejanza de triángulos). El artículo comienza con la presentación de las 3 medidas comunmente utilizadas para describir la idea de centro de un conjunto de datos (media o promedio, moda y mediana), para luego analizar brevemente la moda, tanto para datos cuantitativos (no agrupados) como para datos cualitativos (categorías). Seguidamente se entrega la fórmula para el cálculo de la moda en datos agrupados, mostrando su operatoria a través de un ejemplo. Posteriormente, se hace la construcción y el análisis de la fórmula para la moda en datos agrupados, para luego reinterpretar la forma en que esta se expresa.

§2. La idea de centro

Comúnmente 3 medidas son usadas para describir el “centro” o “localización central” de un conjunto de datos (a este conjunto también se le llama datos mues- trales o muestra):

  • la moda, • la mediana, • la media (o promedio).

Cada una de estas medidas interpreta la idea de “centro” en diferentes maneras. La moda interpreta el significado de “centro” como el valor que ocurre más a menudo en el conjunto de datos analizados, en cambio la mediana interpreta el significado de “centro” como el valor que divide al conjunto de datos, después de ordenarlos en forma ascendente, en dos partes, de modo que al menos el 50 % de los datos son menores o iguales a la mediana y al menos el 50 % de los datos son mayores o iguales a esta. Por último el promedio interpreta la idea de “centro” como una especie de repartición “equitativa” en el siguiente sentido. Tres amigos coleccionan poster de su cantante preferido, ellos tienen 19, 31 y 13 poster respectivamente. Los amigos deciden repartirse los poster de modo que cada uno quede con la misma cantidad, ¿con cuántos poster queda cada uno? La respuesta es 21, que corresponde al promedio de los valores 19, 31 y 13.

78 Eugenio Saavedra G.

que ordenadas de menor a mayor resultan 35 , 40 , 40 , 83 , 84 , 85 , 86 , 88 , 92 , 95 , obtendríamos que la moda es la nota 40 , por lo que juzgar el rendimiento de este alumno en matemática, por medio de la moda, parece poco adecuado.

  • La moda es una medida que es sensible a pequeños cambios de los valores muestrales.
  • La moda no es particularmente afectada por valores extremos en la muestra, es decir, por valores que resultan mucho más grandes o mucho más pequeños que el resto de los datos.
  • La moda es siempre igual a uno de los valores presentes en la muestra (en el caso de datos no agrupados).
  • No hay un orden (estricto) predeterminado entre la moda y las otras dos medidas de tendencia central. En efecto, si denotamos por Md a la mediana, M 0 a la moda y x¯ al promedio, entonces puede ocurrir que: Md < M 0 < x,¯ si los datos son 0 , 1 , 2 , 3 , 4 , 5 , 6 , 6 , 98 , 99 , 100 , Md < ¯x < M 0 , si los datos son − 1 , 0 , 1 , 5 , 5 , M 0 < x < M¯ d, si los datos son − 3 , − 3 , − 2 , 0 , 1 , 2 , 3 , M 0 < Md < x,¯ si los datos son − 1 , − 1 , 0 , 3 , 4 , ¯x < M 0 < Md, si los datos son − 100 , − 4 , − 4 , 1 , 2 , 3 , 4 , ¯x < Md < M 0 , si los datos son − 3 , − 2 , 0 , 1 , 1 , ¯x = M 0 = Md, si los datos son − 2 , 0 , 0 , 2.

§4. La moda para datos cualitativos (categorías)

En este caso, es decir, cuando los datos son cualitativos, la moda es la única medida de tendencia central que se puede calcular para este tipo de datos. El procedimiento es el mismo que en el caso de datos cuantitativos (numéricos). La moda es(son) la(s) categoría(s) que ocurre(n) más frecuentemente en el conjunto de datos analizados (muestra). Por ejemplo, una Compañía de telefonía móvil realiza una encuesta a 10 de sus clientes, acerca de su servicio, entregándole como opciones: muy satisfecho (MS); satisfecho (S); insatisfecho (I) y muy insatisfecho (MI). La Tabla 1 más abajo resume la información recogida. En este caso la moda resulta ser la categoría “muy satisfecho”, es decir, lo que más frecuentemente ocurre (en los datos de la muestra) es que el cliente se encuentre muy satisfecho con el servicio de telefonía móvil que le ofrece la compañía.

Acerca de la Moda 79

Categoría Frecuencia Muy insatisfecho 2 Insatisfecho 3 Satisfecho 1 Muy satisfecho 4 Tabla 1

A través de este mismo ejemplo podemos ver que el cálculo de la media no tiene sentido. Si trataramos de calcular la media, deberíamos sumar los 10 datos, lo cual obviamente no es posible. Incluso si asignamos valores numéricos a las categorías (esta operación es co- nocida como codificación), por ejemplo, muy insatisfecho = 0 , insatisfecho = 1 , satisfecho = 2 , muy satisfecho = 3 , la media todavía continúa sin sentido. Esto porque los valores numéricos que asignamos a las diferentes categorías, asumen que la diferencia entre la respuesta “satisfecho” y “muy satisfecho” es la misma que la diferencia entre la respuesta “muy insatisfecho” e “insatisfecho”, lo cual en general no corresponde a la realidad. Puede ser que “estar muy satisfecho” sea mucho mejor que “estar satisfecho”. El mismo argumento anterior se aplica a datos cualitativos ordinales numéricos. Por ejemplo, el test de Apgar, arroja como resultado un número que puede ser 0 , 1 ,... , 10. Pero, un recién nacido con puntaje 10 no significa que sea el doble de saludable que uno con puntaje 5. También, para este tipo de datos no tiene sentido calcular la mediana. Por ejemplo, con los datos de la tabla anterior, la mediana sería el promedio entre I y S, lo cual no tiene sentido.

§5. La moda para datos cuantitativos agrupados

Consideremos un conjunto de datos agrupados, los cuales pueden presentarse a través de una tabla de datos agrupados en intervalos, un histograma o una ojiva. Además, estas presentaciones pueden mostrarse con frecuencias absolutas y/o frecuencias relativas y/o frecuencias relativas porcentuales. Por otra parte, teniendo un tipo de presentación de los datos agrupados, inmediatamente pueden obtenerse las otras dos. Si llamamos M 0 a la moda para datos agrupados en intervalos (de igual ampli- tud), entonces M 0 se define como

M 0 = liminf + d 1 d 1 + d 2 · a ó M 0 = liminf + fM − f 1 2 fM − f 1 − f 2 · a,

donde

Acerca de la Moda 81

A partir de la tabla anterior obtenemos:

Símbolo Con Frecuencia Absoluta Con Frecuencia Relativa Porcentual liminf 575 575 limsup 635 635 a 60 60 fM 22 27 , 5 % f 1 10 12 , 5 % f 2 16 20 % d 1 12 15 % d 2 6 7 , 5 % d 1 d 1 + d 2

12 12 + 6 =

2 3

15 % 15 % + 7, 5 % =

2 · 7 , 5 3 · 7 , 5 =

2 3

Tabla 3 Así, M 0 = liminf + d 1 d 1 + d 2 a = 575 + 23 60 = 615.

Si conociéramos explícitamente los 80 datos (por ejemplo, los que se presentan a continuación y que satisfacen las condiciones de la Tabla 2)

395 410 410 410 410 449 460 495 500 505

511 511 511 513 515 515 521 523 530 550

562 570 571 573 575 575 580 581 582 585

585 585 588 590 592 595 598 599 600 615

615 616 620 625 630 631 635 635 639 640

645 648 650 652 655 655 660 660 665 667

680 690 700 708 710 725 725 730 735 738

740 747 750 754 778 780 790 795 800 815

Tabla 4

veríamos que la verdadera moda es 410. El error que cometimos al obtener como moda el valor 615 , es el precio que se debe pagar por el desconocimiento de los datos cuando estos se presentan agrupados y no se conocen explícitamente.

82 Eugenio Saavedra G.

§6. Construcción de la Fórmula

Primero, recordemos que la fórmula para M 0 , la moda en datos agrupados, es

M 0 = liminf + d 1 d 1 + d 2 a.

En adelante, para simplificar, usaremos Li = liminf y Ls = limsup.

¿Qué trata de expresar la fórmula de la moda para datos agrupados? Trata de escoger un valor (llamado M 0 ) dentro del intervalo modal.

¿Con que criterio se escoge M 0? El criterio que se utiliza para escoger M 0 , es la comparación entre la frecuencia del intervalo contiguo por la izquierda al intervalo modal, esto es f 1 , y la frecuencia del intervalo contiguo por la derecha, o sea f 2. Si f 1 es mayor que f 2 , entonces el punto M 0 se debe “acercar” más al extremo izquierdo del intervalo modal, es decir, a Li, en cambio, si f 1 es menor que f 2 , el punto M 0 se debe “acercar” más al extremo derecho del intervalo modal, es decir, a Ls. Para el caso en que las frecuencias de los intervalos contiguos sean iguales, entonces el punto escogido debe corresponder al punto medio del intervalo modal. ¿Cómo decide la fórmula “acercarse” más al extremo izquierdo (respectivamente derecho) del intervalo modal? La forma como lo hace es escogiendo a M 0 como la abscisa del punto de in- tersección entre los segmentos de línea punteada que se muestran en el gráfico siguiente.

Gráfico 1

Cabe señalar que el gráfico anterior es la representación de un conjunto de datos agrupados en intervalos, en el sentido que en el eje horizontal se ponen los intervalos y la altura de un rectángulo representa la frecuencia correspondiente al intervalo que forma su base.

84 Eugenio Saavedra G.

entonces M 0 + d 1 d 2 M 0 = Li + d 1 d 2 Ls,

por lo cual

M 0

d 1 + d 2 d 2 = Li +

d 1 d 2 Ls, esto es M 0 = d 2 d 1 + d 2 Li + d 2 d 1 + d 2

d 1 d 2 Ls.

Por otra parte, Ls = (Ls − Li) + Li = a + Li, así

M 0 = d 2 d 1 + d 2 Li + d 1 d 1 + d 2 (a + Li)

=

( (^) d 2 d 1 + d 2

d 1 d 1 + d 2

Li + d 1 d 1 + d 2 a

= Li + d 1 d 1 + d 2 a = liminf + d 1 d 1 + d 2 a.

Para el caso en que f 1 = f 2 , esto es, cuando d 1 = d 2 , la proporción entre d 1 y d 2 es uno, por lo que la proporción entre (M 0 − Li) y (Ls − M 0 ) debe ser uno. Para que esto se cumpla, M 0 debe ser el punto medio del intervalo modal.

En efecto, al ocurrir que d 1 = d 2 , se tiene que (^) d 1 d+^1 d 2 = 12 , por lo que M 0 = Li + (^) d 1 d+^1 d 2 a = Li + 12 a = Li + 12 (Ls − Li) = Li+ 2 Ls,

que corresponde al punto medio del intervalo modal.

Observación: ¿Qué relaciones geométricas satisface el punto de intersección de los segmentos P R y SQ? El gráfico que se presenta a continuación, corresponde a la “parte superior” del rectángulo que tiene por base al intervalo modal que se muestra en el Gráfico 1, por lo cual P Q corresponde a d 1 , RS corresponde a d 2 y T a la intersección del segmento P R con el segmento SQ.

Gráfico 2

Acerca de la Moda 85

Del gráfico anterior se puede observar que, si f 1 < f 2 , entonces P Q será mayor que RS, por lo que T estará más cerca del segmento RS que del segmento P Q. Para visualizar lo anterior, basta recordar que las diagonales de un rectángulo se cortan en el centro de este.

En el caso en que f 1 > f 2 , tendremos un gráfico análogo al Gráfico 2, solo que en este caso P Q será menor que RS, por lo que T estará más cerca del segmento P Q que del segmento RS.

Ahora, si f 1 = f 2 , entonces P Q = RS, por lo que el cuadrilátero P QRS será un rectángulo. Por esta razón T estará en el centro de este, por tanto T será equidistante de los segmentos P Q y RS.

También, desde el Gráfico 2, utilizando que P Q ‖ RS y el criterio de semejanza de triángulos AAA, se tiene que 4 P T Q ∼ 4RT S, de donde P QRS = P TRT.

El gráfico que se presenta ahora, es similar al Gráfico 2, solo que ahora se agre- garon unas líneas punteadas auxiliares.

Gráfico 3

Usando nuevamente el criterio de semejanza de triángulos AAA, se deduce que 4 P Y T ∼ 4RXT, por lo que se tiene P TRT = P YRX.

En consecuencia, P QRS = P TRT = (^) RXP Y , de donde P QRS = P YRX , o dicho de otra forma,

P Y P Q

RX

RS

A partir de los Gráficos 1, 2 y 3, vemos que P Y = u, P Q = d 1 , RX = v y RS = d 2 , por lo que la última expresión puede escribirse de la siguiente manera:

La proporción entre la magnitud del segmento Li M 0 y d 1 , es igual a la propor- ción entre la magnitud del segmento M 0 Ls y d 2.

En otras palabras (M 0 − Li) : d 1 = (Ls − M 0 ) : d 2 ,

es decir M 0 − Li Ls − M 0

d 1 d 2

Acerca de la Moda 87

§7. Otra Aproximación a la Fórmula

Sean c y d números reales, con c < d, entonces el promedio de estos dos valores es x¯ = c+ 2 d, el cual puede escribirse como x¯ = 12 c + 12 d, y corresponde al punto medio del intervalo ]c, d[. De forma más general se define el promedio ponderado para c y d como el número real ¯xp = αc + βd, donde α y β son números reales pertenecientes al intervalo ]0, 1[, y tal que α + β = 1. Un caso particular de promedio ponderado es cuando α = β = 12 , esto es, el promedio de los valores c y d es un caso particular de promedio ponderado. A continuación veamos que x¯p pertenece al intervalo ]c, d[, y que x¯p estará más cerca de c cuando β sea menor que α, más cerca de d cuando β sea mayor que α y al centro del intervalo cuando β sea igual a α. Además veremos que la moda para datos agrupados es un promedio ponderado de los extremos del intervalo modal. Primeramente la distancia entre c y d es (d − c) y por otra parte x¯ = 12 c + 12 d = c + 12 (d − c).

Esto es, la distancia entre c y ¯x es la misma que entre x¯ y d, en otras palabras x¯ es el punto medio del intervalo de extremos c y d. Ahora sea x¯p = 23 c + 13 d = c + 13 (d − c).

Entonces la distancia entre c y x¯p es la mitad de la distancia entre x¯p y d. Sea ahora x¯p = αc + βd. Como α + β = 1, entonces ¯xp = (1 − β)c + βd, esto es, x ¯p = c + β(d − c).

Por lo tanto la distancia entre c y x¯p es β(d − c) y la distancia entre ¯xp y d es (1 − β)(d − c), con β ∈]0, 1[ (en los casos anteriores β era 12 y 13 , respectivamente).

88 Eugenio Saavedra G.

Así, en el caso en que β < 12 , x¯p estará más cerca de c que de d y si β > 12 , ¯xp estará más cerca de d que de c. Ahora reescribamos la fórmula de la moda. M 0 = Li + (^) d 1 d+^1 d 2 a = Li + (^) d 1 d+^1 d 2 (Ls − Li) = (^) d 1 d+^2 d 2 Li + (^) d 1 d+^1 d 2 Ls.

Entonces M 0 resulta ser el promedio ponderado entre Li y Ls, con α = (^) d 1 d+^2 d 2 y β = (^) d 1 d+^1 d 2. Notar que, en el caso en que el intervalo contiguo por la izquierda al intervalo modal tenga mayor frecuencia que el intervalo contiguo por la derecha, esto es, cuando f 1 > f 2 , se tendrá que fM − f 1 < fM − f 2 , o sea d 1 < d 2. Esta desigualdad es equivalente a β = (^) d 1 d+^1 d 2 < 12. O sea, en este caso la moda M 0 estará más cerca del límite inferior del intervalo modal que del límite superior. Análogamente, si f 1 < f 2 , entonces β = (^) d 1 d+^1 d 2 > 12 , por lo que M 0 estará más cerca del límite superior del intervalo modal que del límite inferior. En el ejemplo de la Sección 5, f 1 = 10, f 2 = 16 y fM = 22, por lo que d 1 = 12, d 2 = 6 y β = 23. En consecuencia, M 0 = 13 · 575 + 23 · 635 = 615.

En este caso f 1 < f 2 , o sea, β > 12 , por lo cual la moda M 0 = 615 está más cerca de 635 que de 575 (la distancia entre la moda y 575 es 40 , mientras la distancia entre la moda y 635 es 20).

§8. Comentarios finales

Con esto finalizamos el análisis de la fórmula para calcular la moda desde datos agrupados. Esta fórmula es la que se presenta (sin ninguna explicación, salvo la identificación de cada símbolo que la compone) tanto en algunos textos como en otros recursos pedagógicos que se utilizan en el sistema escolar. Las preguntas que surgen en forma natural respecto a esta fórmula son: ¿valdrá la pena, al menos en el sitema escolar, presentar esta fórmula sin ninguna explicación sobre su construcción? ¿será necesario, al menos para el sistema escolar, que la moda esté más cerca del límite inferior o del límite superior del intervalo modal si este valor puede diferir tanto respecto al verdadero valor de la moda (como en el ejemplo de la Sección 5)?

Agradecimientos. El autor quiere agradecer a los revisores anónimos del artículo, por sus valiosas observaciones y sugerencias, las cuales permitieron mejorar la redacción del mismo.

90 Eugenio Saavedra G.

Eugenio Saavedra Gallardo. Departamento de Matemática y C.C. , Universidad de Santiago de Chile ( ) [email protected]

Recibido: 17 de abril de 2020. Aceptado: 21 de diciembre de 2020. Publicado en línea: 5 de abril de 2021.