Docsity
Docsity

Prepara tus exámenes
Prepara tus exámenes

Prepara tus exámenes y mejora tus resultados gracias a la gran cantidad de recursos disponibles en Docsity


Consigue puntos base para descargar
Consigue puntos base para descargar

Gana puntos ayudando a otros estudiantes o consíguelos activando un Plan Premium


Orientación Universidad
Orientación Universidad


Conocer una variable, Apuntes de Psicología

Asignatura: Análisis de Datos, Profesor: Vicente Manzano, Carrera: Psicología, Universidad: US

Tipo: Apuntes

2013/2014

Subido el 27/01/2014

angelfdez-1
angelfdez-1 🇪🇸

4

(32)

19 documentos

1 / 27

Toggle sidebar

Esta página no es visible en la vista previa

¡No te pierdas las partes importantes!

bg1
Conocer una variable
Vicente Manzano-Arrondo – 2010,2013
Aunque no puede entenderse un dato sin conocer de dónde viene y hacia dónde
va, lo primero específicamente estadístico que se requiere hacer ante cualquier conjunto
de datos es llevar a cabo un análisis variable a variable. Es necesario conocer a cada
una, cómo se comporta, si hay errores de transcripción, si existen casos raros o anómalos
que pudieran distorsionar las conclusiones generales y que aconsejan un estudio
específico, si hay ausencias de información que requieren un proceso de imputación o
decisión de valores... Sin conocer a cada variable por separado, iniciaríamos los análisis
con una notable desventaja y una probable gestación de conclusiones erróneas,
sesgadas o incompletas.
Para llevar a cabo un estudio de cada variable es importante conocer primero de
qué tipo es según el procedimiento de medida que se ha llevado a cabo. En este
documento vamos a distinguir cuatro clases: nominal, ordinal, cuasicuantitativa y
cuantitativa.
Tomar buenas decisiones respecto a qué hacer con una variable en concreto
depende no sólo del procedimiento de medida sino también de otras circunstancias. No es
recomendable generar un amplio listado de consejos para generar buenas decisiones. Lo
que vamos a hacer es recurrir a una doble dimensión. La primera es la normativa, o
conjunto de criterios sobre cómo utilizar un instrumento. Por ejemplo, diremos que el
instrumento “ciclograma” es la mejor opción para una variable nominal. La segunda
dimensión es la del sentido común y el dominio de los significados. Así, aunque un
ciclograma es una buena opción en términos generales para una variable nominal, no
olvidemos que el objetivo de una representación gráfica es expresar con rapidez, claridad
y sin error, sesgo o engaño, las características principales del comportamiento de una
variable. Si al realizar el ciclograma observas que no se cumple esta función, habrá que
buscar otra alternativa. Puede ocurrir, por ejemplo, que se hayan manejado tantas
categorías en la variable, que el ciclograma quede precioso en términos estéticos, pero
inútil en términos estadísticos, pues sirve al objetivo de adornar mi habitación como un
póster, pero no para expresar de qué va la variable. No esperes, en este caso, un consejo
del tipo “si la variable nominal posee más de diez categorías, utilícese un diagrama de
barras”. La respuesta a la pregunta “¿cuántas categorías marcan el máximo para que un
ciclograma deje de ser una buena opción?”, es “depende”, una contestación muy
frecuente en este campo de conocimiento. Utiliza los significados y el sentido común, no
olvides cómo se comporta cada instrumento de análisis ni los objetivos específicos de
cada uno de tus movimientos en estadística. Puede ocurrir, por ejemplo, que la variable
nominal cuente con cien categorías, pero 97 de ellas tienen una frecuencia mínima, por lo
que el ciclograma mostrará una información muy clara y fácilmente interpretable, salvo en
un sector donde se amontonan 97 categorías que pueden percibirse perfectamente como
del tipo “otros”. A lo largo de este documento intentaré mostrar con claridad la norma y
entrar en algunas excepciones para ejercitar el uso de los significados. Si el sentido
común pudiera normativizarse, ya no sería sentido común.
Dentro de cada tipo de variable vamos a observar su definición, su tabulación, su
representación gráfica y su representación numérica, además de algunas matizaciones.
1
pf3
pf4
pf5
pf8
pf9
pfa
pfd
pfe
pff
pf12
pf13
pf14
pf15
pf16
pf17
pf18
pf19
pf1a
pf1b

Vista previa parcial del texto

¡Descarga Conocer una variable y más Apuntes en PDF de Psicología solo en Docsity!

Conocer una variable

Vicente Manzano-Arrondo – 2010, Aunque no puede entenderse un dato sin conocer de dónde viene y hacia dónde va, lo primero específicamente estadístico que se requiere hacer ante cualquier conjunto de datos es llevar a cabo un análisis variable a variable. Es necesario conocer a cada una, cómo se comporta, si hay errores de transcripción, si existen casos raros o anómalos que pudieran distorsionar las conclusiones generales y que aconsejan un estudio específico, si hay ausencias de información que requieren un proceso de imputación o decisión de valores... Sin conocer a cada variable por separado, iniciaríamos los análisis con una notable desventaja y una probable gestación de conclusiones erróneas, sesgadas o incompletas. Para llevar a cabo un estudio de cada variable es importante conocer primero de qué tipo es según el procedimiento de medida que se ha llevado a cabo. En este documento vamos a distinguir cuatro clases: nominal, ordinal, cuasicuantitativa y cuantitativa. Tomar buenas decisiones respecto a qué hacer con una variable en concreto depende no sólo del procedimiento de medida sino también de otras circunstancias. No es recomendable generar un amplio listado de consejos para generar buenas decisiones. Lo que vamos a hacer es recurrir a una doble dimensión. La primera es la normativa, o conjunto de criterios sobre cómo utilizar un instrumento. Por ejemplo, diremos que el instrumento “ciclograma” es la mejor opción para una variable nominal. La segunda dimensión es la del sentido común y el dominio de los significados. Así, aunque un ciclograma es una buena opción en términos generales para una variable nominal, no olvidemos que el objetivo de una representación gráfica es expresar con rapidez, claridad y sin error, sesgo o engaño, las características principales del comportamiento de una variable. Si al realizar el ciclograma observas que no se cumple esta función, habrá que buscar otra alternativa. Puede ocurrir, por ejemplo, que se hayan manejado tantas categorías en la variable, que el ciclograma quede precioso en términos estéticos, pero inútil en términos estadísticos, pues sirve al objetivo de adornar mi habitación como un póster, pero no para expresar de qué va la variable. No esperes, en este caso, un consejo del tipo “si la variable nominal posee más de diez categorías, utilícese un diagrama de barras”. La respuesta a la pregunta “¿cuántas categorías marcan el máximo para que un ciclograma deje de ser una buena opción?”, es “depende”, una contestación muy frecuente en este campo de conocimiento. Utiliza los significados y el sentido común, no olvides cómo se comporta cada instrumento de análisis ni los objetivos específicos de cada uno de tus movimientos en estadística. Puede ocurrir, por ejemplo, que la variable nominal cuente con cien categorías, pero 97 de ellas tienen una frecuencia mínima, por lo que el ciclograma mostrará una información muy clara y fácilmente interpretable, salvo en un sector donde se amontonan 97 categorías que pueden percibirse perfectamente como del tipo “otros”. A lo largo de este documento intentaré mostrar con claridad la norma y entrar en algunas excepciones para ejercitar el uso de los significados. Si el sentido común pudiera normativizarse, ya no sería sentido común. Dentro de cada tipo de variable vamos a observar su definición, su tabulación, su representación gráfica y su representación numérica, además de algunas matizaciones.

Variable nominal

Como ya conoces, las operaciones aritméticas que se pueden realizar con los datos numéricos de una variable dependen del procedimiento que se ha seguido para asignar números a los diferentes acontecimientos considerados de esa variable. Dado que el análisis de datos implica operaciones aritméticas, es fundamental saber qué cosas se pueden hacer y cuáles no con un tipo concreto de variable. Escala En una nominal, los números expresan sencillamente identidades. Dos números diferentes indican que se refieren a dos estados diferentes de la variable. Y nada más. Si hemos preguntado por el color del cabello, es posible haber codificado “moreno” con el valor 1, “rubio” con el 2, “castaño” con el 3 y “otros” con el 4. Dado que el número 4 es diferente al 3, está expresando que apunta a un color de cabello diferente al que apunta el número 3, pero nada más. Aunque consideramos que el número 4 es mayor o superior al 3, no ocurre así en una variable nominal. Observa que “otros” no es más color que “castaño”. Puede ser más difuso, amplio o común, pero no más color de cabello. Así que en este caso, 4 no es más que 3, sino únicamente distinto. Tabulación Lo primero que se requiere hacer en una variable es su tabulación, es decir, organización de los datos de tal forma que resulte más sencillo comenzar a conocer la situación que no recurriendo a la matriz original. El recurso es denominado tabla de frecuencias , puesto que es una tabla donde se disponen todos los valores observados y sus correspondientes frecuencias. El concepto estadístico frecuencia coincide con el popular: número de veces que ocurre algo. Observa la siguiente tabla. Xi fi 1 15 2 20 3 10 4 5 Σ 50 La primera columna es la de valores. Se representa con Xi utilizando X como letra para expresar a la variable “color del cabello”. El símbolo X 1 representa el valor 1 o moreno. Del mismo modo, X 3 =castaño. En términos generales, utilizamos Xi, donde i es cualquiera de las posiciones existentes, desde la 1 a la 4. El símbolo Σ es la letra griega sigma que en análisis de datos significa suma o sumatorio. Se refiere al total de personas cuyo color de cabello hemos registrado. Observa que han sido 50. La segunda columna es la de frecuencias. Observa que f 2 =20, por ejemplo. Lo que significa que hay 20 personas en quienes hemos observado el color de cabello rubio. Como es de sentido común, al sumar todas las frecuencias, es decir, cuántas personas tienen cada uno de

A diferencia de una tabla, en la representación gráfica no se busca tanto la precisión como la exposición rápida, clara y sin errores. De un solo vistazo, quien ve la representación debe ser capaz de conocer qué ocurre con esa variable. Dado que una variable nominal sólo puede manejar identidades, no órdenes ni cuantías, la representación gráfica debe ser acorde con ello. Una buena opción es el ciclograma, también llamado diagrama de sectores o gráfico de pastel. Consiste en un círculo dividido en sectores o quesitos. Cada sector expresa a una de las categorías observadas. El sector es tanto mayor (su ángulo es más abierto) cuanto mayor sea el valor de la frecuencia que representa. En el caso del ejemplo sobre colores de cabello, el ciclograma es éste: Recuerda: el objetivo es expresar con rapidez, claridad y sin error... En la construcción de gráficas sufrimos una fuerte tentación: conseguir algo especialmente bonito o impresionante. Uno de los recursos para conseguirlo es acudir a efectos 3D, separar sectores, generar figuras... Observa a la izquierda de este párrafo los mismos datos pero en otro modelo. Para la mayoría de los gustos, el resultado es más agradable a la vista. Pero para interpretar, es más difícil. La perspectiva, por ejemplo, provoca que el sector situado más cerca de quien recibe la imagen se observe con mayor importancia. Para construir un pequeño imán de nevera, un pin del chaleco, un dibujo para la carpeta o un póster para la habitación, esta segunda opción es mejor. Para interpretar datos, indudablemente cuando más sencilla sea la representación, cuantos menos recursos y adornos posea, mucho mejor. El número de grados de un ángulo requiere cierto esfuerzo mental. Nos resulta más fácil interpretar la altura o la longitud, que no la apertura de un ángulo. Por esta razón, otra opción aceptable para representar variables nominales es lo que se denomina diagrama de barras. Consiste en un sistema de dos ejes perpendiculares. En el eje horizontal o de abcisas se sitúan equidistantes los valores de la variable. En el eje vertical o de ordenadas se representan las frecuencias (no importa si son frecuencias observadas en valor absoluto o bien porcentajes, puesto que el resultado es el mismo). Sobre cada punto del eje horizontal se alza una barra de igual anchura, pero con una altura variable: la altura representa la frecuencia, de tal forma que conforme más arriba llegue una barra, mayor es el número de casos que se han observado para ese valor del eje horizontal. Observa cómo queda un diagrama de barras para la variable “color del cabello”. Moreno Rubio Castaño Otros Moreno Rubio Castaño Otros

Por sencillez, he optado por representar todas las barras con el mismo color y de tal modo que éste no sea llamativo. Observa cómo es rápido y sencillo interpretar la importancia de cada categoría o valor. El color rubio se observa rápidamente como el más frecuente, seguido de moreno, castaño y otros. El diagrama de barras es una buena opción. Sin embargo, observa ahora la siguiente representación. Son los mismos datos, pero ahora el orden de las categorías es distinto: he puesto el color moreno en segundo lugar en vez del primero. La interpretación debería ser exactamente la misma. Y nada se opone a cambiar el orden, puesto que estamos tratando una variable nominal y la disposición de los valores es arbitraria. Observa que casi es inevitable sentenciar algo parecido a “conforme se avanza en el color hacia la derecha, disminuye la frecuencia”. Si en lugar de los valores literales utilizamos los numéricos (cambiando la codificación original, de tal forma que Rubio=1 y Moreno=2), obtenemos esto: Moreno Rubio Castaño Otros 0 5 10 15 20 25 Rubio Moreno Castaño Otros 0 5 10 15 20 25 1 2 3 4 0 5 10 15 20 25

Matizaciones Cuando una variable nominal cuenta con muy pocas categorías, no tiene mucho sentido utilizar representaciones numéricas. Basta con escoger la tabla o la gráfica. Los casos tópicos corresponden a las variables dicotómicas, es decir, que cuentan con dos únicos valores. Por ejemplo: respuesta “Sí” o “No”, sexo “mujer” u “hombre”, hábitat “rural” o “urbano”, etc. En ocasiones, por el contrario, se manejan muchas categorías en una misma variable nominal. En tales casos, la tabla de frecuencias tal vez no sea buena opción. Imagina, por ejemplo, que preguntamos a todos los estudiantes de psicología de una provincia, cuál es su lugar de nacimiento. A quienes nacieron en España le preguntamos por su provincia. En el caso de los extranjeros, para no generar excesiva dispersión, le preguntamos sencillamente su país, y lo consideramos como una provincia. Imagina que contamos con 60 categorías diferentes, tras haber entrevistado a 250 personas. Una tabla con 60 filas es inmanejable: demasiada información. De mismo modo, un ciclograma es una mala decisión, puesto que la gran cantidad de sectores imposibilita una buena interpretación del resultado. Lo mismo podemos decir respecto a una gráfica con 60 barras. Pensemos incluso en la representación numérica. La moda tiene sentido, puesto que selecciona información relevante. Pero cabe esperar que BMo tenga un valor demasiado pequeño como para que Mo nos genere suficiente credibilidad. Cuando contamos con muchas categorías, lo mejor es fundir , crear categorías nuevas que surgen de unir las frecuencias de otras. En el ejemplo del lugar de nacimiento, supongamos que estamos preguntando en la facultad de psicología de la Universidad de Sevilla. Cabe esperar que Sevilla sea la provincia más frecuente, seguida por otras de Andalucía y que, conforme nos alejamos, las frecuencias disminuyan. Una solución para la abundancia de categorías es considerar algo así como: (1) Sevilla, (2) Otras provincias andaluzas, (3) Otros lugares de España, (4) Otros lugares de Europa, (5) Resto del mundo. De este modo, hemos reducido las 60 categorías iniciales a 5. Cuando llevamos a cabo una acción de estas características es recomendable hacerlo constar en el informe: la variable original se expresaba de tal modo, pero recodificamos, generando la siguiente distribución de valores, mediante estos criterios.

Variable ordinal

Escala Las variables ordinales son muy frecuentes en psicología. Bajo esta etiqueta se pueden identificar, además, grados diferentes de conseguir “finura” o “precisión” en las mediciones. Ambas circunstancias hacen que, si bien estrictamente hablando una variable ordinal es cualitativa, en muchas ocasiones puede considerarse “casi” cuantitativa o cuasicuantitativa. Esta distinción es trascendente. Las herramientas de análisis de datos disponibles para variables cuantitativas son mucho más abundantes, versátiles, extensas en aplicaciones y potentes que las herramientas disponibles para otros tipos de variables. Luego, cuando contamos con una ordinal con un elevado nivel de medida, en psicología solemos abordarla como si fuera cuantitativa, lo que reporta buenos resultados. Vamos a abordar primero su definición general, para distinguir después las cuasicuantitativas. Una variable ordinal es aquella que apunta a estados tales que pueden ser ordenados. Pensemos, por ejemplo, en la pregunta “¿Cuánto frío sientes esta mañana?”, cuyas respuestas posibles son: (1) ninguno, (2) casi nada, (3) cierto fresco, (4) mucho, (5)

me muero de frío. Está claro que “mucho” es más que “cierto fresco” y, por tanto, procede considerar que el valor 4 es mayor que el valor 3 y no sólo valores distintos como quedaba resuelto el tema para las variables nominales. Veremos que en el caso de las variables cuantitativas, no sólo podemos ordenar sino suponer la existencia de una cuantía o unidad de medida básica. No ocurre así en las ordinales. Entre “casi nada” y “cierto fresco” no hay algo parecido a 3 ó 4 sensifresquinos o cualquier otro invento. Por ello no podemos suponer que la distancia en sensación de frío que existe entre los valores 3 y 4 (cierto fresco y mucho, respectivamente) sea la misma que existe entre 2 y 3 (casi nada y cierto fresco, respectivamente), aunque estemos tentados a ello al tratarse de la misma diferencia aritmética (4-3 = 3-2 = 1). Así pues, en una variable ordinal sólo podemos decir que 4 es más que 3, pero no cuánto más. En algunos procesos de medición en psicología, podemos llegar más lejos. Pensemos, por ejemplo, en una medida de ansiedad donde se ha respondido a un conjunto de veinte items, cada uno de ellos medidos en un continuo de 7 puntos donde cada persona ha respondido pensando en cuán cerca se encuentra su situación entre los dos extremos (1 y 7) de posibles respuestas. Se ha llevado a cabo una investigación concienzuda para garantizar que las personas entienden bien y del mismo modo cada enunciado. Se han realizado estudios para interpretar correctamente las puntuaciones que se derivan del test. En estas condiciones, los resultados de aplicación del cuestionario estandarizado de ansiedad son muy finos o precisos. El conjunto de datos resultante puede ser considerado como si fuera una variable cuantitativa, es decir, una ordinal fina o variable cuasicuantitativa. El problema básico en la escala ordinal es suponer que la persona que responde está o no utilizando una regla o escala de unidad constante a la hora de facilitar el dato. Observa el continuo siguiente: Nunca – Algunas veces – Bastantes veces – Muchas veces – Siempre Son las respuestas que ofrecemos a un conjunto de personas para responder a la pregunta “¿Con qué frecuencia piensa usted que tendrá problemas con su vehículo cuando circula con él?”. Cada persona puede interpretar cada una de las categorías de respuesta de un modo diferente. Así, por ejemplo, hay algunas personas para quienes “bastante” es más que “mucho”, por lo que incluso se viola el principio de constancia en el orden. Estamos entonces en una caso de variable ordinal sin apellidos (ordinal, ordinal burda u ordinal no cuantitativa). La misma pregunta podría ser utilizada de otro modo. Podemos definir sólo los dos extremos de respuesta, como se hace por ejemplo en la siguiente instrucción: Responda con un número entre 0 y 10, donde 0 representa “nunca” y 10 “siempre”. En este caso, la persona utiliza una especie de regla interna, de tal forma que podemos suponer (con cierta asunción de error), que el valor 7 tiene un significado similar en términos de frecuencia en todas las personas, y que 6 viene a ser el doble de veces que 3 en todas las personas. En términos generales, un argumento para suponer existencia de cuasicuantitativa es utilizar formatos de respuesta donde no se recurre a etiquetas para las categorías sino que sólo se explicitan los extremos, forzando a que la persona que responde utilice su regla interna. Esto es más contundente conforme mayor sea el número de alternativas de respuesta que se ofrezcan.

En algunas ocasiones, una variable ordinal o cuasicuantitativa (más en este segundo caso) muestra muchos valores diferentes, demasiados como para hacer aconsejable construir una tabla de frecuencias tal y como la estamos conociendo. Existen varias alternativas. Una, inmediata, es abandonar la idea de la tabulación y recurrir a una representación gráfica. Otra es utilizar intervalos de valores. Así, si el recorrido de la variable va de 0 a 50, podemos utilizar intervalos de 10 en lugar de valores: la primera fila de la tabla expresa la frecuencia de datos con valores comprendidos entre 0 y 5, la siguiente entre valores superiores a 5 hasta 10, etc. Existen también otros recursos, como el diagrama de tronco y hojas, pero exceden los objetivos de nuestro temario de conocimientos. El mejor consejo es que si tienes demasiados valores como para que una tabla de frecuencias sea manejable, recurre a una buena representación gráfica. Es lo que abordamos ahora mismo. Representación gráfica La mejor opción para una variable ordinal es el diagrama de barras. Las ventajas que el diagrama de barras tiene para las variables nominales son extensivas a las ordinales, si bien no ocurre lo mismo con el inconveniente: en este caso, que el diagrama de barras genere una sensación de orden es algo deseable y positivo. Si representamos los datos de la tabla anterior, lo que obtenemos es: Se observa con rapidez que, salvo en el arranque “Nunca”, conforme aumenta la frecuencia de veces que alguien piensa que tendrá problemas conduciendo, disminuye el número de personas que dicen pensar así. Recordemos que en una variable ordinal la cuantía concreta de cada valor es algo insustancial, lo importante es el lugar que ocupa esa cuantía. La lista anterior de las categorías podría ser codificada como he expresado más atrás: 1, 2, 3, 4 y 5. O bien podría ser objeto de otras cinco cantidades, como 1, 12, 27, 32 y 418. En sentido estricto da lo mismo, puesto que lo importante no es la cuantía sino el orden. Nos estamos situando en las variables ordinales puras, burdas o simples, no en las cuasicuantitativas. Extendiendo esta reflexión, ocurre que si hay una categoría que no se observa, sencillamente su valor numérico desaparece sin mayores consecuencias. Imaginemos que nadie escogió la categoría “Mucho”. En tal caso, la representación anterior sería algo así como: Nunca A veces Bastante Mucho Siempre 0 5 10 15 20 25 30 35

Cuando la variable es casi cuantitativa, los huecos son importantes. Imaginemos una pregunta similar a la que estamos trabajando, pero donde hemos indicado sólo los dos extremos: 1 representa ausencia total de sensación de frío, mientras que 5 representa un frío muy pronunciado. No etiquetamos los puntos intermedios. La representación gráfica que deberíamos observar en este segundo caso sería: Cuando estamos manejando algo parecido a una regla donde se sitúan los valores de la variable, los huecos son fundamentales para la interpretación. Vamos a verlo más despacio en el contexto del tipo de variable donde esta afirmación es más relevante: las cuantitativas. Representación numérica Con las variables ordinales podemos utilizar también Mo como medida de representación del conjunto de datos. No obstante, dado que estamos manejando orden, es más que recomendable acudir a esta información y contemplarla en el índice de representación. Observa, por ejemplo, la siguiente representación de un conjunto de datos. En ella, Mo=”Nunca” y BMo=22,35%. Aunque sea el valor que menos frecuencia de error provoca, coincidiremos en que representa muy mal, puesto que se encuentra en un extremo de una distribución ordenada de valores con frecuencias nada despreciables. Nunca A veces Bastante Siempre 0 5 10 15 20 25 30 35 1 2 3 4 5 0 5 10 15 20 25 30 35

Ya sabemos que Md es X20,5. Ahora hemos de leer el valor de X20,5. Al observar el listado de datos e ir contando las posiciones, encontramos que el dato anterior y el posterior a la posición 20,5 tienen el mismo valor (X 20 =5 y X 21 =5). Luego: Md = X (^) n  1 2

= X 40  1

2

= X 20.5 = 5

Lo que acabamos de llevar a cabo es el cálculo de Md en una de las tres situaciones en que podemos encontrarnos. Otra situación ocurre cuando los datos colindantes a la posición central tienen valores diferentes. En ese caso, tomamos la misma decisión que con la posición central: calculamos el valor que se encuentra a medio camino entre los dos colindantes. Imagina que X 20 tuviera el valor 5 y que X 21 fuera

  1. En ese caso, la mediana tendría el valor intermedio, es decir, 6. La última de las tres situaciones es la más sencilla: el número de datos es impar. En ese caso, la posición central coincide con una real, por lo que basta con observar el valor del dato que se encuentra en esa posición. Si añadiéramos un dato más a nuestro conjunto, entonces n=41 y la posición central sería (41+1)/2=21, que deja por debajo de sí a 20 datos (de las posiciones 1 a 20), del mismo modo que por encima (de las posiciones 22 a 41). La moda, dijimos, es el valor que minimiza la frecuencia de errores, es decir, el valor tal que hace mínima la cantidad de datos que no coinciden exactamente con la representación. Pues bien, la mediana minimiza la suma de los errores. En otras palabras, si escogemos un valor cualquiera como representación del conjunto de datos y calculamos la distancia de cada dato con respecto a ese valor, la suma final será la más pequeña posible cuando ese valor de representación se trate de la mediana. Es una propiedad muy interesante, puesto que buscamos una representación que haga los errores o excepciones a la norma lo menos relevantes que sea viable. Para la moda contamos con una medida de cuán buena es: su frecuencia en términos de porcentaje. Esta medida indica también indirectamente el grado de error cometido: conforme mayor sea el porcentaje, mejor es la moda como representación del conjunto, es decir, menor es el error que se comete al utilizarla en lugar de todo el conjunto de datos. Para la mediana haremos lo mismo: una medida de su bondad de representación que, conforme muestre una cuantía mayor, indicará menor error cometido al utilizar su valor en lugar de todo el conjunto de datos. Para idear esta medida partimos de lo que acabamos de afirmar: las distancias a la mediana constituyen el conjunto de distancias de menor cuantía posible. Operamos, entonces, con las distancias. Pero ¿qué hacemos con ellas? Pues, coherentemente, podemos escoger, como medida de representación del conjunto de las distancias, su mediana. En otros términos, la bondad de la mediana, el valor que expresa en qué medida la mediana es una buena representación del conjunto de datos, será la mediana de las distancias a la mediana. Suele hacerse referencia a ello con MAD. El cálculo de MAD es fácil de explicar: una vez se tiene la mediana, se calculan todas las distancias y se utiliza este conjunto nuevo para volver a calcular una mediana. Vamos a hacerlo. Reproduzcamos de nuevo el conjunto anterior de datos: 0 0 1 1 1 2 2 2 2 3 3 3 3 4 4 4 4 4 5 5 5 6 6 6 6 6 7 7 7 7 8 8 8 8 8 8 9 9 9 10 Como Md=5, vamos a calcular ahora la distancia de cada valor respecto a la mediana, obteniendo:

5 5 4 4 4 3 3 3 3 2 2 2 2 1 1 1 1 1 0 0 0 1 1 1 1 1 2 2 2 2 3 3 3 3 3 3 4 4 4 5 Ahora procedemos a calcular la mediana de este nuevo conjunto de datos, lo que implica ordenarlos: 0 0 0 1 1 1 1 1 1 1 1 1 1 2 2 2 2 2 2 2 2 3 3 3 3 3 3 3 3 3 3 4 4 4 4 4 4 5 5 5 Ya sabemos que la posición central de estas 40 distancias es la 20,5, de nuevo entre dos datos con el mismo valor (X 20 = X 21 = 2), por lo que MAD = 2. Tenemos entonces que el desagrado (0) o simpatía (10) que sienten las personas respecto a un personaje público tiene como valor más representativo Md=5 y como bondad de la representación, MAD=2. Conforme mayor sea el valor de MAD, peor será Md para representar al conjunto de datos. No hay una norma para considerar si el valor de MAD es tolerable o excesivo, pero podemos establecer (como haremos con el caso de las variables cuantitativas) que si MAD no supera el 50% de Md, Md es una buena representación numérica, mientras que si MAD=Md, la dispersión es muy elevada y Md no es una buena medida para representar a todo el conjunto de datos. Entre 50% y 100%, vamos a dejarle algún trabajo al sentido común. En la literatura estadística, lo habitual es referirse a Md como una medida de tendencia central y a MAD como una medida de dispersión. Se habla de tendencia central bajo la perspectiva de que los datos tienden a ese centro. Dispersión es un término muy acertado para la bondad de la medida de representación, puesto que a más dispersión, peor será el recurso de utilizar un solo valor para sustituir a todos. Matizaciones MAD requiere el cálculo de algunas operaciones aritméticas que se llevan a cabo con mayor comodidad si la variable es ordinal cuasicuantitativa que si es ordinal burda. Es cierto que opera con el orden de las distancias, aunque para establecer ese orden debe considerar las cuantías. Es pues una medida que utiliza tímidamente cuantías, lo que es acorde con una cuantía también tímida por parte de las variables ordinales. No obstante, cuando esta posea pocos valores y su medida sea claramente muy burda, tampoco sería recomendable utilizar MAD. No es fácil que los programas de ordenador utilicen MAD. Los hay que sí. Los hay que no. Es muy frecuente recurrir a otros índices de bondad de la representación o de dispersión en lugar de MAD aunque sean más defectuosos. Vamos a mencionar tres, los más habituales. La medida más inmediata de dispersión es calcular la distancia que hay entre el valor más pequeño (mínimo) y el más grande (máximo). Aunque nos sorprenda, a esta medida de amplitud calculada con todos los datos se la denomina Amplitud Total (At). Es un recurso especialmente malo. Es medianamente habitual que las distribuciones de datos muestren valores raros en sus extremos. Si medimos, por ejemplo, altura, es posible que la gran mayoría de las personas del conjunto se encuentren entre alturas comprendidas entre 160 y 200 centímetros. Pero tal vez tengamos a alguien con 145 cm y a otra persona con 225 cm. Al considerar los extremos reales, el valor de At resulta inflado. Sería mejor despreciar un porcentaje de los extremos y calcular la distancia entre los valores mínimo y máximo de un intervalo central que ignore ese porcentaje lateral. Por ejemplo, podemos calcular la amplitud del 50% central, que desperdicia un 25% superior de los datos y un 25% inferior.

decimales (decímetros, centímetros y milímetros). Aún así, cuando la variable es considerada continua por su riqueza de información, es necesario operar con intervalos y no con valores directos, como hemos visto ya en la tabulación de variables ordinales. El otro aspecto relevante es que resulta muy frecuente que el número de valores que se manejan de las variables cuantitativas sea muy elevado. Una solución es seguir operando con intervalos, como en el caso anterior. Pero lo más recomendable es evitar la tabla de frecuencias y acudir a una buena representación gráfica. Recordemos que la función de la tabla es mostrar la información organizada de tal manera que sea fácil procesarla directamente mediante observación. Cuando la tabla muestra demasiada información, cuando alberga demasiados números, demasiadas cantidades, entonces pierde buena parte de su utilidad y hay que pasar a otro recurso. Dejar a un lado la tabla para acudir a una gráfica no es la norma a seguir. En muchos casos, la variable cuantitativa se articula con un número cómodo de valores. Ocurre, por ejemplo, con el número de hijos de una familia, el número de horas diarias frente al televisor, el número de libros leídos en un mes, etc. La norma es “tabúlese salvo que deje de ser útil”. Aquí no hemos cambiado nada. Lo fundamental en una variable cuantitativa es la característica mencionada de la unidad de medida. A la hora de interpretar esa variable es imprescindible utilizar una tabla o una gráfica que respete una regla exacta, una escala con una unidad continua. Imagina, por ejemplo, la siguiente tabla referente a la variable “Número de llamadas telefónicas realizadas por una muestra de 10 personas durante la última semana” Xi fi %i Fi %ai 0 1 10 1 10 3 1 10 2 20 5 1 10 3 30 6 1 10 4 40 9 1 10 5 50 15 1 10 6 60 22 1 10 7 70 34 1 10 8 80 50 1 10 9 90 71 1 10 10 100 Σ 10 100 En primer lugar, es importante asumir que una muestra de n =10 no es lo habitual. Al aumentar n seguro que encontraríamos más variedad en los valores. En segundo lugar, aunque la información es interesante, dado que existen casi tantos datos como valores, la tabla no añade mucha utilidad frente, por ejemplo, a una inspección visual del conjunto completo de datos sin tabular. En tercer lugar, podemos extraer conclusiones erróneas demasiado fácilmente. Cualquier interpretación es difícil, puesto que existen importantes y variables huecos entre los valores. Observa, por ejemplo, que si bien hay quien realiza 5 llamadas y también hay quien hace 6, sin embargo de 50 a 71 hay un salto de 21 llamadas. Es complicado intentar hacerse una idea de las frecuencias de llamada observando una tabla de frecuencias habitual. O bien construimos intervalos o, mucho

mejor, desestimamos la tabla y realizamos una representación gráfica, conclusión tanto más contundente cuanto mayor sea n. Representación gráfica Para construir las mejores opciones en el caso de una variable cuantitativa vamos a partir del diagrama de barras. Lo hacemos a partir de la tabla de frecuencias anterior. Si se representa mediante el recurso comentado, tenemos este resultado: No sé qué pensarás tú. Para mí, esto es inútil, no sirve para nada porque no añade nada. Una situación habitual todavía es más contundente que esta. Imagina, por ejemplo, la representación mediante diagrama de barras del número de habitantes de los países del mundo. No hay dos con el mismo número, así que contaríamos con una ristra casi interminable de barras con la misma altura. Es peor que no hacer nada. Tenemos que aplicar dos cambios importantes a esta representación. La primera es respetar que se trata de una variable cuantitativa, es decir, donde se respeta o debe respetarse una escala o regla de referencia. En otras palabras, los huecos son fundamentales para interpretar el resultado. Vamos a incluirlos en la representación, generando lo que sigue: Los datos son exactamente los mismos, pero la interpretación que sugiere la gráfica no coincide con la que surgiría tras observar el diagrama de barras anterior. Gracias a que hemos respetado la regla de referencia o la escala cuantitativa, la 0 3 5 6 9 15 22 34 50 71 0 0, 0, 0, 0, 1 1, 0 3 5 6 9 15 22 34 50 71 0 0, 0, 0, 0, 1 1,

El siguiente paso consiste en situar estos valores en una representación gráfica. Partimos de un eje horizontal donde se representan las variables, mientras que en el vertical se encuentran los valores. Cada uno de estos cinco puntos calculados quedan simbolizados mediante una línea recta en la gráfica. En el siguiente paso, unimos las líneas 2 y 4 en una caja. Las líneas 1 y 5 se unen a la caja con la patilla. Observa cómo queda. Ya puestos, he coloreado la caja. Los cinco puntos generan cuatro zonas, cuatro cuartos de la distribución ordenada de datos. La patilla inferior representa el 25% de los datos. Desde el límite inferior de la caja a la línea situada en su interior (mediana), encontramos otro 25%. Lo mismo entre la mediana y el borde superior de la caja, para terminar con el último 25% representado por la patilla superior. De esta descripción se concluye con facilidad que las patillas representan el 50% más extremo, mientras que la caja implica un 50% de los datos más significativos del conjunto. La conclusión que obtuvimos en la observación del histograma es literalmente transportable a este recurso de caja y patillas.

Representación numérica En la clasificación que utilizamos no hay variable que contenga más información que la cuantitativa, así que los índices o medidas que se utilicen con estas deberían considerar toda la información. Sabemos que la moda sólo tiene en cuenta la frecuencia, tomando el valor más frecuente y sin recoger información sobre el resto del conjunto de datos. La mediana va más allá y absorbe también la posición. La cuantía de los datos es considerada únicamente como elemento fundamental para establecer orden, acto seguido se pierde. La media aritmética permite, a diferencia de las anteriores, tener en cuenta la cuantía de todos los datos en un mismo recurso. La estrategia para construir el valor más representativo del conjunto de datos consiste en: media aritmética = suma de datos número de datos

∑ X^ i

n Observa que todos los datos dejan su huella, que resulta tanto mayor cuanto mayor sea también el valor del dato. Podemos pensar también en la media aritmética como en una repartición equitativa: es como si repartiéramos todas las cuantías de forma equitativa entre todos los datos. Como hemos visto, la moda es el valor que minimiza la frecuencia de errores y la mediana es la medida que minimiza la suma de errores. Pues bien, la media aritmética minimiza la suma de errores cuadráticos (errores al cuadrado). Esto parece una tontería (y, en cierto sentido, lo es), pero tiene su importancia en diversas aplicaciones, especialmente en el contexto donde triunfó inicialmente la aritmética basada en la media y sus derivados: la astronomía. Vamos a ver, además, que el instrumento utilizado como bondad de la media utiliza distancias cuadráticas y, por tanto, la media aritmética es el valor que minimiza el resultado de ese instrumento. Detengámonos un momento en la relación que guarda la media aritmética con la representación gráfica de la variable. Para ello, vamos a construir una gráfica “ladrillo a ladrillo”. Lo primero que hacemos es disponer de una regla. Imagina que se trata de una regla física real, suficientemente rígida y fuerte como para aguantar sobre ella mucho peso, ya que vamos a ir colocando encima ladrillos: La regla mide exactamente 10 unidades (no importa si son centímetros, metros o lo que quieras imaginar, mientras sean unidades de longitud constante). Vamos a depositarla sobre suelo. Ya está. Ahora vamos a colocarla sobre un punto de apoyo, por ejemplo, un triángulo con la punta hacia arriba. ¿Dónde hay que colocar el triángulo para que la regla se encuentre en equilibrio? Lo que sigue es la representación gráfica de tres situaciones, donde se observa que la única posibilidad para conseguir que la regla se mantenga paralela sin tocar el suelo es situando el punto de apoyo exactamente en el centro: el valor 5.