




















Prepara tus exámenes y mejora tus resultados gracias a la gran cantidad de recursos disponibles en Docsity
Gana puntos ayudando a otros estudiantes o consíguelos activando un Plan Premium
Prepara tus exámenes
Prepara tus exámenes y mejora tus resultados gracias a la gran cantidad de recursos disponibles en Docsity
Prepara tus exámenes con los documentos que comparten otros estudiantes como tú en Docsity
Encuentra los documentos específicos para los exámenes de tu universidad
Estudia con lecciones y exámenes resueltos basados en los programas académicos de las mejores universidades
Responde a preguntas de exámenes reales y pon a prueba tu preparación
Consigue puntos base para descargar
Gana puntos ayudando a otros estudiantes o consíguelos activando un Plan Premium
Comunidad
Pide ayuda a la comunidad y resuelve tus dudas de estudio
Ebooks gratuitos
Descarga nuestras guías gratuitas sobre técnicas de estudio, métodos para controlar la ansiedad y consejos para la tesis preparadas por los tutores de Docsity
El concepto de distribuciones de frecuencias en estadística descriptiva. Las distribuciones de frecuencias se utilizan para presentar y describir datos clasificados en categorías, indicando su frecuencia. Se muestran ejemplos con datos de pesos y número de microorganismos, y se explican las propiedades de las frecuencias absolutas y relativas, así como cómo calcularlas. Además, se presentan conceptos relacionados como media, mediana y varianza.
Tipo: Apuntes
1 / 28
Esta página no es visible en la vista previa
¡No te pierdas las partes importantes!





















Profesores: Mª Ángeles Casares de Cal, Fernando Castro Prado, Pedro Faraldo Roca, Alejandro Saavedra Nieves y Paula Saavedra Nieves
- Curso 2020- Empezamos con una breve introducción a las actividades propias de la Estadística, sus objetivos y las herramientas y argumentos que utiliza. Pretendemos distinguir con claridad las labores de recolección y tratamiento de datos, el cálculo de probabilidades y los razonamientos de inferencia estadística. A continuación exponemos algunos conceptos básicos:
Población Es un conjunto de objetos, personas, entidades de la más diversa índole, que constituyen el objetivo de nuestro estudio. Ejemplo: El conjunto de alumnos de la Universidad de Santiago.
Patrón Probabilístico Es la ley que rige el comportamiento de un mecanismo aleatorio. Ejemplo: La probabilidad de cara al lanzar una moneda.
Por tanto, nuestro objetivo es el conocimiento de la población o, en su caso, del patrón probabilístico. En el caso de una población podríamos pensar en analizar a todos los individuos de la misma. Sin embargo, esto puede ser inviable por su coste o por el tiempo que requiere. Entonces nos conformamos con extraer una muestra. En el caso de existir una población definimos una muestra como un subconjunto extraído adecuadamente de la población. Lo habitual en nuestro contexto es que en el procedimiento de extracción intervenga el azar. Si en nuestro problema estamos ante un patrón probabilístico la muestra consiste en un conjunto de realizaciones del experimento aleatorio. En ambos casos, la muestra proporciona información sobre el objeto de estudio: la población o el patrón probabilístico. Clasificamos las tareas vinculadas a la Estadística en tres grandes disciplinas:
Estadística Descriptiva. Se ocupa de recoger, clasificar y resumir la información contenida en la muestra.
Cálculo de Probabilidades. Es una parte de la matemática teórica que estudia las leyes que rigen los mecanismos aleatorios.
Inferencia Estadística Pretende extraer conclusiones para la población a partir del resultado observado en la muestra.
Extracción aleatoria (Cálculo de probabilidades)
Obtención de conclusiones (Inferencia Estadística)
Descripción de la muestra (Estadística Descriptiva)
Obsérvese que la Inferencia Estadística tiene un objetivo más ambicioso que el de la mera descripción de la muestra (Estadística Descriptiva). Dado que la muestra se obtiene mediante procedimientos aleatorios, el Cálculo de Probabilidades es una herramienta esencial de la Inferencia Estadística.
En esta primera parte del tema veremos los procedimientos básicos de tratamiento de datos desde un enfoque descriptivo, presentando los conceptos, y con ejemplos ilustrativos. En los seminarios y prácticas veremos cómo llevar a cabo estos métodos mediante calculadora y papel, y utilizando las computadoras.
Seguiremos con la explicación de los distintos tipos de variables que se pueden estudiar, para después introducir en las secciones posteriores los conceptos de frecuencias y las medidas de posición y dispersión.
El objetivo de un estudio es el análisis de cierta característica que se puede medir sobre un individuo de la muestra o sobre el resultado de un experimento aleatorio. Así por ejemplo, si el objetivo es conocer la estatura
Las distribuciones de frecuencias tienen como fin presentar y describir los datos de una manera clara y sencilla, clasificándolos en categorías o clases si es necesario, e indicando su frecuencia , es decir, contando los datos correspondientes a cada categoría.
Llamaremos tamaño muestral al número de individuos que componen la muestra y lo representaremos por n.
Llamaremos x 1 ; x 2 ; · · · ; xk los distintos valores que puede tomar la variable de interés, y que identificaremos con la letra mayúscula X. Suponemos (cuando sea posible) que estos valores han sido ordenados así: x 1 < x 2 < · · · < xk
Frecuencia (absoluta). ni = número de veces que ocurre el resultado xi
Frecuencia relativa, proporción o tanto por uno. Es la frecuencia absoluta dividida por el tamaño muestral. fi = n ni.
Frecuencia (absoluta) acumulada. Es el número de veces que se ha observado el resultado xI o valores anteriores. Ni = n 1 + · · · + ni.
Frecuencia relativa acumulada. Es la frecuencia absoluta acumulada dividida por el tamaño muestral. Fi = Ni n =^ f^1 +^ · · ·^ +^ fi.
Debemos observar que las frecuencias acumuladas sólo tienen sentido cuando es posible establecer una relación de orden entre los valores de la variable.
Las frecuencias se pueden escribir ordenadamente mediante una tabla de frecuencias que adopta esta forma:
xi ni fi Ni Fi x 1 n 1 f 1 N 1 F 1 x 2 n 2 f 2 N 2 F 2 .. .
xk nk fk Nk Fk
Llamaremos porcentaje, tanto por ciento o frecuencia porcentual (para la que utilizaremos el símbolo universal %) a la frecuencia relativa multiplicada por cien. Por lo tanto, todo porcentaje será un valor comprendido entre 0 y 100, y la suma total será 100.
Propiedades
Las frecuencias cumplen las propiedades siguientes:
Frecuencias (absolutas) 0 ≤ ni ≤ n
∑ k i =1 ni^ =^ n Frecuencias relativas 0 ≤ fi ≤ 1
∑ k i =1 fi^ = 1 Frecuencias (absolutas) acumuladas 0 ≤ Ni ≤ n Nk = n Frecuencias relativas acumuladas 0 ≤ Fi ≤ 1 Fk = 1
Veremos cómo se calculan las frecuencias, las presentaremos en las tablas de frecuencias y haremos representaciones gráficas de las mismas. Pero para llevar a cabo toda esta tarea debemos tener en cuenta el tipo de variable. Así, actuaremos por este orden: variables cualitativas nominales, variables cualitativas ordinales, variables cuantitativas discretas y variables cuantitativas continuas. La explicación irá apoyada en un ejemplo para cada caso.
1.3.1 Variables cualitativas nominales
Ejemplo 1 Para evaluar el estado de las poblaciones de peces en una determinada zona de aguas continentales se ha obtenido una muestra de 50 peces con los siguientes resultados: 10 sargos, 23 lubinas y 17 congrios.
Recopilaremos esta información en una tabla de frecuencias y la representaremos mediante un diagrama de barras.
La información del enunciado se puede extractar así:
Tamaño muestral: n = 50
Peces ( xi ) ni fi Sargo 10 0’ Lubina 23 0’ Congrio 17 0’
Y en términos porcentuales, las frecuencias relativas quedarían así:
0 ′ 2 = 20% 0 ′ 46 = 46% 0 ′ 34 = 34%
Nótese que no calculamos las frecuencias acumuladas pues la variable ‘‘Peces’’ es nominal.
Representaremos las frecuencias absolutas o relativas mediante el diagrama de barras. Para ello, situamos los valores de la variable en el eje de abscisas, respetando su orden si lo hubiera, y dibujamos barras verticales sobre ellos con altura proporcional a la frecuencia de dicha categoría o valor (y todas las barras de la misma anchura). Para el aspecto del diagrama de barras es irrelevante si representamos las frecuencias absolutas o relativas. Esto sólo afectaría a la escala del eje de ordenadas.
congrio lubina sargo Peces
Frecuencias relativas
0'
0'
0'
0'
0'
1'
Diagrama de barras Variable cualitativa nominal "Peces"
El diagrama de sectores es un gráfico especialmente indicado para datos cualitativos. Consta de un círculo (o semicírculo) en el que a cada valor se le asigna un sector, de área igual o proporcional a su frecuencia.
congrio 34%
lubina 46% (^) sargo 20%
Diagrama de sectores Variable cualitativa nominal "Peces"
Diagrama de frecuencias acumuladas
Abundancia de Festuca arundinacea
Frecuencias relativas acumuladas
Exigua Esporádica Frecuente Abundante Superabundante
0'
0'
0'
0'
0'
1'
Variable cualitativa ordinal "Abundancia de Festuca"
1.3.3 Variables cuantitativas discretas
Ejemplo 3 Con el fin de evaluar si las aguas de un río están contaminadas se toman veinte muestras de agua y se hace el recuento de colonias de microorganismos coliformes hallados en cada muestra. Los resultados fueron los siguientes: 0 ; 4 ; 3 ; 2 ; 1 ; 2 ; 2 ; 3 ; 4 ; 3 ; 2 ; 1 ; 3 ; 1 ; 0 ; 2 ; 0 ; 2 ; 2 ; 3
Igual que en el caso de las variables cualitativas ordinales, calcularemos las frecuencias absolutas y relativas, y sus versiones acumuladas, y las representaremos mediante el diagrama de barras y el diagrama de frecuencias acumuladas.
Tamaño muestral: n = 20.
N.º de microorganismos ni fi Ni Fi 0 3 0 ′ 15 3 0 ′ 15 1 3 0 ′ 15 6 0 ′ 30 2 7 0 ′ 35 13 0 ′ 65 3 5 0 ′ 25 18 0 ′ 90 4 2 0 ′ 10 20 1
Las frecuencias quedarían representadas en el siguiente diagrama de barras.
0 1 2 3 4 N.º de microorganismos
Frecuencias relativas
0'
0'
0'
0'
0'
1'
Diagrama de barras Variable cuantitativa discreta "N.º de microorganismos"
Asimismo, representaremos las frecuencias acumuladas mediante el diagrama de frecuencias acumuladas:
Nº de microorganismos
Frecuencias relativas acumuladas
0 1 2 3 4
0'
0'
0'
0'
0'
1'
Diagrama de frecuencias acumuladas Variable cuantitativa discreta "N.º de microorganismos"
Antes de continuar, observemos que el diagrama de barras es un gráfico especialmente indicado para datos cualitativos o cuantitativos discretos (con no muchos valores posibles).
1.3.4 Variables cuantitativas continuas
El concepto de continuidad supondría en la práctica la imposibilidad de repetición de los distintos valores que puede tomar la variable, pues mejorando la precisión del aparato de medida podríamos encontrar diferencias entre dos datos cualesquiera. Así, las frecuencias absolutas adoptarían casi siempre el valor uno en cada observación, las frecuencias relativas el valor (^1) n y la tabla sería excesivamente grande.
Por esta razón, para construir la tabla de frecuencias es habitual agrupar en intervalos los valores que puede tomar la variable, y contar después el número de veces que la variable cae en cada intervalo. Para una clasificación correcta de los datos, estos intervalos deberán ser excluyentes (no pueden solaparse unos con otros) y exhaustivos (deben cubrir el rango total de los datos, sin dejar huecos entre ellos), de tal manera que cada dato de la muestra pertenezca a uno, y sólo a uno, de los intervalos. A cada uno de estos intervalos le llamamos intervalos de clase y a su punto medio marca de clase. Por tanto, para la definición de las frecuencias y la construcción de la tabla de frecuencias sustituiremos los valores xi por los intervalos de clase y las marcas de clase.
Para construir la agrupación en intervalos, se deben tener en cuenta las siguientes cuestiones:
Número de intervalos. Este aspecto es crucial en la calidad del análisis, por estas razones:
Aunque no hay unanimidad al respecto, un criterio bastante extendido consiste en tomar como número de intervalos el entero más próximo a
n.
Amplitud de cada intervalo. Lo más común, salvo justificación en su contra, es tomar todos los intervalos de igual longitud. Una amplitud variable de los intervalos podría justificarse por la búsqueda de una descripción más precisa en ciertas zonas de valores. A dichas zonas dedicaríamos más intervalos, con una consiguiente menor longitud.
Posición de los intervalos. Los intervalos han de situarse, como es lógico, allí donde se encuentran las observaciones y de forma contigua. Por lo demás, es aconsejable que los restos de intervalos en los extremos derecho e izquierdo del conjunto de observaciones sean similares.
40 50 60 70 80
Histograma Variable cuantitativa continua "Peso"
Peso
Densidad de frecuencia
En el caso de disponer de todos los datos, representaremos las frecuencias acumuladas mediante el diagrama de frecuencias acumuladas o diagrama escalonado, que en este caso tiene la peculiaridad de que todos los saltos son de amplitud (^1) n. Los saltos se producen en los datos de la muestra, de modo que en las zonas donde hay más datos la escalera crece más rápidamente. Para mayor claridad, en este ejemplo hemos representado cada dato con un punto en el eje de abscisas.
Pesos
Frecuencias relativas acumuladas ll
ll
l l
ll
l l
l l
l ll
ll
l l
l
45 48 50 52 54 58 62 64 67 72 75 79
0'
0'
0'
0'
0'
1'
Diagrama de frecuencias acumuladas Variable cuantitativa continua "Peso"
En caso de agrupación en intervalos, las frecuencias acumuladas se representan mediante el polígono de frecuencias acumuladas. Como no se conoce el lugar exacto en el que se encuentra cada individuo de la muestra, se reparte la frecuencia de cada intervalo de manera uniforme dentro del intervalo, lo cual resulta en segmentos cuya pendiente es la densidad de frecuencia en cada intervalo.
l
l
l
l
l
Peso
Frecuencias relativas acumuladas
40 50 60 70 80
0'
0'
0'
0'
0'
1'
Polígono de frecuencias acumuladas Variable cuantitativa continua "Peso"
A continuación estudiamos las medidas que sirven para obtener una descripción muy resumida sobre alguna propiedad concreta del conjunto de datos. Por medida entendemos, pues, un número que se calcula sobre la muestra y que refleja cierta cualidad de la misma. Parece claro que el cálculo de estas medidas requiere la posibilidad de ejecutar operaciones con los valores que toma la variable. Por este motivo, trataremos sólo variables cuantitativas.
En la presente sección estudiamos las medidas que nos indican la posición que ocupa la muestra. La posición central es el objetivo de la media, la mediana y la moda. El estudio de posiciones no centrales se hará con los cuantiles.
1.4.1 Media
Es la suma de los valores de la variable, ponderados por sus frecuencias relativas. Se calcula así:
x =
n
∑^ n
i =
xi o bien x =
∑^ k
i =
xifi
En la segunda expresión empleamos las frecuencias de cada valor diferente. Esta fórmula también es válida cuando trabajamos con una variable continua con los datos agrupados en intervalos de clase. En este caso sustituiríamos xi por ci (las marcas de clase de cada intervalo), sabiendo que el valor que obtenemos es una aproximación de
En el caso de una variable continua, tenemos dos opciones: o calculamos la media con todos los datos, que denotamos por xi , o usamos los intervalos de clase y trabajamos con las marcas de clase ( ci en vez de xi ) y las frecuencias en cada clase. Los resultados serán diferentes, siendo la segunda opción una aproximación de la primera.
Propiedades
i =
( xi − x ) = 0
∑^ n
i =
( xi − x )^2 = min a∈ R
∑^ n
i =
( xi − a )^2
A continuación presentamos los cálculos de la media de las variables ‘‘número de microorganismos’’ y ‘‘peso’’ de los ejemplos 3 y 4, respectivamente.
reales de variable real, toman valores desde cero hasta uno, la mediana es la primera abscisa donde se alcanza o supera el valor 1 / 2.
En el ejemplo 3 la mediana es m = 2 microorganismos.
1.4.3 Moda
Es el valor de la variable que se presenta con mayor frecuencia. A diferencia de las otras medidas, la moda también se puede calcular para variables cualitativas. Pero, al mismo tiempo, al estar tan vinculada a la frecuencia, no la calcularemos para variables continuas sin agrupación por intervalos de clase. Al intervalo con mayor frecuencia le llamamos intervalo o clase modal.
Puede ocurrir que haya una única moda, en cuyo caso hablamos de distribución de frecuencias unimodal. Si hay más de una moda, diremos que la distribución es multimodal.
En el ejemplo 3 la moda es M = 2 microorganismos.
1.4.4 Comparación de las medidas de posición central
Estas tres medidas de posición central proporcionan información complementaria. La media tiene la ventaja de utilizar toda la información disponible y se presta a operaciones algebraicas. Por el contrario, la mediana sólo utiliza el orden de los datos y no su magnitud. Sin embargo, la media es muy sensible a observaciones atípicas, esto es, anormalmente grandes o pequeñas. Eso no ocurre con la mediana.
La media y la mediana tendrán valores similares, salvo cuando haya valores atípicos (valores extremados o raros) o cuando la distribución sea muy asimétrica.
A título ilustrativo, consideremos las observaciones siguientes: 4 ; 1 ; 3 ; 2.
La media es 2 ′ 5 y la mediana es 2 (la muestra ordenada es: 1 ; 2 ; 3 ; 4 ).
Supongamos ahora que tenemos una observación más, 22 , que podríamos considerarla como un dato atípico. En este caso, la media es 8 que ya está fuera del rango de los cuatro valores iniciales, sin embargo, la mediana es 3 , un valor ligeramente distinto del anterior, y que no ha sido tan sensible a este valor atípico.
1.4.5 Cuantiles
Sea p ∈ (0 ; 1). Una vez ordenados los datos de menor a mayor, se define el cuantil p, como el valor más pequeño de la variable que deja a su izquierda np observaciones. Lo que es lo mismo, la frecuencia relativa acumulada hasta el cuantil p es mayor o igual que p. Nótese que la mediana es el cuantil 0’5. Los cuantiles, al igual que la mediana, sólo se podrán calcular con variables que admitan un orden.
Para el cálculo de los cuantiles el procedimiento seguido será similar al explicado para la mediana.
Si la variable es discreta, o si es continua y disponemos de todos los datos, empezamos ordenando la muestra. El cuantil p es el menor dato de la muestra (primero de la muestra ordenada) cuya frecuencia relativa acumulada es mayor o igual que p.
Si la variable es continua y se encuentra agrupada en intervalos de clase, buscamos sobre la tabla de frecuencias el primer intervalo cuya frecuencia relativa acumulada es mayor o igual que p, y, dentro de ese intervalo, calcularíamos el cuantil p por interpolación lineal.
Igual que con la mediana, las representaciones de las frecuencias relativas acumuladas son muy útiles para el cálculo de cualquier cuantil.
Además de la mediana, existen otros cuantiles con nombre propio. Definimos los cuartiles así:
Q 1 = Primer cuartil = Cuantil 0 ′ 25 ;
Q 2 = Segundo cuartil = Cuantil 0 ′ 5 = Mediana;
Q 3 = Tercer cuartil = Cuantil 0 ′ 75.
Por tanto, los cuartiles dividen la recta en cuatro intervalos con la misma frecuencia.
Análogamente se definen los percentiles como los cuantiles que dividen la recta en cien intervalos con la misma frecuencia. Por ejemplo, percentil 78 = cuantil 0 ′ 78.
Ejemplo 5 Considereremos los siguientes datos correspondientes al registro de 30 terremotos ocurridos en California, medidos en la escala de Richter: 1’0 8’3 3’1 1’1 5’1 5’ 1’2 1’0 4’1 1’1 4’0 2’ 2’0 1’9 6’3 1’4 1’3 1’ 3’3 2’2 2’3 2’1 2’1 7’ 1’4 2’7 2’4 3’0 4’1 1’
Si queremos calcular la mediana, cuartiles y percentiles, lo primero que tenemos que hacer es ordenar los datos de menor a mayor. Obtenemos lo que se conoce como muestra ordenada:
1 ′ 0 ; 1 ′ 0 ; 1 ′ 1 ; 1 ′ 1 ; 1 ′ 2 ; 1 ′ 2 ; 1 ′ 3 ; 1 ′ 4 ; 1 ′ 4 ; 1 ′ 5 ; 1 ′ 9 ; 2 ′ 0 ; 2 ′ 1 ; 2 ′ 1 ; 2 ′ 2 ; 2 ′ 2 ; 2 ′ 3 ; 2 ′ 4 ; 2 ′ 7 ; 3 ′ 0 ; 3 ′ 1 ; 3 ′ 3 ; 4 ′ 0 ; 4 ′ 1 ; 4 ′ 1 ; 5 ′ 0 ; 5 ′ 1 ; 6 ′ 3 ; 7 ′ 7 ; 8 ′ 3
La mediana sería m = 2 ′ 2 (media de las posiciones 15 y 16 en la muestra ordenada)
El primer cuartil: Q 1 = 1 ′ 4 El tercer cuartil: Q 3 = 4 ′ 0
El cuantil 0 ′ 10 es: 1 ′ 1 El cuantil 0 ′ 43 es: 2 ′ 1 El percentil 90 es: 5 ′ 1
Las medidas de dispersión se utilizan para describir la variabilidad o esparcimiento de los datos de la muestra respecto a la posición central. A continuación describimos las más importantes:
1.5.1 Recorrido o rango
Ya ha sido definida anteriormente, y es la diferencia entre el dato más grande y el más pequeño de la muestra. La podemos denotar así: R = max i xi − min i xi.
Ejemplo 5
Recorrido = 8 ′ 3 − 1 ′ 0 = 7 ′ 3
1.5.2 Recorrido intercuartílico
Es la diferencia entre el cuartil tercero y el cuartil primero.
Ejemplo 5
Recorrido intercuartílico = 4 ′ 0 − 1 ′ 4 = 2 ′ 6
1.5.3 Varianza
Si hemos empleado la media como medida de posición, parece razonable tomar como medida de dispersión algún criterio de discrepancia de los puntos respecto a la media. Una forma de medir la variabilidad respecto de la media sería sumar las diferencias de cada dato a la media, pero ya hemos visto que esta suma es cero (propiedad 2 de la media). Por lo tanto, elevamos esas diferencias al cuadrado para que no se cancelen los sumandos positivos con los negativos y dividimos por el número total de datos para asegurarnos de que los distintos tamaños muestrales no influyan en nuestra medida de la variabilidad. Es decir, calculamos "la media" de las diferencias al cuadrado. El resultado es la varianza, cuyas expresiones para datos sin agrupar y agrupados son, respectivamente:
n
∑^ n
i =
( xi − x )^2 ; S^2 =
∑^ k
i =
( ci − x )^2 fi
x =
n
∑^ n
i =
xi = 59 ′ 2 kg
n
∑^ n
i =
( xi − x )^2 =
= 92 ′ 46 kg^2
92 ′ 46 = 9 ′ 616 kg
1.5.5 Cuasivarianza y cuasidesviación típica
Es muy habitual modificar ligeramente el cálculo de la varianza, dividiendo por ( n − 1) en lugar de por n .De este modo obtenemos lo que se conoce como cuasivarianza:
S c^2 =
n − 1
∑^ n
i =
( xi − x )^2
Veremos más adelante (en inferencia estadística) la justificación del uso de estas dos medidas.
Conociendo la varianza se puede calcular la cuasivarianza, y viceversa, pues S^2 c = n · S^2 / ( n − 1). Además, ambas medidas se expresan en la unidades de la variable al cuadrado, y presentan el mismo comportamiento frente a cambios de localización y escala.
La cuasidesviación típica es simplemente la raíz cuadrada de la cuasivarianza, y por tanto la denotamos por Sc.
Ejemplo 3
S c^2 =
n n − 1
· 1 ′ 40 = 1 ′ 47 microorganismos^2
Sc =
1 ′ 47 = 1 ′ 21 microorganismo
Ejemplo 4
S c^2 = n n − 1
· 94 = 98 ′ 95 Kg^2
Sc =
98 ′ 95 = 9 ′ 95 kg
1.5.6 Coeficiente de variación
Es una medida relativa de la dispersión (con respecto a la media).
Es una medida de dispersión que no depende de la escala y que, por tanto, permite una comparación de las dispersiones relativas de varias muestras.
El coeficiente de variación se define así:
C V =
Sc |x|
Si lo multiplicamos por cien, también nos indica la magnitud del error promedio de medición ( Sc ) como porcentaje de la cantidad medida.
En una muestra "homogénea" es típicamente menor que uno. Si es mayor que 1’5 conviene investigar posibles fuentes de "heterogeneidad" en los datos.
El coeficiente de variación en los ejemplos 3 y 4:
Ejemplo 3
C V =
Ejemplo 4
C V =
Por supuesto, para que se pueda definir esta medida es preciso que la media no sea cero. Es más, el coeficiente de variación sólo tiene sentido para variables que sólo tomen valores positivos (o sólo negativos, pero que no puedan tomar valores de distinto signo) y que no sean susceptibles de cambios de localización.
Recogemos en la tabla siguiente el comportamiento de las medidas frente a cambios de localización o escala.
Cambios de localización, a + xi Cambios de escala, b · xi Media, x a + x b · x Cuantiles a+Cuantil b· Cuantil, si b > 0 Moda a+Moda b· Moda Varianza, S^2 No se altera b^2 · S^2 Desviación típica, S No se altera |b| · S Coeficiente de variación, CV Se modifica, pierde sentido No se altera
Nota: La cuasivarianza y la cuasidesviación típica presentan el mismo comportamiento que la varianza y la desviación típica, respectivamente, frente a cambios de localización y escala.
El diagrama de caja es una representación gráfica que se utiliza muy a menudo con variables continuas, y que permite describir la dispersión y la simetría de la distribución de datos. Asimismo, es muy útil para comparar distintas distribuciones entre sí.
El diagrama de caja está formado por una caja delimitada por los cuartiles Q1 y Q3, y en cuyo interior se representa una línea horizontal a la altura de la mediana. Nótese que dentro de la caja se encontrará la mitad de las observaciones. Además, si la mediana no se encuentra en el centro de la caja, interpretamos que la distribución no es simétrica.
A la caja se le añaden dos líneas verticales discontinuas con las que se presenta delimitar los datos más grandes y más pequeños de la distribución, así como los atípicos. En concreto, se considera que un dato xi es atípico si está en alguna de estas dos circunstancias:
xi < Q 1 − 1 ′ 5 · RIC o xi > Q 3 + 1 ′ 5 · RIC
siendo RIC = el recorrido o rango intercuartílico = Q 3 − Q 1.
Los extremos de las líneas verticales discontinuas, como las que se muestran en el diagrama de caja del ejemplo 5, alcanzan a las últimas observaciones de la muestra que no son atípicas. Por lo tanto, el extremo inferior será la menor observación mayor o igual que Q 1 − 1 ′ 5 · RIC y el extremo superior será la mayor observación menor o igual que Q 3 + 1 ′ 5 · RIC.
En el diagrama de caja representado, que corresponde a los datos del Ejemplo 5, relativos a magnitudes de terremotos, vemos que las observaciones inferiores al primer cuartil no están muy alejadas de él. Por el contrario, las observaciones superiores al tercer cuartil son muy distantes. Además, hay una observación atípica, que se señala de manera singular con un círculo más allá de las líneas verticales.
Ejemplo 5
Mediana: m = 2 ′ 2 (media de las posiciones 15 y 16 en la muestra ordenada)
Primer cuartil: Q 1 = 1 ′ 4
Tercer cuartil: Q 3 = 4 ′ 0
Recorrido intercuartílico: RIC = Q 3 − Q 1 = 4 ′ 0 − 1 ′ 4 = 2 ′ 6
Q 1 − 1 ′ 5 · RIC = 1 ′ 4 − 1 ′ 5 · 2 ′ 6 = − 2 ′ 5
Q 3 + 1 ′ 5 · RIC = 4 ′ 0 − 1 ′ 5 · 2 ′ 6 = 7 ′ 9
Cuando se observan varias variables sobre los mismos individuos, además del análisis por separado de cada variable, interesa estudiar también las relaciones que hay entre ellas.
Así, por ejemplo, podemos tener datos relativos a las variables Sexo, Edad, Peso, Altura, Ser fumador, Estudios, y considerar que todas estas variables se tomaron en los mismos individuos. Pues bien, nos podemos plantear si el sexo está relacionado con los estudios, o dicho de manera más directa, si los hombres y las mujeres acceden de igual manera a los distintos niveles educativos. Otra relación podría ser entre el peso y la altura, pues parece lógico que las personas más altas tengan más peso.
Ejemplo 6 En esta segunda parte del tema nos apoyaremos en los datos siguientes, que contienen las concentraciones (en mg/g) de dos elementos encontrados en muestras de arroz: fósforo (P) y potasio (K). Además, se consideraron dos variedades de arroz (A y B) y la estación en la que fueron cultivadas dichas muestras (húmeda, H, y seca, S). Los datos figuran en la tabla siguiente.
Variedad Estación Fósforo (P) Potasio (K) A S 3’6 2’ A S 3’5 2’ A S 3’3 2’ A S 1’7 1’ A S 1’6 1’ A S 1’5 0’ B S 3’7 2’ B S 3’4 2’ B S 2’1 1’ B S 1’3 1’ A H 3’1 2’ A H 1’4 0’ B H 3’8 3’ B H 3’2 2’ B H 2’3 1’ B H 2’0 1’
Lo primero que debemos destacar es que cuando se observan varias variables sobre los mismos individuos (en este caso muestras de arroz), los datos se almacenan en una tabla donde los individuos ocupan las filas y las variables se sitúan en las columnas. Esta es la convención universal de los sistemas informáticos, que respetan por defecto las hojas de cálculo, las bases de datos, y los programas estadísticos y de tratamiento de datos.
A lo largo de esta segunda parte del tema recorreremos los conceptos básicos asociados a una variable multidimensional.
Entendemos por variable multidimensional al resultado de realizar varias mediciones sobre el mismo individuo o sobre el mismo resultado de un experimento. Emplearemos la notación vectorial ( X 1 ; X 2 ; : : : ; Xk ), siendo k el número de variables. En los datos sobre muestras de arroz, hay k = 4 variables, X 1 es la variedad, X 2 la estación, y X 4 y X 5 las concentraciones de fósforo y potasio, respectivamente.
Las distintas variables que se observan simultáneamente, ( X 1 ; X 2 ; : : : ; Xk ), pueden ser de tipos diferentes. Así, por ejemplo, en los datos de arroz, la variedad y la estación son variables cualitativas nominales, mientras que las dos últimas variables, referidas a concentraciones de elementos, son cuantitativas continuas.
Nos ceñiremos a dos variables, esto es, una variable bidimensional, y para simplificar la notación, en lugar
de ( X 1 ; X 2 ) escribiremos ( X ; Y ).
Vamos a extender el concepto de frecuencia de una variable unidimensional al caso bidimensional. Consider- amos las variables observadas ( X ; Y ), x 1 < x 2 < · · · < xI los valores posibles (ordenados, de ser el caso) de X e y 1 < y 2 < · · · < yJ los valores posibles ordenados de Y.
Se trata por tanto de estudiar las frecuencias de los pares de valores posibles de las variables ( X ; Y ).
El tamaño de muestra, que solemos denotar por n , sigue representando el número de individuos. En el ejemplo del arroz n = 16. Debemos mencionar que el término ‘‘muestra’’ en sentido estadístico se refiere al conjunto de individuos, aunque en el lenguaje común a veces por muestra se entiende una cantidad de material observada, como en el caso de las ‘‘muestras’’ de arroz.
Al igual que en estadística descriptiva univariante, la frecuencia absoluta sigue estando definida como número de veces que ocurre el valor de la variable, que en este caso es el par ( xi; yj ) con i ∈ { 1 ; : : : ; I} y j ∈ { 1 ; : : : ; J}. La denotamos por nij. Las frecuencias absolutas forman una tabla de frecuencias de doble entrada, que llamaremos distribución conjunta de frecuencias, y que figura a continuación.
Y X y 1 y 2 · · · yJ x 1 n 11 n 12 · · · n 1 J n 1 • x 2 n 21 n 22 · · · n 2 J n 2 • .. .
xI nI 1 nI 2 · · · nIJ nI• n• 1 n• 2 · · · n•J n
En la última columna de la tabla, separada por una raya vertical, hemos incluido lo que conocemos como frecuencias marginales de la variable X , que se denotan por
ni• = ni 1 + ni 2 + · · · + niJ para i ∈ { 1 ; : : : ; I}
y que se obtienen sumando los elementos de cada fila de la tabla. Son las frecuencias absolutas de cada valor xi ,de X que se obtendrían si se considerara la variable X por separado.
De igual modo, la última fila de la tabla, separada por una raya horizontal, contiene las frecuencias marginales de la variable Y , definidas como
n•j = n 1 j + n 2 j + · · · + nIj para j ∈ { 1 ; : : : ; J}
y que se obtienen sumando los elementos de cada columna de la tabla. Son las frecuencias absolutas de cada valor yj de Y.
Las frecuencias relativas se definen, igual que estadística descriptiva univariante, como las frecuencias absolutas divididas por el tamaño muestral, y se pueden considerar tanto para la distribución conjunta como para las marginales. El resultado es la tabla siguiente, donde fij son frecuencias relativas conjuntas, mientras que fi• y f•j son frecuencias relativas marginales.
Y X y 1 y 2 · · · yJ x 1 f 11 f 12 · · · f 1 J f 1 • x 2 f 21 f 22 · · · f 2 J f 2 • .. .
xI fI 1 fI 2 · · · fIJ fI• f• 1 f• 2 · · · f•J 1
En los datos de arroz, podemos construir una tabla de frecuencias absolutas conjuntas y marginales, con la