¡Descarga Cálculo de Parámetros Estadísticos de Variables Unidimensionales y Bidimensionales - Prof. y más Apuntes en PDF de Matemáticas solo en Docsity!
Estadística Descriptiva
Introducción
Podemos definir la Estadística como la ciencia que nos facilita los métodos precisos para la
obtención y descripción de datos, así como los métodos de análisis, interpretación y obtención de
conclusiones a partir de la información recogida. Estas dos vertientes dan lugar a dos partes bien
diferenciadas de la Estadística:
1. La Estadística descriptiva o deductiva, que tiene por objeto la recogida, ordenación, análisis y representación de los datos obtenidos por las observaciones. En esta parte de la Estadística no se hace uso del cálculo de probabilidades y se limita a realizar deducciones directamente a partir de los datos y parámetros obtenidos. 2. La Estadística inferencial o inductiva, que tiene por objeto conocer y analizar un colectivo a partir del estudio de una parte del mismo, llamado muestra. Esta parte de la Estadística se apoya fuertemente en el cálculo de probabilidades.
Llamaremos población a cualquier colectivo de individuos u objetos de cualquier índole a los que
se puede asociar una o varias características comunes. Cada elemento de la población se denom-
ina individuo o unidad estadística. Es frecuente que el número de individuos de una población (lo
que se denomina tamaño de la misma) sea muy grande (posiblemente infinito), lo que aconseja
tomar una parte representativa de tamaño manejable, denominada muestra. A la elección de
muestras se le denomina muestreo y existen muchos criterios para realizar dicha selección. No
vamos a entrar en este tema, sino sólo digamos que cualquier individuo de la población debe tener
la misma probabilidad de estar en la muestra, que es mucho más importante la representatividad
de la muestra que su tamaño y que su composición debe estar en proporción con la composición
de la población.
Se denomina variable estadística a una característica, aspecto, fenómeno, rasgo o cualidad que
presenta cada individuo de la población y que puede tomar distintos valores (si se expresan numéri-
camente) o modalidades (en caso contrario). Se denotan por letras mayúsculas H X , Y , Z , …L,
mientras que los valores que puede tomar la variable estadística X se denotan con letras minúscu-
las H x 1 , x 2 , x 3 , …L. El conjunto de los valores o modalidades que puede tomar una variable estadís-
tica se llama dominio de dicha variable. Atendiendo a su dominio, las variables estadísticas se
clasifican en:
Variables estadísticas cualitativas : su dominio son valores no numéricos, es decir, que no se
pueden medir; por ejemplo, la profesión de una persona, su estado civil, el idioma elegido, etc.
Variables estadísticas cuantitativas : su dominio son valores numéricos que sí se pueden medir;
por ejemplo, la altura de una persona, el diámetro de una pieza de precisión, el cociente
intelectual de un alumno, etc. Si la variable cuantitativa sólo puede tomar un número finito de
valores distintos, se denomina variable cuantitativa discreta (por ejemplo, la edad de los
alumnos de una clase), mientras que en caso contrario se denomina variable cuantitativa
continua (por ejemplo, la presión sanguínea de los enfermos de un determinado hospital).
Normalmente, si una variable discreta puede tomar un elevado número de valores distintos, se
considera como si fuese también una variable conitinua.
En este tema vamos a considerar sólo variables estadísticas unidimensionales , con las que se
analiza un único carácter de los individuos de la población, y variables estadísticas bidimension-
ales , con las que se analiza la relación existente entre dos caracteres de los individuos de la
ales , con las que se analiza la relación existente entre dos caracteres de los individuos de la
población.
Dado que Mathematica dispone de un gran número de comandos estadísticos, utilizar todos los
que necesitamos en este tema puede ser una tarea larga y tediosa. Por ese motivo, hemos creado
algunos comandos nuevos de Mathematica que simplifiquen los cálculos estadísticos, cuyas
definiciones se muestran a continuación; dado que no son comandos del propio programa, habrá
que copiar y pegar dichas líneas en un cuaderno de Mathematica y ejecutarlas antes de poder
usarlos.
If@NameQ@"estaDescrip"D, Attributes@estaDescripD = 8 <D; estaDescrip@var_, opt_List: 8 <D := Module@ 8 locVal, lcVar, lcMed<, If@Length@varD 1, locVal = var@@ 1 DD, locVal = Flatten@ Table@Table@var@@1, iDD, 8 j, 1, var@@2, iDD<D, 8 i, 1, Length@var@@ 1 DDD<DDD; Print@Style@"Medidas de Centralización", Red, Bold, 16DD; lcMed = Mean@locValD; Print@Style@"Media: ", BoldD, lcMedD; Print@Style@"Mediana: ", BoldD, Median@locValDD; Print@Style@"Moda: ", BoldD, Commonest@locValDD; If@Length@optD > 0, 8 Print@D; Print@Style@"Medidas de Posición", Red, Bold, 16DD<D; For@i = 1, i ≤ Length@optD, i ++, Print@Style@"Percentil ", BoldD, Style@opt@@iDD, BoldD, Style@": ", BoldD, Quantile@locVal, opt@@iDD ê 100 DDD; Print@D; Print@Style@"Medidas de Dispersión", Red, Bold, 16DD; Print@Style@"Recorrido: ", BoldD, Max@locValD − Min@locValDD; Print@Style@"Desviación media: ", BoldD, MeanDeviation@locValDD; lcVar = CentralMoment@locVal, 2D; Print@Style@"Desviación típica: ", BoldD, Sqrt@lcVarDD; Print@Style@"Varianza: ", BoldD, lcVarD; Print@Style@"Coeficiente de variación: ", BoldD, Sqrt@lcVarD ê lcMedD; Print@D; Print@Style@"Medidas de Forma", Red, Bold, 16DD; Print@Style@"Coeficiente de sesgo: ", BoldD, Skewness@locValDD; Print@Style@"Coeficiente de curtosis: ", BoldD, Kurtosis@locValD − 3 D; Print@D; D estaDescrip::usage = "estaDescrip@8var<, 8 percen<D calcula los parámetros estadísticos de la variable cuyos valores están definidos en la lista 'var'. Si el argumento 'percen' está presente calcula también los percentiles que sepasen en dicha lista.
estaDescrip@8var,frec<, 8 percen<D calcula los parámetros estadísticos de la variable cuyos valores están definidos en la lista 'var' con frecuencias absolutas definidas en la lista 'frec'. Si el argumento 'percen' está presente calcula también los percentiles que sepasen en dicha lista."; Protect@estaDescripD; If@NameQ@"diagDispersion"D, Attributes@diagDispersionD = 8<D; diagDispersion@var_, frec_List: 8<D := Module@ 8 nSize<, nSize = Length@frecD; If@nSize 0, ListPlot@var, PlotStyle → 8 Black, PointSize@MediumD<D,
permitan resumir la información que nos facilita el conjunto de datos. Comenzamos esta sección
estableciendo la terminología básica de la disciplina que nos ocupa, para, a continuación, exponer
dos vías diferentes de organizar y representar el conjunto de datos: las tablas de frecuencias y las
representaciones gráficas. Por último, estudiaremos diferentes parámetros estadísticos que
resumen las propiedades de la variable.
Definición y presentación de datos
Dada una variable estadística cuantitativa discreta X , se llama frecuencia absoluta del valor xk , y
se representa por fk , al número de veces que aparece en una determinda muestra. Se llama
frecuencia relativa del valor xk , y se representa por hk , al cociente hk = f nk , siendo n el número de
individuos de la muestra. También podemos indicar la frecuencia relativa en términos de porcenta-
jes; se llama porcentaje del valor xk , y se representa por pk , a pk = 100 ÿ hk.
Si ordenamos los valores de la variable discreta X de menor a mayor, obtenemos una sucesión de
valores x 1 < x 2 < ∫ < xm , siendo m el número de valores distintos que toma dicha variable. En ese
caso, se llama frecuencia absoluta acumulada del valor xk , y se representa por Fk , a
Fk = f 1 + f 2 + ∫f k. De igual forma, se llama frecuencia relativa acumulada del valor xk , y se repre-
senta por Hk , a Hk = h 1 + h 2 + ∫ + hk = F nk. La tabla o distribución de frecuencias de una variable
estadística discreta está formada por cinco columnas: valores, frecuencias absolutas, frecuencias
relativas (o porcentajes), frecuencias absolutas acumuladas y frecuencias relativas acumuladas.
En caso de que la variable X sea continua (o bien discreta pero con un número muy grande de
posibles valores) es muy conveniente agrupar los datos en clases. Una clase es un intervalo
@ a , b L, de forma que un valor xk pertenece a dicha clase si a § xk < b (obsérvese que toda clase es
un intervalo cerrado por la izquierda y abierto por la derecha). Los extremos 8 a , b < del intervalo se
denominan límites de clase , y el punto medio J a + 2 b N se denomina marca de clase.
Con el fin de que la clasificación esté bien hecha, los intervalos se deben construir de la misma
amplitud y de forma que el límite superior de una clase coincida con el límite inferior de la sigu-
iente. Ahora bien, ¿cuál es el número idóneo de clases que debemos escoger a la hora de agru-
par? No existe una respuesta tajante a esta pregunta; uno de los criterios más sencillos establece
que el número de clases debe ser aproximadamente igual a la raíz cuadrada positiva del número
de datos.
Veamos ahora cómo podemos definir los valores xk de una variable estadística X con Mathemat-
ica , calcular sus frecuencias absolutas fk y representar gráficamente éstas. Estudiaremos por
separado los casos de variable discreta y de variable continua.
Variable estadística discreta
Consideremos primero una variable discreta; por ejemplo, supongamos que las notas de matemáti-
cas de 30 alumnos sean las siguientes :
Los valores de esta variable discreta se definen en Mathematica como una lista, es decir, separa-
dos por comas y encerrados entre sendas llaves:
notas = 8 5, 3, 4, 1, 2, 8, 9, 8, 7, 6, 6, 7, 9, 8, 7, 7, 1, 0, 1, 5, 9, 9, 8, 0, 8, 8, 8, 9, 5, 7<
8 5, 3, 4, 1, 2, 8, 9, 8, 7, 6, 6, 7, 9, 8, 7, 7, 1, 0, 1, 5, 9, 9, 8, 0, 8, 8, 8, 9, 5, 7<
Obsérvese que en este ejemplo hemos introducido los datos por filas, pero podríamos haberlos
introducido también por columnas. A la hora de definir la variable el orden en que introduzcamos
sus valores es indiferente. Sin embargo, conviene definirla reordenando los datos de menor a
mayor; para ello, usamos el comando Sort[var] :
notas = Sort@ 8 5, 3, 4, 1, 2, 8, 9, 8, 7, 6, 6, 7, 9, 8, 7, 7, 1, 0, 1, 5, 9, 9, 8, 0, 8, 8, 8, 9, 5, 7<D
8 0, 0, 1, 1, 1, 2, 3, 4, 5, 5, 5, 6, 6, 7, 7, 7, 7, 7, 8, 8, 8, 8, 8, 8, 8, 9, 9, 9, 9, 9<
Para obtener la distribución de frecuencias absolutas de una variable var podemos usar el
comando Tally[var]. Téngase presente que antes de aplicar este comando es recomendable que
la variable esté ordenada. Este comando devuelve una matriz con dos columnas; la primera
contiene los valores que toma la variable y la segunda sus respectivas frecuencias absolutas; para
visualizar el resultado como una matriz hemos de emplear el comando MatrixForm[mat] :
notas2 = Tally@notasD MatrixForm@notas2D
88 0, 2<, 8 1, 3<, 8 2, 1<, 8 3, 1<, 8 4, 1<, 8 5, 3<, 8 6, 2<, 8 7, 5<, 8 8, 7<, 8 9, 5<<
0 2 1 3 2 1 3 1 4 1 5 3 6 2 7 5 8 7 9 5
Es decir, hay 2 alumnos con un 0, 3 alumnos con un 1, y así sucesivamente. Podemos definir por
separado los valores de la variable y sus frecuencias absolutas en sendas variables, extrayendo la
primera y segunda columna, respectivamente; para ello, usamos el comando A[[All,k]] , el cual
extre la columna k-ésima de la matriz A.
notasValores = notas2@@All, 1DD notasFrecAbs = notas2@@All, 2DD
8 0, 1, 2, 3, 4, 5, 6, 7, 8, 9<
8 2, 3, 1, 1, 1, 3, 2, 5, 7, 5<
La distribución de frecuencias acumuladas se puede obtener aplicando el comando Accumu-
late[frec] , donde frec representa la lista que contiene las frecuencias absolutas:
notasFrecAbsAcum = Accumulate@notasFrecAbsD
8 2, 5, 6, 7, 8, 11, 13, 18, 25, 30<
Y la distribución de frecuencias relativas se obtiene dividiendo (cuando se aplica una operación
aritmética a una lista, se realiza dicha operación a cada elemento de ella) las frecuencias absolutas
por el número total de elementos de la muestra, el cual se puede obtener con el comando
Length[var] :
BarChart@notasFrecAbs, ChartLabels → notasValoresD
Obsérvese que al pasar el cursor por encima de una barra se muestra el valor correspondiente de
la frecuencia absoluta que representa dicha barra. Para conocer más opciones gráficas de este
comando podemos acudir a la ayuda de Mathematica.
También podemos representar gráficamente las frecuencias absolutas acumuladas:
BarChart@notasFrecAbsAcum, ChartLabels → notasValoresD
Hay ocasiones en las que los datos de que disponemos son las frecuencias absolutas de los
valores que toma una variable discreta; en estos casos, podemos definir directamente las dos
listas, correspondientes a sus valores y a sus frecuencias absolutas asociadas. Por ejemplo,
supongamos que en un muestreo realizado por una empresa con el fin de estudiar el número de
hijos por familia española se han encontrado los siguientes resultados:
Número de hijos 0 1 2 3 4 5
Número de familias 10 16 20 18 12 12
Entonces, la variable queda definida mediante las siguientes dos listas (es necesario escribir
ambas en el mismo orden, de manera que podamos asociar cada valor con su frecuencia absoluta):
nHijos = 8 0, 1, 2, 3, 4, 5< nFamilias = 8 10, 16, 20, 18, 12, 12<
8 0, 1, 2, 3, 4, 5<
8 10, 16, 20, 18, 12, 12<
En este caso, para saber el número total de individuos de la muestra hemos de sumar todas las
frecuencias absolutas, lo cual podemos hacer mediante el comando Total[lista] :
nFamTotal = Total@nFamiliasD
88
A partir de aquí las distribuciones de frecuencias acumuladas y relativas se calculan igual que
antes, así como los respectivos diagramas de barras.
Variable estadística continua
Consideremos ahora una variable continua. Por ejemplo, supongamos que las edades de las
personas que acuden a un logopeda son las que se reflejan en la siguiente tabla:
Consideremos esta variable como una variable continua, dada la gran diversidad de valores que
puede tomar. En Mathematica , los valores que toma una variable continua se pueden definir como
si fuese una variable discreta; es decir:
edadLogo = Sort@ 8 3, 2, 11, 13, 4, 3, 2, 4, 5, 6, 7, 3, 4, 5, 3, 2, 5, 6, 27, 15, 4, 21, 12, 4, 3, 6, 29, 13, 6, 17, 6, 13, 6, 5, 12, 26<D
8 2, 2, 2, 3, 3, 3, 3, 3, 4, 4, 4, 4, 4, 5, 5, 5, 5, 6, 6, 6, 6, 6, 6, 7, 11, 12, 12, 13, 13, 13, 15, 17, 21, 26, 27, 29<
El número de datos de los que disponemos nos lo da, como vimos antes, el comando Length[var] :
edadNum = Length@edadLogoD
36
En el caso de una variable continua no tiene sentido hallar las frecuencias absolutas de sus val-
ores, pues lo más problabe es que dicha frecuencia sea 0 o bien 1, lo cual aporta poca informa-
ción. Lo que sí puede ser muy útil es contar cuántos individuos tienen un valor de la variable
comprendido entre ciertos valores. En Mathematica , el comando BinCounts[var,{{a,b}}] devuelve
el número de individuos para los cuales se verifica que a § xk < b. Por ejemplo, podemos calcular
cuántos pacientes tienen una edad comprendida en el intervalo [12,18):
nInd = BinCounts@edadLogo, 88 12, 18<<D
87 <
Es decir, hay 7 pacientes con una edad mayor o igual que 12 años y menor que 18 años.
Como ocurría con las variables estadísticas discretas, una representación gráfica de la distribución
de frecuencias puede en muchos casos hacerla más clara y eficiente. Para variables estadísticas
continuas, o bien para variables estadísticas discretas con un gran número de datos, se suelen
emplear los denominados histogramas. Para construir un histograma se representan sobre el eje
de abscisas los límites de las clases. Sobre dicho eje se construyen rectángulos que tienen por
base la amplitud de cada clase y cuya altura es igual a la frecuencia absoluta correspondiente (con
mayor exactitud, dicha altura debería ser tal que el área de cada rectángulo fuese igual a la frecuen-
cia de la correspondiente clase, pero en Mathematica la altura de cada rectángulo conicide con la
frecuencia absoluta).
En Mathematica , el comando Histogram(datos,{{clases}}) representa gráficamente el histograma
de la variable estadística datos , agrupándola en las clases indicadas en el segundo argumento. Si
no escribimos el segundo argumento, Mathematica utiliza unas clases por defecto. Por ejemplo, el
histograma de las edades de los pacientes de un logopeda que nos ocupa se representa mediante
el siguiente comando:
Medidas características
Es frecuente que las observaciones a estudiar estén compuestas por una gran cantidad de datos,
por lo que se hace necesario complementar la información intuitiva que aportan las tablas de
frecuencias y las representaciones gráficas con un análisis estadístico numérico. La idea es
resumir toda la información de los datos en unos pocos, de manera que se conserve la mayor
información posible del conjunto total de ellos y el comportamiento global de la población o muestra
en estudio.
En esta sección se estudian los parámetros estadísticos que nos ayudan a emitir conclusiones
sobre las poblaciones en estudio y a hacer comparaciones entre ellas, ya que a través sólo de las
tablas y gráficos es posible que emitamos juicios no acertados.
Para calcular todos estos parámetros estadísticos emplearemos el comando estaDescrip definido
al principio de este cuaderno. Si de la variable conocemos todos los datos, estando definida por
tanto mediante una única lista var , sus parámetros estadísticos se calculan usando la sintaxis
estaDescrip[{var},percen] , donde el segundo argumento, percen , es opcional; si aparece, es una
lista que contiene los percentiles que queremos calcular, mientras que en caso contrario no se
calcula ningún percentil.
Por ejemplo, podemos calcular los parámetros estadísticos de la variable discreta notas , que
representaba las notas de matemáticas de 30 alumnos:
estaDescrip@ 8 notas<D
Medidas de Centralización
Media:
Mediana: 7
Moda: 88 <
Medidas de Dispersión
Recorrido: 9
Desviación media:
Desviación típica:
1537 5 6
Varianza:
Coeficiente de variación:
1537 5 35
Medidas de Forma
Coeficiente de sesgo: −
Coeficiente de curtosis: −
Para obtener expresionesdecimales de estos parámetros estadísticos podemos emplear el
comando N :
estaDescrip@N@ 8 notas<DD
Si de la variable conocemos sus valores y sus frecuencias absolutas, definidas en sendas listas val
y frec , respectivamente, sus parámetros estadísticos se calculan usando la sintaxis estaDescrip[{-
val,frec},percen] , donde el segundo argumento, percen , es opcional y representa lo mismo que en
el caso anterior.
Por ejemplo, podemos calcular los parámetros estadísticos de la variable continua alumnClases ,
con frecuencias alumnFrecAbs , que representaba el tiempo tardado por un conjunto de alumnos en
resolver un determinado problema de matemáticas:
estaDescrip@N@ 8 alumnClases, alumnFrecAbs<D, 8 25, 75<D
Medidas de Centralización
Media: 15.
Mediana: 17.
Moda: 8 17.<
Medidas de Posición
Percentil 25: 15.
Percentil 75 : 17.
Medidas de Dispersión
Recorrido: 8.
Desviación media: 2.
Desviación típica: 2.
Varianza: 5.
Coeficiente de variación: 0.
Medidas de Forma
Coeficiente de sesgo: − 0.
Coeficiente de curtosis: − 0.
En los siguientes apartados definiremos todas estas medidas características y estableceremos sus
principales propiedades.
Medidas de centralización
Al describir grupos de observaciones, con frecuencia es conveniente resumir la información con un
solo número. Este número que, para tal fin, suele situarse hacia el centro de la distribución de
datos se denomina medida de centralización. Estudiamos en este tema tres de las más impor-
tantes, como son la media , la mediana y la moda.
Media
Consideremos una variable estadística X que toma los valores x 1 , x 2 , …, xn. Dada una distribu-
ción de N observaciones de dicha variable estadística en la que se alcanzan los valores anteriores
con frecuencias absolutas f 1 , f 2 , …, fn , respectivamente, se define la media de la distribución
como:
x =
N
k = 1
n
xk ÿ fk
Si la variable estadística X es continua y sus datos se encuentran agrupados en clases, se toman
como valores x 1 , x 2 , …, xn las marcas de cada clase.
La media es la medida de centralización más utilizada por su fácil cálculo y por tener en cuenta
todos los datos. Sin embargo, hay casos en los que se deben utilizar otras medidas de central-
ización. Por ejemplo, si la variable toma algunos valores extremos poco significativos, éstos
pueden distorsionar la media. Por otra parte, si los datos están agrupados en clases y alguna de
ellas es abierta, no es posible calcular la media.
Mediana
Dada una variable estadística X , ordenemos en orden creciente de magnitud todos los valores que
toma, repetidos tantas veces como indique su frecuencia absoluta. Si el número de datos es impar,
la mediana de la distribución es el valor central, es decir, el valor tal que hay tantos valores por
debajo de él que por encima. Si el número de datos es par, la mediana es el valor medio de los dos
valores centrales.
La mediana es útil cuando entre los datos existe uno ostensiblemente extremo que distorsiona la
media o cuando no es posible calcular ésta. Por otra parte, en su cálculo mo utilizan todos los
datos de los que dispone, pues depende del orden de los datos y no de su valor.
En las variables que pueden representarse con histogramas, la mediana es el valor de la variable
tal que la vertical levantada sobre el mismo divide al histograma en dos partes de igual área.
Moda
Dada una variable estadística X , se llama moda de la distribución al valor de dicha variable que
presenta mayor frecuencia absoluta. Si la variable estadística está agrupada en clases, se llama
clase modal a la clase de mayor frecuencia absoluta. La moda no tiene por qué ser única, puesto
que puede haber varios valores de la variable que alcancen la misma frecuencia absoluta máxima.
Se dice en este caso que la distribución es bimodal, trimodal, etc.
En el cálculo de la moda no intervienen todos los datos de los que se dispone, pues sólo repre-
senta el valor dominante, y no existe si la frecuencia es constante.
Medidas de posición
Las medidas de posición de una variable estadística dividen ésta en grupos con el mismo número
de individuos. Para calcular las medidas de posición es necesario que los valores de la variable
estadística estén ordenados de menor a mayor. Las principales medidas de posición son los
percentiles y los cuartiles.
Al igual que la mediana de una variable estadística dividía el conjunto de valores de ésta en dos
partes con el mismo número de individuos, se llaman percentiles a 99 valores de la variable
estadística que dividen la serie de datos en 100 partes iguales. Es decir, el percentil 15 (que se
representa como P 15 ) es el valor que debe tomar la variable estadística dada para que como
máximo el 15% de los datos queden por debajo de él y como máximo el restante 85% de los datos
queden por encima de él.
Se llaman cuartiles de una variable estadística a tres valores que dividen la serie de datos en
cuatro partes iguales. Corresponden a los percentiles P 25 , P 50 y P 75 y se denotan por Q 1 , Q 2 y Q 3 ,
respectivamente.
Medidas de dispersión
La investigación acerca de una variable estadística queda incompleta si sólo se estudian las medi-
das de centralización, siendo imprescindible conocer si los datos numéricos están concentrados o
CV = †s x §. En ocasiones se multiplica este coeficiente por 100 para proporcionar valores per-
centuales. El coeficiente de variación de una población homogénea es típicamente menor que la
unidad. Si este coeficiente es mayor que 1.5 conviene estudiar posibles fuentes de heterogeneidad
en los datos (utilización de distintos instrumentos de medida, distintos momentos temporales, etc.).
Algunas veces resulta deseable comparar diversos grupos en relación a su relativa homogeneidad
cuando los grupos tienen medias diferentes, pero puede motivar cierta confusión la comparación
de las magnitudes absolutas de las deviaciones típicas. En esos casos resulta aconsejable utilizar
como elemento de comparación la desviación típica en relación a la media, es decir, el coeficiente
de variación.
Medidas de forma
La forma de la representación gráfica de una distribución de frecuencias proporciona en muchas
ocasiones información útil sobre la variable estadística analizada. Las dos características de forma
más importante son la de asimetría o sesgo , que establece si la distribución es simétrica respecto
de la media o no, y la de apuntamiento o curtosis , que señala si la distribución es más punti-
aguda o más plana que la distribución normal, también conocida como campana de Gauss.
Asimetría o sesgo
Consideremos una variable estadística X que toma los valores x 1 , x 2 , …, xn. Dada una distribu-
ción de N observaciones de dicha variable estadística en la que se alcanzan los valores anteriores
con frecuencias absolutas f 1 , f 2 , …, fn , respectivamente, se define el coeficiente de asimetría o
coeficiente de sesgo como:
g 3 =
s^3
N
k = 1
n
fk ÿH xk - x L^3
siendo s la desviación típica de la variable y x su media.
Si g 3 = 0, la distribución es simétrica respecto de la mediana; entonces, si la distribución es uni-
modal, las tres medidas de centralización, meda, mediana y moda, coinciden.
Si g 3 > 0, la distribución presenta asimetría positiva; entonces, dicha distribución está sesgada a la
derecha, viéndose en su representación gráfica una cola para valores mayores de la mediana.
Si g 3 < 0, la distribución presenta asimetría negativa; entonces, dicha distribución está sesgada a la
izquierda, viéndose en su representación gráfica una cola para valores menores de la mediana.
Apuntamiento o curtosis
Consideremos una variable estadística X que toma los valores x 1 , x 2 , …, xn. Dada una distribu-
ción de N observaciones de dicha variable estadística en la que se alcanzan los valores anteriores
con frecuencias absolutas f 1 , f 2 , …, fn , respectivamente, se define el coeficiente de apun-
tamiento o coeficiente de curtosis como:
g 4 =
s^4
N
k = 1
n
fk ÿH xk - x L^4 - 3
siendo s la desviación típica de la variable y x su media.
Este coeficiente indica el grado de elevación del diagrama de barras de las frecuencias relativas de
la distribución. Este grado de elevación se traduce en el reparto de la frecuencia entre el centro y
los extremos de la gráfica. Como medida de referencia de dicho grado de elevación se toma la
curva normal o campana de Gauss, la cual se muestra en la siguiente figura:
Si g 4 = 0, la distribución presenta el mismo grado de elevación que la curva normal con la misma
varianza y se denomina distribución mesocúrtica.
Si g 4 > 0, la distribución es más apuntada que la curva normal con la misma varianza y se denom-
ina distribución leptocúrtica.
Si g 4 < 0, la distribución es menos apuntada que la curva normal con la misma varianza y se denom-
ina distribución platicúrtica.
Variables estadísticas bidimensionales
Dedicamos esta sección al estudio de las variables estadísticas bidimensionales, aunque gran
parte de las conclusiones y métodos utilizados se pueden extrapolar a variables multidimension-
ales. Empezaremos analizando cómo definir y representar gráficamente dichas variables, y pasare-
mos a continuación al estudio de la dependencia que puede existir entre ambas variables, con-
cepto conocido como correlación.
Definición y presentación de datos
Sea ( X , Y ) una variable estadística bidimensional donde las variables unidimensionales X e Y
adoptan los valores x 1 , x 2 , ..., xn e y 1 , y 2 , ..., yn , respectivamente. Así, los datos para la variable
bidimensional son pares de valores de la forma I xk , yj M. En el caso de que alguna de las variables
sea continua y esté agrupada en clases, consideraremos sólo sus marcas de clase.
Se llama frecuencia absoluta del par I xk , yj M, y se denota por f kj, al número de veces que se
repite dicho par en los datos. Si N es el número total de observaciones, se llama frecuencia rela-
tiva del par I xk , yj M, y se denota por h kj, a h kj = f N kj.
Cuando cada par de la variable se presenta con frecuencia absoluta uno, los datos suelen venir
dados por una tabla, en la cual cada fila representa una de las variables y cada columna al mismo
individuo. Por ejemplo, la siguiente tabla muestra tanto el gasto invertido en publicidad como las
ventas (ambas en miles de €) realizados por una empresa durante los últimos años:
Gastos publicidad 4.2 8.4 12 8.4 15 16.8 17.4 18.6 21
Ventas 480 660 1080 900 1200 1330 1380 1435 1490
En Mathematica , definimos esta variable estadística bidimensional encerrando cada par de datos
entre llaves, y todos los datos entre otras llaves, como se muestra a continuación:
Length@edadAlturaValD Length@edadAlturaFrecAbsD
10
10
Extrayendo como antes las dos columnas de la variable bidimensional definida y eliminando duplici-
dades con el comando DeleteDuplicates[lista] de Mathematica , pordemos obtener las variables
unidimensionales por separado:
edad = DeleteDuplicates@edadAlturaVal@@All, 1DDD altura = DeleteDuplicates@edadAlturaVal@@All, 2DDD
8 17, 18, 19, 20<
8 1.7, 1.8, 1.9<
Las respectivas frecuencias absolutas de cada variable se obtienen sumando las frecuencias
absolutas de la tabla de doble entrada por filas y por columnas, respectivamente:
edadFrecAbs = 83 + 5 + 1, 4 + 10 + 2, 4 + 2 + 0, 0 + 1 + 3 < alturaFrecAbs = 83 + 4 + 4 + 0, 5 + 10 + 2 + 1, 1 + 2 + 0 + 3 <
8 9, 16, 6, 4<
8 11, 18, 6<
Los diagramas de dispersión o nubes de puntos son las representaciones más utilizadas para
mostrar gráficamente los datos de una variable estadística bidimensional. Consisten en un sis-
tema de ejes coordenados representando en el eje de abscisas los valores de la variable X y en el
de ordenadas los de la variable Y, de forma que cada punto del plano corresponde a un valor
I xj , yk M de la variable bidimensional. La frecuencia absoluta de cada uno de estos pares de valores
se puede mostrar en el grosor del punto mostrado o bien como una etiqueta en dicho punto. Estos
diagramas nos resultarán muy útiles para indicarnos si existe relación o dependencia entre las dos
variables y medir el sentido y la intensidad de dicha relación.
En Mathematica , los diagramas de dispersión los representaremos con el comando diagDisper-
sion[var,frec] , definido al principio de este tema, donde var es la lista que define la variable bidi-
mensional y frec la que define sus frecuencias absolutas. En el caso de que éstas sean todas uno,
no es necesario escribir este segundo argumento. Así, el diagrama de dispersión de la variable
Gastos-Ventas viene dado por (estando la variable Gastos representada en el eje de abscisas y la
variable Ventas en el eje de ordenadas):
diagDispersion@gastosVentasD
5 10 15 20
600
800
1000
1200
1400
Por su parte, el diagrama de dispersión de la variable Edad-Altura (estando la variable Edad en el
eje de abscisas y la variable Altura en el de ordenadas) viene dado por:
diagDispersion@edadAlturaVal, edadAlturaFrecAbsD
Obsérvese que al pasar el cursor por encima de cada punto del diagrama se muestra la frecuencia
absoluta de dicho punto.
Dependencia y correlación entre variables
Al estudiar una variable estadística bidimensional surge la pregunta acerca de la posible relación
entre ambas variables. Ya apuntábamos antes la necesidad de abordar este concepto, conocido
como correlación o dependencia , el cual es uno de los estudios más importantes que se pueden
realizar entre dos variables.
Decimos que existe una dependencia funcional de Y sobre X cuando a cada valor de xk le pode-
mos asignar un único valor yj de forma que yj = f H xk L, es decir, cuando el valor de una variable
determina exactamente el valor de la otra. La dependencia funcional será lineal cuando todos los
pares de puntos se encuentren sobre una recta, y será curvilínea cuando se encuentren sobre la
curva definida por la función y = f H x L.
2 4 6 8 10 X
5
10
15
20
25
30
35
Y
Dependencia funcional directa
2 4 6 8 10 X
250
300
350
400
450
Y
Dependencia parabólica inversa
Decimos que las variables X e Y son independientes o incorreladas si el valor de una variable no
influye en el valor de la otra