Docsity
Docsity

Prepara tus exámenes
Prepara tus exámenes

Prepara tus exámenes y mejora tus resultados gracias a la gran cantidad de recursos disponibles en Docsity


Consigue puntos base para descargar
Consigue puntos base para descargar

Gana puntos ayudando a otros estudiantes o consíguelos activando un Plan Premium


Orientación Universidad
Orientación Universidad


Cálculo de Parámetros Estadísticos de Variables Unidimensionales y Bidimensionales - Prof., Apuntes de Matemáticas

Una función matematica que calcula parámetros estadísticos descriptivos, incluyendo medidas de centralización, posición y dispersión, para variables unidimensionales y bidimensionales. Además, se muestra cómo representar la variable bidimensional en forma matricial y obtener variables unidimensionales por separado.

Tipo: Apuntes

2012/2013

Subido el 17/12/2013

jp_anthon
jp_anthon 🇪🇸

4.5

(4)

2 documentos

1 / 40

Toggle sidebar

Esta página no es visible en la vista previa

¡No te pierdas las partes importantes!

bg1
Estadística Descriptiva
Introducción
Podemos definir la Estadística como la ciencia que nos facilita los métodos precisos para la
obtención y descripción de datos, así como los métodos de análisis, interpretación y obtención de
conclusiones a partir de la información recogida. Estas dos vertientes dan lugar a dos partes bien
diferenciadas de la Estadística:
1
.
La Estadística descriptiva o deductiva, que tiene por objeto la recogida, ordenación,
análisis y representación de los datos obtenidos por las observaciones. En esta parte de la
Estadística no se hace uso del cálculo de probabilidades y se limita a realizar deducciones
directamente a partir de los datos y parámetros obtenidos.
2
.
La Estadística inferencial o inductiva, que tiene por objeto conocer y analizar un colectivo
a partir del estudio de una parte del mismo, llamado muestra. Esta parte de la Estadística
se apoya fuertemente en el cálculo de probabilidades.
Llamaremos población a cualquier colectivo de individuos u objetos de cualquier índole a los que
se puede asociar una o varias características comunes. Cada elemento de la población se denom-
ina individuo o unidad estadística. Es frecuente que el número de individuos de una población (lo
que se denomina tamaño de la misma) sea muy grande (posiblemente infinito), lo que aconseja
tomar una parte representativa de tamaño manejable, denominada muestra. A la elección de
muestras se le denomina muestreo y existen muchos criterios para realizar dicha selección. No
vamos a entrar en este tema, sino sólo digamos que cualquier individuo de la población debe tener
la misma probabilidad de estar en la muestra, que es mucho más importante la representatividad
de la muestra que su tamaño y que su composición debe estar en proporción con la composición
de la población.
Se denomina variable estadística a una característica, aspecto, fenómeno, rasgo o cualidad que
presenta cada individuo de la población y que puede tomar distintos valores (si se expresan numéri-
camente) o modalidades (en caso contrario). Se denotan por letras mayúsculas
H
X,Y,Z,
L
,
mientras que los valores que puede tomar la variable estadística X se denotan con letras minúscu-
las
H
x
1
,x
2
,x
3
,
L
. El conjunto de los valores o modalidades que puede tomar una variable estadís-
tica se llama dominio de dicha variable. Atendiendo a su dominio, las variables estadísticas se
clasifican en:
Variables estadísticas cualitativas: su dominio son valores no numéricos, es decir, que no se
pueden medir; por ejemplo, la profesión de una persona, su estado civil, el idioma elegido, etc.
Variables estadísticas cuantitativas: su dominio son valores numéricos que sí se pueden medir;
por ejemplo, la altura de una persona, el diámetro de una pieza de precisión, el cociente
intelectual de un alumno, etc. Si la variable cuantitativa sólo puede tomar un número finito de
valores distintos, se denomina variable cuantitativa discreta (por ejemplo, la edad de los
alumnos de una clase), mientras que en caso contrario se denomina variable cuantitativa
continua (por ejemplo, la presión sanguínea de los enfermos de un determinado hospital).
Normalmente, si una variable discreta puede tomar un elevado número de valores distintos, se
considera como si fuese también una variable conitinua.
En este tema vamos a considerar sólo variables estadísticas unidimensionales, con las que se
analiza un único carácter de los individuos de la población, y variables estadísticas bidimension-
ales, con las que se analiza la relación existente entre dos caracteres de los individuos de la
pf3
pf4
pf5
pf8
pf9
pfa
pfd
pfe
pff
pf12
pf13
pf14
pf15
pf16
pf17
pf18
pf19
pf1a
pf1b
pf1c
pf1d
pf1e
pf1f
pf20
pf21
pf22
pf23
pf24
pf25
pf26
pf27
pf28

Vista previa parcial del texto

¡Descarga Cálculo de Parámetros Estadísticos de Variables Unidimensionales y Bidimensionales - Prof. y más Apuntes en PDF de Matemáticas solo en Docsity!

Estadística Descriptiva

Introducción

Podemos definir la Estadística como la ciencia que nos facilita los métodos precisos para la

obtención y descripción de datos, así como los métodos de análisis, interpretación y obtención de

conclusiones a partir de la información recogida. Estas dos vertientes dan lugar a dos partes bien

diferenciadas de la Estadística:

1. La Estadística descriptiva o deductiva, que tiene por objeto la recogida, ordenación, análisis y representación de los datos obtenidos por las observaciones. En esta parte de la Estadística no se hace uso del cálculo de probabilidades y se limita a realizar deducciones directamente a partir de los datos y parámetros obtenidos. 2. La Estadística inferencial o inductiva, que tiene por objeto conocer y analizar un colectivo a partir del estudio de una parte del mismo, llamado muestra. Esta parte de la Estadística se apoya fuertemente en el cálculo de probabilidades.

Llamaremos población a cualquier colectivo de individuos u objetos de cualquier índole a los que

se puede asociar una o varias características comunes. Cada elemento de la población se denom-

ina individuo o unidad estadística. Es frecuente que el número de individuos de una población (lo

que se denomina tamaño de la misma) sea muy grande (posiblemente infinito), lo que aconseja

tomar una parte representativa de tamaño manejable, denominada muestra. A la elección de

muestras se le denomina muestreo y existen muchos criterios para realizar dicha selección. No

vamos a entrar en este tema, sino sólo digamos que cualquier individuo de la población debe tener

la misma probabilidad de estar en la muestra, que es mucho más importante la representatividad

de la muestra que su tamaño y que su composición debe estar en proporción con la composición

de la población.

Se denomina variable estadística a una característica, aspecto, fenómeno, rasgo o cualidad que

presenta cada individuo de la población y que puede tomar distintos valores (si se expresan numéri-

camente) o modalidades (en caso contrario). Se denotan por letras mayúsculas H X , Y , Z , …L,

mientras que los valores que puede tomar la variable estadística X se denotan con letras minúscu-

las H x 1 , x 2 , x 3 , …L. El conjunto de los valores o modalidades que puede tomar una variable estadís-

tica se llama dominio de dicha variable. Atendiendo a su dominio, las variables estadísticas se

clasifican en:

 Variables estadísticas cualitativas : su dominio son valores no numéricos, es decir, que no se

pueden medir; por ejemplo, la profesión de una persona, su estado civil, el idioma elegido, etc.

 Variables estadísticas cuantitativas : su dominio son valores numéricos que sí se pueden medir;

por ejemplo, la altura de una persona, el diámetro de una pieza de precisión, el cociente

intelectual de un alumno, etc. Si la variable cuantitativa sólo puede tomar un número finito de

valores distintos, se denomina variable cuantitativa discreta (por ejemplo, la edad de los

alumnos de una clase), mientras que en caso contrario se denomina variable cuantitativa

continua (por ejemplo, la presión sanguínea de los enfermos de un determinado hospital).

Normalmente, si una variable discreta puede tomar un elevado número de valores distintos, se

considera como si fuese también una variable conitinua.

En este tema vamos a considerar sólo variables estadísticas unidimensionales , con las que se

analiza un único carácter de los individuos de la población, y variables estadísticas bidimension-

ales , con las que se analiza la relación existente entre dos caracteres de los individuos de la

ales , con las que se analiza la relación existente entre dos caracteres de los individuos de la

población.

Dado que Mathematica dispone de un gran número de comandos estadísticos, utilizar todos los

que necesitamos en este tema puede ser una tarea larga y tediosa. Por ese motivo, hemos creado

algunos comandos nuevos de Mathematica que simplifiquen los cálculos estadísticos, cuyas

definiciones se muestran a continuación; dado que no son comandos del propio programa, habrá

que copiar y pegar dichas líneas en un cuaderno de Mathematica y ejecutarlas antes de poder

usarlos.

If@NameQ@"estaDescrip"D, Attributes@estaDescripD = 8 <D; estaDescrip@var_, opt_List: 8 <D := Module@ 8 locVal, lcVar, lcMed<, If@Length@varD  1, locVal = var@@ 1 DD, locVal = Flatten@ Table@Table@var@@1, iDD, 8 j, 1, var@@2, iDD<D, 8 i, 1, Length@var@@ 1 DDD<DDD; Print@Style@"Medidas de Centralización", Red, Bold, 16DD; lcMed = Mean@locValD; Print@Style@"Media: ", BoldD, lcMedD; Print@Style@"Mediana: ", BoldD, Median@locValDD; Print@Style@"Moda: ", BoldD, Commonest@locValDD; If@Length@optD > 0, 8 Print@D; Print@Style@"Medidas de Posición", Red, Bold, 16DD<D; For@i = 1, i ≤ Length@optD, i ++, Print@Style@"Percentil ", BoldD, Style@opt@@iDD, BoldD, Style@": ", BoldD, Quantile@locVal, opt@@iDD ê 100 DDD; Print@D; Print@Style@"Medidas de Dispersión", Red, Bold, 16DD; Print@Style@"Recorrido: ", BoldD, Max@locValD − Min@locValDD; Print@Style@"Desviación media: ", BoldD, MeanDeviation@locValDD; lcVar = CentralMoment@locVal, 2D; Print@Style@"Desviación típica: ", BoldD, Sqrt@lcVarDD; Print@Style@"Varianza: ", BoldD, lcVarD; Print@Style@"Coeficiente de variación: ", BoldD, Sqrt@lcVarD ê lcMedD; Print@D; Print@Style@"Medidas de Forma", Red, Bold, 16DD; Print@Style@"Coeficiente de sesgo: ", BoldD, Skewness@locValDD; Print@Style@"Coeficiente de curtosis: ", BoldD, Kurtosis@locValD − 3 D; Print@D; D estaDescrip::usage = "estaDescrip@8var<, 8 percen<D calcula los parámetros estadísticos de la variable cuyos valores están definidos en la lista 'var'. Si el argumento 'percen' está presente calcula también los percentiles que sepasen en dicha lista.

estaDescrip@8var,frec<, 8 percen<D calcula los parámetros estadísticos de la variable cuyos valores están definidos en la lista 'var' con frecuencias absolutas definidas en la lista 'frec'. Si el argumento 'percen' está presente calcula también los percentiles que sepasen en dicha lista."; Protect@estaDescripD; If@NameQ@"diagDispersion"D, Attributes@diagDispersionD = 8<D; diagDispersion@var_, frec_List: 8<D := Module@ 8 nSize<, nSize = Length@frecD; If@nSize  0, ListPlot@var, PlotStyle → 8 Black, PointSize@MediumD<D,

permitan resumir la información que nos facilita el conjunto de datos. Comenzamos esta sección

estableciendo la terminología básica de la disciplina que nos ocupa, para, a continuación, exponer

dos vías diferentes de organizar y representar el conjunto de datos: las tablas de frecuencias y las

representaciones gráficas. Por último, estudiaremos diferentes parámetros estadísticos que

resumen las propiedades de la variable.

Definición y presentación de datos

Dada una variable estadística cuantitativa discreta X , se llama frecuencia absoluta del valor xk , y

se representa por fk , al número de veces que aparece en una determinda muestra. Se llama

frecuencia relativa del valor xk , y se representa por hk , al cociente hk = f nk , siendo n el número de

individuos de la muestra. También podemos indicar la frecuencia relativa en términos de porcenta-

jes; se llama porcentaje del valor xk , y se representa por pk , a pk = 100 ÿ hk.

Si ordenamos los valores de la variable discreta X de menor a mayor, obtenemos una sucesión de

valores x 1 < x 2 < ∫ < xm , siendo m el número de valores distintos que toma dicha variable. En ese

caso, se llama frecuencia absoluta acumulada del valor xk , y se representa por Fk , a

Fk = f 1 + f 2 + ∫f k. De igual forma, se llama frecuencia relativa acumulada del valor xk , y se repre-

senta por Hk , a Hk = h 1 + h 2 + ∫ + hk = F nk. La tabla o distribución de frecuencias de una variable

estadística discreta está formada por cinco columnas: valores, frecuencias absolutas, frecuencias

relativas (o porcentajes), frecuencias absolutas acumuladas y frecuencias relativas acumuladas.

En caso de que la variable X sea continua (o bien discreta pero con un número muy grande de

posibles valores) es muy conveniente agrupar los datos en clases. Una clase es un intervalo

@ a , b L, de forma que un valor xk pertenece a dicha clase si a § xk < b (obsérvese que toda clase es

un intervalo cerrado por la izquierda y abierto por la derecha). Los extremos 8 a , b < del intervalo se

denominan límites de clase , y el punto medio J a + 2 b N se denomina marca de clase.

Con el fin de que la clasificación esté bien hecha, los intervalos se deben construir de la misma

amplitud y de forma que el límite superior de una clase coincida con el límite inferior de la sigu-

iente. Ahora bien, ¿cuál es el número idóneo de clases que debemos escoger a la hora de agru-

par? No existe una respuesta tajante a esta pregunta; uno de los criterios más sencillos establece

que el número de clases debe ser aproximadamente igual a la raíz cuadrada positiva del número

de datos.

Veamos ahora cómo podemos definir los valores xk de una variable estadística X con Mathemat-

ica , calcular sus frecuencias absolutas fk y representar gráficamente éstas. Estudiaremos por

separado los casos de variable discreta y de variable continua.

Variable estadística discreta

Consideremos primero una variable discreta; por ejemplo, supongamos que las notas de matemáti-

cas de 30 alumnos sean las siguientes :

Los valores de esta variable discreta se definen en Mathematica como una lista, es decir, separa-

dos por comas y encerrados entre sendas llaves:

notas = 8 5, 3, 4, 1, 2, 8, 9, 8, 7, 6, 6, 7, 9, 8, 7, 7, 1, 0, 1, 5, 9, 9, 8, 0, 8, 8, 8, 9, 5, 7<

8 5, 3, 4, 1, 2, 8, 9, 8, 7, 6, 6, 7, 9, 8, 7, 7, 1, 0, 1, 5, 9, 9, 8, 0, 8, 8, 8, 9, 5, 7<

Obsérvese que en este ejemplo hemos introducido los datos por filas, pero podríamos haberlos

introducido también por columnas. A la hora de definir la variable el orden en que introduzcamos

sus valores es indiferente. Sin embargo, conviene definirla reordenando los datos de menor a

mayor; para ello, usamos el comando Sort[var] :

notas = Sort@ 8 5, 3, 4, 1, 2, 8, 9, 8, 7, 6, 6, 7, 9, 8, 7, 7, 1, 0, 1, 5, 9, 9, 8, 0, 8, 8, 8, 9, 5, 7<D

8 0, 0, 1, 1, 1, 2, 3, 4, 5, 5, 5, 6, 6, 7, 7, 7, 7, 7, 8, 8, 8, 8, 8, 8, 8, 9, 9, 9, 9, 9<

Para obtener la distribución de frecuencias absolutas de una variable var podemos usar el

comando Tally[var]. Téngase presente que antes de aplicar este comando es recomendable que

la variable esté ordenada. Este comando devuelve una matriz con dos columnas; la primera

contiene los valores que toma la variable y la segunda sus respectivas frecuencias absolutas; para

visualizar el resultado como una matriz hemos de emplear el comando MatrixForm[mat] :

notas2 = Tally@notasD MatrixForm@notas2D

88 0, 2<, 8 1, 3<, 8 2, 1<, 8 3, 1<, 8 4, 1<, 8 5, 3<, 8 6, 2<, 8 7, 5<, 8 8, 7<, 8 9, 5<<

0 2 1 3 2 1 3 1 4 1 5 3 6 2 7 5 8 7 9 5

Es decir, hay 2 alumnos con un 0, 3 alumnos con un 1, y así sucesivamente. Podemos definir por

separado los valores de la variable y sus frecuencias absolutas en sendas variables, extrayendo la

primera y segunda columna, respectivamente; para ello, usamos el comando A[[All,k]] , el cual

extre la columna k-ésima de la matriz A.

notasValores = notas2@@All, 1DD notasFrecAbs = notas2@@All, 2DD

8 0, 1, 2, 3, 4, 5, 6, 7, 8, 9<

8 2, 3, 1, 1, 1, 3, 2, 5, 7, 5<

La distribución de frecuencias acumuladas se puede obtener aplicando el comando Accumu-

late[frec] , donde frec representa la lista que contiene las frecuencias absolutas:

notasFrecAbsAcum = Accumulate@notasFrecAbsD

8 2, 5, 6, 7, 8, 11, 13, 18, 25, 30<

Y la distribución de frecuencias relativas se obtiene dividiendo (cuando se aplica una operación

aritmética a una lista, se realiza dicha operación a cada elemento de ella) las frecuencias absolutas

por el número total de elementos de la muestra, el cual se puede obtener con el comando

Length[var] :

BarChart@notasFrecAbs, ChartLabels → notasValoresD

Obsérvese que al pasar el cursor por encima de una barra se muestra el valor correspondiente de

la frecuencia absoluta que representa dicha barra. Para conocer más opciones gráficas de este

comando podemos acudir a la ayuda de Mathematica.

También podemos representar gráficamente las frecuencias absolutas acumuladas:

BarChart@notasFrecAbsAcum, ChartLabels → notasValoresD

Hay ocasiones en las que los datos de que disponemos son las frecuencias absolutas de los

valores que toma una variable discreta; en estos casos, podemos definir directamente las dos

listas, correspondientes a sus valores y a sus frecuencias absolutas asociadas. Por ejemplo,

supongamos que en un muestreo realizado por una empresa con el fin de estudiar el número de

hijos por familia española se han encontrado los siguientes resultados:

Número de hijos 0 1 2 3 4 5

Número de familias 10 16 20 18 12 12

Entonces, la variable queda definida mediante las siguientes dos listas (es necesario escribir

ambas en el mismo orden, de manera que podamos asociar cada valor con su frecuencia absoluta):

nHijos = 8 0, 1, 2, 3, 4, 5< nFamilias = 8 10, 16, 20, 18, 12, 12<

8 0, 1, 2, 3, 4, 5<

8 10, 16, 20, 18, 12, 12<

En este caso, para saber el número total de individuos de la muestra hemos de sumar todas las

frecuencias absolutas, lo cual podemos hacer mediante el comando Total[lista] :

nFamTotal = Total@nFamiliasD

88

A partir de aquí las distribuciones de frecuencias acumuladas y relativas se calculan igual que

antes, así como los respectivos diagramas de barras.

Variable estadística continua

Consideremos ahora una variable continua. Por ejemplo, supongamos que las edades de las

personas que acuden a un logopeda son las que se reflejan en la siguiente tabla:

Consideremos esta variable como una variable continua, dada la gran diversidad de valores que

puede tomar. En Mathematica , los valores que toma una variable continua se pueden definir como

si fuese una variable discreta; es decir:

edadLogo = Sort@ 8 3, 2, 11, 13, 4, 3, 2, 4, 5, 6, 7, 3, 4, 5, 3, 2, 5, 6, 27, 15, 4, 21, 12, 4, 3, 6, 29, 13, 6, 17, 6, 13, 6, 5, 12, 26<D

8 2, 2, 2, 3, 3, 3, 3, 3, 4, 4, 4, 4, 4, 5, 5, 5, 5, 6, 6, 6, 6, 6, 6, 7, 11, 12, 12, 13, 13, 13, 15, 17, 21, 26, 27, 29<

El número de datos de los que disponemos nos lo da, como vimos antes, el comando Length[var] :

edadNum = Length@edadLogoD

36

En el caso de una variable continua no tiene sentido hallar las frecuencias absolutas de sus val-

ores, pues lo más problabe es que dicha frecuencia sea 0 o bien 1, lo cual aporta poca informa-

ción. Lo que sí puede ser muy útil es contar cuántos individuos tienen un valor de la variable

comprendido entre ciertos valores. En Mathematica , el comando BinCounts[var,{{a,b}}] devuelve

el número de individuos para los cuales se verifica que a § xk < b. Por ejemplo, podemos calcular

cuántos pacientes tienen una edad comprendida en el intervalo [12,18):

nInd = BinCounts@edadLogo, 88 12, 18<<D

87 <

Es decir, hay 7 pacientes con una edad mayor o igual que 12 años y menor que 18 años.

Como ocurría con las variables estadísticas discretas, una representación gráfica de la distribución

de frecuencias puede en muchos casos hacerla más clara y eficiente. Para variables estadísticas

continuas, o bien para variables estadísticas discretas con un gran número de datos, se suelen

emplear los denominados histogramas. Para construir un histograma se representan sobre el eje

de abscisas los límites de las clases. Sobre dicho eje se construyen rectángulos que tienen por

base la amplitud de cada clase y cuya altura es igual a la frecuencia absoluta correspondiente (con

mayor exactitud, dicha altura debería ser tal que el área de cada rectángulo fuese igual a la frecuen-

cia de la correspondiente clase, pero en Mathematica la altura de cada rectángulo conicide con la

frecuencia absoluta).

En Mathematica , el comando Histogram(datos,{{clases}}) representa gráficamente el histograma

de la variable estadística datos , agrupándola en las clases indicadas en el segundo argumento. Si

no escribimos el segundo argumento, Mathematica utiliza unas clases por defecto. Por ejemplo, el

histograma de las edades de los pacientes de un logopeda que nos ocupa se representa mediante

el siguiente comando:

Medidas características

Es frecuente que las observaciones a estudiar estén compuestas por una gran cantidad de datos,

por lo que se hace necesario complementar la información intuitiva que aportan las tablas de

frecuencias y las representaciones gráficas con un análisis estadístico numérico. La idea es

resumir toda la información de los datos en unos pocos, de manera que se conserve la mayor

información posible del conjunto total de ellos y el comportamiento global de la población o muestra

en estudio.

En esta sección se estudian los parámetros estadísticos que nos ayudan a emitir conclusiones

sobre las poblaciones en estudio y a hacer comparaciones entre ellas, ya que a través sólo de las

tablas y gráficos es posible que emitamos juicios no acertados.

Para calcular todos estos parámetros estadísticos emplearemos el comando estaDescrip definido

al principio de este cuaderno. Si de la variable conocemos todos los datos, estando definida por

tanto mediante una única lista var , sus parámetros estadísticos se calculan usando la sintaxis

estaDescrip[{var},percen] , donde el segundo argumento, percen , es opcional; si aparece, es una

lista que contiene los percentiles que queremos calcular, mientras que en caso contrario no se

calcula ningún percentil.

Por ejemplo, podemos calcular los parámetros estadísticos de la variable discreta notas , que

representaba las notas de matemáticas de 30 alumnos:

estaDescrip@ 8 notas<D

Medidas de Centralización

Media:

Mediana: 7

Moda: 88 <

Medidas de Dispersión

Recorrido: 9

Desviación media:

Desviación típica:

1537 5 6

Varianza:

Coeficiente de variación:

1537 5 35

Medidas de Forma

Coeficiente de sesgo: −

Coeficiente de curtosis: −

Para obtener expresionesdecimales de estos parámetros estadísticos podemos emplear el

comando N :

estaDescrip@N@ 8 notas<DD

Si de la variable conocemos sus valores y sus frecuencias absolutas, definidas en sendas listas val

y frec , respectivamente, sus parámetros estadísticos se calculan usando la sintaxis estaDescrip[{-

val,frec},percen] , donde el segundo argumento, percen , es opcional y representa lo mismo que en

el caso anterior.

Por ejemplo, podemos calcular los parámetros estadísticos de la variable continua alumnClases ,

con frecuencias alumnFrecAbs , que representaba el tiempo tardado por un conjunto de alumnos en

resolver un determinado problema de matemáticas:

estaDescrip@N@ 8 alumnClases, alumnFrecAbs<D, 8 25, 75<D

Medidas de Centralización

Media: 15.

Mediana: 17.

Moda: 8 17.<

Medidas de Posición

Percentil 25: 15.

Percentil 75 : 17.

Medidas de Dispersión

Recorrido: 8.

Desviación media: 2.

Desviación típica: 2.

Varianza: 5.

Coeficiente de variación: 0.

Medidas de Forma

Coeficiente de sesgo: − 0.

Coeficiente de curtosis: − 0.

En los siguientes apartados definiremos todas estas medidas características y estableceremos sus

principales propiedades.

Medidas de centralización

Al describir grupos de observaciones, con frecuencia es conveniente resumir la información con un

solo número. Este número que, para tal fin, suele situarse hacia el centro de la distribución de

datos se denomina medida de centralización. Estudiamos en este tema tres de las más impor-

tantes, como son la media , la mediana y la moda.

 Media

Consideremos una variable estadística X que toma los valores x 1 , x 2 , …, xn. Dada una distribu-

ción de N observaciones de dicha variable estadística en la que se alcanzan los valores anteriores

con frecuencias absolutas f 1 , f 2 , …, fn , respectivamente, se define la media de la distribución

como:

x =

N

k = 1

n

xk ÿ fk

Si la variable estadística X es continua y sus datos se encuentran agrupados en clases, se toman

como valores x 1 , x 2 , …, xn las marcas de cada clase.

La media es la medida de centralización más utilizada por su fácil cálculo y por tener en cuenta

todos los datos. Sin embargo, hay casos en los que se deben utilizar otras medidas de central-

ización. Por ejemplo, si la variable toma algunos valores extremos poco significativos, éstos

pueden distorsionar la media. Por otra parte, si los datos están agrupados en clases y alguna de

ellas es abierta, no es posible calcular la media.

 Mediana

Dada una variable estadística X , ordenemos en orden creciente de magnitud todos los valores que

toma, repetidos tantas veces como indique su frecuencia absoluta. Si el número de datos es impar,

la mediana de la distribución es el valor central, es decir, el valor tal que hay tantos valores por

debajo de él que por encima. Si el número de datos es par, la mediana es el valor medio de los dos

valores centrales.

La mediana es útil cuando entre los datos existe uno ostensiblemente extremo que distorsiona la

media o cuando no es posible calcular ésta. Por otra parte, en su cálculo mo utilizan todos los

datos de los que dispone, pues depende del orden de los datos y no de su valor.

En las variables que pueden representarse con histogramas, la mediana es el valor de la variable

tal que la vertical levantada sobre el mismo divide al histograma en dos partes de igual área.

 Moda

Dada una variable estadística X , se llama moda de la distribución al valor de dicha variable que

presenta mayor frecuencia absoluta. Si la variable estadística está agrupada en clases, se llama

clase modal a la clase de mayor frecuencia absoluta. La moda no tiene por qué ser única, puesto

que puede haber varios valores de la variable que alcancen la misma frecuencia absoluta máxima.

Se dice en este caso que la distribución es bimodal, trimodal, etc.

En el cálculo de la moda no intervienen todos los datos de los que se dispone, pues sólo repre-

senta el valor dominante, y no existe si la frecuencia es constante.

Medidas de posición

Las medidas de posición de una variable estadística dividen ésta en grupos con el mismo número

de individuos. Para calcular las medidas de posición es necesario que los valores de la variable

estadística estén ordenados de menor a mayor. Las principales medidas de posición son los

percentiles y los cuartiles.

Al igual que la mediana de una variable estadística dividía el conjunto de valores de ésta en dos

partes con el mismo número de individuos, se llaman percentiles a 99 valores de la variable

estadística que dividen la serie de datos en 100 partes iguales. Es decir, el percentil 15 (que se

representa como P 15 ) es el valor que debe tomar la variable estadística dada para que como

máximo el 15% de los datos queden por debajo de él y como máximo el restante 85% de los datos

queden por encima de él.

Se llaman cuartiles de una variable estadística a tres valores que dividen la serie de datos en

cuatro partes iguales. Corresponden a los percentiles P 25 , P 50 y P 75 y se denotan por Q 1 , Q 2 y Q 3 ,

respectivamente.

Medidas de dispersión

La investigación acerca de una variable estadística queda incompleta si sólo se estudian las medi-

das de centralización, siendo imprescindible conocer si los datos numéricos están concentrados o

CV = †s x §. En ocasiones se multiplica este coeficiente por 100 para proporcionar valores per-

centuales. El coeficiente de variación de una población homogénea es típicamente menor que la

unidad. Si este coeficiente es mayor que 1.5 conviene estudiar posibles fuentes de heterogeneidad

en los datos (utilización de distintos instrumentos de medida, distintos momentos temporales, etc.).

Algunas veces resulta deseable comparar diversos grupos en relación a su relativa homogeneidad

cuando los grupos tienen medias diferentes, pero puede motivar cierta confusión la comparación

de las magnitudes absolutas de las deviaciones típicas. En esos casos resulta aconsejable utilizar

como elemento de comparación la desviación típica en relación a la media, es decir, el coeficiente

de variación.

Medidas de forma

La forma de la representación gráfica de una distribución de frecuencias proporciona en muchas

ocasiones información útil sobre la variable estadística analizada. Las dos características de forma

más importante son la de asimetría o sesgo , que establece si la distribución es simétrica respecto

de la media o no, y la de apuntamiento o curtosis , que señala si la distribución es más punti-

aguda o más plana que la distribución normal, también conocida como campana de Gauss.

 Asimetría o sesgo

Consideremos una variable estadística X que toma los valores x 1 , x 2 , …, xn. Dada una distribu-

ción de N observaciones de dicha variable estadística en la que se alcanzan los valores anteriores

con frecuencias absolutas f 1 , f 2 , …, fn , respectivamente, se define el coeficiente de asimetría o

coeficiente de sesgo como:

g 3 =

s^3

N

k = 1

n

fk ÿH xk - x L^3

siendo s la desviación típica de la variable y x su media.

Si g 3 = 0, la distribución es simétrica respecto de la mediana; entonces, si la distribución es uni-

modal, las tres medidas de centralización, meda, mediana y moda, coinciden.

Si g 3 > 0, la distribución presenta asimetría positiva; entonces, dicha distribución está sesgada a la

derecha, viéndose en su representación gráfica una cola para valores mayores de la mediana.

Si g 3 < 0, la distribución presenta asimetría negativa; entonces, dicha distribución está sesgada a la

izquierda, viéndose en su representación gráfica una cola para valores menores de la mediana.

 Apuntamiento o curtosis

Consideremos una variable estadística X que toma los valores x 1 , x 2 , …, xn. Dada una distribu-

ción de N observaciones de dicha variable estadística en la que se alcanzan los valores anteriores

con frecuencias absolutas f 1 , f 2 , …, fn , respectivamente, se define el coeficiente de apun-

tamiento o coeficiente de curtosis como:

g 4 =

s^4

N

k = 1

n

fk ÿH xk - x L^4 - 3

siendo s la desviación típica de la variable y x su media.

Este coeficiente indica el grado de elevación del diagrama de barras de las frecuencias relativas de

la distribución. Este grado de elevación se traduce en el reparto de la frecuencia entre el centro y

los extremos de la gráfica. Como medida de referencia de dicho grado de elevación se toma la

curva normal o campana de Gauss, la cual se muestra en la siguiente figura:

Si g 4 = 0, la distribución presenta el mismo grado de elevación que la curva normal con la misma

varianza y se denomina distribución mesocúrtica.

Si g 4 > 0, la distribución es más apuntada que la curva normal con la misma varianza y se denom-

ina distribución leptocúrtica.

Si g 4 < 0, la distribución es menos apuntada que la curva normal con la misma varianza y se denom-

ina distribución platicúrtica.

Variables estadísticas bidimensionales

Dedicamos esta sección al estudio de las variables estadísticas bidimensionales, aunque gran

parte de las conclusiones y métodos utilizados se pueden extrapolar a variables multidimension-

ales. Empezaremos analizando cómo definir y representar gráficamente dichas variables, y pasare-

mos a continuación al estudio de la dependencia que puede existir entre ambas variables, con-

cepto conocido como correlación.

Definición y presentación de datos

Sea ( X , Y ) una variable estadística bidimensional donde las variables unidimensionales X e Y

adoptan los valores x 1 , x 2 , ..., xn e y 1 , y 2 , ..., yn , respectivamente. Así, los datos para la variable

bidimensional son pares de valores de la forma I xk , yj M. En el caso de que alguna de las variables

sea continua y esté agrupada en clases, consideraremos sólo sus marcas de clase.

Se llama frecuencia absoluta del par I xk , yj M, y se denota por f kj, al número de veces que se

repite dicho par en los datos. Si N es el número total de observaciones, se llama frecuencia rela-

tiva del par I xk , yj M, y se denota por h kj, a h kj = f N kj.

Cuando cada par de la variable se presenta con frecuencia absoluta uno, los datos suelen venir

dados por una tabla, en la cual cada fila representa una de las variables y cada columna al mismo

individuo. Por ejemplo, la siguiente tabla muestra tanto el gasto invertido en publicidad como las

ventas (ambas en miles de €) realizados por una empresa durante los últimos años:

Gastos publicidad 4.2 8.4 12 8.4 15 16.8 17.4 18.6 21

Ventas 480 660 1080 900 1200 1330 1380 1435 1490

En Mathematica , definimos esta variable estadística bidimensional encerrando cada par de datos

entre llaves, y todos los datos entre otras llaves, como se muestra a continuación:

Length@edadAlturaValD Length@edadAlturaFrecAbsD

10

10

Extrayendo como antes las dos columnas de la variable bidimensional definida y eliminando duplici-

dades con el comando DeleteDuplicates[lista] de Mathematica , pordemos obtener las variables

unidimensionales por separado:

edad = DeleteDuplicates@edadAlturaVal@@All, 1DDD altura = DeleteDuplicates@edadAlturaVal@@All, 2DDD

8 17, 18, 19, 20<

8 1.7, 1.8, 1.9<

Las respectivas frecuencias absolutas de cada variable se obtienen sumando las frecuencias

absolutas de la tabla de doble entrada por filas y por columnas, respectivamente:

edadFrecAbs = 83 + 5 + 1, 4 + 10 + 2, 4 + 2 + 0, 0 + 1 + 3 < alturaFrecAbs = 83 + 4 + 4 + 0, 5 + 10 + 2 + 1, 1 + 2 + 0 + 3 <

8 9, 16, 6, 4<

8 11, 18, 6<

Los diagramas de dispersión o nubes de puntos son las representaciones más utilizadas para

mostrar gráficamente los datos de una variable estadística bidimensional. Consisten en un sis-

tema de ejes coordenados representando en el eje de abscisas los valores de la variable X y en el

de ordenadas los de la variable Y, de forma que cada punto del plano corresponde a un valor

I xj , yk M de la variable bidimensional. La frecuencia absoluta de cada uno de estos pares de valores

se puede mostrar en el grosor del punto mostrado o bien como una etiqueta en dicho punto. Estos

diagramas nos resultarán muy útiles para indicarnos si existe relación o dependencia entre las dos

variables y medir el sentido y la intensidad de dicha relación.

En Mathematica , los diagramas de dispersión los representaremos con el comando diagDisper-

sion[var,frec] , definido al principio de este tema, donde var es la lista que define la variable bidi-

mensional y frec la que define sus frecuencias absolutas. En el caso de que éstas sean todas uno,

no es necesario escribir este segundo argumento. Así, el diagrama de dispersión de la variable

Gastos-Ventas viene dado por (estando la variable Gastos representada en el eje de abscisas y la

variable Ventas en el eje de ordenadas):

diagDispersion@gastosVentasD

5 10 15 20

600

800

1000

1200

1400

Por su parte, el diagrama de dispersión de la variable Edad-Altura (estando la variable Edad en el

eje de abscisas y la variable Altura en el de ordenadas) viene dado por:

diagDispersion@edadAlturaVal, edadAlturaFrecAbsD

Obsérvese que al pasar el cursor por encima de cada punto del diagrama se muestra la frecuencia

absoluta de dicho punto.

Dependencia y correlación entre variables

Al estudiar una variable estadística bidimensional surge la pregunta acerca de la posible relación

entre ambas variables. Ya apuntábamos antes la necesidad de abordar este concepto, conocido

como correlación o dependencia , el cual es uno de los estudios más importantes que se pueden

realizar entre dos variables.

Decimos que existe una dependencia funcional de Y sobre X cuando a cada valor de xk le pode-

mos asignar un único valor yj de forma que yj = f H xk L, es decir, cuando el valor de una variable

determina exactamente el valor de la otra. La dependencia funcional será lineal cuando todos los

pares de puntos se encuentren sobre una recta, y será curvilínea cuando se encuentren sobre la

curva definida por la función y = f H x L.

2 4 6 8 10 X

5

10

15

20

25

30

35

Y

Dependencia funcional directa

2 4 6 8 10 X

250

300

350

400

450

Y

Dependencia parabólica inversa

Decimos que las variables X e Y son independientes o incorreladas si el valor de una variable no

influye en el valor de la otra