













Prepara tus exámenes y mejora tus resultados gracias a la gran cantidad de recursos disponibles en Docsity
Gana puntos ayudando a otros estudiantes o consíguelos activando un Plan Premium
Prepara tus exámenes
Prepara tus exámenes y mejora tus resultados gracias a la gran cantidad de recursos disponibles en Docsity
Prepara tus exámenes con los documentos que comparten otros estudiantes como tú en Docsity
Encuentra los documentos específicos para los exámenes de tu universidad
Estudia con lecciones y exámenes resueltos basados en los programas académicos de las mejores universidades
Responde a preguntas de exámenes reales y pon a prueba tu preparación
Consigue puntos base para descargar
Gana puntos ayudando a otros estudiantes o consíguelos activando un Plan Premium
Comunidad
Pide ayuda a la comunidad y resuelve tus dudas de estudio
Ebooks gratuitos
Descarga nuestras guías gratuitas sobre técnicas de estudio, métodos para controlar la ansiedad y consejos para la tesis preparadas por los tutores de Docsity
unidad 3 sobre conceptos basicos de estadistica
Tipo: Apuntes
1 / 21
Esta página no es visible en la vista previa
¡No te pierdas las partes importantes!














Aunque la recolección y posterior presentación de los datos son dos componentes esenciales
de la Estadística Descriptiva no cuentan toda la historia. Un buen análisis de los datos implica la
presentación, en gráficos o tablas de distribución de frecuencias, de los datos numéricos recolecta-
dos, la observación (estudio) de lo que los datos tratan de transmitir y también la caracterización o
resumen de los aspectos claves y la descripción o análisis de los hallazgos.
En ésta unidad vamos a examinar éstos dos últimos aspectos: el resumen, descripción y fi-
nalmente la interpretación de los datos.
Las medidas descriptivas son medidas resumen, útiles para analizar e interpretar datos agru-
pados o no agrupados.
Las propiedades o características que describen un conjunto de datos pertenecientes a alguna
variable numérica o un fenómeno de interés son:
Posición
Dispersión
Forma
La posición se refiere al punto medio de la distribución. La posición de la curva B está a la
derecha de la posición de la curva A. La posición de la curva A es la misma de la curva C.
La dispersión se refiere a la extensión de los datos de una distribución, el grado en que las
observaciones se distribuyen. La curva C es más dispersa que la A.
En cuanto a la forma , si trazamos una línea vertical que pase por el punto más alto de la
curva y divide el área en dos partes iguales, decimos que la distribución es simétrica. Cada parte es
una imagen espejo de la otra.
La Curtosis también es una medida de forma y es el grado de apuntamiento de una distribu-
ción, normalmente se toma en relación a la distribución normal.
Es necesario comprender éstas características o propiedades de los datos numéricos y sus
medidas descriptivas de resumen como ayuda para el análisis e interpretación de los datos.
Si las medidas de resumen descriptivas se calculan con una muestra de datos se llaman es-
tadísticos , si se calculan a partir de toda una población de datos se denominan parámetros.
La mayor parte de los conjuntos de datos muestran una tendencia a agruparse o reunirse en
torno a cierto punto, denominado por ello medida de tendencia central , porque tiende a ubicarse
en el centro del conjunto, aunque a veces no se presenta esa ubicación central. Se denominan tam-
bién promedios porque en su cálculo intervienen todos los valores disponibles de la variable con la
que se está trabajando. Ejemplos: la media o el promedio aritmético y la media geométrica.
Las medidas de posición son valores que se calculan a partir de un conjunto de datos y tie-
nen la particularidad de ser representativos de ese conjunto. Su nombre proviene del hecho que,
siendo representativos del conjunto, indican, sobre un eje, la posición de todo el conjunto. Son
medidas en cuyo cálculo no intervienen todos los valores disponibles de la variable. Ejemplos: la
mediana; el modo y los cuantiles.
La media aritmética es la medida de tendencia central por excelencia debido a la sencillez de
su cálculo, al fácil manejo algebraico y a las amplias e interesantes propiedades que posee.
En el caso de los datos no agrupados , la media es la suma de los valores de la muestra, di-
vididos entre el número total de valores de la muestra.
En una muestra de n observaciones la media actúa como punto de equilibrio, de tal forma
que las observaciones menores compensan aquellas que son mayores. Como su cálculo se basa en
todas las observaciones, se ve afectada en gran medida por cualquier valor extremo. En estos casos
da una idea distorsionada de lo que los datos están tratando de transmitir, por lo que no sería la me-
jor medida para describir esos datos.
Cuando necesitamos conocer las medidas descriptivas a partir de datos agrupados porque:
los datos provienen de fuentes secundarias y están agrupados
no están disponibles los datos originales (datos brutos)
son muchos los datos con que contamos y construimos una distribución de frecuencias
todos los valores caen dentro de uno de los intervalos de clase y se consideran coinciden-
tes con los puntos medios (xi)
La media aritmética ( x ) se define técnicamente, presentando su fórmula de cálculo:
(^) n
i
i
i
n
i
i
f
xf
x
1
1 ,
denominada fórmula general o ponderada, debido a que las fi, que simbolizan las frecuencias de
los valores de la variable, ponderan a cada uno de ellos.
Si retomamos la distribución de frecuencias de los precios de los autos (miles de $)
x
Precios
(miles de $)
fi xi xifi
92 , 25 mil$ 80
f
xf x (^) n
i 1
i
i
n
i 1
i
Las medidas resumen descriptivas calculadas a partir de datos no agrupados, producen resul-
tados reales, si se calculan a partir de datos agrupados producen resultados aproximados.
Si calculamos la media del ejemplo anterior con los datos brutos, el resultado sería:
92 , 87 mil $ 80
n
x x
n
i 1
i
Vemos que la media aritmética obtenida a partir de datos agrupados se aproxima bastante a
la real. El precio promedio de los autos vendidos, trabajando con datos agrupados es de 92,25 mil $
y si trabajamos con los datos brutos el precio promedio de los autos vendidos es de 92,87 mil $
El cálculo de la media aritmética en distribuciones de frecuencia se realiza partiendo de las
siguientes condiciones y supuestos:
Debe respetarse la norma que indica que en el trabajo estadístico nunca se retrocede, por lo
que corresponde realizar los pasos apropiados para evitar retornar al conjunto de datos orde-
nados.
Los intervalos de clase tienen un Límite inferior y un Limite superior, pero éstos no pueden
ser tomados en cuenta para realizar el cálculo de la media aritmética
Los puntos medios de los intervalos de clase se convierten en los valores de la variable que
permitirán realizar el trabajo de cálculo, aplicando la fórmula ponderada de la media aritmé- tica, usando las fi para ponderar.
La media aritmética tiene la misma unidad de medida que la variable bajo estudio.
La media aritmética muestral y la media aritmética poblacional , tienen fórmulas de
cálculo, que si bien no son diferentes desde el punto de vista conceptual, tienen simbologías que las
distinguen entre sí.
3º. La sumatoria de los desvíos al cuadrado, entre los valores de la variable y un valor cons-
tante y arbitrario A, es un mínimo si A es igual a x. Esta propiedad es complementaria de la
anterior, y prácticamente cuando se cumple aquélla se cumple también ésta.
Tomemos en el caso de la Concesionaria 1, un valor de A = 40, para verificar esta pro- piedad
Concesionaria 1 (A = 40)
Edad
xi
x xi x
2 x (^) i x xi A
2 xi A
Las condiciones para que exista un mínimo son:
Primera derivada igual a cero
Segunda derivada mayor que cero
Esta propiedad se demuestra construyendo una función (^)
2
nimiza aplicando las reglas correspondientes de derivación. Luego:
^
2
x A A
x A
i
Puede observarse que la derivación se ha realizado respecto de A, que es arbitrario y
riable, que al valer x , hace mínima la función . Asimismo se iguala a cero la expresión por
condición de mínimo. Luego, como – 2 no es igual a cero, debe serlo la sumatoria. De allí
que
^ x^ i ^ A ^0 xi A ^0^.
Como A es una constante para la sumatoria
x n
x x nA A
i i^0
En el proceso aplicado debería ahora verificarse si el resultado hallado corresponde a
un mínimo o a un máximo. Sin embargo, en este caso no resulta necesario efectuar tal veri-
ficación: se sabe que el resultado corresponde a una cota mínima porque siendo x un va-
lor ubicado en el centro del conjunto, cualquier valor de A diferente (mayor o menor que x )
conduce a resultados mayores para , por lo que se ha demostrado esta tercera propiedad.
La suma de los cuadrados de las diferencias entre cada observación y su media debe
ser menor que la suma de las diferencias al cuadrado de cada observación y cualquier otro
valor seleccionado.
4º. Media aritmética de variables transformadas algebraicamente:
a. Si a todos los valores de una variable les sumamos o restamos un valor constante y ar-
bitrario A, obtenemos una nueva variable, cuya media aritmética será igual a la de la
variable original sumada o restada el valor de A.
En el caso de la Concesionaria 1, la edad media de los compradores es de 42 años,
Para verificar esta propiedad tomemos un valor de A = 10, para construir la nueva variable,
que si se verifica esta propiedad la media de la nueva variables debería ser de 52 años
( d xA)
Concesionaria 1 - (A = 10)
Edad
xi
di
n
d d
i
años
Para demostrar esta propiedad, supongamos tener una variable xi que tiene una media
x , y un valor arbitrario A, con los que construimos una variable di. Entonces (^) d (^) i xi A. La
media de d se obtiene haciendo
x A n
nA x n
n
x n
x A n
d n
d (^) i i i
b. Si a todos los valores de una variable los multiplicamos (o dividimos) por un valor
constante y arbitrario c, obtenemos una nueva variable cuya media aritmética será
igual a la de la variable original multiplicada (o dividida) por c.
En el caso de la Concesionaria 1, la edad media de los compradores es de 42 años, Para verificar esta propiedad tomemos un valor de c = 1,5, para construir la nueva variable,
que si se verifica esta propiedad debe tener una media de 63 años ( d xc)
Concesionaria 1 - (c = 1,5)
Edad
xi
c
tienen sus medias aritméticas respectivamente iguales a x e y. Construimos una variable di que
resulta ser la suma (o la diferencia) de las otras dos variables. Tenemos entonces
que di xi yi Al calcular la media de d, tenemos
(^) y x y n
x n
x y n
x y n
d n
d (^) i i i i i i i
La media aritmética tiene una importante cantidad de ventajas, pero tiene la siguiente des-
ventaja: está afectada por los valores extremos de la serie o conjunto de datos. En el siguiente
ejemplo se podrá verificar este hecho particular:
En la Concesionaria 1 la edad de los compradores es: 46, 26, 52, 46, 44 y 38, con una edad
promedio de 42 años.
Si tomamos una muestra de seis compradores en la Concesionaria 4, con los siguientes resulta-
dos: 46, 26, 76, 46, 44 y 38. Al tener un comprador de 76 años, en lugar del de 52, la edad pro-
medio se eleva a 46 años.
Media aritmética ponderada
La media aritmética ponderada , es una media, en la que se considera a cada uno de los va-
lores de la variable de acuerdo a la importancia relativa que tienen en el grupo, utilizando como
factor de ponderación wi
(^) n
i
i
i
n
i
i
w
xw
x
1
1
Ejemplo: La concesionaria vende cuatro modelos diferentes, con distintos márgenes de utili-
dad y diferentes cantidades vendidas
Modelo Margen de utilidad
Ventas (en millones de $)
xiwi
Total 27,2 % 58.000 303.
Si calculamos la media aritmética llegaríamos a la conclusión de que el margen de utilidad
promedio de la empresa es del 6,8%. Al observar las cantidades vendidas de cada modelo se obser-
va que las mayores ventas corresponden a los modelos de menor margen de utilidad, por lo que la
media aritmética simple no sería una medida adecuada.
n
x
x
n
i
i
En este caso se debe calcular la media ponderada, utilizando como factor de ponderación las
cantidades vendidas, obteniendo un margen de utilidad promedio del 5,2 %.
1
1
n
i
i
i
n
i
i
w
xw
x
La media geométrica de una serie n de números x 1 , x 2 , x 3 , ..., xn es la raíz enésima del pro-
ducto de los números
La Media geométrica ( xg ) se calcula aplicando las siguientes fórmulas
x (^) g xi
i
n
n
1
para datos no agrupados, y
i n
i
i g i
f
x x
f
1
para datos agrupados.
Esta medida de posición es la que se utiliza para calcular promedios en muchas variables
económicas: PBI, inversión, exportaciones, consumo, precios, etc.
Por ejemplo: si las tasas de crecimiento del PBI en los últimos 4 años fueron: 4%, 7%, - 2%
y 3%; para calcular la tasa media de crecimiento corresponde calcular la media geométrica, no la
aritmética, por que el crecimiento es acumulativo, se crece por sobre el crecimiento anterior. Para
ello, en primer lugar dividimos las tasas porcentuales por cien, de manera de expresar los datos en
tanto por uno, luego les sumamos uno y multiplicamos dichos resultados entre sí.
Xg = [(1 + 0,04) x (1 + 0,07) x (1 – 0,02) x (1 + 0,03)]
1/
Dicho resultado está expresado en tanto por uno. Si al mismo lo multiplicamos por cien,
queda expresado en porcentaje. Por ende, la tasa media anual de crecimiento del producto fue del
2,95%.
La Mediana ( Me ) es el valor de la variable que divide al conjunto de datos o a la distribu-
ción en dos partes iguales, dejando por debajo y por arriba de ella igual número de elementos. Apa-
rece en el medio de una sucesión ordenada de valores. La mitad de las observaciones del conjunto
de datos son menores que ella y la otra mitad de las observaciones son mayores.
También sobre el eje de las ordenadas se indica la Frecuencia acumulada anterior al va-
lor n/2 (indicada con Fa).
La Mediana, que se encontrará sobre el eje de las abscisas, estará ubicada en aquel inter-
valo de clase (gráficamente, en la base de uno de los rectángulos) cuya "Frecuencia acumulada
menor que" es igual o supera por primera vez al valor n/2.
Para determinar gráficamente cuál es ese intervalo, se traza una recta paralela al eje de las
abscisas a la altura del valor n/2. En el intervalo correspondiente al rectángulo que toque por prime-
ra vez esa recta se encontrará la Mediana. En el ejemplo, es el tercer intervalo de clase, y la Media-
na se encontrará entre los Verdaderos límites inferior (VLI) y superior (VLS) de ese intervalo
en cuestión.
Se conviene en que la exacta ubicación de la Mediana en el intervalo delimitado por sus VL,
es decir ya sea más hacia la derecha o más hacia la izquierda, dependerá de la siguiente relación:
cuánta más distancia exista entre Fa y n/2, más distancia deberá existir entre VLI y Me. A
partir de este principio, la diferencia (n/2 - Fa) dividido por todo lo que puede valer esa diferencia,
es decir la frecuencia de dicho intervalo de clase fm, debe ser equivalente a la diferencia (Me - VL)
dividido todo lo que puede valer esa diferencia, es decir la amplitud de intervalo de clase c. Esto
permite construir la siguiente fórmula:
c
Me VLI
m
f
a
n (^) F
De aquí se despeja Me, obteniéndose la siguiente expresión para el cálculo en distribuciones
de frecuencia:
c
m
f
a
n F
Me VLI
m
f
a
n F
Me VLI c
Se puede observar que:
Si Me VLI c f
n F n F f
m
a a m
Si Me VLI f
n F n F
m
a a
En el ejemplo del precio de los autos vendidos por una concesionaria, el cálculo de la Me-
diana se realiza de la siguiente forma:
Precios (miles de $)
Nº de autos
Verdadero Límite
Frecuencia
Acumulada Menor que
fi VL Fi
(-)
pera por primera vez a n/2. Se trata del tercer intervalo, en el que Fi es igual a 48 años.
VL = 84 Fa= 3 1 fm = 17 c= 1 2
Me mil $
Si el precio mediano es de $ 9 0 ,35 mil, nos está indicando que la mitad de los autos vendi-
dos tiene un precio superior a este importe.
Para poder deducir la fórmula de cálculo del Modo para datos agrupados , se recurre a pro-
cedimientos gráficos, teniendo presente que el Modo se encontrará en aquel intervalo de clase que
posea la máxima frecuencia absoluta. En este caso es el valor o los valores que corresponde al
máximo o máximos de la curva. Está en el o los intervalos de clase que tienen la mayor frecuencia,
por lo tanto, primero hay que identificar dicho o dichos intervalos y después obtener el modo por
interpolación.
En el gráfico siguiente el Modo se encontrará en el Intervalo de clase que posee la máxima
frecuencia, pero cumplirá con la siguiente condición: si la frecuencia absoluta del intervalo ante-
rior(fant) es mayor que la frecuencia absoluta del intervalo posterior (fpost), el Modo estará a la
izquierda del punto medio del intervalo modal, es decir más cerca del Verdadero Límite inferior.
Si en cambio la frecuencia absoluta del intervalo posterior es mayor que la frecuencia absoluta
del intervalo anterior, el Modo estará a la derecha del punto medio del intervalo que lo con-
tiene, es decir más cerca del Verdadero Límite superior. Este último es el caso planteado en el grá-
fico bajo estudio.
Para definir gráficamente la posición del Modo se trazan dos segmentos: el primero une la
frecuencia del intervalo que contiene al Modo con la frecuencia del intervalo anterior y el segundo
une la frecuencia del intervalo que contiene al modo con la frecuencia del intervalo posterior, con lo
cual, en la intersección, queda definida la posición del Modo.
Se ve claramente que la posición del Modo dependerá de las alturas particulares de los
rectángulos anterior y posterior al rectángulo central, por lo que, proyectado sobre el eje
de las abscisas, indicará la ubicación del Modo.
A la frecuencia modal menos la frecuencia anterior , la denominamos y a la fre-
cuencia modal menos la frecuencia posterior,
Quedan definidos dos triángulos semejantes entre sí, por ser opuestos por el vértice y es-
tán entre dos líneas paralelas. Cumpliéndose la propiedad que dice que la relación entre
su altura y su base son iguales, es decir que:
VLS Mo
Mo VLI
Además:VLS Mo VLIc Mo
Con estas consideraciones, tenemos que
1 2
Mo VLI VLI c Mo , a partir de la cual se despeja Mo.
Se efectúa un pasaje de los términos y:
Mo VLI VLI c Mo 2 1
Se eliminan los paréntesis:
Mo VLI VLI c Mo 2 2 1 1 1
Se efectúa pasaje de términos de manera tal que en el primer miembro de la igualdad
sólo se encuentren los términos que contengan Mo:
Mo Mo VLI VLI c 2 1 1 2 1
En el primer miembro de la igualdad, se extrae factor común Modo de (+), y en
el segundo miembro de la igualdad se extrae factor común VLI, también de (+):
Mo VLI c 1 2 1 2 1
Pasando el término (+) al segundo miembro dividiendo, se obtiene:
Mo VLI c VLI c
1 2
1
1 2
1
1 2
1 2
que resulta ser la fórmula buscada.
Sí Mo VLI
1 2
1 1
Sí Mo VLI c
1 2
1 2
Sí 1 2 el modo estará a la derecha (porque Mo > xi) del punto medio, es decir cerca
del verdadero límite superior.
Sí 2 1 el modo estará a la izquierda (porque Mo < xi) del punto medio del intervalo
que lo contiene, más cerca del verdadero límite inferior.
En el ejemplo del precio de los autos vendidos por una concesionaria, el cálculo del Modo se
realiza de la siguiente forma:
Los cuantiles más conocidos son: los cuartiles (Qi), que dividen al conjunto de datos en
cuatro partes iguales; los deciles (Di) que lo dividen en diez partes iguales, y los percentiles (Pi) ,
que dividen al conjunto en cien partes iguales.
Para dividir un conjunto de datos en n partes se necesitan (n-1) valores
Si una serie de datos se colocan en orden de magnitud creciente, los valores que dividen a
los datos en cuatro partes iguales se llaman cuartiles.
En el caso de datos no agrupados, para determinar la posición de los cuartiles:
Posición del Q 1 (primer cuartil): (n+1)/
Posición del Q 2 (segundo cuartil): 2(n+1)/
Posición del Q 3 (tercer cuartil): 3(n+1)/
Reglas utilizadas para obtener los valores de los cuartiles:
Si el punto de posicionamiento resultante es un entero, se elige la observación numérica par-
ticular correspondiente a ese punto de posicionamiento para el cuartil.
Si el punto de posicionamiento resultante está en el medio de dos enteros, el cuartil, es la media de esos dos valores
En los otros casos, se usa una regla simple para aproximar el cuartil particular que consiste
en redondear al punto de posicionamiento entero más cercano y seleccionar el valor numéri-
co de la observación correspondiente
En la Concesionaria 1 la edad de los compradores es
Edad
xi
n 1
1
Posición Q
38 ^ Q^1 ^ ^ ^ 3 , 5 4
2 n 1
2
Posición Q
46 ^ Q^3 ^ ^ ^ 5 , 25 4
3 n 1
3
Posición Q
Se comprueba además que la Mediana coincide con el cuartil segundo (Me=Q 2 ) y que los
cuartiles son tres.
A partir del hecho de que la Mediana y el cuartil segundo coinciden, se puede establecer que
la fórmula de cálculo para los cuartiles en el caso de datos agrupados puede ser obtenida a partir
de la fórmula de la Mediana. En ese caso, recordando que
c f
n
Me VLI
m
a
, análogamente c f
1 n
2
q
a
2
, y, del mismo modo, los cuartiles primero y tercero serán:
c f
1 n
1
q
a
1
, y c f
3 n
3
q
a
3
Al utilizar ésta fórmula modificada, en primer lugar se determina la clase que contiene el
punto de interés de acuerdo con las frecuencias acumuladas y después se interpola como en el caso
de la mediana.
En el ejemplo del precio de los autos vendidos por una concesionaria, el cálculo de los Cuar-
tiles se realiza de la siguiente forma:
1
78,26 mil $
Q Me 84 2
90,35 mil $
Q 104 mil $
Esto nos indica que el 25 % de los autos vendidos, más baratos, tienen un precio inferior a
78,26 mil pesos, la mitad de los autos vendidos tienen que superar los $ 90,35 mil y el precio más
bajo del 25% de los autos vendidos, más caros, es de $ 104 mil.
Si una serie de datos se coloca en orden de magnitud creciente, los valores que dividen a los
datos en diez partes iguales se llaman deciles. Se representan por D 1 , D 2 , D 3 ,…, D 9
En el caso de datos no agrupados, para determinar la posición de los Deciles:
Posición del Di (i-ésimodecil): i(n+1)/ 10
La fórmula para calcular los deciles con datos agrupados es:
c f
n i
D VLI
d i
a
i
En el ejemplo del precio de los autos vendidos por una concesionaria, calculamos los Deci-
les tercero y sexto de la siguiente forma: