
















Prepara tus exámenes y mejora tus resultados gracias a la gran cantidad de recursos disponibles en Docsity
Gana puntos ayudando a otros estudiantes o consíguelos activando un Plan Premium
Prepara tus exámenes
Prepara tus exámenes y mejora tus resultados gracias a la gran cantidad de recursos disponibles en Docsity
Prepara tus exámenes con los documentos que comparten otros estudiantes como tú en Docsity
Encuentra los documentos específicos para los exámenes de tu universidad
Estudia con lecciones y exámenes resueltos basados en los programas académicos de las mejores universidades
Responde a preguntas de exámenes reales y pon a prueba tu preparación
Consigue puntos base para descargar
Gana puntos ayudando a otros estudiantes o consíguelos activando un Plan Premium
Comunidad
Pide ayuda a la comunidad y resuelve tus dudas de estudio
Ebooks gratuitos
Descarga nuestras guías gratuitas sobre técnicas de estudio, métodos para controlar la ansiedad y consejos para la tesis preparadas por los tutores de Docsity
Introducción a la estadística descriptiva, su objetivo es extraer y resumir la información contenida en un conjunto de datos, se presentan conceptos básicos como variables cualitativas y cuantitativas, tablas de frecuencias, gráficos de sectores y histogramas, medidas de tendencia central como media y mediana, y estadísticas descriptivas para variables cuantitativas discretas y continuas.
Tipo: Apuntes
1 / 24
Esta página no es visible en la vista previa
¡No te pierdas las partes importantes!

















IV F. D. López: ÍNDICE
La estadística descriptiva surge de la necesidad de extraer y resumir la información conte- nida en un serie de datos observados (más o menos numerosos), ya que es complicado com- prender esta información por la mera observación del listado de dichos datos. Antes de iniciar cualquier estudio es necesario establecer los conceptos estadísticos que definen su ámbito de aplicación.
Definición 1.1. Llamaremos población a un conjunto delimitado y bien definido de elementos que pueden ser descritos mediante una serie de características (caracteres), a las que se refiere la investigación.
Definición 1.2. Llamaremos muestra a cualquier subconjunto de la población. Al número de individuos de la muestra le llamaremos tamaño de la muestra.
En estadística la selección de las muestras se hace de manera aleatoria, y el objetivo último no es conocer la información de la muestra en sí, sino «inferir»las características de la población a partir de las características de la muestra. Una vez establecido el marco de estudio analizaremos lo que se va estudiar, es decir, que carácter de esta población vamos a analizar. Estos caracteres, que denominaremos variables, pueden presentar en cada individuo de la población un valor, modalidad o categoría distinta. Las variables pueden ser
F. D. López: 1.2. Tablas de frecuencias y gráficas 3
TABLA 1.1. Tabla de frecuencias para una variable cualitativa
Carrera elegida Frecuenciasabsolutas Frecuenciasrelativas CIENCIAS 4 0 , 08 HUMANIDADES 8 0 , 16 SOCIALES 19 0 , 38 INGENIERÍAS 10 0 , 20 SANITARIAS 9 0 , 18
y, por lo tanto, sus áreas sean proporcionales a las frecuencias de cada modalidad. Es muy habitual completar el gráfico con los porcentajes de cada modalidad.
Para el ejemplo 1.1 se obtendría el gráfico de la fig. 1.1.
CIENCIAS 8 %
HUMANIDADES 16 % SOCIALES 38 %
INGENIERÍAS 20 %
SANITARIAS 18 %
FIG. 1.1. Ejemplo de gráfico de sectores
Otro tipo de gráfico es el diagrama de barras, que se representa sobre unos ejes de coor- denadas. En el eje de abscisas (horizontal) se indican las distintas modalidades y sobre ellas se dibuja una columna de altura proporcional a las frecuencias (fig. 1.3). También se pueden representar las frecuencias relativas.
4 F. D. López: 1. Estadística descriptiva
Frecuencias
CIENCIAS HUMANIDADES
SOCIALES INGENIERÍAS SANITARIAS
5
10
15
Carreras universitarias FIG. 1.2. Ejemplo de diagrama de barras
En el caso de variables cuantitativas, además de las frecuencias absolutas y relativas tiene interés las llamadas frecuencias acumuladas, que consisten en determinar el número de in- dividuos u observaciones menores o iguales a un valor dado. Las frecuencias acumuladas se calculan tanto para las frecuencias absolutas como para las relativas. La tabla quedaría como sigue.
Ejemplo 1.2. Supongamos una muestra de 30 familias de las que observamos el número de hijos. Los resultados, incluyendo las frecuencias absolutas están en la tabla 1.2.
TABLA 1.2. Tabla de frecuencias de una variable discreta
Número de hijos Frecuenciasabsolutas Frecuenciasrelativas Frecuenciasabs. ac. Frecuenciasrel. ac. 0 8 0 , 27 8 0 , 27 1 6 0 , 20 14 0 , 47 2 11 0 , 37 25 0 , 83 3 4 0 , 13 29 0 , 97 4 1 0 , 03 30 1
Para representar estos datos usaremos el diagrama de barras; si bien, sobre todo cuando la variable toma muchos valores distintos, se suele usar líneas en lugar de barras anchas. Con este tipo de gráfico se puede representar tanto las frecuencias absolutas y relativas como las
6 F. D. López: 1. Estadística descriptiva
TABLA 1.3. Tabla de frecuencias de variable continua agrupada en intervalos
Altura en cm Frecuenciasabsolutas Frecuenciasrelativas Frecuenciasabs. ac. Frecuenciasrel. ac. 150-160 13 0 , 13 13 0 , 13 160-170 33 0 , 33 46 0 , 46 170-180 37 0 , 37 83 0 , 83 180-190 15 0 , 15 98 0 , 98 190-200 2 0 , 02 100 1
Frecuencias
160 170 180 190 200
10
20
30
40
Altura FIG. 1.4. Ejemplo de histograma
La representación gráfica más usada para datos agrupados es el histograma. Está formado por un conjunto de rectángulos, cuyas áreas son proporcionales a las frecuencias de cada clase. Los rectángulos se dibujan sobre el intervalo de agrupación, de forma que la longitud de la base de cada rectángulo coincide con la amplitud del intervalo (la diferencia entre los extremos del intervalo). Obsérvese que los histogramas vienen determinados por el área de los rectángulos y no por la altura, como pasa en el diagrama de barras, lo que hay que tener en cuenta especialmente cuando las amplitudes de los intervalos son distintas (aunque no es lo general). El histograma 1.4 se ha obtenido de la tabla de frecuencias absolutas del ejemplo 1.3. Para obtener el polígono de frecuencias se une los puntos medios de los lados superiores de los rectángulos, que corresponden a las abscisas de las marcas de clase.
En ocasiones, en lugar de rectángulos se utilizan dibujos relacionados con el tipo de datos que usamos; por ejemplo, si hablamos de la producción de trigo de un país se dibuja una espiga
F. D. López: 1.3. Medidas estadísticas 7
u otra imagen, que tenga que ver con el tema, de tamaño proporcional a la producción. Estos gráficos se llaman pictogramas.
1.3. Medidas estadísticas
Las gráficas nos dan una primera aproximación a la información que contiene las observa- ciones. El siguiente paso es intentar resumir la información con determinados valores numé- ricos que podamos interpretar fácilmente y que, además, caractericen a la distribución de los datos. Referidas a la población, estas medidas reciben el nombre de parámetros y son fijos para cada población, aunque en la mayoría de los casos nos resulte imposible calcularlos; mien- tras que si se calculan con los datos de la muestras se denominan estadísticos, y dependen de cada muestra obtenido; es decir, que son «variables» y «aleatorios», ya que las muestras son aleatorias.^2 Las definiciones que damos a continuación se refieren a la muestra; es decir, que son esta- dísticos. Si bien, en esta parte de la asignatura no es necesario hacer hincapié en este hecho, lo importante es aprender a calcularlos e interpretarlos.
Estas medidas nos dan información sobre la localización o posición de los datos. Obvia- mente si queremos localizar los datos, debemos buscar valores centrados, esto corresponde a medidas de tendencia central; pero también es posible dar valores que den información sobre cualquier otra posición (no necesariamente el centro), esto corresponde a los percentiles. Supongamos que tenemos una muestra de n datos que, de manera general, denotaremos por x 1 , x 2 ,... , xn: podemos dar las siguiente definiciones.
Media aritmética Es la medida central por excelencia, representaría el «centro de gravedad» de las observaciones.
Definición 1.3. Se denomina media aritmética o, simplemente, media a la suma de todas las observaciones dividida entre el tamaño de la muestra. Se representa por ¯x.
Su expresión matemática es
x¯ = x 1 + x 2 + · · · + xn n =
∑n i= 1 xi n. (^2) En realidad, estadístico es cualquier función de una muestra y es un concepto más amplio, que se terminará de comprender en el tema de inferencia estadística.
F. D. López: 1.3. Medidas estadísticas 9
Ejemplo 1.6. (Cont. ej. 1.4) En el ejemplo, hay dos modas 1,2 y 1,5; que se repiten cuatro veces cada una.
Es fácil de calcular pero poco útil, su mayor interés radica en las variables cualitativas. La moda, como vemos en el ejemplo, no tiene porqué ser única.
Estas medidas nos indican si los valores se encuentran más o menos alejados unos de otros. Veamos un ejemplo sencillo: los datos { 7 , 9 , 11 } tienen la misma media que { 1 , 10 , 16 }; sin embargo, la dispersión o variabilidad del primer grupo es mucho menor que la del segundo.
Varianza y desviación típica Miden la dispersión de los datos respecto de la media.
Definición 1.6. La varianza muestral es «casi» el promedio de las diferencias al cuadrado de los valores respecto de la media, la denotaremos por s^2 y se define por
s^2 =
∑n i= 1 (xi^ −^ x¯)^2 n − 1.
La varianza de la población se denota por σ 2 y en este caso es un promedio exacto, esto es la suma de las desviaciones cuadráticas a la media de la población dividida entre el número total de individuos de la población. Se define por
σ 2 =
i= 1 (xi^ −^ μ)^2 N.
La varianza de la población suele ser desconocida y se estima a partir de la varianza muestral. En general, existe una relación entre las medidas de la población (parámetros) y las de las muestras (estadísticos). Por ejemplo, si la media de una población es μ, entonces se verifica que la media de todas las medias que se obtienen de las distintas muestras de un tamaño fijo n coincide con μ, es lo que se llama estadístico insesgado. Sin embargo, si definiéramos la varianza muestral como la media exacta de las desviaciones (análogo a la poblacional), la media de las varianzas obtenidas de todas las muestras de tamaño n no coincidiría con la varianza de la población. Esto es debido a que en el cálculo se utiliza la media muestral y no la media de la población, lo que provoca que uno de los datos esté ligado a los demás a través, precisamente, de la media muestral; además, las desviaciones alrededor de la media muestral tienden a ser un poco más pequeñas que las desviaciones alrededor de la media poblacional. Es por esto que se define la varianza muestral dividiendo las desviaciones entre n − 1 y no entre n.
10 F. D. López: 1. Estadística descriptiva
Para calcularla en la práctica se suele usar la fórmula
s^2 =
∑n i= 1 x^2 i −^ n^ x¯^2 n − 1. La varianza se mide en unidades al cuadrado de la variable, lo que puede dificultar su interpretación, por lo que se define una nueva medida expresada en las mismas unidades que la variable.
Definición 1.7. La desviación típica o estándar es la raíz cuadrada de la varianza, la denotare- mos por s. s =
s^2.
Ejemplo 1.7. (Cont. ej. 1.4) Con los datos anteriores
1 ,2 1,5 1,6 1,2 1,3 1,6 1,7 1,8 1,3 1,4 1,5 1,4 1,5 1,6 1,2 1,1 1,9 2,9 1,2 1, 5
la varianza es s^2 = 1 ,^2
(^2) + 1 , 52 + · · · + 1 , 52 − 20 · 1 , 522 19 =^0 ,^1522 y la desviación típica s =
√ s^2 = 0 , 39.
Coeficiente de variación Cuando se quiere comparar la dispersión de dos distribuciones, que vienen dadas en unidades o escalas, distintas se utiliza el coeficiente de dispersión, que viene dado por CV = (^) |s x¯|.
Este coeficiente es un indicador de dispersión que no tiene unidades y representa el «nú- mero de veces» que la desviación típica contiene a la media. Por lo general, se acostumbra a expresarlo en tanto por ciento; esto es,
CV = (^) |s x¯| · 100 %.
Ejemplo 1.8. (Cont. ej. 1.4) Siguiendo con el ejemplo de los caudales, se tiene que el coeficiente de variación (en tanto por ciento) es
CV = (^) |s x¯| · 100 = 01 ,,^3952 · 100 = 26 %
12 F. D. López: 1. Estadística descriptiva
El cuartil segundo corresponde a la mediana.
Recorrido intercuartílico y diagrama de caja-bigotes Asociado a los cuartiles se calcula la siguiente medida de dispersión
Definición 1.10. Se define el recorrido intercuartílico como la diferencia entre el tercer y el primer cuartil, lo denotaremos RI, RI = Q 3 − Q 1.
El recorrido intercuartílico se utiliza para detectar datos atípicos, ya que los datos que no están dentro del intervalo [Q 1 − 32 RI, Q 3 + 32 RI]
son considerados datos atípicos, observaciones anómalas u outliers. Está situación se representa en un diagrama de caja-bigotes, que permite visualizar, para un conjunto de datos, la tendencia central (mediana), la dispersión (recorrido intercuartílico) y la presencia posible de datos atípicos. En el diagrama de cajas se representa el primer cuartil, la mediana y el tercer cuartil, que aparecen formando una caja con una línea que la divide en dos partes no necesariamente simé- tricas. La mediana está representada por esta línea divisoria, mientras que los cuartiles están representados por las dos líneas que delimitan la caja y son paralelas a la línea de la mediana. También se dibuja dos líneas que van desde los cuartiles hasta el máximo y el mínimo de las observaciones no anómalas.
Ejemplo 1.10. (Cont. ej. 1.4) Sigamos con el ejemplo 1.4. El primer cuartil coincide con el percentil 25, ya calculado, y el tercer cuartil es 1,6, luego el recorrido intercuartílico es
RI = Q 3 − Q 1 = 1 , 6 − 1 , 25 = 0 ,35;
Por lo tanto el intervalo de observaciones que no son anómalas es [ 0 ,975; 2, 025 ].
Ê
1.1 1.2 1.5 1.6 1.9 2.
Min^ Q 1 Me Q 3 Max Hsin outliersL outlier
FIG. 1.5. Diagrama de cajas para el ejemplo 1.
F. D. López: 1.4. Variables bidimensionales y regresión 13
El diagrama de cajas para este ejemplo es el de la figura 1.5.^5 Se observa, además de que el valor 2 ,9 es una observación anómala, que la distancia del tercel cuartil a la observación máxima (excluido la anómala), el bigote superior, es mayor que la distancia desde el primer cuartil a la observación mínima, el bigote inferior, lo que indica que los datos más pequeños están más agrupados que los mayores, y los datos centrales alrededor de la mediana entre el primer y tercer cuartil, presentan una distribución más dispersa por debajo de la mediana que por encima.
1.4. Variables bidimensionales y regresión
Hasta aquí hemos considerado la descripción de una variable. Sin embargo, a menudo nos encontramos con la necesidad de observar dos (en ocasiones más) características que pueden estar relacionadas entre sí (por ejemplo, el peso y la altura). En este caso nos encontramos con n pares de valores (xi, yi).
La representación gráfica más usual para variables aleatorias bidimensionales es el gráfico de dispersión o nube de puntos. En unos ejes de ordenadas se representa cada par de valores, colocando en el eje X el valor de la primera variable y en el Y el de la segunda. Se tendrán tantos puntos como tamaño de la muestra.
Ejemplo 1.11. Por ejemplo, supongamos que la materia prima usada en la producción de cierto fibra sintética proviene de una localización donde no se realiza controles de humedad. Hemos medido la humedad relativa en dicha localización y el contenido de humedad de una muestra de materia prima tomada durante 15 días con los siguientes resultados (en tanto por ciento).
Humedad relativa 46 53 29 61 36 39 47 49 52 38 55 32 57 54 44 Contenido 12 15 7 17 10 11 11 12 14 9 16 8 18 14 12 de humedad
Para cada una de las variables unidimensionales X e Y se pueden determinar los estadísticos definidos anteriormente. Es posible calcular algunas características conjuntas. La más usual es
(^5) El programa Mathematica, con el que se ha hecho esta gráfica, toma el valor de los percentiles entre los de los datos; de ahí, que el cuartil primero valga 1,2 en lugar de 1,25. En realidad, todo el intervalo entre 1,2 y 1, 3 son cuartiles.
F. D. López: 1.4. Variables bidimensionales y regresión 15
Cuando nos refiramos a toda la población usaremos la notación del alfabeto griego ρ,
ρ = σxy σxσy^. Este coeficiente toma valores entre -1 y 1. Si el valor es negativo la relación entre las varia- bles es inversa y si es positivo es directa. Cuanto más cerca esté de 1 o -1 mayor será la relación lineal existente entre las variables. La ausencia de relación lineal (coeficiente de correlación lineal 0) no quiere decir independencia, ya que las variables pueden estar relacionadas por otro tipo de dependencia.
Ejemplo 1.12. (Cont. ej. 1.11) Calculemos el coeficiente de correlación lineal para el ejemplo 1.11; primero calculemos las media y desviaciones típicas marginales, que son:
x¯ = 46 ,13; y¯ = 12 ,4; sx = 9 ,59; sy = 3 , 25.
La covarianza es
sxy =
∑n i= 1 xiyi^ −^ n^ x¯^ y¯ n − 1 =^
46 · 12 + 53 · 15 + · · · + 44 · 12 − 15 · 46 , 13 · 12 , 4 14 =^29 ,^73.
Y, por último, la correlación r = (^) ssxy xsy = (^9) , 5929 ,·^73 3 , 25 = 0 ,95;
un valor muy alto, próximo a 1, por lo que podemos concluir que la relación lineal es muy alta.
En esta sección vamos a estudiar como construir un modelo que represente la dependencia lineal de una variable respecto de otra. Esos modelos son conocidos por modelos de regresión.^6 Estos modelos nos permiten predecir valores de una variable a partir de observaciones de la otra.
Regresión lineal
Veamos el modelo más sencillo, el llamado modelo lineal simple, que consiste en expresar una de las variables, Y (variable dependiente), en términos de la otra, X (variable independien- te), mediante una recta; esto es,
yi = a + bxi + ei (i = 1 ,... , n). (^6) El nombre se debe a Galton, que al estudiar la dependencia entre la altura de los padres y la de los hijos, observó que se daba una «regresión» a la media de la población: los hijos de padres más altos que la media tendían a ser más bajos y los de padres más bajos que la media tendían a a ser más altos que sus padres.
16 F. D. López: 1. Estadística descriptiva
ei es una variable que representa el error cometido en la estimación, ya que la dependencia no es funcional y existen factores aleatorios que no podemos controlar y nos provocara un error en la estimación de la variable Y. El objetivo, ahora, es determinar los valores de a y b. Para ello intentaremos buscar los valores que hagan mínimo los errores bajo cierto criterio, este criterio es el de minimizar la suma de los errores al cuadrado (criterio de mínimos cuadrados). Es decir, vamos a minimizar la función
Q(a, b) =
∑^ n i= 1
e^2 i =
i
(yi − a − bxi)^2.
Para minimizar, derivamos respecto de cada parámetro e igualamos a cero; se tiene
∂ Q(a, b) ∂ a =^ −^2
∑^ n i= 1
(yi − a − bxi) = 0 ,
∂ Q(a, b) ∂ b =^ −^2
∑^ n i= 1
xi(yi − a − bxi) = 0.
Si dividimos la primera ecuación entre − 2 n y la segunda entre −2 y despejamos conveniente- mente, llegamos a
y¯ = a + b x¯, ∑^ n i= 1
xiyi = an x¯ + b
∑^ n i= 1
x^2 i.
Esta ecuaciones son conocidas como ecuaciones normales de la regresión. Entonces, los valores que hacen mínimo los errores son las soluciones de este sistema son
b =
∑n ∑i=n^1 xiyi^ −^ n^ x¯^ y¯ i= 1 x^2 i −^ n^ x¯^2
= s sxy 2 x
a = y¯ − b x¯.
El valor de b se conoce por coeficiente de regresión. Desde un punto de vista práctico es más fácil plantear directamente la recta de regresión en la forma y − y¯ = s sxy 2 x
(x − x¯).
Ejemplo 1.13. (Cont. ej. 1.11) Calculemos la recta de regresión para el ejemplo 1.11. Ya vimos que los datos tenían un coeficiente de correlación alto, lo que nos indica que el ajuste por una recta será bueno. Planteamos la recta y − y¯ = s sxy 2 x
(x − x¯),