Prepara tus exámenes
Consigue puntos
Orientación Universidad
Vende en Docsity
Docsity AI

Prepara tus exámenes

Prepara tus exámenes y mejora tus resultados gracias a la gran cantidad de recursos disponibles en Docsity

Consigue puntos base para descargar

Gana puntos ayudando a otros estudiantes o consíguelos activando un Plan Premium

Orientación Universidad

Vende en Docsity

Docsity AI

Inicia sesión Regístrate

Prepara tus exámenes

Prepara tus exámenes y mejora tus resultados gracias a la gran cantidad de recursos disponibles en Docsity

Busca documentos

Prepara tus exámenes con los documentos que comparten otros estudiantes como tú en Docsity

Busca tu universidad

Encuentra los documentos específicos para los exámenes de tu universidad

Video Cursos

Estudia con lecciones y exámenes resueltos basados en los programas académicos de las mejores universidades

Quiz

Responde a preguntas de exámenes reales y pon a prueba tu preparación

Docsity AINEW

Resume tus documentos, hazles preguntas, conviértelos en quiz y mapas conceptuales

Ver preguntas

Despeja tus dudas leyendo las respuestas a las preguntas que realizaron otros estudiantes como tú

Consigue puntos base para descargar

Gana puntos ayudando a otros estudiantes o consíguelos activando un Plan Premium

Compartir documentos

20 Puntos

Por cada documento subido

Responde a las preguntas

5 Puntos

por cada respuesta dada (máx. 1 al día)

Todos los modos para conseguir puntos gratis

Consigue puntos de inmediato

Elige un plan Premium con todos los puntos que necesitas.

Oportunidades de estudio

Elige tu próximo programa de estudio

Ponte en contacto inmediatamente con las mejores universidades del mundo. Busca entre miles de universidades en todo el mundo. Busca entre miles de universidades partner oficiales

Comunidad

Pregúntale a la comunidad

Pide ayuda a la comunidad y resuelve tus dudas de estudio

Ebooks gratuitos

¡Nuestros e-books salva-estudiantes!

Descarga nuestras guías gratuitas sobre técnicas de estudio, métodos para controlar la ansiedad y consejos para la tesis preparadas por los tutores de Docsity

Estadística Descriptiva: Tablas, Gráficos y Análisis de Variables - Prof. 3385, Apuntes de Estadística

Universidad de Málaga (UMA)Estadística

Introducción a la estadística descriptiva, su objetivo es extraer y resumir la información contenida en un conjunto de datos, se presentan conceptos básicos como variables cualitativas y cuantitativas, tablas de frecuencias, gráficos de sectores y histogramas, medidas de tendencia central como media y mediana, y estadísticas descriptivas para variables cuantitativas discretas y continuas.

Tipo: Apuntes

2013/2014

Subido el 10/05/2014

antonioburgos95 🇪🇸

1 documento

1 / 24

Esta página no es visible en la vista previa

¡No te pierdas las partes importantes!

ESTADÍSTICA

TEMA 1: ESTADÍSTICA DESCRIPTIVA

F. Demetrio López Romero

Curso 2013–14

Descubre Apuntes de Estadística Universidad de Málaga (UMA)

Documentos relacionados

Estadística: Introducción a la Estadística Descriptiva y Frecuencia - Prof. Calasanz

Tipos de Variables: Ejemplos de Cualitativas y Cuantitativas

Retos de Mateemática: Variables Estadísticas - Tipos de Variables

Tipos de variables en Estadística: Cuantitativas y Cualitativas

Dossier de Matemáticas: Estadística I y Probabilidad - Cursos 2018-2019, CFA Cardedeu

Representaciones Gráficas: Tipos de Variables y Diagramas - Prof. Parra Contreras

Variables Estadísticas: Cuantitativas vs. Cualitativas

Análisis Estadístico: Variables, Escalas de Medida y Correlaciones - Prof. Ortega

(1)

Tipo de variables y su clasificaciòn

TIPOS DE VARIABLES ESTADÍSTICAS

(1)

Ejercicios Resueltos de Probabilidad y Variables Aleatorias

Clasificación de Variables: Cualitativas vs. Cuantitativas

Vista previa parcial del texto

¡Descarga Estadística Descriptiva: Tablas, Gráficos y Análisis de Variables - Prof. 3385 y más Apuntes en PDF de Estadística solo en Docsity!

ESTADÍSTICA

TEMA 1: ESTADÍSTICA DESCRIPTIVA

F. Demetrio López Romero

Curso 2013–

IV F. D. López: ÍNDICE

Tema 1

ESTADÍSTICA DESCRIPTIVA

1.1. Introducción

La estadística descriptiva surge de la necesidad de extraer y resumir la información conte- nida en un serie de datos observados (más o menos numerosos), ya que es complicado com- prender esta información por la mera observación del listado de dichos datos. Antes de iniciar cualquier estudio es necesario establecer los conceptos estadísticos que definen su ámbito de aplicación.

Definición 1.1. Llamaremos población a un conjunto delimitado y bien definido de elementos que pueden ser descritos mediante una serie de características (caracteres), a las que se refiere la investigación.

Definición 1.2. Llamaremos muestra a cualquier subconjunto de la población. Al número de individuos de la muestra le llamaremos tamaño de la muestra.

En estadística la selección de las muestras se hace de manera aleatoria, y el objetivo último no es conocer la información de la muestra en sí, sino «inferir»las características de la población a partir de las características de la muestra. Una vez establecido el marco de estudio analizaremos lo que se va estudiar, es decir, que carácter de esta población vamos a analizar. Estos caracteres, que denominaremos variables, pueden presentar en cada individuo de la población un valor, modalidad o categoría distinta. Las variables pueden ser

Variables cualitativas o nominales cuando no son medibles; es decir, que no toman valo- res numéricos, como el sexo, la profesión, los gustos, etc.
Variables cuantitativas o numéricas cuando son medibles y, por tanto, toman valores numéricos (la altura, la velocidad, etc.).

F. D. López: 1.2. Tablas de frecuencias y gráficas 3

TABLA 1.1. Tabla de frecuencias para una variable cualitativa

Carrera elegida Frecuenciasabsolutas Frecuenciasrelativas CIENCIAS 4 0 , 08 HUMANIDADES 8 0 , 16 SOCIALES 19 0 , 38 INGENIERÍAS 10 0 , 20 SANITARIAS 9 0 , 18

y, por lo tanto, sus áreas sean proporcionales a las frecuencias de cada modalidad. Es muy habitual completar el gráfico con los porcentajes de cada modalidad.

Para el ejemplo 1.1 se obtendría el gráfico de la fig. 1.1.

CIENCIAS 8 %

HUMANIDADES 16 % SOCIALES 38 %

INGENIERÍAS 20 %

SANITARIAS 18 %

FIG. 1.1. Ejemplo de gráfico de sectores

Otro tipo de gráfico es el diagrama de barras, que se representa sobre unos ejes de coor- denadas. En el eje de abscisas (horizontal) se indican las distintas modalidades y sobre ellas se dibuja una columna de altura proporcional a las frecuencias (fig. 1.3). También se pueden representar las frecuencias relativas.

4 F. D. López: 1. Estadística descriptiva

Frecuencias

CIENCIAS HUMANIDADES

SOCIALES INGENIERÍAS SANITARIAS

Carreras universitarias FIG. 1.2. Ejemplo de diagrama de barras

1.2.2. Variables cuantitativas discretas

En el caso de variables cuantitativas, además de las frecuencias absolutas y relativas tiene interés las llamadas frecuencias acumuladas, que consisten en determinar el número de in- dividuos u observaciones menores o iguales a un valor dado. Las frecuencias acumuladas se calculan tanto para las frecuencias absolutas como para las relativas. La tabla quedaría como sigue.

Ejemplo 1.2. Supongamos una muestra de 30 familias de las que observamos el número de hijos. Los resultados, incluyendo las frecuencias absolutas están en la tabla 1.2.

TABLA 1.2. Tabla de frecuencias de una variable discreta

Número de hijos Frecuenciasabsolutas Frecuenciasrelativas Frecuenciasabs. ac. Frecuenciasrel. ac. 0 8 0 , 27 8 0 , 27 1 6 0 , 20 14 0 , 47 2 11 0 , 37 25 0 , 83 3 4 0 , 13 29 0 , 97 4 1 0 , 03 30 1

Para representar estos datos usaremos el diagrama de barras; si bien, sobre todo cuando la variable toma muchos valores distintos, se suele usar líneas en lugar de barras anchas. Con este tipo de gráfico se puede representar tanto las frecuencias absolutas y relativas como las

6 F. D. López: 1. Estadística descriptiva

TABLA 1.3. Tabla de frecuencias de variable continua agrupada en intervalos

Altura en cm Frecuenciasabsolutas Frecuenciasrelativas Frecuenciasabs. ac. Frecuenciasrel. ac. 150-160 13 0 , 13 13 0 , 13 160-170 33 0 , 33 46 0 , 46 170-180 37 0 , 37 83 0 , 83 180-190 15 0 , 15 98 0 , 98 190-200 2 0 , 02 100 1

Frecuencias

160 170 180 190 200

Altura FIG. 1.4. Ejemplo de histograma

La representación gráfica más usada para datos agrupados es el histograma. Está formado por un conjunto de rectángulos, cuyas áreas son proporcionales a las frecuencias de cada clase. Los rectángulos se dibujan sobre el intervalo de agrupación, de forma que la longitud de la base de cada rectángulo coincide con la amplitud del intervalo (la diferencia entre los extremos del intervalo). Obsérvese que los histogramas vienen determinados por el área de los rectángulos y no por la altura, como pasa en el diagrama de barras, lo que hay que tener en cuenta especialmente cuando las amplitudes de los intervalos son distintas (aunque no es lo general). El histograma 1.4 se ha obtenido de la tabla de frecuencias absolutas del ejemplo 1.3. Para obtener el polígono de frecuencias se une los puntos medios de los lados superiores de los rectángulos, que corresponden a las abscisas de las marcas de clase.

En ocasiones, en lugar de rectángulos se utilizan dibujos relacionados con el tipo de datos que usamos; por ejemplo, si hablamos de la producción de trigo de un país se dibuja una espiga

F. D. López: 1.3. Medidas estadísticas 7

u otra imagen, que tenga que ver con el tema, de tamaño proporcional a la producción. Estos gráficos se llaman pictogramas.

1.3. Medidas estadísticas

Las gráficas nos dan una primera aproximación a la información que contiene las observa- ciones. El siguiente paso es intentar resumir la información con determinados valores numé- ricos que podamos interpretar fácilmente y que, además, caractericen a la distribución de los datos. Referidas a la población, estas medidas reciben el nombre de parámetros y son fijos para cada población, aunque en la mayoría de los casos nos resulte imposible calcularlos; mien- tras que si se calculan con los datos de la muestras se denominan estadísticos, y dependen de cada muestra obtenido; es decir, que son «variables» y «aleatorios», ya que las muestras son aleatorias.^2 Las definiciones que damos a continuación se refieren a la muestra; es decir, que son esta- dísticos. Si bien, en esta parte de la asignatura no es necesario hacer hincapié en este hecho, lo importante es aprender a calcularlos e interpretarlos.

1.3.1. Medidas de tendencia central

Estas medidas nos dan información sobre la localización o posición de los datos. Obvia- mente si queremos localizar los datos, debemos buscar valores centrados, esto corresponde a medidas de tendencia central; pero también es posible dar valores que den información sobre cualquier otra posición (no necesariamente el centro), esto corresponde a los percentiles. Supongamos que tenemos una muestra de n datos que, de manera general, denotaremos por x 1 , x 2 ,... , xn: podemos dar las siguiente definiciones.

Media aritmética Es la medida central por excelencia, representaría el «centro de gravedad» de las observaciones.

Definición 1.3. Se denomina media aritmética o, simplemente, media a la suma de todas las observaciones dividida entre el tamaño de la muestra. Se representa por ¯x.

Su expresión matemática es

x¯ = x 1 + x 2 + · · · + xn n =

∑n i= 1 xi n. (^2) En realidad, estadístico es cualquier función de una muestra y es un concepto más amplio, que se terminará de comprender en el tema de inferencia estadística.

F. D. López: 1.3. Medidas estadísticas 9

Ejemplo 1.6. (Cont. ej. 1.4) En el ejemplo, hay dos modas 1,2 y 1,5; que se repiten cuatro veces cada una.

Es fácil de calcular pero poco útil, su mayor interés radica en las variables cualitativas. La moda, como vemos en el ejemplo, no tiene porqué ser única.

1.3.2. Medidas de dispersión

Estas medidas nos indican si los valores se encuentran más o menos alejados unos de otros. Veamos un ejemplo sencillo: los datos { 7 , 9 , 11 } tienen la misma media que { 1 , 10 , 16 }; sin embargo, la dispersión o variabilidad del primer grupo es mucho menor que la del segundo.

Varianza y desviación típica Miden la dispersión de los datos respecto de la media.

Definición 1.6. La varianza muestral es «casi» el promedio de las diferencias al cuadrado de los valores respecto de la media, la denotaremos por s^2 y se define por

s^2 =

∑n i= 1 (xi^ −^ x¯)^2 n − 1.

La varianza de la población se denota por σ 2 y en este caso es un promedio exacto, esto es la suma de las desviaciones cuadráticas a la media de la población dividida entre el número total de individuos de la población. Se define por

σ 2 =

∑N

i= 1 (xi^ −^ μ)^2 N.

La varianza de la población suele ser desconocida y se estima a partir de la varianza muestral. En general, existe una relación entre las medidas de la población (parámetros) y las de las muestras (estadísticos). Por ejemplo, si la media de una población es μ, entonces se verifica que la media de todas las medias que se obtienen de las distintas muestras de un tamaño fijo n coincide con μ, es lo que se llama estadístico insesgado. Sin embargo, si definiéramos la varianza muestral como la media exacta de las desviaciones (análogo a la poblacional), la media de las varianzas obtenidas de todas las muestras de tamaño n no coincidiría con la varianza de la población. Esto es debido a que en el cálculo se utiliza la media muestral y no la media de la población, lo que provoca que uno de los datos esté ligado a los demás a través, precisamente, de la media muestral; además, las desviaciones alrededor de la media muestral tienden a ser un poco más pequeñas que las desviaciones alrededor de la media poblacional. Es por esto que se define la varianza muestral dividiendo las desviaciones entre n − 1 y no entre n.

10 F. D. López: 1. Estadística descriptiva

Para calcularla en la práctica se suele usar la fórmula

s^2 =

∑n i= 1 x^2 i −^ n^ x¯^2 n − 1. La varianza se mide en unidades al cuadrado de la variable, lo que puede dificultar su interpretación, por lo que se define una nueva medida expresada en las mismas unidades que la variable.

Definición 1.7. La desviación típica o estándar es la raíz cuadrada de la varianza, la denotare- mos por s. s =

s^2.

Ejemplo 1.7. (Cont. ej. 1.4) Con los datos anteriores

1 ,2 1,5 1,6 1,2 1,3 1,6 1,7 1,8 1,3 1,4 1,5 1,4 1,5 1,6 1,2 1,1 1,9 2,9 1,2 1, 5

la varianza es s^2 = 1 ,^2

(^2) + 1 , 52 + · · · + 1 , 52 − 20 · 1 , 522 19 =^0 ,^1522 y la desviación típica s =

√ s^2 = 0 , 39.

Coeficiente de variación Cuando se quiere comparar la dispersión de dos distribuciones, que vienen dadas en unidades o escalas, distintas se utiliza el coeficiente de dispersión, que viene dado por CV = (^) |s x¯|.

Este coeficiente es un indicador de dispersión que no tiene unidades y representa el «nú- mero de veces» que la desviación típica contiene a la media. Por lo general, se acostumbra a expresarlo en tanto por ciento; esto es,

CV = (^) |s x¯| · 100 %.

Ejemplo 1.8. (Cont. ej. 1.4) Siguiendo con el ejemplo de los caudales, se tiene que el coeficiente de variación (en tanto por ciento) es

CV = (^) |s x¯| · 100 = 01 ,,^3952 · 100 = 26 %

12 F. D. López: 1. Estadística descriptiva

El cuartil segundo corresponde a la mediana.

Recorrido intercuartílico y diagrama de caja-bigotes Asociado a los cuartiles se calcula la siguiente medida de dispersión

Definición 1.10. Se define el recorrido intercuartílico como la diferencia entre el tercer y el primer cuartil, lo denotaremos RI, RI = Q 3 − Q 1.

El recorrido intercuartílico se utiliza para detectar datos atípicos, ya que los datos que no están dentro del intervalo [Q 1 − 32 RI, Q 3 + 32 RI]

son considerados datos atípicos, observaciones anómalas u outliers. Está situación se representa en un diagrama de caja-bigotes, que permite visualizar, para un conjunto de datos, la tendencia central (mediana), la dispersión (recorrido intercuartílico) y la presencia posible de datos atípicos. En el diagrama de cajas se representa el primer cuartil, la mediana y el tercer cuartil, que aparecen formando una caja con una línea que la divide en dos partes no necesariamente simé- tricas. La mediana está representada por esta línea divisoria, mientras que los cuartiles están representados por las dos líneas que delimitan la caja y son paralelas a la línea de la mediana. También se dibuja dos líneas que van desde los cuartiles hasta el máximo y el mínimo de las observaciones no anómalas.

Ejemplo 1.10. (Cont. ej. 1.4) Sigamos con el ejemplo 1.4. El primer cuartil coincide con el percentil 25, ya calculado, y el tercer cuartil es 1,6, luego el recorrido intercuartílico es

RI = Q 3 − Q 1 = 1 , 6 − 1 , 25 = 0 ,35;

Por lo tanto el intervalo de observaciones que no son anómalas es [ 0 ,975; 2, 025 ].

1.1 1.2 1.5 1.6 1.9 2.

Min^ Q 1 Me Q 3 Max Hsin outliersL outlier

FIG. 1.5. Diagrama de cajas para el ejemplo 1.

F. D. López: 1.4. Variables bidimensionales y regresión 13

El diagrama de cajas para este ejemplo es el de la figura 1.5.^5 Se observa, además de que el valor 2 ,9 es una observación anómala, que la distancia del tercel cuartil a la observación máxima (excluido la anómala), el bigote superior, es mayor que la distancia desde el primer cuartil a la observación mínima, el bigote inferior, lo que indica que los datos más pequeños están más agrupados que los mayores, y los datos centrales alrededor de la mediana entre el primer y tercer cuartil, presentan una distribución más dispersa por debajo de la mediana que por encima.

1.4. Variables bidimensionales y regresión

Hasta aquí hemos considerado la descripción de una variable. Sin embargo, a menudo nos encontramos con la necesidad de observar dos (en ocasiones más) características que pueden estar relacionadas entre sí (por ejemplo, el peso y la altura). En este caso nos encontramos con n pares de valores (xi, yi).

1.4.1. Representación gráfica

La representación gráfica más usual para variables aleatorias bidimensionales es el gráfico de dispersión o nube de puntos. En unos ejes de ordenadas se representa cada par de valores, colocando en el eje X el valor de la primera variable y en el Y el de la segunda. Se tendrán tantos puntos como tamaño de la muestra.

Ejemplo 1.11. Por ejemplo, supongamos que la materia prima usada en la producción de cierto fibra sintética proviene de una localización donde no se realiza controles de humedad. Hemos medido la humedad relativa en dicha localización y el contenido de humedad de una muestra de materia prima tomada durante 15 días con los siguientes resultados (en tanto por ciento).

Humedad relativa 46 53 29 61 36 39 47 49 52 38 55 32 57 54 44 Contenido 12 15 7 17 10 11 11 12 14 9 16 8 18 14 12 de humedad

1.4.2. El coeficiente de correlación

Para cada una de las variables unidimensionales X e Y se pueden determinar los estadísticos definidos anteriormente. Es posible calcular algunas características conjuntas. La más usual es

(^5) El programa Mathematica, con el que se ha hecho esta gráfica, toma el valor de los percentiles entre los de los datos; de ahí, que el cuartil primero valga 1,2 en lugar de 1,25. En realidad, todo el intervalo entre 1,2 y 1, 3 son cuartiles.

F. D. López: 1.4. Variables bidimensionales y regresión 15

Cuando nos refiramos a toda la población usaremos la notación del alfabeto griego ρ,

ρ = σxy σxσy^. Este coeficiente toma valores entre -1 y 1. Si el valor es negativo la relación entre las varia- bles es inversa y si es positivo es directa. Cuanto más cerca esté de 1 o -1 mayor será la relación lineal existente entre las variables. La ausencia de relación lineal (coeficiente de correlación lineal 0) no quiere decir independencia, ya que las variables pueden estar relacionadas por otro tipo de dependencia.

Ejemplo 1.12. (Cont. ej. 1.11) Calculemos el coeficiente de correlación lineal para el ejemplo 1.11; primero calculemos las media y desviaciones típicas marginales, que son:

x¯ = 46 ,13; y¯ = 12 ,4; sx = 9 ,59; sy = 3 , 25.

La covarianza es

sxy =

∑n i= 1 xiyi^ −^ n^ x¯^ y¯ n − 1 =^

46 · 12 + 53 · 15 + · · · + 44 · 12 − 15 · 46 , 13 · 12 , 4 14 =^29 ,^73.

Y, por último, la correlación r = (^) ssxy xsy = (^9) , 5929 ,·^73 3 , 25 = 0 ,95;

un valor muy alto, próximo a 1, por lo que podemos concluir que la relación lineal es muy alta.

1.4.3. Regresión

En esta sección vamos a estudiar como construir un modelo que represente la dependencia lineal de una variable respecto de otra. Esos modelos son conocidos por modelos de regresión.^6 Estos modelos nos permiten predecir valores de una variable a partir de observaciones de la otra.

Regresión lineal

Veamos el modelo más sencillo, el llamado modelo lineal simple, que consiste en expresar una de las variables, Y (variable dependiente), en términos de la otra, X (variable independien- te), mediante una recta; esto es,

yi = a + bxi + ei (i = 1 ,... , n). (^6) El nombre se debe a Galton, que al estudiar la dependencia entre la altura de los padres y la de los hijos, observó que se daba una «regresión» a la media de la población: los hijos de padres más altos que la media tendían a ser más bajos y los de padres más bajos que la media tendían a a ser más altos que sus padres.

16 F. D. López: 1. Estadística descriptiva

ei es una variable que representa el error cometido en la estimación, ya que la dependencia no es funcional y existen factores aleatorios que no podemos controlar y nos provocara un error en la estimación de la variable Y. El objetivo, ahora, es determinar los valores de a y b. Para ello intentaremos buscar los valores que hagan mínimo los errores bajo cierto criterio, este criterio es el de minimizar la suma de los errores al cuadrado (criterio de mínimos cuadrados). Es decir, vamos a minimizar la función

Q(a, b) =

∑^ n i= 1

e^2 i =

(yi − a − bxi)^2.

Para minimizar, derivamos respecto de cada parámetro e igualamos a cero; se tiene

∂ Q(a, b) ∂ a =^ −^2

∑^ n i= 1

(yi − a − bxi) = 0 ,

∂ Q(a, b) ∂ b =^ −^2

∑^ n i= 1

xi(yi − a − bxi) = 0.

Si dividimos la primera ecuación entre − 2 n y la segunda entre −2 y despejamos conveniente- mente, llegamos a

y¯ = a + b x¯, ∑^ n i= 1

xiyi = an x¯ + b

∑^ n i= 1

x^2 i.

Esta ecuaciones son conocidas como ecuaciones normales de la regresión. Entonces, los valores que hacen mínimo los errores son las soluciones de este sistema son

b =

∑n ∑i=n^1 xiyi^ −^ n^ x¯^ y¯ i= 1 x^2 i −^ n^ x¯^2

= s sxy 2 x

a = y¯ − b x¯.

El valor de b se conoce por coeficiente de regresión. Desde un punto de vista práctico es más fácil plantear directamente la recta de regresión en la forma y − y¯ = s sxy 2 x

(x − x¯).

Ejemplo 1.13. (Cont. ej. 1.11) Calculemos la recta de regresión para el ejemplo 1.11. Ya vimos que los datos tenían un coeficiente de correlación alto, lo que nos indica que el ajuste por una recta será bueno. Planteamos la recta y − y¯ = s sxy 2 x

(x − x¯),