Estadística, Ejercicios de Estadística. Universitat de València (UV)
aliciaaras13
aliciaaras13

Estadística, Ejercicios de Estadística. Universitat de València (UV)

209 páginas
1Número de descargas
7Número de visitas
Descripción
Asignatura: estadistica, Profesor: paco montes, Carrera: Matemàtiques, Universidad: UV
20 Puntos
Puntos necesarios para descargar
este documento
Descarga el documento
Vista previa3 páginas / 209
Esta solo es una vista previa
3 páginas mostradas de 209 páginas totales
Descarga el documento
Esta solo es una vista previa
3 páginas mostradas de 209 páginas totales
Descarga el documento
Esta solo es una vista previa
3 páginas mostradas de 209 páginas totales
Descarga el documento
Esta solo es una vista previa
3 páginas mostradas de 209 páginas totales
Descarga el documento
apunts16.dvi

Estad́ıstica Básica

Francisco Montes Suay

Departament d’Estad́ıstica i Investigació Operativa

Universitat de València

Copyright c© 2016 de Francisco Montes Suay

Este material puede distribuirse como el usuario desee sujeto a las siguientes con- diciones:

1. No debe alterarse y debe por tanto constar su procedencia.

2. No está permitido el uso total o parcial del documento como parte de otro distri- buido con fines comerciales.

Departament d’Estad́ıstica i Investigació Operativa Universitat de València 46100-Burjassot Spain e-mail:montes@uv.es

ÍNDICE GENERAL 1

Índice general

1. Estad́ıstica Descriptiva 5

1.1. Descripción de datos . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 5

1.1.1. Muestra y variables . . . . . . . . . . . . . . . . . . . . . . . . . 6

1.1.2. Distribuciones de frecuencias . . . . . . . . . . . . . . . . . . . . 7

1.1.3. Medidas de Posición . . . . . . . . . . . . . . . . . . . . . . . . . 12

1.1.4. Medidas de Dispersión . . . . . . . . . . . . . . . . . . . . . . . . 14

1.1.5. Traslación y homotecia . . . . . . . . . . . . . . . . . . . . . . . 19

1.2. Problemas . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 21

2. Descripción de la relación entre dos variables numéricas. Regresión lineal 27

2.1. Estudio conjunto de dos variables . . . . . . . . . . . . . . . . . . . . . . 27

2.1.1. Gráficos de dispersión . . . . . . . . . . . . . . . . . . . . . . . . 28

2.1.2. La covarianza . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 29

2.1.3. El coeficiente de correlación . . . . . . . . . . . . . . . . . . . . . 33

2.2. Recta de regresión de Y sobre X . . . . . . . . . . . . . . . . . . . . . . 34

2.2.1. Recta de regresión mı́nimo-cuadrática . . . . . . . . . . . . . . . 36

2.3. Otros modelos de regresión . . . . . . . . . . . . . . . . . . . . . . . . . 39

2.3.1. Regresión parabólica . . . . . . . . . . . . . . . . . . . . . . . . . 39

2.3.2. Regresión exponencial . . . . . . . . . . . . . . . . . . . . . . . . 41

2.3.3. Regresión lineal múltiple . . . . . . . . . . . . . . . . . . . . . . . 42

2.4. Problemas . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 43

3. Probabilidad 47

3.1. Determinismo e incertidumbre . . . . . . . . . . . . . . . . . . . . . . . . 47

3.2. Probabilidad y sus reglas . . . . . . . . . . . . . . . . . . . . . . . . . . 47

3.2.1. Lenguaje y notación . . . . . . . . . . . . . . . . . . . . . . . . . 48

3.2.2. Reglas de la probabilidad . . . . . . . . . . . . . . . . . . . . . . 49

3.3. La fórmula de Laplace . . . . . . . . . . . . . . . . . . . . . . . . . . . . 52

3.4. Probabilidad condicional . . . . . . . . . . . . . . . . . . . . . . . . . . . 53

3.5. Independencia . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 54

3.6. Una aplicación de la independencia y de la probabilidad condicional: el pueblo contra Collins . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 55

2 ÍNDICE GENERAL

3.7. Teorema de la probabilidad total . . . . . . . . . . . . . . . . . . . . . . 57

3.7.1. Encuesta sobre cuestiones delicadas . . . . . . . . . . . . . . . . . 58

3.8. Teorema de Bayes . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 59

3.8.1. Padre a cara o cruz . . . . . . . . . . . . . . . . . . . . . . . . . . 60

3.8.2. Filtrado del correo spam . . . . . . . . . . . . . . . . . . . . . . . 61

3.9. Problemas . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 63

4. Variables aleatorias 67

4.1. Introducción . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 67

4.2. Variable aleatoria . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 68

4.2.1. La variable aleatoria como modelo probabiĺıstico . . . . . . . . . 69

4.2.2. Variables aleatorias y sucesos . . . . . . . . . . . . . . . . . . . . 69

4.3. Función de distribución de una variable aleatoria . . . . . . . . . . . . . 70

4.3.1. Definición y propiedades . . . . . . . . . . . . . . . . . . . . . . . 70

4.4. Variable aleatoria discreta . . . . . . . . . . . . . . . . . . . . . . . . . . 72

4.4.1. Función de probabilidad o cuant́ıa . . . . . . . . . . . . . . . . . 73

4.4.2. Relación con la función de probabilidad y la de distribución . . . 74

4.4.3. Media y varianza de una variable aleatoria discreta . . . . . . . . 74

4.4.4. Variables aleatorias discretas más notables . . . . . . . . . . . . . 76

4.4.5. La distribución de Poisson como ĺımite de la Binomial . . . . . . 83

4.5. Variable aleatoria continua . . . . . . . . . . . . . . . . . . . . . . . . . 84

4.5.1. Función de densidad de probabilidad . . . . . . . . . . . . . . . . 84

4.5.2. Relación entre la función de densidad y la de distribución . . . . 85

4.5.3. Media y varianza de una variable aleatoria continua . . . . . . . 85

4.5.4. Variables aleatorias continuas más notables . . . . . . . . . . . . 86

4.5.5. Aproximación de la Binomial mediante la Normal . . . . . . . . 91

4.6. Problemas . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 94

5. Estimación y contraste de hipótesis 99

5.1. Muestra y población . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 99

5.1.1. Variabilidad de la muestra . . . . . . . . . . . . . . . . . . . . . . 101

5.2. Distribución de probabilidad de la proporción muestral . . . . . . . . . . 102

5.2.1. Influencia del tamaño muestral . . . . . . . . . . . . . . . . . . . 103

5.3. Distribución de probabilidad de la media muestral . . . . . . . . . . . . 104

5.3.1. Influencia del tamaño muestral . . . . . . . . . . . . . . . . . . . 104

5.4. Estimación puntual . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 105

5.5. Estimación por intervalos: intervalo de confianza . . . . . . . . . . . . . 105

5.5.1. Intervalo de confianza para la media de una población Normal . 106

5.5.2. Intervalo de confianza para una proporción . . . . . . . . . . . . 110

5.6. Contraste de hipótesis . . . . . . . . . . . . . . . . . . . . . . . . . . . . 110

5.6.1. Un ejemplo introductorio . . . . . . . . . . . . . . . . . . . . . . 110

5.6.2. Elementos de un contraste de hipótesis . . . . . . . . . . . . . . . 112

5.6.3. Relación entre el contraste bilateral y el intervalo de confianza . 115

5.7. Problemas . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 116

ÍNDICE GENERAL 3

6. Contrastes de hipótesis para medias, proporciones y rectas de regre- sión 119 6.1. Contraste de hipótesis para la media de una población Normal . . . . . 119 6.2. Contraste de hipótesis para una proporción . . . . . . . . . . . . . . . . 121 6.3. Comparación de medias de dos poblaciones Normales . . . . . . . . . . . 122

6.3.1. Muestras independientes . . . . . . . . . . . . . . . . . . . . . . . 122 6.3.2. Muestras emparejadas . . . . . . . . . . . . . . . . . . . . . . . . 127

6.4. Contrastes de hipótesis para la recta de regresión . . . . . . . . . . . . . 128 6.4.1. Condiciones iniciales . . . . . . . . . . . . . . . . . . . . . . . . . 130 6.4.2. Estimadores de los parámetros a y b . . . . . . . . . . . . . . . . 130 6.4.3. Intervalo de confianza para a . . . . . . . . . . . . . . . . . . . . 131 6.4.4. Contraste de hipótesis para a . . . . . . . . . . . . . . . . . . . . 132

6.5. La condición previa de normalidad . . . . . . . . . . . . . . . . . . . . . 134 6.6. Problemas . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 135

7. Contrastes de hipótesis para k medias 147 7.1. Introducción . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 147

7.1.1. Necesidad de un nuevo contraste . . . . . . . . . . . . . . . . . . 148 7.2. El test de la F . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 150

7.2.1. Relación entre el test de la F y el test de la t . . . . . . . . . . . 157 7.3. Comparaciones múltiples . . . . . . . . . . . . . . . . . . . . . . . . . . . 158 7.4. Resumen . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 159 7.5. Tests no paramétricos . . . . . . . . . . . . . . . . . . . . . . . . . . . . 160 7.6. Tablas de la F de Fisher . . . . . . . . . . . . . . . . . . . . . . . . . . . 161 7.7. Problemas . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 162

8. Análisis de datos categóricos 165 8.1. Comparación de proporciones. El test de la bondad del ajuste . . . . . . 165

8.1.1. Comparación de una proporción: el estad́ıstico χ2 . . . . . . . . 165 8.1.2. Contraste de varias proporciones: test de la bondad del ajuste . . 168

8.2. Tablas de contingencia 2×2: independencia y asociación . . . . . . . . . 171 8.2.1. Un ejemplo introductorio: Sexo y revistas del corazón . . . . . . 171

8.3. Tablas de contingencia k×r: independencia y asociación . . . . . . . . . 176 8.4. Comparación de proporciones: test de homogeneidad . . . . . . . . . . . 179 8.5. Diferencias entre los distintos contrastes de la χ2 . . . . . . . . . . . . . 183 8.6. Una observación final acerca de los contrastes de la χ2 . . . . . . . . . . 183 8.7. Tablas de los percentiles de orden 1− α de la χ2 . . . . . . . . . . . . . 184 8.8. Problemas . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 185

9. Soluciones a los problemas 189

4 ÍNDICE GENERAL

5

Caṕıtulo 1

Estad́ıstica Descriptiva

1.1. Descripción de datos

La Tabla 1 recoge, parcialmente, el resultado de una encuesta a la que fueron so- metidos 172 estudiantes de Estad́ıstica de los grados de NHD y CTA de la Facultad de Farmacia, durante el curso 2009-2010. Las columnas de las respuestas están enca- bezadas por nombres, abreviados en algunos casos, que hacen referencia a la pregunta formulada. Su significado y el de la codificación correspondiente es el siguiente:

dd mm aa fecha de macimiento lugar de residencia

hogar familiar 1 lugar de nacimiento fuera del hogar familiar 2

Valencia capital 1 comarca de l'Horta 2 dedicación al estudio

resto provincia Valencia 3 exclusiva 1 provincia de Alicante 4 compartida con otros estudios 2

provincia de Castellón 5 compartida con trabajo 3 resto de España 6

extranjero 7 hábitos culturales nº libros que lees al año

peso en Kgs. discos que compras al año veces que vas al cine al mes

altura en cms. nivel de inglés B R G

medida del palmo en cms. 2 1 0

H D internet sexo 1 2 horas de conexión diarias

variables de la encuesta a los estudiantes de primer curso de NHD y CTA

Tabla 1.- Variables de la encuesta a los estudiantes de NHD y CTA y su codificación

6 Caṕıtulo 1. Estad́ıstica Descriptiva

numero dia mes año dia_semana lugar_nac peso altura palmo sexo lugar_res d_estudios

1 12 1 91 2 5 55 161 19,5 2 1 1

2 4 4 88 5 2 70 173 21,0 1 1 2

3 19 6 85 7 1 70 175 21,0 1 1 3

4 12 12 91 3 2 50 163 18,0 2 1 1

5 8 5 91 5 2 75 177 22,0 1 1 1

6 7 3 91 1 1 68 161 18,0 2 1 3

7 5 12 91 4 1 52 172 20,0 2 1 1

8 6 9 91 6 3 57 160 18,0 2 1 1

9 31 7 75 2 5 67 165 20,0 2 1 3

10 24 3 85 4 6 90 170 20,0 2 2 1

11 19 2 89 5 3 72 177 20,0 1 2 1

12 23 6 91 1 7 58 157 17,0 2 1 1

13 4 1 91 6 2 55 174 20,0 2 1 1

14 20 9 91 3 3 62 172 21,0 2 2 1

15 15 8 91 2 2 50 154 19,5 2 1 3

16 30 4 91 4 3 52 163 19,0 2 1 1

17 4 6 90 5 1 55 152 17,5 2 1 3

18 24 10 91 1 1 52 167 18,0 2 1 1

19 9 8 91 7 1 52 165 18,0 2 1 3

20 27 2 91 4 3 45 157 17,0 2 1 2

21 10 1 91 7 2 58 160 18,0 2 1 1

22 23 2 91 3 1 49 160 19,0 2 1 1

23 2 11 90 5 1 50 165 19,0 2 1 1

24 30 5 91 7 1 50 163 19,5 2 1 1

25 19 9 85 2 4 57 155 19,0 2 2 1

26 24 2 86 6 5 57 156 20,0 2 2 1

27 9 1 89 1 1 46 159 17,0 2 1 1

28 15 9 91 7 1 50 160 17,5 2 1 1

Tabla 2.- Reproducción parcial de la encuesta

Describir e interpretar los datos que aparecen en una tabla como las anteriores pre- senta dificultades incluso para las personas con conocimientos de Estad́ıstica y, desde luego, es prácticamente imposible para lo que podŕıamos denominar gran público. No por casualidad cuando se ofrece información de este tipo aparece resumida y trans- formada para hacerla fácilmente comprensible, resumen que pretende llamar nuestra atención sobre los aspectos más relevantes de los datos y que se lleva a cabo utilizando las herramientas propias de la Estad́ıstica Descriptiva o Análisis de datos, a saber:

distribuciones de frecuencia,

gráficos,

medidas de posición o centrales, y

medidas de dispersión.

Comenzaremos introduciendo el lenguaje y las definiciones que nos permitan des- cribir un conjunto de datos.

1.1.1. Muestra y variables

Como ya dijimos, la Tabla 2 recoge, parcialmente, el resultado de una encuesta a la que fueron sometidas 172 estudiantes de primer curso de sendos grados de la Facul- tad de Farmacia. Estos datos no representan más que a una parte, que denominamos muestra, del total de estudiantes, total al que denominamos población. Una muestra está constituida por las observaciones muestrales a cuyo número denominaremos ta- maño muestral. En cada observación hay una o varias variables observadas que en el

1.1 Descripción de datos 7

caso de nuestra tabla son: número, dia, mes, año, dia semana, lugar nac, peso, altura, palmo, sexo, lugar res, d estudios, libros año, discos año, cine mes, inglés, internet h. Estas variables centran prioritariamente nuestra atención y observamos de inmedia- to que son de distinta naturaleza. Conviene por tanto establecer en primer lugar una clasificación de las mismas:

variables cualitativas: son variables que describen cualidades o categoŕıas, razón por la cual se las denomina también categóricas. Cuando las categoŕıas admiten algún tipo de ordenación se las denomina ordinales (por ejemplo, la variable anglès) y no ordinales en otro caso (por ejemplo, las variables sexo y dia sem).

variables cuantitativas: son variables que expresan valores numéricos, discretas o continuas según la naturaleza de la observación. La variable cine mes es un ejemplo de las primeras y peso y altura son ejemplos de las segundas. La frontera entre variables discretas y continuas es en ocasiones difusa, debido a la acción discretizadora que todo proceso de medida comporta. En efecto, si consideráramos la variable edad, fácilmente deducible a partir de la fecha de nacimiento, nadie pondŕıa en duda su carácter continuo, pero en general las fracciones de año son irrelevantes, razón por la cual se mide en años enteros.

tipos de variables





cualitativas

ordinales

no ordinales

cuantitativas

discretas

continuas

1.1.2. Distribuciones de frecuencias

Una primera descripción resumida de los datos puede llevarse a cabo mediante la distribución de frecuencias de cada una de las variables. Como luego pondremos de manifiesto, el tipo de variable es determinante a la hora de analizar los datos con esta herramienta. Para variables categóricas o discretas con un rango pequeño de valores utilizaremos distribuciones de frecuencias no agrupadas de las que nos ocupamos a continuación:

Frecuencias no agrupadas.- Se trata simplemente de obtener y representar gráfi- camente el número de ocurrencias (frecuencia absoluta) de las distintas categoŕıas o va- lores de la variable. En ocasiones es conveniente utilizar la frecuencia relativa, definida como:

frecuencia relativa = frecuencia absoluta

n ,

donde n es el tamaño muestral. La frecuencia relativa se suele expresar también en porcentaje. Obtengamos la distribución de frecuencias asociada a alguna de las variables de la tabla y una resumen gráfico de las mismas.

8 Caṕıtulo 1. Estad́ıstica Descriptiva

D́ıa de la semana Frec. FrecRel

domingo 29 0,169 lunes 28 0,163

martes 30 0,174 miércoles 20 0,116

jueves 23 0,134 viernes 24 0,140 sábado 18 0,105

Total 172 1,00 dia de la semana (nacimiento)

sabadoviernesjuevesmiercolesmarteslunesdomingo

F re

c u

e n

c ia

30

20

10

0

Figura 1.- Tabla de frecuencias y gráfico de barras de dia semana

Nivel de inglés Frec. FrecRel

ninguno 13 0,076 regular 108 0,628 bueno 51 0,297

Total 172 1,00

nivel de ingles

buenoregularninguno

F re

c u

e n

c ia

120

100

80

60

40

20

0

Figura 2.- Tabla de frecuencias y gráfico de barras de inglés

La representación gráfica de las frecuencias, en los casos de variables categóricas o de variables discretas con pocos valores, puede también llevarse a cabo mediante Dia- gramas de Sectores, en los que cada valor o categoŕıa de la variable se representa mediante un sector circular con área proporcional a su frecuencia. La Figura 3 muestra uno de estos diagramas para la variable lugar nac.

Lugar nacimiento Frec. FrecRel

Valencia capital 72 0,419 l’Horta 32 0,186

provincia de Valencia 33 0,192 provincia de Alicante 1 0,006 provincia de Castellon 10 0,058

resto del Estado 13 0,076 extranjero 11 0,064

Total 172 1,00

6,40%

7,56%

5,81%

0,58%

19,19%

18,60%

41,86%

extranjero

resto de Espaæa

provincia de Castellón

provincia de Alicante

resto provincia Valencia

l’Horta

Valencia capital

lugar de nacimiento

Figura 3.- Tabla de frecuencias y Diagrama de Sectores del lugar de nacimiento

Frecuencias agrupadas.- Si pretendemos resumir la información de las variables peso (pes), altura o anchura del palmo (pam) tal como lo hemos hecho en las anteriores,

1.1 Descripción de datos 9

es decir, considerando cada valor como una categoŕıa obtendremos una tabla de fre- cuencias y un gráfico que, al no condensar la información, nos servirán de poca ayuda. El motivo está en el carácter continuo de la variable. El problema se resuelve agrupan- do los valores de la variable en clases y obteniendo la distribución de frecuencias para dichas clases. Las clases son intervalos y están delimitadas por los ĺımites de clase, y deben constituir una partición del conjunto de valores que toma la variable. Es decir, las clases no se solapan y no deben excluir ningún valor de la variable, lo que permite clasificar a cualquier valor observado en una y solo una de las clases establecidas. La distancia entre los ĺımites de la clase es la amplitud de la clase.

En la tabla y la gráfica de la Figura 4 se muestra la distribución de frecuencias de la variable pes que ha sido agrupada en los intervalos que se indican en la tabla, a saber, 11 clases de amplitud 5, donde la clase i-ésima es el intervalo [xi, xi+1[, que al estar abierto en su ĺımite superior no se solapa con la clase siguiente. Obsérvese que el total es ahora 169 porque hay 3 no respuestas para el peso.

Peso Frec. FrecRel

40-45 5 0,030 45-50 15 0,088 50-55 29 0,172 55-60 33 0,195 60-65 28 0,166 65-70 19 0,112 70-75 18 0,107 75-80 13 0,077 80-85 6 0,035 85-90 2 0,012 90-95 1 0,006

Total 169 1,00 peso

fr ec

ue nc

ia

40 50 60 70 80 90

0 5

10 15

20 25

30

Figura 4.- Tabla de frecuencias e histograma de la variable peso

¿Qué información de interés nos proporciona el anterior histograma? Aunque más tarde estudiaremos con mayor detalle este problema, adelantemos ya algunos aspectos relevantes de la forma de la distribución de frecuencias. El pico, que representa la mayor frecuencia es la moda, valor alrededor del cual se distribuyen los valores que toma la variable, cuyas frecuencias van disminuyendo a derecha e izquierda para formar en los extremos las llamadas colas de la distribución. En nuestro caso, la cola derecha es ligeramente más pesada que la izquierda, indicando con ello una mayor presencia de pesos superiores que de inferiores y dando lugar a una distribución ligeramente asimétrica y sesgada a la derecha.

Número de clases a establecer.- La pregunta que surge al observar la distribu- ción de frecuencias anterior es ¿por qué 8 clases y no 14? No es dif́ıcil imaginar que un número de clases distinto producirá una gráfica de aspecto diferente, como puede observarse en los histogramas que aparecen a continuación; en ellos la variable edad ha sido representada con 4 y 20 clases, respectivamente.

10 Caṕıtulo 1. Estad́ıstica Descriptiva

peso

fr ec

ue nc

ia

40 50 60 70 80 90

0 20

40 60

80

peso

fr ec

ue nc

ia

40 50 60 70 80 90

0 5

10 15

20

Figura 5.- Histogramas para la variable pes con 4 y 20 clases

No debemos olvidar que el objetivo de cualquier agrupación de datos es destacar los rasgos esenciales y eliminar los detalles irrelevantes, aún cuando esto se haga a expensas de perder una información que no consideramos esencial, de ah́ı la importancia de elegir adecuadamente el número y amplitud de las clases. Las siguientes recomendaciones pueden ayudarnos, aunque puede ser conveniente llevar a cabo distintas elecciones y comparar los resultados:

si el tamaño de la muestra no excede de 50, un número de clases entre 5 y 15 suele ser apropiado; para muestras mayores este número puede superar las 20 clases.

el rango de la variable, rango = valor mayor - valor menor, y la amplitud que deseamos para cada clase nos permitirán determinar su número. Por ejemplo, para la tabla de frecuencias e histograma de la variable pes que hemos representado en la Figura 4, hemos calculado su rango = 92-41 = 52 y como deseábamos una amplitud de 5 kilos para cada clase, debeŕıamos trabajar con 10,4 de clases, que lógicamente se ha redondeado a 11, lo que supone que la última clase cubre el intervalo [90, 95[.

Clases con amplitudes distintas. Los histogramas que hemos utilizado hasta ahora provienen de distribuciones de frecuencias agrupadas cuyas clases tienen todas igual amplitud, razón por la cual su altura es directamente proporcional a su frecuencia.

Cuando las frecuencias de clases contiguas son bajas pueden agruparse en clases mayores cuya frecuencia será la suma de las frecuencias de las clases que constituyen la nueva clase. Por ejemplo, los datos siguientes son una muestra de 30 valores de la variable peso, extráıdos de entre los 172 que constituyen los datos originales.

63 58 90 65 57 64 56 66 63 64 72 50 57 64 61 57 59 57 67 62 57 74 57 55 75 50 57 54 53 45

En la Figura 6 se muestran los histogramas correspondientes a estos 30 valores, en el de la izquierda se observa que la 6a clase está vaćıa. Puede pensarse en la conveniencia

1.1 Descripción de datos 11

de agrupar las dos últimas clases en una sola para evitar la frecuencia 0 observada. La consecuencia de esta agrupación es una distribución de frecuencias con clases de distinta amplitud, una de ellas el doble que las restantes, y debemos cambiar el méto- do de representación del histograma para evitar distorsiones en su interpretación. El histograma de la nueva distribución de clases, una con doble amplitud que las otras, deberá tener en cuenta de este hecho y corregir la altura de la dicha clase, obtendremos aśı el gráfico de la derecha de la Figura 6.

peso

fr ec

ue nc

ia

50 60 70 80 90

0 2

4 6

8 10

12

peso

fr ec

ue nc

ia

50 60 70 80 90

0 2

4 6

8 10

12

Figura 6.- Histogramas para los 30 valores del peso

Una representación mixta: gráfico de tallo y hojas

Existen muchas más opciones para resumir numérica y gráficamente los datos. Cual- quiera de los softwares estad́ısticos disponibles en el mercado nos permitirá acceder a ellos y, siendo de uso sencillo, no merece la pena insistir más en ello. Haremos dos excepciones: el gráfico de tallo y hojas y el diagrama de caja, este último al final del capitulo.

El gráfico de tallo y hojas puede considerarse un método mixto de representación de datos por cuanto permite construir un pseudo-histograma a partir de una adecuada disposición de los valores observados para la variable representada. La mitad izquierda de la tabla que sigue muestra las medidas, en cent́ımetros, del palmo de 39 estudiantes de la titulación de NHD. La medida corresponde a la distancia entre los extremos de los dedos pulgar y meñique de la mano derecha cuando ésta está extendida. La mitad derecha contiene la altura, en metros, de esos mismos estudiantes.

palmo altura

19,0 21,0 22,0 21,0 23,0 1,67 1,92 1,70 1,70 1,86 19,5 18,0 22,0 20,0 22,5 1,58 1,69 1,68 1,70 1,73 24,0 23,5 22,0 20,0 23,0 1,83 1,65 1,80 1,69 1,66 25,0 20,0 22,0 22,0 22,0 1,73 1,89 1,67 1,70 1,80 21,0 22,5 18,0 23,0 19,0 1,75 1,74 1,73 1,67 1,90 23,0 20,0 15,5 20,0 23,0 1,82 1,76 1,77 1,72 1,81 21,0 19,0 17,5 21,0 1,83 1,81 1,61 1,82

12 Caṕıtulo 1. Estad́ıstica Descriptiva

El gráfico de tallo y hojas para ambas variables se representa a continuación. Cada fila contiene, en primer lugar, el número de valores (frecuencia) que en ella hay represen- tados. La representación de los valores consiste en una parte común a todos ellos (tallo) y a su derecha, separadas por un punto y ordenadas de mayor a menor, tantas cifras (hojas) como valores, de manera que la combinación de tallo y hoja permite identificar cada valor. Para la variable palmo, los 5 valores cuyo tallo común es 20 tienen todos ellos como cifra representativa el 0 porque todos ellos valen 20. Para los 5 de tallo igual a 19, cuatro valen 19 y un quinto vale 19,5. El nombre de gráfico de tallo y hojas se justifica porque, tal como señalábamos, la disposición de los valores adquiere la forma de un histograma horizontal. Si las observaciones contienen algún valor extremo, el 15,5 en nuestro caso, algunos softwares lo señalan. Al final del gráfico se indican la amplitud del tallo y, eventualmente, el número de casos que cada hoja representa, habitualmente uno excepto que el número de observaciones sea grande.

El gráfico de la altura indica que la amplitud del tallo es 0,1 y por tanto hay que dividir por 10 el valor del tallo. Aśı, en la fila cuyo tallo es 18, es decir 1,80 metros, hay solo dos observaciones con hojas 6 y 9, respectivamente, lo que corresponde a alturas de 1,86 y 1,89 metros.

PALMO || ALTURA

||

Frecuencia Tallo & Hoja || Frecuencia Tallo & Hoja

||

1 Extremo (=<15,5) || 1 15 . 8

1 17 . 5 || 3 16 . 011

2 18 . 00 || 9 16 . 566777899

-> 5 19 . 00005 || 11 17 . 00000233344

-> 5 20 . 00000 || 3 17 . 567

5 21 . 00000 || 8 18 . 00112233

12 22 . 000000000555 || -> 2 18 . 69

6 23 . 000005 || 2 19 . 02

1 24 . 0 ||

1 25 . 0 || Amplitud del tallo: 0,10

|| Cada hoja: 1 caso

Amplitud del tallo: 1,00 ||

Cada hoja: 1 caso ||

1.1.3. Medidas de Posición

Para las variables categóricas, las distribuciones de frecuencias y sus distintas re- presentaciones gráficas nos proporcionan información concisa y completa, pero si las variables son cuantitativas es posible, y conveniente, completar aquella información con caracteŕısticas numéricas asociadas a los datos. Estas caracteŕısticas reciben el nombre de estad́ısticos descriptivos y los hay de dos tipos: de posición, o centrales, y de

1.1 Descripción de datos 13

dispersión. Los primeros proporcionan información acerca de la posición de los datos si los representamos en una recta, mediante la obtención de lo que podŕıamos llamar cen- tro de la distribución. Existen distintas formas de definir el centro de una distribución de datos, las más utilizadas son: la media, la mediana, la moda y los percentiles.

En adelante designaremos mediante las últimas letras mayúsculas del abecedario, X, Y, Z, . . . , a las variables observadas y con las minúsculas, x, y, z, . . . , las obser- vaciones (datos), a las que cuando sea conveniente añadiremos un ı́ndice. Por ejemplo, si queremos designar las n observaciones de la variable X lo podemos hacer mediante x1, x2, x3, . . . , xn.

La media.- Es sin duda la más conocida de las medidas de posición y es, sen- cillamente, la media aritmética de las observaciones correspondientes a la variable en estudio. Se le denomina media muestral y se le designa mediante el śımbolo x. Su expresión es,

x = suma de las x’s

n =

∑n i=1 xi n

.

Retomemos los datos de las 30 observaciones de pesos, para calcular su media

x = 63 + 58 + . . .+ 53 + 45

30 =

1829

30 = 60, 97 kgs.

La mediana.- Es aquel valor que, al ordenar las observaciones de menor a mayor, ocupa el lugar central, dividiendo el conjunto de observaciones en partes iguales. Es decir, que deja a su derecha y a su izquierda el 50% de las observaciones. Si el tamaño de la muestra, n, es impar, necesariamente existe una observación que ocupa el lugar central, concretamente la que al ordenar las observaciones está en la posición (n+1)/2. Si, por contra, n es par, son dos las observaciones que ocupan el lugar central, las que están en las posiciones n/2 y (n/2)+1, definiéndose entonces la mediana como el punto medio entre ambas observaciones. Veamos algunos ejemplos:

Ejemplo 1: Si ordenamos los 30 valores anteriores de la variable peso tendremos:

45 50 50 53 54 55 56 57 57 57 57 57 57 57 58 59 61 62 63 63 64 64 64 65 66 67 72 74 75 90

y siendo n = 30 par, la mediana será el valor medio de los valores que ocupan las posiciones 15 y 16. Aśı pues,

mediana = 58 + 59

2 = 58, 50 kgs,

valor que, como puede observarse, no coincide con el de la media antes calculada.

Ejemplo 2: Las 13 primeras observaciones correspondientes al número de veces que se acude al cine cada mes, ordenadas de menor a mayor son: 0 1 1 1 2 2 2 2 2 2 2 3 4. La que ocupa la posición central, la séptima puesto que hay 13 valores, es la mediana y su valor es 2.

14 Caṕıtulo 1. Estad́ıstica Descriptiva

La moda.- Es aquel valor de la variable que tiene mayor frecuencia. En el caso de frecuencias agrupadas se toma la clase más frecuente como moda. Aśı, para la variable dia sem la moda corresponde al martes, d́ıa la semana con mayor número de nacimien- tos entre los encuestados (ver tabla de frecuencias de la Figura 1) y para la variable pes la moda es la clase 55-60 (ver Figura 4).

Los percentiles.- El percentil p-ésimo es aquel valor que verifica la condición de que un p% de las observaciones son menores o iguales que él. Aśı, el percentil 70-ésimo supone que el 70% de las observaciones son menores o iguales que el valor de dicho percentil. La Tabla 3 nos muestra, ordenadas de izquierda a derecha y de arriba a abajo, las 170 observaciones correspondientes a la variable altura (dos encuestados han dejado en blanco la correspondiente casilla). La primera fila y la primera columna, en negrita, han sido añadidas para mejor localizar las posiciones de cada valor en la ordenación. Aśı, si queremos conocer el percentil 30-ésimo, tendremos en cuenta que el 30% de 170 es 51 y buscaremos el valor que ocupa esta posición en la tabla, el 162. El percentil 15-ésimo es 158 porque, aunque el 15% de 170 es 25.5, los valores correspondientes a las posiciones 25 y 26 son ambos 158. Si no hubiera sido aśı, hubiéramos tomado el valor correspondiente a la posición más cercana o la media de ambos valores. De la misma manera calculaŕıamos el percentil 90 que es 182.

1 2 3 4 5 6 7 8 9 10 11 12 13 14 15 16 17 18 19 20 0 143 150 150 152 152 153 154 154 154 155 155 155 156 156 156 156 156 156 157 157

20 157 157 157 157 158 158 158 158 159 159 160 160 160 160 160 160 160 160 160 160 40 160 160 160 160 161 161 161 162 162 162 162 162 162 163 163 163 163 163 163 163 60 163 163 163 164 164 165 165 165 165 165 165 165 165 166 166 166 167 167 167 167 80 167 167 167 168 168 168 168 169 169 170 170 170 170 170 170 170 170 170 171 171

100 171 171 171 171 172 172 172 172 172 172 172 173 173 173 173 173 173 173 174 174 120 175 175 176 176 176 176 177 177 177 177 178 178 178 178 178 179 179 179 179 179 140 179 180 180 180 180 180 180 180 181 181 182 182 182 182 182 183 184 184 184 184 160 185 185 185 186 187 187 188 190 191 200

Tabla 3.- Las 170 observaciones de la variable altura ordenadas

Los percentiles 25, 50, y 75-ésimo reciben el nombre de primer cuartil, segundo cuartil y tercer cuartil, respectivamente. El nombre les viene de dividir las observa- ciones en cuartos. Observemos, que según la definición que hemos dado para la mediana, ésta coincide con el percentil 50-ésimo o segundo cuartil.

1.1.4. Medidas de Dispersión

Las medidas de posición nos dan una información incompleta, por parcial, acerca de las observaciones. En efecto, supongamos que las notas de Matemáticas de los estu- diantes pertenecientes a dos clases distintas, clase I y clase II, con 10 estudiantes cada una, son las siguientes:

clase I: 4, 3, 5, 6, 4, 5, 5, 7, 5, 6

1.1 Descripción de datos 15

clase II: 1, 4, 3, 5, 6, 8, 2, 7, 5, 9

en ambos casos la media, como puede comprobarse con facilidad, es 5, pero sus histo- gramas de frecuencias son muy distintos.

Clase I

nota

fr ec

ue nc

ia

2 4 6 8

0 1

2 3

4

Clase II

nota

fr ec

ue nc

ia

2 4 6 8

0 1

2 3

4

Figura 7.- Histogramas de las notas de las clases I y II.

La Figura 7 muestra que los valores se distribuyen simétricamente respecto de la nota 5, pero en la clase I existe una dispersión menor que en la clase II. ¿Cómo medir la distinta manera en que los valores se agrupan alrededor de la media? Las distintas medidas de dispersión proporcionan esta información. Al igual que ocurre para la posición, existen diversas formas de medir la dispersión, de entre ellas vamos a ocuparnos de las siguientes: rango, desviación tipica, varianza y rango intercuart́ılico.

El rango.- Es la diferencia entre el máximo y el mı́nimo de las observaciones. Aśı, para los datos anteriores tendremos que el rango de las notas en la clase I vale 4 y el rango en la clase II vale 8, denotando la mayor dispersión de la variable en el segundo grupo de observaciones.

La varianza y la desviación t́ıpica.- Puesto que se trata de medir cómo se agrupan los valores alrededor de la media, podŕıamos utilizar como criterio las desvia- ciones de dichos valores respecto de aquélla, es decir, la diferencias entre la media y los distintos valores y más concretamente la media de ellas. Aunque a primera vista la sugerencia pueda ser buena, vamos a aplicarla a los valores de las notas de clase para evidenciar el inconveniente insalvable que una medida de este tipo tiene.

En la Tabla 4 aparecen las notas de cada clase y en columnas sucesivas sus des- viaciones respecto de la media y el cuadrado de estas desviaciones, al que más tarde aludiremos. Al tratar de obtener la media de las diferencias, que recordemos es la suma de todas ellas dividida por su número, nos encontramos que dicha media será 0 en am- bos casos, porque existiendo desviaciones positivas y negativas, unas anulan los efectos de las otras. En realidad esto nos ocurrirá con cualquier otro conjunto de datos, porque puede demostrarse que esa es una propiedad que tienen las desviaciones respecto de la media.

16 Caṕıtulo 1. Estad́ıstica Descriptiva

Clase I Clase II

nota di d 2 i nota di d

2 i

4 -1 1 1 -4 16 3 -2 4 4 -1 1 5 0 0 3 -2 4 6 1 1 5 0 0 4 -1 1 6 1 1 5 0 0 8 3 9 5 0 0 2 -3 9 7 2 4 7 2 4 5 0 0 5 0 0 6 1 1 9 4 16

Suma 0 12 Suma 0 60

Tabla 4.- Desviaciones respecto de la media y sus cuadrados para las notas de las clase I y II.

Puesto que el uso de las desviaciones respecto de la media parece razonable, ¿cómo soslayar el problema? Una manera sencilla de hacerlo es utilizar, no las desviaciones, sino sus cuadrados. Al ser éstos cantidades positivas, su suma nunca podrá ser cero. Aśı, la media de los cuadrados de las desviaciones parece una medida adecuada, pero, por razones técnicas que están fuera del alcance y objetivos de este curso, la utilizaremos con una ligera modificación: en lugar de dividir por n, como se hace habitualmente para calcular una media, dividiremos por n− 1. De acuerdo con esto, la varianza de un conjunto de observaciones se define mediante la fórmula:

s2 = suma del cuadrado de las desviaciones

n− 1 = ∑n

i=1(xi − x)2 n− 1 .

Una expresión alternativa, que facilita su cálculo es

s2 =

∑n i=1 x

2 i

n− 1 − ( ∑n

i=1 xi) 2

n(n− 1) = ∑n

i=1 x 2 i − nx2

n− 1 .

La desviación t́ıpica o estándar se define como la ráız cuadrada de la varianza y la designamos por s. Para el caso de las clases I y II, las sumas de los cuadrados de las desviaciones aparecen en la Tabla 4, sus varianzas y desviaciones t́ıpicas son:

clase I : s2 = 12

9 = 1, 33 s = 1, 15

clase II : s2 = 60

9 = 6, 66 s = 2, 58

que ponen de manifiesto la diferente distribución de los valores en un caso y otro. Para los 30 valores del peso,

peso : s2 = 2236, 97

29 = 77, 14 Kgs2 s = 8, 78 Kgs.

1.1 Descripción de datos 17

Obsérvese que las unidades de la varianza son el cuadrado de las unidades en las que venga expresada la variable, sin embargo la desviación t́ıpica no cambia de unidades. Señalemos, por último, que si el tamaño de la muestra es grande, la diferencia entre dividir por n o por n-1 es inapreciable y la varianza coincide, prácticamente, con la media de los cuadrados de las desviaciones.

Porcentajes t́ıpicos.- La desviación t́ıpica tiene una propiedad interesante. Para distribuciones de frecuencias con una sola moda, de apariencia simétrica y con colas ni demasiado largas ni demasiado cortas, se suele verificar:

aproximadamente el 68% de las observaciones distan como mucho una desviación t́ıpica de la media,

aproximadamente el 95% de las observaciones distan como mucho dos desviacio- nes t́ıpicas de la media, y

aproximadamente más del 99% de las observaciones distan como mucho tres desviaciones t́ıpicas de la media.

El rango intercuart́ılico.- Se define como la diferencia entre el tercer y el primer cuartil, IQR = Q3 − Q1. Directamente relacionado con él se define el intervalo in- tercuart́ılico, que es el intervalo definido por los cuartiles primero y tercero, [Q1, Q3], cuya longitud es, precisamente, IQR. Contiene el 50% de las observaciones centrales. Para las 170 observaciones correspondientes a la altura estas medidas valen:

altura, Q1 = 160 cms, Q3 = 177 cms, IQR = 17 cms.

El coeficiente de variación.- Aún cuando no se trata, estrictamente, de una me- dida de dispersión, éste es el momento de definir esta nueva caracteŕıstica asociada a las observaciones. Para comprender mejor su interés tratemos de responder a la pregunta, ¿dónde hay mayor dispersión, en las observaciones del peso o en las notas de la clase I? La respuesta puede ser engañosa si comparamos directamente las correspondientes desviaciones t́ıpicas. En efecto, la del peso es mucho mayor que la de las notas, pero a nadie se le escapa que la magnitud de aquél es mucho mayor que las de éstas y, además, se trata de unidades diferentes, kilogramos en un caso y puntuación en el otro. Para resolver el problema se define el coeficiente de variación como el cociente entre la desviación t́ıpica y la media multiplicado por 100,

CV = s

x × 100,

que expresa la desviación t́ıpica como porcentaje de la media y, que al no tener unida- des, permite comparaciones entre observaciones de distinta naturaleza. Volviendo a la pregunta inicial, para el peso, CVpeso = 14,40%, y para las notas, CVnotas = 23,09%, lo que nos dice que, en términos de porcentaje de sus medias, las notas tienen prácti- camente el doble de dispersión.

18 Caṕıtulo 1. Estad́ıstica Descriptiva

Diagrama de caja

Un diagrama de caja resume gráficamente los valores de una variable numérica tomando como referencia sus cuartiles, razón por la cual no la hemos podido introducirla anteriormente junto con el resto de gráficas. Tal como se muestra esquemáticamente en la Figura 8, el diagrama consiste en una caja rectangular de base arbitraria y de altura igual al rango intercuart́ılico, Q3 − Q1. Este rectángulo está dividido por un segmento que indica la posición de la mediana. En la parte superior e inferior de la caja se añaden sendos segmentos cuyos extremos coinciden con el máximo y mı́nimo de los valores observados, siempre que estos no disten de Q3 o de Q1 más de una vez y media el rango intercuart́ılico,

máx−Q3 ≤ 1, 5IQR Q1 −mı́n ≤ 1, 5IQR.

En caso contrario dichos extremos se sitúan en aquel valor mayor que Q3 (o menor que Q1) que cumple con la condición. Los valores que sobrespasan este ĺımite por aparecen representados como valores extremos o at́ıpicos.



















  

  

 !

"

#

$

%

&

%

'()

*+, (



-.



/

,

'()

* (



-.



/

Figura 8.- Esquema de un diagrama de caja

La Figura 9 muestra los diagramas de cajas correspondientes a las variables palmo y altura que introdujimos en la página 11 para explicar el gráfico de tallo y hojas. Se observa en ella que la altura no presenta ningún valor at́ıpico, no aśı el palmo cuyo valor 15,5 que es demasiado bajo con respecto al resto de las observaciones. Recordemos que su gráfico de tallo y hojas ya lo señalaba como un valor extremo.

1.1 Descripción de datos 19

16 18

20 22

24

palmo

1. 60

1. 65

1. 70

1. 75

1. 80

1. 85

1. 90

altura

Figura 9.- Diagrama de caja para los valores de palmo y altura

1.1.5. Traslación y homotecia

Las alturas que hemos utilizado en los ejemplos anteriores viene expresadas en metros, hubiéramos podido utilizar cent́ımetros como unidad de medida, de la misma forma que los pesos podŕıan haber sido expresados en otra unidad, por ejemplo arrobas (1 arroba = 12 kilos). ¿Cómo afectaŕıa este cambio de unidades a las medidas anteriores? De forma más general, ¿cómo se alteran esta medidas si sometemos a la variable a lo que denominamos una transformación lineal?

Una transformación lineal se expresa de la forma

y = ax+ b

y consiste en la composición de una homotecia cuyo factor es a y una traslación de valor b. Si a = 1 o b = 0 se trata solamente de una traslación o una homotecia, respectivamente. Veamos como se transforman la media y la varianza.

La media de la nueva variables será

y =

∑n i=1 yi n

=

∑n i=1(axi + b)

n = a

∑n i=1 xi n

+

∑n i=1 b

n = ax+ b.

La nueva media ha sufrido la misma transformación que los valores originales.

20 Caṕıtulo 1. Estad́ıstica Descriptiva

La varianza, s2y valdrá

s2y =

∑n i=1(yi − y)2 n− 1

=

∑n i=1(axi + b− (ax+ b))2

n− 1

=

∑n i=1(axi − ax)2

n− 1

= a2 ∑n

i=1(xi − x)2 n− 1

= a2s2x.

La nueva varianza es el resultado de multiplicar por el cuadrado del factor de homotecia la varianza original, y es invariante frente a las traslaciones, como pod́ıa intuirse por el hecho de estar basada en las posiciones relativas de los distintos valores de la variable respecto de su media.

1.2 Problemas 21

1.2. Problemas

Problema 1.1 Una de las variable de interés en el estudio del cangrejo Xantido (pe- queño cangrejo que habita en las proximidades de Gloucester Point, Virginia) es el número de huevos puestos por individuo. Las siguientes observaciones corresponden al número de huevos obtenidos para 45 cangrejos Xantido.

1959 4534 7020 6725 6964 7428 9359 9166 2802 2462 4000 3378 7343 4189 8973 4327 2412 7624 1548 4801 737 5321 849 5749 6837 8639 7417 6982 10421 962 3894 1801 5099 6627 4484 5633 4148 6588 5837 4632 6472 8372 8225 6142 12130

Agrupar los datos en siete categoŕıas (intervalos) y dibujar un histograma.

Problema 1.2 Los datos de la tabla corresponden a la amplitud interorbital de una muestra de 40 palomas domésticas.

12,2 12,9 11,8 11,9 11,6 11,1 12,3 12,2 11,8 11,8 10,7 11,5 11,3 11,2 11,6 11,9 13,3 11,2 10,5 11,1 12,1 11,9 10,4 10,7 10,8 11,0 11,9 10,2 10,9 11,6 10,8 11,6 10,4 10,7 12,0 12,4 11,7 11,8 11,3 11,0

Agrupar los datos en clases y construir la tabla de frecuencias absolutas y relativas y dibujar el correspondiente histograma.

Problema 1.3 En un estudio sobre el comportamiento de la mosca del vinagre Dro- sophila melanogaster, un biólogo midió el tiempo en segundos que una mosca emplena aseándose a lo largo de un determinado periodo de 6 minutos de duración. Los tiempos observados para 20 moscas diferentes fueron:

34 24 10 16 52 76 33 31 46 24 18 26 57 32 25 48 22 48 29 19

Construir un diagrama de tallo y hojas para estos datos.

Problema 1.4 En un experimento diseñado para estudiar el efecto de un fertilizante sobre el crecimiento de los rábanos, se compara el crecimiento en dos grupos de rábanos, el grupo control formado por 23 plantas de rábano a las cuales no se ha tratado con fertilizante y el grupo experimental formato por 34 plantas tratadas con el mencionado fertilizante. Los siguientes datos corresponden a la longitud, en mm., de un cotiledón de cada una de las plantas consideradas.

a) Representa gráficamente los dos conjuntos de datos mediante diagramas de ca- jas y mediante histogramas. ¿Podŕıas hacer algún comentario sobre el efecto del fertilizante?

No hay comentarios
Esta solo es una vista previa
3 páginas mostradas de 209 páginas totales
Descarga el documento