Docsity
Docsity

Prepara tus exámenes
Prepara tus exámenes

Prepara tus exámenes y mejora tus resultados gracias a la gran cantidad de recursos disponibles en Docsity


Consigue puntos base para descargar
Consigue puntos base para descargar

Gana puntos ayudando a otros estudiantes o consíguelos activando un Plan Premium


Orientación Universidad
Orientación Universidad


ESTADISTICA, Apuntes de Estadística

Asignatura: Estadistica, Profesor: César Beltrán, Carrera: Ciencias Ambientales, Universidad: URJC

Tipo: Apuntes

2012/2013

Subido el 08/05/2013

anaiis6693
anaiis6693 🇪🇸

4.3

(56)

19 documentos

1 / 142

Toggle sidebar

Esta página no es visible en la vista previa

¡No te pierdas las partes importantes!

bg1
Estad´
ıstica
C´
esar Beltr´
an Royo
Actualizado: 21/08/2012
pf3
pf4
pf5
pf8
pf9
pfa
pfd
pfe
pff
pf12
pf13
pf14
pf15
pf16
pf17
pf18
pf19
pf1a
pf1b
pf1c
pf1d
pf1e
pf1f
pf20
pf21
pf22
pf23
pf24
pf25
pf26
pf27
pf28
pf29
pf2a
pf2b
pf2c
pf2d
pf2e
pf2f
pf30
pf31
pf32
pf33
pf34
pf35
pf36
pf37
pf38
pf39
pf3a
pf3b
pf3c
pf3d
pf3e
pf3f
pf40
pf41
pf42
pf43
pf44
pf45
pf46
pf47
pf48
pf49
pf4a
pf4b
pf4c
pf4d
pf4e
pf4f
pf50
pf51
pf52
pf53
pf54
pf55
pf56
pf57
pf58
pf59
pf5a
pf5b
pf5c
pf5d
pf5e
pf5f
pf60
pf61
pf62
pf63
pf64

Vista previa parcial del texto

¡Descarga ESTADISTICA y más Apuntes en PDF de Estadística solo en Docsity!

Estad´ıstica

C´esar Beltr´an Royo

Actualizado: 21/08/

    1. Descripci´on de datos
    • 1.1. S´ıntesis num´erica de los datos
      • 1.1.1. Media
      • 1.1.2. Varianza
      • 1.1.3. Mediana, cuartiles y rango
    • 1.2. S´ıntesis gr´afica de los datos
      • 1.2.1. Histograma
      • 1.2.2. Diagrama de tallo y hojas
      • 1.2.3. Diagrama de caja y bigotes (Box plot)
      • 1.2.4. Series temporales
    • 1.3. Datos bivariantes
      • 1.3.1. Diagrama de dispersi´on (Scatter plot)
      • 1.3.2. Correlaci´on
    • 1.4. Ejercicios
    1. Probabilidad y variables aleatorias
    • 2.1. Introducci´on
    • 2.2. Variables aleatorias y probabilidad
      • 2.2.1. Variables aleatorias
      • 2.2.2. Probabilidad
      • 2.2.3. Ejercicios
    • 2.3. Variables aleatorias discretas
      • 2.3.1. Concepto y propiedades
      • 2.3.2. Distribuci´on binomial
      • 2.3.3. Ejercicios ´Indice general
      • 2.3.4. Distribuci´on de Poisson
      • 2.3.5. Ejercicios
    • 2.4. Variables aleatorias continuas
      • 2.4.1. Concepto y propiedades
      • 2.4.2. Ejercicios
      • 2.4.3. Distribuci´on exponencial
      • 2.4.4. Ejercicios
      • 2.4.5. Distribuci´on normal
      • 2.4.6. Tipificaci´on de una VA normal
      • 2.4.7. Inversa de la funci´on de distribuci´on normal
      • 2.4.8. An´alisis de normalidad
      • 2.4.9. Ejercicios
    1. Inferencia estad´ıstica
    • 3.1. Apartados
    • 3.2. Definici´on intuitiva de poblaci´on y muestra
    • 3.3. Muestras aleatorias
    • 3.4. Teorema central de l´ımite
    • 3.5. Estimaci´on puntual
      • 3.5.1. Estimadores insesgados
    • 3.6. Inferencia sobre la media (varianza conocida)
      • 3.6.1. Hip´otesis de normalidad
      • 3.6.2. Intervalo de confianza (varianza conocida)
      • 3.6.3. Cota de confianza (varianza conocida)
      • 3.6.4. Contraste de hip´otesis bilateral para la media (varianza conocida)
      • 3.6.5. Relaci´on entre contraste de hip´otesis bilateral e intervalo de confianza
      • 3.6.6. Contraste de hip´otesis unilateral para la media (varianza conocida)
      • 3.6.7. P-valor (varianza conocida)
      • 3.6.8. Ejercicios
    • 3.7. Inferencia sobre la media (varianza desconocida)
      • 3.7.1. Contraste de hip´otesis sobre la media (varianza desconocida) ´Indice general
      • 3.7.2. P-valor (varianza desconocida)
      • 3.7.3. Intervalo de confianza (varianza desconocida)
      • 3.7.4. Ejercicios
    • 3.8. Inferencia sobre proporciones
      • 3.8.1. Contraste de hip´otesis (proporciones)
      • 3.8.2. Intervalo de confianza (proporciones)
      • 3.8.3. Ejercicios
    1. Regresi´on
    • 4.1. Apartados
    • 4.2. Introducci´on a los modelos emp´ıricos
    • 4.3. Regresi´on lineal simple
      • 4.3.1. Recta de regresi´on
      • 4.3.2. Ejercicios
      • 4.3.3. Propiedades del modelo de regresi´on
      • 4.3.4. Regresi´on y an´alisis de varianza (ANOVA)
    • 4.4. Contraste de hip´otesis en regresi´on lineal
    • 4.5. Intervalos en regresi´on lineal
      • 4.5.1. Intervalos de confianza para β 0 y β
      • 4.5.2. Intervalos de previsi´on para Y
      • 4.5.3. Ejercicios
    • 4.6. Protocolo del modelo de regresi´on lineal
      • 4.6.1. Validaci´on del modelo de regresi´on
    • 4.7. Correlaci´on y regresi´on
      • 4.7.1. Ejercicios
    • 4.8. Regresi´on lineal m´ultiple
      • 4.8.1. Ejercicios

Cap´ıtulo 1

Descripci´on de datos

1.1. S´ıntesis num´erica de los datos

El objetivo de esta secci´on es aprender a sintetizar la informaci´on contenida en los datos mediante par´ametros estad´ısticos:

Media. Varianza y desviaci´on t´ıpica. Mediana, cuartiles y rango.

1.1.1. Media

Ejemplo 1 (Juntas sint´eticas)

Datos: Consideramos una proceso de fabricaci´on de juntas sint´eticas para maquinaria de alta precisi´on destinada a la fabricaci´on de microcircuitos. En el ´ultimo lote se han fabricado N = 10, 000 juntas. Nos interesa estudiar su resistencia a la tracci´on medida en psi (libras por pulgada cuadrada). Hemos medido la resistencia de cada junta y hemos obtenido los siguientes valores D = { 1048 , 1059 ,... , 1037 } psi. La suma de las 10.000 resistencias es: (^10000) ∑ i=

xi = 10406700 psi.

1

1.1. S´ıntesis num´erica de los datos

Objetivo: Calcular la media poblacional de la resistencia a la tracci´on de este lote de juntas.

Operaciones 1: La media poblacional se calcula mediante la f´ormula de la media aritm´etica:

μ =

∑ (^10000) i=1 xi 10000 =

10000 =^1040 ,^67 psi. Soluci´on: La media poblacional de la resistencia a la tracci´on de este lote de juntas es de 1040,67 psi.

General (Poblaci´on y media poblacional)

Poblaci´on: es el conjunto de elementos sobre el que se realizan las observaciones para estudiar alguna de sus caracter´ıstica. Si el conjunto de datos de la poblaci´on es finito D = {x 1 ,... , xN }, su media poblacional μ se calcula mediante la f´ormula de la media aritm´etica:

μ =

∑N

i=1 xi N.

Ejemplo 2 (Juntas sint´eticas - continuaci´on)

Datos: En realidad ser´ıa demasiado caro medir la resistencia a la tracci´on de todas las juntas del lote (N = 10.000). Lo que normalmente se hace es analizar solamente una muestra. Supongamos que hemos extraido una muestra de juntas sint´eticas de tama˜no n = 8 y hemos medido su resistencia: D = { 1048 , 1059 , 1047 , 1066 , 1040 , 1070 , 1037 , 1073 } psi Objetivo: Calcular la media muestral de la resistencia a la tracci´on de esta muestra de juntas.

Operaciones 2: La media muestral se calcula mediante la f´ormula de la media aritm´etica:

x¯ =

∑ (^8) i=1 xi 8 =

8 =^1055 ,^0 psi.

1.1. S´Intesis num´erica de los datos

1.1.2. Varianza

Ejemplo 3 (Juntas sint´eticas - continuaci´on)

Datos: Recordamos la resistencia a la tracci´on de la muestra de 8 juntas sint´eticas. D = { 1048 , 1059 , 1047 , 1066 , 1040 , 1070 , 1037 , 1073 } psi. Objetivo: Calcular la varianza muestral y la desviaci´on t´ıpica muestral de la resistencia a la tracci´on. Interpretar el valor de la desviaci´on t´ıpica en este contexto.

Operaciones 3:

La varianza muestral se calcula mediante la siguiente f´ormula (ver la tabla de la Figura 1.2). s^2 =

∑ (^8) i=1(xi − x¯) 2 8 − 1 =

7 =^192 ,^57 psi

La desviaci´on t´ıpica muestral es la ra´ız cuadrada de la varianza √ s = 192 , 57 = 13 , 9 psi. La mayor´ıa de datos (5 de 8 = 63 %) han ca´ıdo en el intervalo

[x¯ − s, x¯ + s] ≈ [1055 − 14 , 1055 + 14] = [1041, 1069] psi.

Todos los datos (8 de 8) han ca´ıdo en el intervalo

[x¯ − 2 s, x¯ + 2 s] ≈ [1055 − 28 , 1055 + 28] = [1027, 1083] psi. Soluci´on: La varianza muestral de la resistencia a la tracci´on es 192 , 57 psi^2. Su desviaci´on t´ıpica muestral es de 13 , 9 psi. La mayor´ıa de datos han ca´ıdo en el intervalo [1041, 1069] psi.

1.1. S´Intesis num´erica de los datos

Figura 1.2: Tabla para calcular la varianza.

Figura 1.3: Medimos la dispersi´on respecto a la media muestral x¯.

Todos los datos han ca´ıdo en el intervalo [1027, 1083] psi.

General (Varianza y desviaci´on t´ıpica)

Varianza poblacional σ^2 : Es una medida de dispersi´on. Si el conjunto de datos de la poblaci´on es finito D = {x 1 ,... , xN }, se calcula mediante la f´ormula σ^2 =

∑N

i=1(xi^ −^ μ)^2 N. Esta f´ormula calcula el promedio del cuadrado de las desviaciones respecto a la media poblacional.

1.1. S´Intesis num´erica de los datos

Operaciones 4:

Primero tenemos que ordenar los datos de menor a mayor

D = { 901 , 1202 , 1503 , 1704 , 10005 }.

El primer cuartil corresponde al dato interpolado en la posici´on 1,5:

q 1 = d (^14) (n+1) = d (^14) (5+1) = d 1 , 5 = 105 KWh.

El segundo cuartil (mediana):

q 2 = d^24 (n+1) = d (^24) (5+1) = d 3 = 150 KWh.

El tercer cuartil:

q 3 = d^34 (n+1) = d (^34) (5+1) = d 4 , 5 = 585 KWh.

El rango:

Rango = dn − d 1 = d 5 − d 1 = 1000 − 90 = 910 KWh. Soluci´on:

  • q 1 = 105, q 2 = 150 y q 3 = 585 (datos en KWh).
  • Tenemos aproximadamente: ◦ Un 25 % de las observaciones por debajo de q 1 (en realidad tenemos un 20 %). ◦ Un 50 % de las observaciones por debajo de q 2 (en realidad tenemos un 40 %). ◦ Un 75 % de las observaciones por debajo de q 3 (en realidad tenemos un 80 %).
  • Notar que x¯ = 306 KWh no es un valor central de la muestra D. Por eso decimos que la media no es un par´ametro robusto.
  • Sin embargo, q 2 = 150 KWh s´ı es un valor central de la muestra D. Por eso decimos que la mediana es un par´ametro robusto.

General (Mediana, cuartiles y rango)

Cuartiles qi : Para calcularlos:

1.2. S´Intesis gr´afica de los datos

  • Primero tenemos que ordenar los datos de menor a mayor D = {d 1 , d 2 ,... , dn}.
  • qi es el dato interpolado en la posici´on i 4 (n + 1) : qi = d i 4 (n+1) i ∈ { 1 , 2 , 3 }. El segundo cuartil se denomina mediana y es un par´ametro robusto de centralidad. El primer y tercer cuartil son par´ametros de dispersi´on. Los cuartiles particionan el conjunto de datos en cuartos (aproximadamente). Rango: Es una medida de dispersi´on. Se calcula como la diferencia entre el dato m´aximo y el dato m´ınimo: Rango = dn − d 1.

1.2. S´ıntesis gr´afica de los datos

El objetivo de esta secci´on es aprender a sintetizar la informaci´on contenida en los datos mediante gr´aficos estad´ısticos:

Histograma. Diagrama de caja y bigotes. Serie temporal.

1.2.1. Histograma

Ejemplo 5 (Pelotas de golf)

Datos: Consideramos una proceso de fabricaci´on de pelotas de golf. Para comprobar que un lote de pelotas de golf cumple con los est´andares, una mag- nitud a estudiar es la distancia recorrida despu´es de golpear la pelota con un palo de golf (bajo ciertas condiciones homog´eneas). Hemos tomado una muestra de 100 pelotas y hemos anotado la distancia recorrida (yardas) tras ser golpeadas (ver Fig. 1.4). 1 yarda = 0,91 m.

1.2. S´Intesis gr´afica de los datos

General (Histogramas)

Sintetiza de forma gr´afica los datos a analizar. En muchas aplicaciones de ingenier´ıa el correspondiente histograma tiene forma acam- panada. En ese caso:

  • La mayor´ıa de datos (alrededor del 68 %) caen en el intervalo [¯x − s, ¯x + s].
  • Casi todos los datos (alrededor del 95 %) caen en el intervalo [¯x − 2 s, ¯x + 2s]. Representaci´on de un histograma:
  • Se divide el rango de valores en intervalos, denominados intervalos de clase o celdas.
  • Si es posible, procurar que los intervalos de clase tengan la misma amplitud.
  • Un buen n´umero de clases a tomar es √n.
  • Se construye la tabla de frecuencias (absoluta, relativa y acumulada) contando los casos que caen en cada intervalo de clase.
  • A cada intervalo de clase le corresponde una columna.
  • La altura de cada columna corresponde a la frecuencia (absoluta o relativa) de las observaciones que caen dentro de su intervalo.

1.2.2. Diagrama de tallo y hojas

Ejemplo 6 (Aleaci´on ligera)

Datos: Consideramos una proceso de fabricaci´on de piezas de una aleaci´on ligera de aluminio-litio destinada a la construcci´on de aviones. Nos interesa estudiar su resistencia a la compresi´on medida en psi (libras por pul- gada cuadrada). Hemos tomado una muestra de 80 piezas y hemos medido su resistencia a la com- presi´on (ver Tabla 1.1). Objetivo: Construir un diagrama de tallo y hojas de la anterior muestra. Operaciones 6: Seguimos los pasos que se indican en el apartado denominado ‘General’.

1.2. S´Intesis gr´afica de los datos

Tabla 1.1: Resistencia a la compresi´on de 80 piezas de aluminio-litio (medida en psi). 105 221 183 186 121 181 180 143 97 154 153 174 120 168 167 141 245 228 174 199 181 158 176 110 163 131 154 115 160 208 158 133 207 180 190 193 194 133 156 123 134 178 76 167 184 135 229 146 218 157 101 171 165 172 158 169 199 151 142 163 145 171 148 158 160 175 149 87 160 237 150 135 196 201 200 176 150 170 118 149 Tallo Hoja Frecuencia 7 6 1 8 7 1 9 7 1 10 51 2 11 580 3 12 103 3 (^1314 41353529583169 ) 15 471340886808 12 16 3073050879 10 17 8544162106 10 18 0361410 7 (^1920 9609347108 ) 21 8 1 22 189 3 23 7 1 24 5 1

Soluci´on: Ver figura.

General (Construcci´on de un diagrama de tallo y hojas)

Los datos deben tener al menos dos d´ıgitos. Se divide cada observaci´on en dos partes: el tallo (uno o m´as d´ıgitos de la izquierda) y la hoja (resto de d´ıgitos) Se listan los tallos en una columna (de menor a mayor), poniendo los repetidos una sola vez. Se escriben las hojas de cada tallo en una segunda columna. A veces se escribe el n´umero de hojas por tallo en una tercera columna (la frecuencia absoluta)

1.2. S´Intesis gr´afica de los datos

  • Valores t´ıpicos y at´ıpicos (outliers) : Observaciones que caen dentro y fuera, respec- tivamente, del intervalo [ q 1 − 1 , 5 RIC, q 3 + 1, 5 RIC ].
  • Valores at´ıpicos extremos : Observaciones fuera del intervalo [ q 1 − 3 RIC, q 3 + 3 RIC ]. Se dibuja una caja entre q 1 y q 3. Se dibuja una l´ınea vertical en la mediana. Cada ‘bigote’ se dibujan hasta la observaci´on m´as extrema t´ıpica. Los valores at´ıpicos y at´ıpicos extremos se representan por puntos.

El box-plot facilita la comparaci´on gr´afica de varios conjuntos de datos (ver Fig. 1.8).

Figura 1.7: Representaci´on de un diagrama de caja y bigotes.

1.2.4. Series temporales

Ejemplo 8 (Venta de coches)

Datos: En un concesionario, las ventas trimestrales de coches durante tres a˜nos se muestran en la Tabla 1.2. 1989 Ventas 1990 Ventas 1991 Ventas 1 17 1 20 1 28 2 20 2 26 2 30 3 14 3 20 3 21 4 7 4 13 4 17 Tabla 1.2: Ventas de coches por trimestres.

1.2. S´Intesis gr´afica de los datos

Figura 1.8: Comparaci´on de varios conjuntos de datos.

Figura 1.9: Serie temporal de las ventas de coches trimestrales.

Objetivo: Representar estos datos ordenados de forma cronol´ogica. Soluci´on: Ver Figura 1.9.

General (Series temporales)

Es un conjunto de datos en el que las observaciones se ordenan de forma cronol´ogica. Para representar una serie temporal el eje horizontal corresponde al tiempo y el eje vertical corresponde a la magnitud o caracter´ıstica analizada. La representaci´on de una serie temporal es muy ´util para desvelar patrones temporales (tendencia, ciclos, etc.).