Docsity
Docsity

Prepara tus exámenes
Prepara tus exámenes

Prepara tus exámenes y mejora tus resultados gracias a la gran cantidad de recursos disponibles en Docsity


Consigue puntos base para descargar
Consigue puntos base para descargar

Gana puntos ayudando a otros estudiantes o consíguelos activando un Plan Premium


Orientación Universidad
Orientación Universidad


Estadísticas Descriptivas y Regresión Lineal: Definiciones y Ejercicios Resueltos, Ejercicios de Estadística Económica

Guía resuelta de estadística descriptiva

Tipo: Ejercicios

2018/2019

Subido el 26/04/2019

enzo1989paski
enzo1989paski 🇨🇱

1

(1)

4 documentos

1 / 75

Toggle sidebar

Esta página no es visible en la vista previa

¡No te pierdas las partes importantes!

bg1
´
Indice General
1 Estad´ısticas Descriptivas: Definiciones 2
1.1 Medidas de Tendencia Central . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 2
1.1.1 Media ....................................... 2
1.1.2 Moda ....................................... 2
1.1.3 Mediana...................................... 3
1.2 Medidas de Posici´on y Variabilidad . . . . . . . . . . . . . . . . . . . . . . . . . . . 4
1.2.1 Percentiles..................................... 4
1.2.2 Variabilidad.................................... 4
1.2.3 Correlaci´on .................................... 6
1.3 EjerciciosResueltos.................................... 9
2 Regresi´on Lineal: Definiciones 64
2.1 Modelo de Regresi´on Lineal . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 64
2.2 EjerciciosResueltos.................................... 66
1
pf3
pf4
pf5
pf8
pf9
pfa
pfd
pfe
pff
pf12
pf13
pf14
pf15
pf16
pf17
pf18
pf19
pf1a
pf1b
pf1c
pf1d
pf1e
pf1f
pf20
pf21
pf22
pf23
pf24
pf25
pf26
pf27
pf28
pf29
pf2a
pf2b
pf2c
pf2d
pf2e
pf2f
pf30
pf31
pf32
pf33
pf34
pf35
pf36
pf37
pf38
pf39
pf3a
pf3b
pf3c
pf3d
pf3e
pf3f
pf40
pf41
pf42
pf43
pf44
pf45
pf46
pf47
pf48
pf49
pf4a
pf4b

Vista previa parcial del texto

¡Descarga Estadísticas Descriptivas y Regresión Lineal: Definiciones y Ejercicios Resueltos y más Ejercicios en PDF de Estadística Económica solo en Docsity!

´Indice General

  • 1 Estad´ısticas Descriptivas: Definiciones
    • 1.1 Medidas de Tendencia Central
      • 1.1.1 Media
      • 1.1.2 Moda
      • 1.1.3 Mediana
    • 1.2 Medidas de Posici´on y Variabilidad
      • 1.2.1 Percentiles
      • 1.2.2 Variabilidad
      • 1.2.3 Correlaci´on
    • 1.3 Ejercicios Resueltos
  • 2 Regresi´on Lineal: Definiciones
    • 2.1 Modelo de Regresi´on Lineal
    • 2.2 Ejercicios Resueltos

Cap´ıtulo 1

Estad´ısticas Descriptivas: Definiciones

1.1 Medidas de Tendencia Central

Son ´ındices o indicadores que nos dan una referencia alrededor de que valores se mueven los datos.

1.1.1 Media

La media corresponde a un tipo de promedio, m´as precisamente a la media aritm´etica, bulgarmente conocida como “promedio”. El uso de esta medida es bastante com´un, aunque ella por si sola no entrega mayor informaci´on, ya que representa el punto de equilibrio de las observaciones. General- mente se suele representar por μ si se habla de la media poblacional, y por X¯ si corresponde a la media muestral. La media se calcula dependiendo de como se presenten los datos, b´asicamente existen dos formas:

  1. Datos desagrupados (no tabulados): En este caso se tienen para X (variable de inter´es)las n observaciones x 1 , x 2 ,... , xn, entonces

X¯ = x^1 +^ x^2 +^ · · ·^ +^ xn n

n

∑^ n

i=

xi.

  1. Datos agrupados (tabulados): En este caso se tiene una tabla de fracuencias con k intervalos, donde xi representa la marca de clase del i-´esimo intervalo, ni la i-´esima frecuencia absoluta observada y n coresponde al total de observaciones, entonces

X¯ = x^1 ·^ n^1 +^ x^2 ·^ n^2 +^ · · ·^ +^ xk^ ·^ nk n

n

∑^ k

i=

xi · ni.

1.1.2 Moda

La moda, como su nombre lo indica es lo m´as frecuente, es decir, de un grupo de observaciones, el valor “modal” corresponder´a a aquel valor que m´as se repite. Generalmente, se representa por

donde LIi es el limite inferior del intervalo i, Ni− 1 la frecuencia absoluta acumulada del intervalo (i − 1), ci corresponde al largo del intervalo i y ni es la frecuencia absoluta del intervalo i.

1.2 Medidas de Posici´on y Variabilidad

Las medidas de posici´on son indicadores que nos permiten tener una referencia de cuales son los valores que toman las observaciones. En general se designa como Pp, que representa la valor del percentil que deja p × 100% de las observaciones por bajo este valor. Las medidas de variabilidad nos permiten tener un indicio de que tan “variadas” son las observaciones.

1.2.1 Percentiles

Los percentiles corresponden a ciertos valores de las observaciones que dejan un determinado por- centaje de observaciones por bajo este valor.

  1. Datos desagrupados (no tabulados):
  2. Datos agrupados (tabulados): En este caso se tiene una tabla de frecuencias con k intervalos. Primero debemos identificar el intervalo que contiene al valor del percentil, as´ı realizamos un prec´alculo de la cantidad (p·n)/100, luego observamos en la tabla de frecuencias, en la columna de frecuencias absolutas acumuladas, la cantidad Ni m´ınima que contiene a (p · n)/100 (mayor o igual), e identificamos el intervalo asociado a este valor y procedemos a c´alcular:

M ed(X) = LIi +

(p · n 100

− Ni− 1

) (^) c i ni

donde LIi es el limite inferior del intervalo i, Ni− 1 la frecuencia absoluta acumulada del intervalo (i − 1), ci corresponde al largo del intervalo i y ni es la frecuencia absoluta del intervalo i^3.

1.2.2 Variabilidad

  1. Varianza y Desviaci´on Est´andar. La varianza es un indicador de la variabilidad de las observaciones, es decir, nos permite saber cuan dispersos est´an las observaciones respecto a la media, pero esta medida es al cuadrado, por lo cual no tiene una interpretaci´on muy directa, es as´ı que resulta mucho m´as ´util la desviaci´on est´andar, que es la raiz cuadrada de la varianza. Generalmente se utiliza σ^2 para designar a la varianza poblacional^4 y S^2 a la varianza muestral, de igual forma σ y S corresponden a las desviaciones est´andar poblacional y muestral, respectivamente. La varianza se calcula por: (^3) Al lector le debe llamar la atenci´on que la definici´on de Percentil y de Mediana sean similares, salvo un n´umero,

esto es porque la mediana corresponde al percentil 50. (^4) Tambi´en se utiliza la nomenclatura VVar (X).

(a) Datos desagrupados (no tabulados): En este caso se tienen para X (variable de inter´es) las n observaciones x 1 , x 2 ,... , xn.

σ^2 =

n

∑^ n

i=

(xi − μ)^2 =

n

( (^) n ∑

i=

x^2 i − nμ^2

⇐⇒ σ =

n

( (^) n ∑

i=

x^2 i − nμ^2

S^2 =

n − 1

∑^ n

i=

xi − X¯

n − 1

( (^) n ∑

i=

x^2 i − n X¯^2

⇔ S =

n − 1

( (^) n ∑

i=

x^2 i − n X¯^2

(b) Datos agrupados (tabulados): En este caso se tiene una tabla de frecuencias con k intervalos, donde ni es la frecuencia absoluta del intervalo i, xi la marca de clase del i-´esimo intervalo y n el total de observaciones.

σ^2 =

n

( (^) k ∑

i=

nix^2 i − nμ^2

⇐⇒ σ =

n

( (^) k ∑

i=

nix^2 i − nμ^2

S^2 =

n − 1

( (^) k ∑

i=

nix^2 i − n X¯^2

⇐⇒ S =

n − 1

( (^) k ∑

i=

nix^2 i − n X¯^2

  1. Covarianza As´ı como la varianza es una forma de medir la variabilidad de una variable de inter´es, la covarianza nos permite medir la variabilidad conjunta de dos variables X e Y 5.

(a) Datos no agrupados: Sean x 1 ,... , xn e y 1 ,... , yn las respectivas observaciones para las variables X e Y , adem´as sean μX y μY , las respectivas medias de las variables. La covarianza se denota por σXY 6.

σXY =

n

( (^) n ∑

i=

xiyi − nμX μY

(b) Datos agrupados: En este caso se tiene una tabla con frecuencias conjuntas para las variables X e Y , es decir, se tiene una tabla con k filas para X y l columnas para Y , donde nij corresponde a la frecuencia absoluta observada en la celda que se genera al intersectarse la fila i con la columna j, con i = 1,... , k y j = 1,... , l.

σXY =

n

( (^) k ∑

i=

∑^ l

j=

nij xiyj − nμX μY

(^5) El lector debe poner atenci´on en que, la covarianza de una variable X con sigo misma, es decir, σXX =

Cov(X, X) = σ X^2 corresponde a la varianza de la variable X. (^6) Tambi´en se suele utilizar Cov(X, Y ).

param´etro como por ejemplo la media (μ) o la varianza (σ) de un conjunto de datos, sino que involucra un concepto de “rango” de las observaciones, para eso definamos este concepto de la siguiente forma: diremos que los rangos de un conjunto de observaciones x 1 ,... , xn se deter- minan ordenando de menor a mayor las observaciones, es decir, sean 1, 2 ,... , n las respectivas posiciones de las observaciones y a su vez los respectivos rangos para cada observaci´on, siendo 1 el rango de la observaci´on m´as peque˜na y n el rango de la observaci´on mayor, entonces verificamos lo siguiente, si existen observaciones repetidas, el rango que les corresponder´a a cada una, se determina mediante la media de los rangos de estas observaciones, por ejemplo si en un conjunto de observaciones se tienen x 3 = 5, x 20 = 5, x 54 = 5, x 60 = 5 y al ser ordenadas de menor a mayor los rangos respectivas para estas observaciones son 2, 3 , 4 , 5, entonces los rangos respectivos para cada una de estas observaciones ser´a (2 + 3 + 4 + 5)/4 = 14/4 = 3.5, y de la misma forma se procede con el otro conjunto de datos, para luego comparar los rangos respectivos entre ambos conjuntos de datos. Ahora el coeficiente de correlaci´on de Spearman se c´alcula por:

rS = 1 −

6 ×

∑n i=1 d

2 i n(n − 1)

donde di es la diferencia de los rangos de las observaciones xi e yi y n es el total de observa- ciones. La interpretaci´on de este coeficiente es equivalente a la de Pearson.

  1. Coeficiente de Correlaci´on Biserial por Rangos.

Efectivamente como su nombre lo indica, en el c´alculo de este coeficiente est´an involucrados los rangos de las observaciones, es decir, se tienen dos conjuntos de observaciones de una misma variable A y B, no necesariamente del mismo largo, entonces el coeficiente se define por: rbr =

n

( R¯A − R¯B ) ,

donde R¯A y R¯B corresponden a las medias de los rangos para los grupo A y B, respectivamente, es decir, R¯A =

∑nA i=1 (rangos del grupo A)/nA, y de igual forma para el otro grupo, donde^ nA y nB son el n´umero de observaciones del grupo A y B, respectivamente y n = nA + nB total de observaciones.

  1. Coeficiente Phi (φ).

Este coeficiente nos permite determinar el tipo de asociaci´on que existe entre los datos de una tabla de 2 × 2 de la forma: Y Atributo 1 Atributo 2 T otal X Atributo 1 a b a + b Atributo 2 c d c + d T otal a + c b + d

Se c´alcula con la siguiente f´ormula:

φ =

a × d − b × c √ (a + b)(c + d)(a + c)(b + d)

Su interpretaci´on es la siguiente:

  • Si el coeficiente resulta ser positivo, entonces los atributos iguales est´an asociados entre s´ı, reflejando una relaci´on directa entre ambos atributos de ambas variables.
  • Si el coeficiente resulta ser negativo, entonces existen relaciones opuestas entre los atrib- utos de las variables.

Color Azul Verde Rojo Morado C´odigo 1 2 3 4

(a) Construya una tabla de frecuencias. (b) Determine el porcentaje de preferencias por el color Verde. (c) Determine el porcentaje de personas que prefieren el color Azul o Verde. (d) Determine el color m´as frecuente.

Des.

(a) Sea X:Color preferido, de esta forma la variable es cualitativa nominal. Color ni fi 1 (Azul) 10 0. 333 2 (Verde) 8 0. 267 3 (Rojo) 9 0. 300 4 (Morado) 3 0. 100 Total 30 1. 000

(b) El 26.7% de los entrevistados prefiere el color Verde. (c) Sumando los porcentajes de preferencias por Azul (33.3%) y Verde (26.7%), el resultado es 60.0%. (d) En este caso la Moda corresponde al valor m´as frecuente, en este caso M od(X) = Azul.

  1. En una encuesta realizada a 25 Ingenieros en USA respecto a la optimizaci´on en el uso del cobre, se consult´o ¿Cu´al cree usted que es la mejor forma de utilizar el cobre?

Forma Combinado con oro Combinado con plata Puro l´ıquido Puro s´olido C´odigo 1 2 3 4

y los resultados son los siguientes:

2 4 2 1 2 1 1 1 2 2 3 2 1 2 4 4 4 1 3 2 4 1 2 2 2

(a) Identifique y clasifique la variable en estudio. (b) Construya una tabla de frecuencias. (c) ¿Qu´e proporci´on de Ingenieros considera que debe ser utilizado combinado con plata? (d) ¿Qu´e porcentaje de Ingenieros cree que se puede utilizar mejor el cobre en forma combi- nada?

(e) ¿Qu´e porcentaje de Ingenieros estima que se optimiza su uso en cualquiera de sus estados puros?

Des.

(a) Sea X:forma de uso del cobre. Cualitativa nominal. (b).

C´odigo ni fi 1 7 0. 280 2 11 0. 440 3 2 0. 080 4 5 0. 200 Total 25 1. 000

(c) La proporci´on de Ingenieros que considera que debe ser utilizado combinado con plata es 11 de 25 o 11/25 = 0.44. (d) El porcentaje de Ingenieros que considera que se debe utilizar combinado es la suma de los que consideran que debe ser utilizado combinado con oro (28.0%) con los que consideran que debe ser utilizado combinado con plata (44.0%) que es igual a un 72.0%. (e) Al igual que en el caso anterior debemos sumar los porcentajes de los que consideran que se optimiza su uso puro l´ıquido (8.0%) con el porcentaje de puro s´olido (20.0%) que es igual a un 28.0%.

  1. La siguiente informaci´on corresponde a las notas obtenidas por un grupo de alumnos de cierto curso.

Nota N´umero de alumnos 1-3 15 3-5 38 5-7 12

(a) Determine y clasifique la variable de inter´es. (b) ¿Cu´al es la nota m´as frecuente obtenida por los alumnos? (c) ¿Cu´al es la nota media obtenida por estos alumnos? (d) ¿Cu´antos alumnos tienen una nota inferior a la nota mediana? Determine el valor del valor mediano para la nota.

Des.

(a) Sea X:Nota obtenida por un alumno. Cuantitativa Continua^8. Construimos la tabla de frecuencias: (^8) Una variable continua siempre es cuantitativa, por lo cual es equivalente decir que una variable es cuantitativa

continua con s´olo decir que es una variable continua

  1. La siguiente tabla muestra la oferta de precios para departamentos en el centro de la ciudad.

UF Cantidad de departamentos 920-990 140 990-1050 350 1050-1200 300 1200-1400 160

(a) ¿Cu´al es el precio medio de los departamentos? (b) ¿Cu´antos departamentos tienen un precio inferior a 1150 UF? (c) Determine el valor modal de los departamentos. (d) ¿Cu´al es la variaci´on de los precios de los departamentos?

Des. Sea X: precio de los departamentos en $UF.

xi X ni fi Ni 955 920 − 990 140 0. 147 140 1050 990 − 1050 350 0. 368 490 1125 1050 − 1200 300 0. 316 790 1300 1200 − 1400 160 0. 168 950 Total 950 1. 000

(a)

μX =

(955 × 140 + 1020 × 350 + 1125 × 300 + 1300 × 160)

= 1090 .74 UF

(b)

p × 950 100

p × 950 100

100 ×

p × 950 100

p × 950 100 690 ×

= p p = 72. 63

Luego el 72.63% de los departamentos tiene un precio inferior a 1150, entonces 950 × (72.63%/100%) = 690 departamentos.

(c)

M od(X) = 990 +

× 60

= 1038 .46 UF

(d)

σ X^2 =

(140 × 9552 + 350 × 10202 + 300 × 11252 + 160 × 13002 ) − 950 × 1090. 742

= 12297 .83 UF^2

σX = 110 .90 UF

  1. La siguiente tabla muestra el gasto anual en electricidad (en millones de pesos) de 200 personas.

Gasto anual N´umero de personas 0.8-1.0 20 1.0-1.6 70 1.6-2. 2.0-2.6 65 Total (a) Determine el gasto medio y su variaci´on. (b) ¿Cu´antas personas gastan m´as de $1800000, en electricidad al a˜no? (c) Determine el valor modal de gasto.

Des. Sea X:gasto anual en electricidad, en millones de pesos. Primero completamos la tabla. Por enunciado el total de personas es 200, luego sabemos que la suma de la columna de frecuencias observadas debe ser 200, por lo cual restamos al total las frecuencias que aparecen en la tabla y obtenemos el valor faltante.

xi X ni fi Ni nixi

  1. 9 0. 8 − 1. 0 20 0. 100 20 18
  2. 3 1. 0 − 1. 6 70 0. 350 90 91
  3. 8 1. 6 − 2. 0 45 0. 225 135 81
  4. 3 2. 0 − 2. 6 65 0. 325 200 149. 5 Total 200 1. 000 339. 5

(d) Determine si el valor modal es superior al valor mediano.

Des.

Sea X: sueldo anual, en millones de pesos. Completamos la tabla de frecuencias.

xi X ni fi Ni nixi nix^2 i

  1. 0 1. 5 − 2. 5 27 0. 108 27 54 108
  2. 0 2. 5 − 3. 5 19 0. 076 46 57 171
  3. 0 3. 5 − 4. 5 25 0. 100 71 100 400
  4. 0 4. 5 − 5. 5 179 0. 716 250 895 4475 Total 250 1. 000 1106 5154

(a)

μX =

= 4.42 millones de pesos.

(b)

σ^2 X =

5154 − 250 × 4. 422

= 1 .08 (millones de pesos)^2 σX = 1 .34 millones de pesos.

(c)

p × 250 100

p =

(3. 2 − 2 .5) ×

= 16. 12 ≈ 16 personas.

(d) Para el valor modal, primero identificamos el intervalo con la mayor frecuencia observada.

M od(X) = 4 .5 +

× 1. 0

= 4 .96 millones de pesos.

Para el valor mediano, primero determinamos el valor 250/2 = 125, para encontrar el intervalo de la mediana.

M ed(X) = 4 .5 +

250 × 50

= 4 .80 millones de pesos.

Efectivamente el valor modal es superior al valor mediano.

  1. La siguiente tabla muestra el gasto mensual en locomoci´on de un grupo de 30 familias expre- sado en miles de pesos.

Gasto mensual N´umero de (miles de pesos) familias 5-12 7 12-18 9 18- 25-33 7

(a) ¿Cu´al es el gasto mensual medio en locomoci´on de estas familias? (b) ¿Cu´antas familias gastan mensualmente m´as de $19000 en locomoci´on? (c) ¿Cu´al es el gasto m´as frecuente en locomoci´on? (d) ¿Cu´al es la variabilidad respecto a la media del gasto en locomoci´on? (e) ¿Cu´al es el monto de gasto mensual que deja por bajo este valor al 75% de los montos?

Des. Sea X: gasto mensual en locomoci´on.

xi X ni fi Ni nixi nix^2 i

  1. 5 5 − 12 7 0. 233 7 59. 5 505. 75 15 12 − 18 9 0. 300 16 135 2025
  2. 5 18 − 25 7 0. 233 23 150. 5 3235. 75 29 25 − 33 7 0. 233 30 203 5887 Total 30 1. 000 548 11653. 5

(a)

μX =

= 18.27 millones de pesos.

Des.

Sea X: edad, en a˜nos.

xi X ni fi Ni nixi nix^2 i

  1. 5 18 − 21 16 0. 080 16 312 6084 24 21 − 27 42 0. 210 58 1008 24192
  2. 5 27 − 30 117 0. 585 175 3334. 5 95033. 25
  3. 5 30 − 35 25 0. 125 200 812. 5 26406. 25 Total 200 1. 000 5467 151715. 5 (a)

μX =

= 27.34 a˜nos.

(b)

M ed(X) = 27 +

200 × 50

= 28 .08 a˜nos.

M od(X) = 27 +

= 28 .35 a˜nos. Entonces, se puede observar que la edad mediana no es mayor a la edad m´as frecuente. (c)

σ^2 X =

(151715. 5 − 200 × 27. 342 ) =

= 11.10 (a˜nos)^2 σX = 3 .33 a˜nos.

(d) Primero determinaremos el porcentaje de personas que se encuentra en el intervalo, para ello determinaremos el porcentaje de personas que est´an por bajo los 31 a˜nos y luego lo restaremos con el porcentaje que deja por bajo los 25 a˜nos, para posteriormente determinar la cantidad de personas.

31 = 30 +

p × 200 100

p =

= 180 ×

p × 200 100

p =

Entonces, el porcentaje de personas que tiene entre 25 y 31 a˜nos es 90% − 22% = 68%, as´ı la cantidad de personas es 200 × (68%/100%) = 136 personas.

  1. La siguiente tabla resume a un grupo de profesionales j´ovenes respecto a la cantidad de dinero que gastan en diversi´on mensualmente, en miles de pesos.

Gasto mensual n´umero de j´ovenes 5-15 91 15-28 105 28-32 70 32-50 56 (a) ¿Cu´ale es el gasto promedio de dinero en diversi´on? (b) ¿Cu´antos j´ovenes gastas m´as de $30000 mensuales en diversi´on? (c) ¿Cu´al es el m´aximo que gasta el 75% de los entrevistados que menos gasta? (d) Determine el coeficiente de variaci´on para estos j´ovenes?

Des. Sea X: cantidad de dinero que gastan en diversi´on, en miles de pesos.

xi X ni fi Ni nixi nix^2 i 10 5 − 15 91 0. 283 91 910 9100

  1. 5 15 − 28 105 0. 326 196 2257. 5 48536. 25 30 28 − 32 70 0. 217 266 2100 63000 41 32 − 50 56 0. 174 322 2296 94136 Total 322 1. 000 7563. 5 214772. 25

(a)

μX =

= 23.49 miles de pesos.

(b)

30 = 28 +

p × 322 100

p =