Docsity
Docsity

Prepara tus exámenes
Prepara tus exámenes

Prepara tus exámenes y mejora tus resultados gracias a la gran cantidad de recursos disponibles en Docsity


Consigue puntos base para descargar
Consigue puntos base para descargar

Gana puntos ayudando a otros estudiantes o consíguelos activando un Plan Premium


Orientación Universidad
Orientación Universidad


Regresion múltiple lineal, Apuntes de Estadística

Regresion múltiple lineal de esta

Tipo: Apuntes

2022/2023

Subido el 16/01/2026

juan-eduardo-quispe-flores
juan-eduardo-quispe-flores 🇧🇴

1 documento

1 / 8

Toggle sidebar

Esta página no es visible en la vista previa

¡No te pierdas las partes importantes!

bg1
CAPITULO 5
REGRESION LINEAL MULTIPLE
En este capítulo estamos interesados exactamente la misma estimación que en el capítulo 4, pero el problema
es complicado por el uso de un modelo con varias variables independientes.
En general, suponga que hay una sola variable dependiente o de respuesta y que depende de q variables
independientes o regresores, por ejemplo, x1,x2,…,xq. La relación que existe entre estas variables se
caracteriza por un modelo matemático llamado modelo de regresión. Dicho modelo se ajusta a un conjunto de
datos muestrales. En ocasiones el experimentador conoce la forma exacta de la verdadera relación funcional
entre y y x1,x2,…,xq, por ejemplo y = ( x1,x2,…,xq) . Sin embargo, en la mayoría de los casos no se conoce la
verdadera relación funcional, y el experimentador elige una función apropiada para aproximar . Los
modelos polinomiales de orden inferior son de uso generalizado como funciones de aproximación.
La atención se centrará en el ajuste de modelos de regresión lineal. Para ilustrar, suponga que quiere
desarrollarse un modelo empírico que relacione la viscosidad de un polímero con la temperatura y la
velocidad de alimentación del catalizador. Un modelo que podría describir esta relación es
donde y representa la viscosidad, xl la temperatura y x2 la velocidad de alimentación del catalizador. Se trata
de un modelo de regresión lineal múltiple con dos variables independientes. Es común llamar a las variables
independientes variables predictoras o regresores (variables de regresión). Se utiliza el término lineal porque
la ecuación es una función lineal de los parámetros desconocidos βo, β1 y β2. El modelo describe un plano en
el espacio bidimensional x1,x2 .El parámetro βo define la intersección del plano con el eje de las ordenadas. En
ocasiones β1 y β2 se denominan los coeficientes de regresión parcial, porque β1 mide el cambio esperado y
para cada cambio unitario de x1 cuando x2 se mantiene constante, y β2 mide el cambio esperado en y para
cada cambio unitario de x2 cuando x1 se mantiene constante.
En general, la variable de respuesta y puede relacionarse con q regresores. Al modelo
se le llama modelo de regresión lineal múltiple con q regresores. A los parámetros βj, j =O, 1, ..., q se les
llama los coeficientes de regresión. Este modelo describe un hiperplano en el espacio de q dimensiones de los
regresares {xj}. El parámetro βj representa el cambio esperado en la respuesta y para un cambio unitario en xj
cuando las variables independientes restantes Xi (i ≠ j) se mantienen constantes.
pf3
pf4
pf5
pf8

Vista previa parcial del texto

¡Descarga Regresion múltiple lineal y más Apuntes en PDF de Estadística solo en Docsity!

CAPITULO 5

REGRESION LINEAL MULTIPLE

En este capítulo estamos interesados exactamente la misma estimación que en el capítulo 4, pero el problema

es complicado por el uso de un modelo con varias variables independientes.

En general, suponga que hay una sola variable dependiente o de respuesta y que depende de q variables

independientes o regresores, por ejemplo, x 1

,x

2

,…,x

q

. La relación que existe entre estas variables se

caracteriza por un modelo matemático llamado modelo de regresión. Dicho modelo se ajusta a un conjunto de

datos muestrales. En ocasiones el experimentador conoce la forma exacta de la verdadera relación funcional

entre y y x 1

,x

2

,…,x

q

, por ejemplo y = ( x

1

,x

2

,…,x

q

). Sin embargo, en la mayoría de los casos no se conoce la

verdadera relación funcional, y el experimentador elige una función apropiada para aproximar. Los

modelos polinomiales de orden inferior son de uso generalizado como funciones de aproximación.

La atención se centrará en el ajuste de modelos de regresión lineal. Para ilustrar, suponga que quiere

desarrollarse un modelo empírico que relacione la viscosidad de un polímero con la temperatura y la

velocidad de alimentación del catalizador. Un modelo que podría describir esta relación es

donde y representa la viscosidad, x l

la temperatura y x

2

la velocidad de alimentación del catalizador. Se trata

de un modelo de regresión lineal múltiple con dos variables independientes. Es común llamar a las variables

independientes variables predictoras o regresores (variables de regresión). Se utiliza el término lineal porque

la ecuación es una función lineal de los parámetros desconocidos β o

, β

1

y β

2

. El modelo describe un plano en

el espacio bidimensional x 1

,x

El parámetro β o

define la intersección del plano con el eje de las ordenadas. En

ocasiones β 1

y β

2

se denominan los coeficientes de regresión parcial, porque β

1

mide el cambio esperado y

para cada cambio unitario de x 1

cuando x 2

se mantiene constante, y β 2

mide el cambio esperado en y para

cada cambio unitario de x 2

cuando x

1

se mantiene constante.

En general, la variable de respuesta y puede relacionarse con q regresores. Al modelo

se le llama modelo de regresión lineal múltiple con q regresores. A los parámetros β j

, j =O, 1, ..., q se les

llama los coeficientes de regresión. Este modelo describe un hiperplano en el espacio de q dimensiones de los

regresares {x j

}. El parámetro βj representa el cambio esperado en la respuesta y para un cambio unitario en x j

cuando las variables independientes restantes Xi (i ≠ j) se mantienen constantes.

OBSERVACIONES EXPERIMENTALES.

   

n

i 1

i

n

i 1

i i n

i 1

i

n

i 1

q i iq

n

i 1

n

i 1

1 i i 1 i

P

j 1

n nj n

n 1 n 2 n 3 nq npn

n 2

n 1 n 2 n 3 nq n 1

aln nivel

observaciones

n

2

P

j 1

2 2 j

21 22 23 2 q 2 p 2

21

21 22 23 2 q 21

2

P

j 1

1 1 j 1

11 12 13 1 q 1 p 1

11 12 12

11 12 13 1 q 11

al primernivel

observacion

1

p

py

x px / p....x px / p y

___________________________________________________

. y y /P

x x x .. x .. y

: : : .. .. .. y

x x x .. x .. y

P

y y /P

x x x .. x .. y

x : : .. .. .. :

x x x .. x .. y

P

y y /P

x x x .. x .. y

x x : .. .. .. y

x x x .. x .. y

p

VARIABLEINDEP. VARIALEDEPEN.

n

n

2

i

MODELO

( ) ...... ( )

( ) ( )

independientes:

especificadodelasvariable

entoncesparaunnivel

' ...

( )

( ) ( ) .....

equivalente

' ....

3 3 3

i 0 1 1 1 2 2 2

0 0 11 2 2

0 1 1 1 2 2 2

11 2 2

i q iq q

i i

q q

q q q

O q q

x x x x

x x x x

x x x

x x

x x x x

o

x x x

    

     

    

      

   

 

   

    

   

    

Obtención de parámetros estimadores:

Encontrar el vector (llamar a esto

k

0

) el que minimiza 

Se obtienen estos valores cumpliendo

q

0

y la resolución por

Nota:

 

su valor

escalar nocambia

de estecomoun

transposicion

Regladelproducto

1 , 2 ,.....

 

 

wy y w w y

T

k

La

wy

k

T

T

k

k q k

T

k

pero enlafilak

x

x

k

x y

q

k

1

0

k

w y x  0

2 x

T

k

Six wx

T

no es singular entonces, la estimación de parámetros viene dada por:

x wx x wy

T

1

T

Son los estimados deseados (note que los 

’s

son todos lineales en los valores

i

y) y el mejor

estimador de es:

x x wx x wy

y x ˆ

T

1

T

(Observe que los mejores estimadores son también en las observaciones,

's

i

y ).

5.2 VALORES ESPERADOS Y “VARIANZAS” DE y
y

El método de mínimos cuadrados produce un estimador insesgado del parámetro β del modelo

de regresión lineal. Esto puede demostrarse fácilmente tomando el valor esperado de

̂

de la

siguiente manera:

Asumiendo que el modelo es correcto, si.

yesunbuenestimadorde )

y) xx wx ( ) (Setieneque

E(

esunbuenestimador)

) ( ) (Setieneque

1 1

T

1 1

 

 

x wE y xx wx x wx x

E x wx x wE y x wx x wx

E y x

I

T T T

I

T T T T

La propiedad de la varianza de

̂

se expresa en la matriz de covarianza:

T

(q 1 )x(q 1 )

q 0 q

1 0 1

0 0 1 0 1

ˆ

][
E
) ...... ...... VAR(
COV(
) VAR(
COV(
) ...... COV(
) COV(
VAR(

 

Pero

[x wx] x w[y ]

[x wx] x wy [x wx] x w

T

C

1

T

T 1 T T 1 T

 

T

T T

T T

ˆ

) ) cx wE(y E(y))(y E(y) cx w

E((

y

Si VAR(y ij

)=

2

y COV(y

ij

, y

kl

)=0 para ik, jl entonces

i

2

i

2

i

2

i

2

i

2

y

: ... ... 1 / p

: 1 /p ... ...

1 /p ... ... ...

0 0 : /p

0 /p ... 0

/p 0 ... 0

La matriz de covarianza es una matriz simétrica cuyo elemento i-ésimo de la diagonal principal

es la varianza del coeficiente de regresión individual

̂

y cuyo elemento (ij)-ésimo es la

covarianza entre

̂

y

̂

. La matriz de covarianza de

̂

es:

I

1

T T 2

I

p

...

p

n

1

2

T

ˆ

w xc c[x wx][x wx]

1 /p

1 /p

cx w

n

1

   

 

c COV(

VAR(

lotanto

k i

2

k1,i 1

2

1 , 1

K

2

1 , 1 2

ˆ

i k

k k

c

c

Por c

Si, como se mostró en la última sección, las distribuciones marginales para

k i

y ˆ

y

 están

normalmente distribuidas, es decir:

kk

2

y

2

k 1 ,k 1 y

2

y

2

kk

2

k 1 ,k 1 i i

2

k k

S S c y S S d

y

y N( , d ) ˆ

~N( , c ) y

k i i i

  

 

Son nuestros mejores estimadores de y) ˆ

) y VAR(

VAR (

k i

 respectivamente entonces:

y kk

i i

y k 1 ,k 1

k k

S d

y ˆ

y

S c

i i

 

Tendrán distribuciones t con G.L.=p i

-(q-1) los grados de libertad (G.L.) están asociados con

2

y i

S ) entonces los intervalos de confidencia del 1- son:

i 1 / 2 y kk i i 1 / 2 y kk

k 1 / 2 y k 1 ,k 1 k k 1 / 2 y k 1 ,k 1

y t S d ˆ

y t S d ˆ

t S c

t S c

i i

i i

  

     

y el test de hipótesis:

1 / 2

k 1 ,k 1

i

y

k k

0

1 k k

0 k k

t

S c

rechacaH si

H :
H :



 

Si uno tiene un problema con más de un  (o  i

) entonces es necesario considerar intervalos de

confidencia conjuntos (regiones) y test de hipótesis basados en la distribución F de Fisher.

5-4 ANALISIS DE VARIANZA PARA UNA REGRESION LINEAL MULTIPLE

(Partición de suma de cuadrados alrededor de la gran media)

G.L. q

debido alaregresion,SS

Sumadecuadrados

2

i i

G.L.n-(q1)

de residuos,SS

Sumadecuadrados

2

i i i

G.L. p n

por error,SS

Sumadecuadrados

n

i 1

p

j 1

2

ij i

G.L. n- 1

alrededordelagranmedia

Sumadecuadrados

n

i 1

p

j 1

2

ij

r 3

i

e

i i

y y )
y) p(
(y y) (y y) p(y
cambiado
quelosG.L.han
linealexcepto
representacion
queparauna
eslomismo

  

 

 

 

   

Representación matricial

   

n

i 1

pi

j 1

n

i 1

pi

j 1

i

2

T 2 T

ij i

2

ij

y y p ˆ

y w ˆ

y y) ˆ

y y) w( ˆ

(y y) (y y) (

ANOVA

FUENTE SUMA DE CUADRADOS G. DE L. C.M.

  1. Debido a la regresión

̂ ̂ ̅

q

q

SS
SS

3

2

3

  1. Desviaciones de la

regresión lineal

(

̂

)

̂

n-(q+1)

n (q 1 )

SS
S

r

2

r

  1. Error experimental

∑ ∑

̅

p i

-n

p n

SS
S

i

e

2

e

5-5 TEST DE HIPOTESIS BASADOS EN EL ANOVA

En los problemas de regresión lineal múltiple, ciertas pruebas de hipótesis acerca de los

parámetros del modelo son una ayuda para medir la utilidad del modelo. En esta sección se

describen varios procedimientos de prueba de hipótesis importantes. Estos procedimientos

requieren que los errores del modelo sigan una distribución normal e independiente con media

cero y varianza

H 0

: El modelo  x

describe los datos dentro de los límites de error experimental.

H 1

: No describe

Rechace H

0

si :

 

F ( n (q 1 ), p n)

S
S

1 1 2 i 2

e

2

r

Si H 0

es aceptado obtenga una estimación extrapolada de 

2

, es decir:

p (q 1 )

SS SS
S

i

r e

2

y

i

La prueba de significación de la regresión es un procedimiento para determinar si existe una

relación lineal entre la variable de respuesta Y y un subconjunto de los regresares x 1

,x

2

,…,x

q

.

La hipótesis apropiada es:

H 0

: 

1

=

2

=

3

=………..=

q

=

H 1

: No todos los de arriba son cero

Rechace H

0

si:



F ( q, p (q 1 ))

S
S

2 1 1 2 i

y

2

3

i