Docsity
Docsity

Prepara tus exámenes
Prepara tus exámenes

Prepara tus exámenes y mejora tus resultados gracias a la gran cantidad de recursos disponibles en Docsity


Consigue puntos base para descargar
Consigue puntos base para descargar

Gana puntos ayudando a otros estudiantes o consíguelos activando un Plan Premium


Orientación Universidad
Orientación Universidad


Regresión lineal II, Apuntes de Matemáticas

Asignatura: Matemàtiques, Profesor: , Carrera: Química, Universidad: UIB

Tipo: Apuntes

2016/2017

Subido el 24/05/2017

lmo97
lmo97 🇪🇸

2 documentos

1 / 14

Toggle sidebar

Esta página no es visible en la vista previa

¡No te pierdas las partes importantes!

bg1
Regressió lineal simple
1 / 55
Regressió lineal
La taula següent dóna l’alçada mitjana (en cm) dels nins a
determinades edats (en anys):
edat 1 3 5 7 9 11 13
alçada 75 92 108 121 130 142 155
La segona setmana de Matemàtiques I calculàvem amb R la
millor relació lineal
alçada b0+b1·edat
2 / 55
Regressió lineal
> edat=c(1,3,5,7,9,11,13)
> alçada=c(75,92,108,121,130,142,155)
> plot(edat,alçada)
> abline(lm(alçada~edat))
246810 12
80 100 120 140
edat
alçada
3 / 55
Regressió lineal simple
Tenim parelles d’observacions de dues variables X,Y:
(xi,yi)i=1,2,...,n
i volem estudiar com depèn el valor de Ydel de X:
La variable aleatòria Yés la variable dependent ode
resposta
La variable (no necessàriament aleatòria) Xés la variable
de control,independent ode regressió
Volem trobar la millor relació funcional que expliqui la variable
Yconegudes les observacions de la variable X. Per ara,
cercam una relació lineal que expliqui Yen funció de X.
4 / 55
pf3
pf4
pf5
pf8
pf9
pfa
pfd
pfe

Vista previa parcial del texto

¡Descarga Regresión lineal II y más Apuntes en PDF de Matemáticas solo en Docsity!

Regressió lineal simple

1 / 55

Regressió lineal

La taula següent dóna l’alçada mitjana (en cm) dels nins a determinades edats (en anys):

edat 1 3 5 7 9 11 13 alçada 75 92 108 121 130 142 155

La segona setmana de Matemàtiques I calculàvem amb R la millor relació lineal

alçada ≈ b 0 + b 1 · edat

2 / 55

Regressió lineal

edat=c(1,3,5,7,9,11,13) alçada=c(75,92,108,121,130,142,155) plot(edat,alçada) abline(lm(alçada~edat))

2 4 6 8 10 12

80

100

120

140

edat

alçada

3 / 55

Regressió lineal simple

Tenim parelles d’observacions de dues variables X , Y :

(xi , yi )i= 1 , 2 ,...,n

i volem estudiar com depèn el valor de Y del de X :

  • La variable aleatòria Y és la variable dependent o de resposta
  • (^) La variable (no necessàriament aleatòria) X és la variable de control, independent o de regressió

Volem trobar la millor relació funcional que expliqui la variable Y conegudes les observacions de la variable X. Per ara, cercam una relació lineal que expliqui Y en funció de X.

4 / 55

Regressió lineal simple

Suposam que μY |x = β 0 + β 1 x

on μY |x és el valor esperat de Y quan X val x, i β 0 (terme independent) i β 1 (pendent) són dos paràmetres que volem estimar

Amb una mostra (xi , yi )i= 1 , 2 ,...,n, calcularem estimacions b 0 i b 1 de β 0 i de β 1

Això ens donarà la recta de regressió per a la nostra mostra:

̂ y = b 0 + b 1 x

que donat un valor x 0 de X ens estimarà el valor ̂ y 0 = b 0 + b 1 x 0 de Y sobre el mateix individu

5 / 55

Regressió lineal simple

El model anterior el reescrivim com a

Y |x = μY |x + Ex = β 0 + β 1 x + Ex ,

on

  • (^) Y |x és la variable aleatòria “valor de Y quan X val x”
  • Ex és la variable aleatòria error o residu, que dóna la diferència entre el valor de Y i el valor “esperat” μY |x , és a dir, β 0 + β 1 x
  • (^) Com que suposam que μY |x = β 0 + β 1 x, suposam que μEx = 0 per a cada x

6 / 55

Mínims quadrats

Per a cada observació (xi , yi ), tendrem

yi = β 0 + β 1 xi + εi ⇒ εi = yi − (β 0 + β 1 xi )

Diguem l’error quadràtic teòric d’aquest model a

SSε =

∑^ n

i= 1

ε^2 i =

∑^ n

i= 1

(yi − β 0 − β 1 xi )^2

A la regressió lineal per mínims quadrats, els estimadors b 0 i b 1 de β 0 i β 1 que cercam són els valors de “les incògnites” β 0 i β 1 que minimitzen aquest SSε

Mínims quadrats

Anem a minimitzar SSε. El mínim (b 0 , b 1 ) de

SSε =

∑^ n

i= 1

(yi − β 0 − β 1 xi )^2

anul.larà les derivades respecte de β 0 i β 1. Derivem: ∂SSε ∂β 0

∑n i= 1

(yi − β 0 − β 1 xi )

∂SSε ∂β 1

∑n i= 1

(yi − β 0 − β 1 xi )xi

Exemple 1

Volíem calcular la recta de regressió per mínims quadrats de

edat (x) 1 3 5 7 9 11 13 alçada (y ) 75 92 108 121 130 142 155

x=c(1,3,5,7,9,11,13) y=c(75,92,108,121,130,142,155) x.b=mean(x) y.b=mean(y) s2.x=var(x)6/ s2.y=var(y)6/ s.xy=cov(x,y)*6/ round(c(x.b,y.b,s2.x,s2.y,s.xy),3) [1] 7.000 117.571 16.000 674.531 103.

13 / 55

Exemple 1

x y s x^2 s y^2 sxy 7.000 117.571 16 674.531 103.

b 1 =

sxy s x^2

b 0 = y − b 1 x = 117. 571 − 6. 4643 · 7 = 72. 3209 Obtenim ̂ y = 72. 3209 + 6. 4643 x

lm(y~x)$coefficients (Intercept) x 72.321429 6.

14 / 55

Alerta!

Els càlculs involucrats en la regressió lineal són molt poc robusts: els arrodoniments poden influir molt en el resultat final

A la Wikipedia (http: //en.wikipedia.org/wiki/Simple_linear_regression) hi trobareu un exemple detallat d’una regressió de pes en funció d’alçada. Calculada en metres dóna:

̂ y = 61. 272 x − 39. 062

Si es passen les alçades a polzades, s’arrodoneixen, es calcula la recta de regressió, i es torna a passar el resultat a metres, dóna ̂ y = 61. 675 x − 39. 746

Exemple 2

En un experiment on es volia estudiar l’associació entre consum de sal i pressió arterial, a alguns individus se’ls assignà aleatòriament una quantitat diària constant de sal en la seva dieta, i al cap d’un mes se’ls mesurà la tensió mitjana. Alguns resultats varen ser els següents

X (sal, en g) Y (Pressió, en mm de Hg) 1.8 100 2.2 98 3.5 110 4.0 110 4.3 112 5.0 120

Trobau la recta de regressió lineal per mínims quadrats de Y en funció de X

Exemple 2

x y s x^2 s y^2 sxy 3.467 108.333 1.2856 55.2222 8.

b 1 =

b 0 =

Obtenim la recta ̂y =

Podeu comprovar que amb R dóna el mateix

sal=c(1.8,2.2,3.5,4,4.3,5) ten=c(100,98,110,110,112,120) lm(ten~sal)$coefficients

17 / 55

Propietats

  • La recta de regressió passa pel vector mitjà (x, y ):

b 0 + b 1 x = y

  • La mitjana dels valors estimats és igual a la mitjana dels observats:

̂ y =

n

∑^ n

i= 1

̂ yi =

n

∑^ n

i= 1

(b 0 + b 1 xi ) = b 0 + b 1 x = y

  • (^) Els errors (ei )i= 1 ,...,n tenen mitjana 0:

e =

n

∑^ n

i= 1

ei =

n

∑^ n

i= 1

(yi − b 0 − b 1 x) =

n

∑^ n

i= 1

(yi − ̂yi ) = 0

18 / 55

Propietats

Direm suma de quadrats dels errors a

SSE =

∑^ n

i= 1

e i^2

Els errors (ei )i= 1 ,...,n tenen variància

s e^2 =

n

( (^) ∑n

i= 1

e i^2

− e^2 =

SSE

n

SSE

n

Propietats

Teorema

Si les variables aleatòries error Exi tenen totes mitjana 0 i la mateixa variància σ^2 E i, dues a dues, tenen covariància 0, aleshores

  • (^) b 0 i b 1 són els estimadors lineals no esbiaixats òptims (més eficients) de β 0 i β 1
  • Un estimador no esbiaixat de σ^2 E és S^2 =

SSE

n − 2

Teorema

Si a més les variables aleatòries error Exi són normals, aleshores b 0 i b 1 són els estimadors màxim versemblants de β 0 i β 1 (i no esbiaixats)

Com és de significativa la regressió?

Entenem que la recta ̂y = b 0 + b 1 x és una bona aproximació de y com a funció lineal de x quan aquesta recta explica molta part de la variabilitat de y

Es quantifica amb el coeficient de determinació R^2

summary(lm(alçada~edat))$r.squared [1] 0.

25 / 55

Sumes de quadrats

Siguin:

  • SST =

∑n i= 1

(yi − y )^2 : suma total de quadrats

SST = n · s y^2

• SSR =

∑n i= 1

(̂yi − y )^2 : suma de quadrats de la regressió

SSR = n · ŝ y^2

• SSE =

∑n i= 1

(yi − ̂yi )^2 : suma de quadrats dels errors

SSE = n · s e^2

26 / 55

Sumes de quadrats

Teorema

En una regressió lineal pel mètode de mínims quadrats, es té que SST = SSR + SSE

o equivalentment, s y^2 = s^2 ̂ y + s e^2

El coeficient de determinació R

El coeficient de determinació d’una regressió lineal és

R^2 =

SSR

SST

ŝ y^2 s y^2

Per tant, R^2 és la fracció de la variabilitat de y que queda explicada per la variabilitat de ̂y

Si la regressió lineal és per mínims quadrats,

R^2 =

SST − SSE

SST

SSE

SST

s e^2 s y^2

El coeficient de determinació R^2

A més, R^2 = r (^) xy^2 , el coeficient de correlació al quadrat

R^2 =

SSR

SST

∑^ n i= 1

(b 1 xi + b 0 − y )^2

ns^2 y

∑^ n i= 1

sxy s x^2

xi −

sxy s x^2

x)^2

ns y^2

s^2 xy s x^4

∑n i= 1

(xi − x)^2

ns^2 y

=

s xy^2 s x^4

s x^2 s y^2

s xy^2 s x^2 · s y^2

= r (^) xy^2

29 / 55

Exemple 1

x=c(1,3,5,7,9,11,13) y=c(75,92,108,121,130,142,155) y.cap=72.321+6.464*x SST=sum((y-mean(y))^2) SSR=sum((y.cap-mean(y))^2) SSE=sum((y-y.cap)^2) round(c(SST,SSR,SSE),3) [1] 4721.714 4679.729 41.

R^2 =

cor(x,y)^ [1] 0.

30 / 55

Exemple 2

sal=c(1.8,2.2,3.5,4,4.3,5) ten=c(100,98,110,110,112,120) ten.cap=86.371+6.335*sal SST=sum((ten-mean(ten))^2) SSR=sum((ten.cap-mean(ten))^2) SSE=sum((ten-ten.cap)^2) round(c(SST,SSR,SSE),3) [1] 331.333 309.553 21.

R^2 =

El valor de R^2 no és suficient!

No és possible valorar la bondat del model només basant-se amb el valor de R^2. Vegem quatre conjunts de parells (xi , yi ), generats específicament amb aquest objectiu, continguts en el data frame anscombe de R:

data(anscombe) str(anscombe) ’data.frame’: 11 obs. of 8 variables: $ x1: num 10 8 13 9 11 14 6 4 12 7 ... $ x2: num 10 8 13 9 11 14 6 4 12 7 ... $ x3: num 10 8 13 9 11 14 6 4 12 7 ... $ x4: num 8 8 8 8 8 8 8 19 8 8 ... $ y1: num 8.04 6.95 7.58 8.81 8. ... $ y2: num 9.14 8.14 8.74 8.77 9.26 8.1 6.13 3. ... $ y3: num 7.46 6.77 12.74 7.11 7. ... $ y4: num 6.58 5.76 7.71 8.84 8.47 7.04 5.25 12. ... Anem a fer-ne les regressions i a mostrar-ne els R^2 respectius i l’ajustament gràfic de les rectes.

Exemple 2

A l’exemple de la sal i la tensió

sal=c(1.8,2.2,3.5,4,4.3,5) ten=c(100,98,110,110,112,120) ten.cap=86.371+6.335*sal errors=ten-ten.cap SSE=sum(errors^2) S2=SSE/ ks.test(errors,"pnorm",0,sqrt(S2)) One-sample Kolmogorov-Smirnov test data: errors D = 0.2553, p-value = 0. alternative hypothesis: two-sided

37 / 55

Intervals de confiança

Teorema

Sota aquestes hipòtesis,

  • (^) Els errors estàndard dels estimadors b 1 i b 0 són, respectivament,

σE sx

n

i

σE

s x^2 + x^2 sx

n

En aquests errors estàndard (i tots els que segueixen), estimam σE per mitjà de S =

S^2

38 / 55

Intervals de confiança

Teorema

Sota aquestes hipòtesis,

  • Les fraccions

b 1 − β 1 S sx^ √n

i

b 0 − β 0 S

s^2 x +x^2 sx^ √n

segueixen lleis t de Student amb n − 2 graus de llibertat.

Intervals de confiança

Per tant, sota aquestes hipòtesis,

  • Un interval de confiança del ( 1 − α) · 100 % per β 1 és ] b 1 − tn− 2 , 1 − α 2

S

sx

n

, b 1 + tn− 2 , 1 − α 2

S

sx

n

[

Ho escriurem

β 1 = b 1 ± tn− 2 , 1 − α 2

S

sx

n

  • Un interval de confiança del ( 1 − α) · 100 % per β 0 és

β 0 = b 0 ± tn− 2 , 1 − α 2

S

s x^2 + x^2 sx

n

Exemple 1

A l’exemple de les alçades en funció de l’edat, havíem obtingut la recta ̂ y = 72. 321 + 6. 464 x

i x = 7, s x^2 = 16, n = 7, S^2 = 8. 314

Un interval de confiança al 95% per β 1 és

β 1 = b 1 ± tn− 2 , 1 − α 2

S

sx

n

= 6. 464 ± t 5 , 0. 975

És l’interval ] 5. 764 , 7. 164 [

41 / 55

Exemple 1

A l’exemple de les alçades en funció de l’edat, havíem obtingut la recta ̂ y = 72. 321 + 6. 464 x i x = 7, s x^2 = 16, n = 7, S^2 = 8. 314 Un interval de confiança al 95% per β 0 és

β 0 = b 0 ± tn− 2 , 1 − α 2

S

s x^2 + x^2 sx

n

= 72. 321 ± t 5 , 0. 975

És l’interval ] 66. 674 , 77. 968 [

42 / 55

Exemple 1

Obtenim

  • Interval del 95% per a β 1 : ] 5. 764 , 7. 164 [
  • (^) Interval del 95% per a β 0 : ] 66. 674 , 77. 968 [

confint(lm(y~x),level=0.95) 2.5 % 97.5 % (Intercept) 66.674769 77. x 5.763904 7.

Exemple 2

A l’exemple de la tensió en funció de la sal, havíem obtingut la recta ̂ y = 86. 371 + 6. 335 x i x = 3 .467, s x^2 = 1 .2856, n = 6, S^2 = 5 .4365, t 4 , 0. 975 = 2. 7764 L’interval de confiança al 95% per β 1 és

Exemple 1

A l’exemple de les alçades en funció de l’edat, havíem obtingut la recta ̂ y = 72. 321 + 6. 464 x

i x = 7, s x^2 = 16, n = 7, S^2 = 8. 314

Suposem que volem estimar l’alçada y 0 d’un nin de x 0 = 10 anys ̂ y 0 = 72. 321 + 6. 464 · 10 = 136. 961

Interval de confiança al 95% per aquest valor? Interval de confiança al 95% per al valor esperat?

49 / 55

Exemple 1

Un interval de confiança al 95% per y 0 és

y 0 = ̂y 0 ± tn− 2 , 1 − α 2 S

n

(x 0 − x)^2 ns x^2

= 136. 961 ± t 5 , 0. 975

( 10 − 7 )^2

És l’interval ] 128. 8 , 145. 2 [

50 / 55

Exemple 1

Un interval de confiança al 95% per μY |x 0 és

μY |x 0 = ̂y 0 ± tn− 2 , 1 − α 2 S

n

(x 0 − x)^2 ns x^2

= 136. 961 ± t 5 , 0. 975

( 10 − 7 )^2

És l’interval ] 133. 5 , 140. 5 [

Exemple 1

regressio=lm(y~x) newdata=data.frame(x=10) predict.lm(lm(y~x),newdata,

interval="prediction",level=0.95) fit lwr upr 1 136.9643 128.7665 145.

predict(lm(y~x),newdata, interval="confidence",level=0.95)

fit lwr upr 1 136.9643 133.4624 140.

Té sentit una regressió lineal?

Si β 1 = 0, el model de regressió lineal no té sentit:

Y = β 0 + E

i les variacions en els valors de Y són totes degudes a l’error.

El contrast (^) { H 0 : β 1 = 0 H 1 : β 1 6 = 0

el podem realitzar amb l’interval de confiança per a β 1 : si 0 no hi pertany, rebutjam la hipòtesi nul.la

53 / 55

Exemples

Hem obtingut:

  • (^) A l’exemple 1, un interval del 95% per a β 1 és ] 5. 764 , 7. 164 [
  • A l’exemple 2, un interval del 95% per a β 1 : ] 4. 004 , 8. 666 [

Als dos casos concloem que β 1 6 = 0 i que per tant tenia sentit fer la regressió lineal

54 / 55

Amb R

summary(lm(alçada~edat)) ... Coefficients: Estimate Std. Error t value Pr(>|t|) (Intercept) 72.3214 2.1966 32.92 4.86e-07 *** edat 6.4643 0.2725 23.73 2.48e-06 ***


Signif. codes: 0 ‘’ 0.001 ‘’ 0.01 ‘’ 0. ‘.’ 0.1 ‘ ’ 1 ...

Els t value són els dels contrastos amb H 0 : “coeficient = 0”, i els p-valors són els d’aquests contrastos. Podem rebutjar que β 1 = 0 (i que β 0 = 0)

55 / 55