Prepara tus exámenes
Consigue puntos
Orientación Universidad
Vende en Docsity
Docsity AI

Prepara tus exámenes

Prepara tus exámenes y mejora tus resultados gracias a la gran cantidad de recursos disponibles en Docsity

Consigue puntos base para descargar

Gana puntos ayudando a otros estudiantes o consíguelos activando un Plan Premium

Orientación Universidad

Vende en Docsity

Docsity AI

Inicia sesión Regístrate

Prepara tus exámenes

Prepara tus exámenes y mejora tus resultados gracias a la gran cantidad de recursos disponibles en Docsity

Busca documentos

Prepara tus exámenes con los documentos que comparten otros estudiantes como tú en Docsity

Busca tu universidad

Encuentra los documentos específicos para los exámenes de tu universidad

Video Cursos

Estudia con lecciones y exámenes resueltos basados en los programas académicos de las mejores universidades

Quiz

Responde a preguntas de exámenes reales y pon a prueba tu preparación

Docsity AINEW

Resume tus documentos, hazles preguntas, conviértelos en quiz y mapas conceptuales

Ver preguntas

Despeja tus dudas leyendo las respuestas a las preguntas que realizaron otros estudiantes como tú

Consigue puntos base para descargar

Gana puntos ayudando a otros estudiantes o consíguelos activando un Plan Premium

Compartir documentos

20 Puntos

Por cada documento subido

Responde a las preguntas

5 Puntos

por cada respuesta dada (máx. 1 al día)

Todos los modos para conseguir puntos gratis

Consigue puntos de inmediato

Elige un plan Premium con todos los puntos que necesitas.

Oportunidades de estudio

Elige tu próximo programa de estudio

Ponte en contacto inmediatamente con las mejores universidades del mundo. Busca entre miles de universidades en todo el mundo. Busca entre miles de universidades partner oficiales

Comunidad

Pregúntale a la comunidad

Pide ayuda a la comunidad y resuelve tus dudas de estudio

Ebooks gratuitos

¡Nuestros e-books salva-estudiantes!

Descarga nuestras guías gratuitas sobre técnicas de estudio, métodos para controlar la ansiedad y consejos para la tesis preparadas por los tutores de Docsity

Regresión lineal II, Apuntes de Matemáticas

Universitat de les Illes Balears (UIB)Matemáticas

Asignatura: Matemàtiques, Profesor: , Carrera: Química, Universidad: UIB

Tipo: Apuntes

2016/2017

Subido el 24/05/2017

lmo97 🇪🇸

2 documentos

1 / 14

Esta página no es visible en la vista previa

¡No te pierdas las partes importantes!

Regressió lineal simple

1 / 55

Regressió lineal

La taula següent dóna l’alçada mitjana (en cm) dels nins a

determinades edats (en anys):

edat 1 3 5 7 9 11 13

alçada 75 92 108 121 130 142 155

La segona setmana de Matemàtiques I calculàvem amb R la

millor relació lineal

alçada ≈b0+b1·edat

2 / 55

Regressió lineal

> edat=c(1,3,5,7,9,11,13)

> alçada=c(75,92,108,121,130,142,155)

> plot(edat,alçada)

> abline(lm(alçada~edat))

246810 12

80 100 120 140

edat

alçada

3 / 55

Regressió lineal simple

Tenim parelles d’observacions de dues variables X,Y:

(xi,yi)i=1,2,...,n

i volem estudiar com depèn el valor de Ydel de X:

•La variable aleatòria Yés la variable dependent ode

resposta

•La variable (no necessàriament aleatòria) Xés la variable

de control,independent ode regressió

Volem trobar la millor relació funcional que expliqui la variable

Yconegudes les observacions de la variable X. Per ara,

cercam una relació lineal que expliqui Yen funció de X.

4 / 55

Descubre Apuntes de Matemáticas Universitat de les Illes Balears (UIB)

Documentos relacionados

Modelo de Regresión Lineal: Hipótesis y Suposiciones

Tema 2. Modelo de Regresión Lineal Simple

(2)

REGRESIÓN LINEAL

Problemas set sobre el modelo de regresión lineal simple en econometría

REGRESION LINEAL . REGRESION

Regresión lineal

regresion lineal

pronosticos regresion lineal

Datos Regresión lineal

Análisis de Regresión Lineal Múltiple: Igualdad de Medianas y Cálculo R2 - Prof. Rosselló

(2)

Problemas de Estadística: Análisis de Datos de Mendel y Regresión Lineal Múltiple - Prof.

(4)

Resumen Regresion Lineal

Vista previa parcial del texto

¡Descarga Regresión lineal II y más Apuntes en PDF de Matemáticas solo en Docsity!

Regressió lineal simple

1 / 55

Regressió lineal

La taula següent dóna l’alçada mitjana (en cm) dels nins a determinades edats (en anys):

edat 1 3 5 7 9 11 13 alçada 75 92 108 121 130 142 155

La segona setmana de Matemàtiques I calculàvem amb R la millor relació lineal

alçada ≈ b 0 + b 1 · edat

2 / 55

Regressió lineal

edat=c(1,3,5,7,9,11,13) alçada=c(75,92,108,121,130,142,155) plot(edat,alçada) abline(lm(alçada~edat))

2 4 6 8 10 12

100

120

140

edat

alçada

3 / 55

Regressió lineal simple

Tenim parelles d’observacions de dues variables X , Y :

(xi , yi )i= 1 , 2 ,...,n

i volem estudiar com depèn el valor de Y del de X :

La variable aleatòria Y és la variable dependent o de resposta
(^) La variable (no necessàriament aleatòria) X és la variable de control, independent o de regressió

Volem trobar la millor relació funcional que expliqui la variable Y conegudes les observacions de la variable X. Per ara, cercam una relació lineal que expliqui Y en funció de X.

4 / 55

Regressió lineal simple

Suposam que μY |x = β 0 + β 1 x

on μY |x és el valor esperat de Y quan X val x, i β 0 (terme independent) i β 1 (pendent) són dos paràmetres que volem estimar

Amb una mostra (xi , yi )i= 1 , 2 ,...,n, calcularem estimacions b 0 i b 1 de β 0 i de β 1

Això ens donarà la recta de regressió per a la nostra mostra:

̂ y = b 0 + b 1 x

que donat un valor x 0 de X ens estimarà el valor ̂ y 0 = b 0 + b 1 x 0 de Y sobre el mateix individu

5 / 55

Regressió lineal simple

El model anterior el reescrivim com a

Y |x = μY |x + Ex = β 0 + β 1 x + Ex ,

(^) Y |x és la variable aleatòria “valor de Y quan X val x”
Ex és la variable aleatòria error o residu, que dóna la diferència entre el valor de Y i el valor “esperat” μY |x , és a dir, β 0 + β 1 x
(^) Com que suposam que μY |x = β 0 + β 1 x, suposam que μEx = 0 per a cada x

6 / 55

Mínims quadrats

Per a cada observació (xi , yi ), tendrem

yi = β 0 + β 1 xi + εi ⇒ εi = yi − (β 0 + β 1 xi )

Diguem l’error quadràtic teòric d’aquest model a

SSε =

∑^ n

i= 1

ε^2 i =

∑^ n

i= 1

(yi − β 0 − β 1 xi )^2

A la regressió lineal per mínims quadrats, els estimadors b 0 i b 1 de β 0 i β 1 que cercam són els valors de “les incògnites” β 0 i β 1 que minimitzen aquest SSε

Mínims quadrats

Anem a minimitzar SSε. El mínim (b 0 , b 1 ) de

SSε =

∑^ n

i= 1

(yi − β 0 − β 1 xi )^2

anul.larà les derivades respecte de β 0 i β 1. Derivem: ∂SSε ∂β 0

∑n i= 1

(yi − β 0 − β 1 xi )

∂SSε ∂β 1

∑n i= 1

(yi − β 0 − β 1 xi )xi

Exemple 1

Volíem calcular la recta de regressió per mínims quadrats de

edat (x) 1 3 5 7 9 11 13 alçada (y ) 75 92 108 121 130 142 155

x=c(1,3,5,7,9,11,13) y=c(75,92,108,121,130,142,155) x.b=mean(x) y.b=mean(y) s2.x=var(x)6/ s2.y=var(y)6/ s.xy=cov(x,y)*6/ round(c(x.b,y.b,s2.x,s2.y,s.xy),3) [1] 7.000 117.571 16.000 674.531 103.

13 / 55

Exemple 1

x y s x^2 s y^2 sxy 7.000 117.571 16 674.531 103.

b 1 =

sxy s x^2

b 0 = y − b 1 x = 117. 571 − 6. 4643 · 7 = 72. 3209 Obtenim ̂ y = 72. 3209 + 6. 4643 x

lm(y~x)$coefficients (Intercept) x 72.321429 6.

14 / 55

Alerta!

Els càlculs involucrats en la regressió lineal són molt poc robusts: els arrodoniments poden influir molt en el resultat final

A la Wikipedia (http: //en.wikipedia.org/wiki/Simple_linear_regression) hi trobareu un exemple detallat d’una regressió de pes en funció d’alçada. Calculada en metres dóna:

̂ y = 61. 272 x − 39. 062

Si es passen les alçades a polzades, s’arrodoneixen, es calcula la recta de regressió, i es torna a passar el resultat a metres, dóna ̂ y = 61. 675 x − 39. 746

Exemple 2

En un experiment on es volia estudiar l’associació entre consum de sal i pressió arterial, a alguns individus se’ls assignà aleatòriament una quantitat diària constant de sal en la seva dieta, i al cap d’un mes se’ls mesurà la tensió mitjana. Alguns resultats varen ser els següents

X (sal, en g) Y (Pressió, en mm de Hg) 1.8 100 2.2 98 3.5 110 4.0 110 4.3 112 5.0 120

Trobau la recta de regressió lineal per mínims quadrats de Y en funció de X

Exemple 2

x y s x^2 s y^2 sxy 3.467 108.333 1.2856 55.2222 8.

b 1 =

b 0 =

Obtenim la recta ̂y =

Podeu comprovar que amb R dóna el mateix

sal=c(1.8,2.2,3.5,4,4.3,5) ten=c(100,98,110,110,112,120) lm(ten~sal)$coefficients

17 / 55

Propietats

La recta de regressió passa pel vector mitjà (x, y ):

b 0 + b 1 x = y

La mitjana dels valors estimats és igual a la mitjana dels observats:

̂ y =

∑^ n

i= 1

̂ yi =

∑^ n

i= 1

(b 0 + b 1 xi ) = b 0 + b 1 x = y

(^) Els errors (ei )i= 1 ,...,n tenen mitjana 0:

e =

∑^ n

i= 1

ei =

∑^ n

i= 1

(yi − b 0 − b 1 x) =

∑^ n

i= 1

(yi − ̂yi ) = 0

18 / 55

Propietats

Direm suma de quadrats dels errors a

SSE =

∑^ n

i= 1

e i^2

Els errors (ei )i= 1 ,...,n tenen variància

s e^2 =

( (^) ∑n

i= 1

e i^2

− e^2 =

SSE

Propietats

Teorema

Si les variables aleatòries error Exi tenen totes mitjana 0 i la mateixa variància σ^2 E i, dues a dues, tenen covariància 0, aleshores

(^) b 0 i b 1 són els estimadors lineals no esbiaixats òptims (més eficients) de β 0 i β 1
Un estimador no esbiaixat de σ^2 E és S^2 =

SSE

n − 2

Teorema

Si a més les variables aleatòries error Exi són normals, aleshores b 0 i b 1 són els estimadors màxim versemblants de β 0 i β 1 (i no esbiaixats)

Com és de significativa la regressió?

Entenem que la recta ̂y = b 0 + b 1 x és una bona aproximació de y com a funció lineal de x quan aquesta recta explica molta part de la variabilitat de y

Es quantifica amb el coeficient de determinació R^2

summary(lm(alçada~edat))$r.squared [1] 0.

25 / 55

Sumes de quadrats

Siguin:

SST =

∑n i= 1

(yi − y )^2 : suma total de quadrats

SST = n · s y^2

• SSR =

∑n i= 1

(̂yi − y )^2 : suma de quadrats de la regressió

SSR = n · ŝ y^2

• SSE =

∑n i= 1

(yi − ̂yi )^2 : suma de quadrats dels errors

SSE = n · s e^2

26 / 55

Sumes de quadrats

Teorema

En una regressió lineal pel mètode de mínims quadrats, es té que SST = SSR + SSE

o equivalentment, s y^2 = s^2 ̂ y + s e^2

El coeficient de determinació R

El coeficient de determinació d’una regressió lineal és

R^2 =

SSR

SST

ŝ y^2 s y^2

Per tant, R^2 és la fracció de la variabilitat de y que queda explicada per la variabilitat de ̂y

Si la regressió lineal és per mínims quadrats,

R^2 =

SST − SSE

SST

SSE

SST

s e^2 s y^2

El coeficient de determinació R^2

A més, R^2 = r (^) xy^2 , el coeficient de correlació al quadrat

R^2 =

SSR

SST

∑^ n i= 1

(b 1 xi + b 0 − y )^2

ns^2 y

∑^ n i= 1

sxy s x^2

xi −

sxy s x^2

x)^2

ns y^2

s^2 xy s x^4

∑n i= 1

(xi − x)^2

ns^2 y

s xy^2 s x^4

s x^2 s y^2

s xy^2 s x^2 · s y^2

= r (^) xy^2

29 / 55

Exemple 1

x=c(1,3,5,7,9,11,13) y=c(75,92,108,121,130,142,155) y.cap=72.321+6.464*x SST=sum((y-mean(y))^2) SSR=sum((y.cap-mean(y))^2) SSE=sum((y-y.cap)^2) round(c(SST,SSR,SSE),3) [1] 4721.714 4679.729 41.

R^2 =

cor(x,y)^ [1] 0.

30 / 55

Exemple 2

sal=c(1.8,2.2,3.5,4,4.3,5) ten=c(100,98,110,110,112,120) ten.cap=86.371+6.335*sal SST=sum((ten-mean(ten))^2) SSR=sum((ten.cap-mean(ten))^2) SSE=sum((ten-ten.cap)^2) round(c(SST,SSR,SSE),3) [1] 331.333 309.553 21.

R^2 =

El valor de R^2 no és suficient!

No és possible valorar la bondat del model només basant-se amb el valor de R^2. Vegem quatre conjunts de parells (xi , yi ), generats específicament amb aquest objectiu, continguts en el data frame anscombe de R:

data(anscombe) str(anscombe) ’data.frame’: 11 obs. of 8 variables: $ x1: num 10 8 13 9 11 14 6 4 12 7 ... $ x2: num 10 8 13 9 11 14 6 4 12 7 ... $ x3: num 10 8 13 9 11 14 6 4 12 7 ... $ x4: num 8 8 8 8 8 8 8 19 8 8 ... $ y1: num 8.04 6.95 7.58 8.81 8. ... $ y2: num 9.14 8.14 8.74 8.77 9.26 8.1 6.13 3. ... $ y3: num 7.46 6.77 12.74 7.11 7. ... $ y4: num 6.58 5.76 7.71 8.84 8.47 7.04 5.25 12. ... Anem a fer-ne les regressions i a mostrar-ne els R^2 respectius i l’ajustament gràfic de les rectes.

Exemple 2

A l’exemple de la sal i la tensió

sal=c(1.8,2.2,3.5,4,4.3,5) ten=c(100,98,110,110,112,120) ten.cap=86.371+6.335*sal errors=ten-ten.cap SSE=sum(errors^2) S2=SSE/ ks.test(errors,"pnorm",0,sqrt(S2)) One-sample Kolmogorov-Smirnov test data: errors D = 0.2553, p-value = 0. alternative hypothesis: two-sided

37 / 55

Intervals de confiança

Teorema

Sota aquestes hipòtesis,

(^) Els errors estàndard dels estimadors b 1 i b 0 són, respectivament,

σE sx

σE

s x^2 + x^2 sx

En aquests errors estàndard (i tots els que segueixen), estimam σE per mitjà de S =

S^2

38 / 55

Intervals de confiança

Teorema

Sota aquestes hipòtesis,

Les fraccions

b 1 − β 1 S sx^ √n

b 0 − β 0 S

s^2 x +x^2 sx^ √n

segueixen lleis t de Student amb n − 2 graus de llibertat.

Intervals de confiança

Per tant, sota aquestes hipòtesis,

Un interval de confiança del ( 1 − α) · 100 % per β 1 és ] b 1 − tn− 2 , 1 − α 2

S

, b 1 + tn− 2 , 1 − α 2

S

[

Ho escriurem

β 1 = b 1 ± tn− 2 , 1 − α 2

S

Un interval de confiança del ( 1 − α) · 100 % per β 0 és

β 0 = b 0 ± tn− 2 , 1 − α 2

S

s x^2 + x^2 sx

Exemple 1

A l’exemple de les alçades en funció de l’edat, havíem obtingut la recta ̂ y = 72. 321 + 6. 464 x

i x = 7, s x^2 = 16, n = 7, S^2 = 8. 314

Un interval de confiança al 95% per β 1 és

β 1 = b 1 ± tn− 2 , 1 − α 2

S

= 6. 464 ± t 5 , 0. 975

És l’interval ] 5. 764 , 7. 164 [

41 / 55

Exemple 1

A l’exemple de les alçades en funció de l’edat, havíem obtingut la recta ̂ y = 72. 321 + 6. 464 x i x = 7, s x^2 = 16, n = 7, S^2 = 8. 314 Un interval de confiança al 95% per β 0 és

β 0 = b 0 ± tn− 2 , 1 − α 2

S

s x^2 + x^2 sx

= 72. 321 ± t 5 , 0. 975

És l’interval ] 66. 674 , 77. 968 [

42 / 55

Exemple 1

Obtenim

Interval del 95% per a β 1 : ] 5. 764 , 7. 164 [
(^) Interval del 95% per a β 0 : ] 66. 674 , 77. 968 [

confint(lm(y~x),level=0.95) 2.5 % 97.5 % (Intercept) 66.674769 77. x 5.763904 7.

Exemple 2

A l’exemple de la tensió en funció de la sal, havíem obtingut la recta ̂ y = 86. 371 + 6. 335 x i x = 3 .467, s x^2 = 1 .2856, n = 6, S^2 = 5 .4365, t 4 , 0. 975 = 2. 7764 L’interval de confiança al 95% per β 1 és

Exemple 1

A l’exemple de les alçades en funció de l’edat, havíem obtingut la recta ̂ y = 72. 321 + 6. 464 x

i x = 7, s x^2 = 16, n = 7, S^2 = 8. 314

Suposem que volem estimar l’alçada y 0 d’un nin de x 0 = 10 anys ̂ y 0 = 72. 321 + 6. 464 · 10 = 136. 961

Interval de confiança al 95% per aquest valor? Interval de confiança al 95% per al valor esperat?

49 / 55

Exemple 1

Un interval de confiança al 95% per y 0 és

y 0 = ̂y 0 ± tn− 2 , 1 − α 2 S

(x 0 − x)^2 ns x^2

= 136. 961 ± t 5 , 0. 975

( 10 − 7 )^2

És l’interval ] 128. 8 , 145. 2 [

50 / 55

Exemple 1

Un interval de confiança al 95% per μY |x 0 és

μY |x 0 = ̂y 0 ± tn− 2 , 1 − α 2 S

(x 0 − x)^2 ns x^2

= 136. 961 ± t 5 , 0. 975

( 10 − 7 )^2

És l’interval ] 133. 5 , 140. 5 [

Exemple 1

regressio=lm(y~x) newdata=data.frame(x=10) predict.lm(lm(y~x),newdata,

interval="prediction",level=0.95) fit lwr upr 1 136.9643 128.7665 145.

predict(lm(y~x),newdata, interval="confidence",level=0.95)

fit lwr upr 1 136.9643 133.4624 140.

Té sentit una regressió lineal?

Si β 1 = 0, el model de regressió lineal no té sentit:

Y = β 0 + E

i les variacions en els valors de Y són totes degudes a l’error.

El contrast (^) { H 0 : β 1 = 0 H 1 : β 1 6 = 0

el podem realitzar amb l’interval de confiança per a β 1 : si 0 no hi pertany, rebutjam la hipòtesi nul.la

53 / 55

Exemples

Hem obtingut:

(^) A l’exemple 1, un interval del 95% per a β 1 és ] 5. 764 , 7. 164 [
A l’exemple 2, un interval del 95% per a β 1 : ] 4. 004 , 8. 666 [

Als dos casos concloem que β 1 6 = 0 i que per tant tenia sentit fer la regressió lineal

54 / 55

Amb R

summary(lm(alçada~edat)) ... Coefficients: Estimate Std. Error t value Pr(>|t|) (Intercept) 72.3214 2.1966 32.92 4.86e-07 *** edat 6.4643 0.2725 23.73 2.48e-06 ***

Signif. codes: 0 ‘’ 0.001 ‘’ 0.01 ‘’ 0. ‘.’ 0.1 ‘ ’ 1 ...

Els t value són els dels contrastos amb H 0 : “coeficient = 0”, i els p-valors són els d’aquests contrastos. Podem rebutjar que β 1 = 0 (i que β 0 = 0)

55 / 55