








Prepara tus exámenes y mejora tus resultados gracias a la gran cantidad de recursos disponibles en Docsity
Gana puntos ayudando a otros estudiantes o consíguelos activando un Plan Premium
Prepara tus exámenes
Prepara tus exámenes y mejora tus resultados gracias a la gran cantidad de recursos disponibles en Docsity
Prepara tus exámenes con los documentos que comparten otros estudiantes como tú en Docsity
Encuentra los documentos específicos para los exámenes de tu universidad
Estudia con lecciones y exámenes resueltos basados en los programas académicos de las mejores universidades
Responde a preguntas de exámenes reales y pon a prueba tu preparación
Consigue puntos base para descargar
Gana puntos ayudando a otros estudiantes o consíguelos activando un Plan Premium
Comunidad
Pide ayuda a la comunidad y resuelve tus dudas de estudio
Ebooks gratuitos
Descarga nuestras guías gratuitas sobre técnicas de estudio, métodos para controlar la ansiedad y consejos para la tesis preparadas por los tutores de Docsity
Asignatura: Matemàtiques, Profesor: , Carrera: Química, Universidad: UIB
Tipo: Apuntes
1 / 14
Esta página no es visible en la vista previa
¡No te pierdas las partes importantes!









1 / 55
La taula següent dóna l’alçada mitjana (en cm) dels nins a determinades edats (en anys):
edat 1 3 5 7 9 11 13 alçada 75 92 108 121 130 142 155
La segona setmana de Matemàtiques I calculàvem amb R la millor relació lineal
alçada ≈ b 0 + b 1 · edat
2 / 55
edat=c(1,3,5,7,9,11,13) alçada=c(75,92,108,121,130,142,155) plot(edat,alçada) abline(lm(alçada~edat))
2 4 6 8 10 12
80
100
120
140
edat
alçada
3 / 55
Tenim parelles d’observacions de dues variables X , Y :
(xi , yi )i= 1 , 2 ,...,n
i volem estudiar com depèn el valor de Y del de X :
Volem trobar la millor relació funcional que expliqui la variable Y conegudes les observacions de la variable X. Per ara, cercam una relació lineal que expliqui Y en funció de X.
4 / 55
Suposam que μY |x = β 0 + β 1 x
on μY |x és el valor esperat de Y quan X val x, i β 0 (terme independent) i β 1 (pendent) són dos paràmetres que volem estimar
Amb una mostra (xi , yi )i= 1 , 2 ,...,n, calcularem estimacions b 0 i b 1 de β 0 i de β 1
Això ens donarà la recta de regressió per a la nostra mostra:
̂ y = b 0 + b 1 x
que donat un valor x 0 de X ens estimarà el valor ̂ y 0 = b 0 + b 1 x 0 de Y sobre el mateix individu
5 / 55
El model anterior el reescrivim com a
Y |x = μY |x + Ex = β 0 + β 1 x + Ex ,
on
6 / 55
Per a cada observació (xi , yi ), tendrem
yi = β 0 + β 1 xi + εi ⇒ εi = yi − (β 0 + β 1 xi )
Diguem l’error quadràtic teòric d’aquest model a
SSε =
∑^ n
i= 1
ε^2 i =
∑^ n
i= 1
(yi − β 0 − β 1 xi )^2
A la regressió lineal per mínims quadrats, els estimadors b 0 i b 1 de β 0 i β 1 que cercam són els valors de “les incògnites” β 0 i β 1 que minimitzen aquest SSε
Anem a minimitzar SSε. El mínim (b 0 , b 1 ) de
SSε =
∑^ n
i= 1
(yi − β 0 − β 1 xi )^2
anul.larà les derivades respecte de β 0 i β 1. Derivem: ∂SSε ∂β 0
∑n i= 1
(yi − β 0 − β 1 xi )
∂SSε ∂β 1
∑n i= 1
(yi − β 0 − β 1 xi )xi
Volíem calcular la recta de regressió per mínims quadrats de
edat (x) 1 3 5 7 9 11 13 alçada (y ) 75 92 108 121 130 142 155
x=c(1,3,5,7,9,11,13) y=c(75,92,108,121,130,142,155) x.b=mean(x) y.b=mean(y) s2.x=var(x)6/ s2.y=var(y)6/ s.xy=cov(x,y)*6/ round(c(x.b,y.b,s2.x,s2.y,s.xy),3) [1] 7.000 117.571 16.000 674.531 103.
13 / 55
x y s x^2 s y^2 sxy 7.000 117.571 16 674.531 103.
b 1 =
sxy s x^2
b 0 = y − b 1 x = 117. 571 − 6. 4643 · 7 = 72. 3209 Obtenim ̂ y = 72. 3209 + 6. 4643 x
lm(y~x)$coefficients (Intercept) x 72.321429 6.
14 / 55
Els càlculs involucrats en la regressió lineal són molt poc robusts: els arrodoniments poden influir molt en el resultat final
A la Wikipedia (http: //en.wikipedia.org/wiki/Simple_linear_regression) hi trobareu un exemple detallat d’una regressió de pes en funció d’alçada. Calculada en metres dóna:
̂ y = 61. 272 x − 39. 062
Si es passen les alçades a polzades, s’arrodoneixen, es calcula la recta de regressió, i es torna a passar el resultat a metres, dóna ̂ y = 61. 675 x − 39. 746
En un experiment on es volia estudiar l’associació entre consum de sal i pressió arterial, a alguns individus se’ls assignà aleatòriament una quantitat diària constant de sal en la seva dieta, i al cap d’un mes se’ls mesurà la tensió mitjana. Alguns resultats varen ser els següents
X (sal, en g) Y (Pressió, en mm de Hg) 1.8 100 2.2 98 3.5 110 4.0 110 4.3 112 5.0 120
Trobau la recta de regressió lineal per mínims quadrats de Y en funció de X
x y s x^2 s y^2 sxy 3.467 108.333 1.2856 55.2222 8.
b 1 =
b 0 =
Obtenim la recta ̂y =
Podeu comprovar que amb R dóna el mateix
sal=c(1.8,2.2,3.5,4,4.3,5) ten=c(100,98,110,110,112,120) lm(ten~sal)$coefficients
17 / 55
b 0 + b 1 x = y
̂ y =
n
∑^ n
i= 1
̂ yi =
n
∑^ n
i= 1
(b 0 + b 1 xi ) = b 0 + b 1 x = y
e =
n
∑^ n
i= 1
ei =
n
∑^ n
i= 1
(yi − b 0 − b 1 x) =
n
∑^ n
i= 1
(yi − ̂yi ) = 0
18 / 55
Direm suma de quadrats dels errors a
∑^ n
i= 1
e i^2
Els errors (ei )i= 1 ,...,n tenen variància
s e^2 =
n
( (^) ∑n
i= 1
e i^2
− e^2 =
n
n
Si les variables aleatòries error Exi tenen totes mitjana 0 i la mateixa variància σ^2 E i, dues a dues, tenen covariància 0, aleshores
n − 2
Si a més les variables aleatòries error Exi són normals, aleshores b 0 i b 1 són els estimadors màxim versemblants de β 0 i β 1 (i no esbiaixats)
Entenem que la recta ̂y = b 0 + b 1 x és una bona aproximació de y com a funció lineal de x quan aquesta recta explica molta part de la variabilitat de y
Es quantifica amb el coeficient de determinació R^2
summary(lm(alçada~edat))$r.squared [1] 0.
25 / 55
Siguin:
∑n i= 1
(yi − y )^2 : suma total de quadrats
SST = n · s y^2
∑n i= 1
(̂yi − y )^2 : suma de quadrats de la regressió
SSR = n · ŝ y^2
∑n i= 1
(yi − ̂yi )^2 : suma de quadrats dels errors
SSE = n · s e^2
26 / 55
En una regressió lineal pel mètode de mínims quadrats, es té que SST = SSR + SSE
o equivalentment, s y^2 = s^2 ̂ y + s e^2
El coeficient de determinació d’una regressió lineal és
ŝ y^2 s y^2
Per tant, R^2 és la fracció de la variabilitat de y que queda explicada per la variabilitat de ̂y
Si la regressió lineal és per mínims quadrats,
s e^2 s y^2
A més, R^2 = r (^) xy^2 , el coeficient de correlació al quadrat
∑^ n i= 1
(b 1 xi + b 0 − y )^2
ns^2 y
∑^ n i= 1
sxy s x^2
xi −
sxy s x^2
x)^2
ns y^2
s^2 xy s x^4
∑n i= 1
(xi − x)^2
ns^2 y
=
s xy^2 s x^4
s x^2 s y^2
s xy^2 s x^2 · s y^2
= r (^) xy^2
29 / 55
x=c(1,3,5,7,9,11,13) y=c(75,92,108,121,130,142,155) y.cap=72.321+6.464*x SST=sum((y-mean(y))^2) SSR=sum((y.cap-mean(y))^2) SSE=sum((y-y.cap)^2) round(c(SST,SSR,SSE),3) [1] 4721.714 4679.729 41.
cor(x,y)^ [1] 0.
30 / 55
sal=c(1.8,2.2,3.5,4,4.3,5) ten=c(100,98,110,110,112,120) ten.cap=86.371+6.335*sal SST=sum((ten-mean(ten))^2) SSR=sum((ten.cap-mean(ten))^2) SSE=sum((ten-ten.cap)^2) round(c(SST,SSR,SSE),3) [1] 331.333 309.553 21.
R^2 =
No és possible valorar la bondat del model només basant-se amb el valor de R^2. Vegem quatre conjunts de parells (xi , yi ), generats específicament amb aquest objectiu, continguts en el data frame anscombe de R:
data(anscombe) str(anscombe) ’data.frame’: 11 obs. of 8 variables: $ x1: num 10 8 13 9 11 14 6 4 12 7 ... $ x2: num 10 8 13 9 11 14 6 4 12 7 ... $ x3: num 10 8 13 9 11 14 6 4 12 7 ... $ x4: num 8 8 8 8 8 8 8 19 8 8 ... $ y1: num 8.04 6.95 7.58 8.81 8. ... $ y2: num 9.14 8.14 8.74 8.77 9.26 8.1 6.13 3. ... $ y3: num 7.46 6.77 12.74 7.11 7. ... $ y4: num 6.58 5.76 7.71 8.84 8.47 7.04 5.25 12. ... Anem a fer-ne les regressions i a mostrar-ne els R^2 respectius i l’ajustament gràfic de les rectes.
A l’exemple de la sal i la tensió
sal=c(1.8,2.2,3.5,4,4.3,5) ten=c(100,98,110,110,112,120) ten.cap=86.371+6.335*sal errors=ten-ten.cap SSE=sum(errors^2) S2=SSE/ ks.test(errors,"pnorm",0,sqrt(S2)) One-sample Kolmogorov-Smirnov test data: errors D = 0.2553, p-value = 0. alternative hypothesis: two-sided
37 / 55
Sota aquestes hipòtesis,
σE sx
n
i
σE
s x^2 + x^2 sx
n
En aquests errors estàndard (i tots els que segueixen), estimam σE per mitjà de S =
38 / 55
Sota aquestes hipòtesis,
b 1 − β 1 S sx^ √n
i
b 0 − β 0 S
s^2 x +x^2 sx^ √n
segueixen lleis t de Student amb n − 2 graus de llibertat.
Per tant, sota aquestes hipòtesis,
sx
n
, b 1 + tn− 2 , 1 − α 2
sx
n
Ho escriurem
β 1 = b 1 ± tn− 2 , 1 − α 2
sx
n
β 0 = b 0 ± tn− 2 , 1 − α 2
s x^2 + x^2 sx
n
A l’exemple de les alçades en funció de l’edat, havíem obtingut la recta ̂ y = 72. 321 + 6. 464 x
i x = 7, s x^2 = 16, n = 7, S^2 = 8. 314
Un interval de confiança al 95% per β 1 és
β 1 = b 1 ± tn− 2 , 1 − α 2
sx
n
= 6. 464 ± t 5 , 0. 975
És l’interval ] 5. 764 , 7. 164 [
41 / 55
A l’exemple de les alçades en funció de l’edat, havíem obtingut la recta ̂ y = 72. 321 + 6. 464 x i x = 7, s x^2 = 16, n = 7, S^2 = 8. 314 Un interval de confiança al 95% per β 0 és
β 0 = b 0 ± tn− 2 , 1 − α 2
s x^2 + x^2 sx
n
= 72. 321 ± t 5 , 0. 975
És l’interval ] 66. 674 , 77. 968 [
42 / 55
Obtenim
confint(lm(y~x),level=0.95) 2.5 % 97.5 % (Intercept) 66.674769 77. x 5.763904 7.
A l’exemple de la tensió en funció de la sal, havíem obtingut la recta ̂ y = 86. 371 + 6. 335 x i x = 3 .467, s x^2 = 1 .2856, n = 6, S^2 = 5 .4365, t 4 , 0. 975 = 2. 7764 L’interval de confiança al 95% per β 1 és
A l’exemple de les alçades en funció de l’edat, havíem obtingut la recta ̂ y = 72. 321 + 6. 464 x
i x = 7, s x^2 = 16, n = 7, S^2 = 8. 314
Suposem que volem estimar l’alçada y 0 d’un nin de x 0 = 10 anys ̂ y 0 = 72. 321 + 6. 464 · 10 = 136. 961
Interval de confiança al 95% per aquest valor? Interval de confiança al 95% per al valor esperat?
49 / 55
Un interval de confiança al 95% per y 0 és
y 0 = ̂y 0 ± tn− 2 , 1 − α 2 S
n
(x 0 − x)^2 ns x^2
= 136. 961 ± t 5 , 0. 975
És l’interval ] 128. 8 , 145. 2 [
50 / 55
Un interval de confiança al 95% per μY |x 0 és
μY |x 0 = ̂y 0 ± tn− 2 , 1 − α 2 S
n
(x 0 − x)^2 ns x^2
= 136. 961 ± t 5 , 0. 975
És l’interval ] 133. 5 , 140. 5 [
regressio=lm(y~x) newdata=data.frame(x=10) predict.lm(lm(y~x),newdata,
interval="prediction",level=0.95) fit lwr upr 1 136.9643 128.7665 145.
predict(lm(y~x),newdata, interval="confidence",level=0.95)
fit lwr upr 1 136.9643 133.4624 140.
Si β 1 = 0, el model de regressió lineal no té sentit:
Y = β 0 + E
i les variacions en els valors de Y són totes degudes a l’error.
El contrast (^) { H 0 : β 1 = 0 H 1 : β 1 6 = 0
el podem realitzar amb l’interval de confiança per a β 1 : si 0 no hi pertany, rebutjam la hipòtesi nul.la
53 / 55
Hem obtingut:
Als dos casos concloem que β 1 6 = 0 i que per tant tenia sentit fer la regressió lineal
54 / 55
summary(lm(alçada~edat)) ... Coefficients: Estimate Std. Error t value Pr(>|t|) (Intercept) 72.3214 2.1966 32.92 4.86e-07 *** edat 6.4643 0.2725 23.73 2.48e-06 ***
Signif. codes: 0 ‘’ 0.001 ‘’ 0.01 ‘’ 0. ‘.’ 0.1 ‘ ’ 1 ...
Els t value són els dels contrastos amb H 0 : “coeficient = 0”, i els p-valors són els d’aquests contrastos. Podem rebutjar que β 1 = 0 (i que β 0 = 0)
55 / 55