Docsity
Docsity

Prepara tus exámenes
Prepara tus exámenes

Prepara tus exámenes y mejora tus resultados gracias a la gran cantidad de recursos disponibles en Docsity


Consigue puntos base para descargar
Consigue puntos base para descargar

Gana puntos ayudando a otros estudiantes o consíguelos activando un Plan Premium


Orientación Universidad
Orientación Universidad


Regresión y Correlación: Introducción al Análisis de Regresión Lineal - Prof. 640, Apuntes de Psicología

Una introducción básica a la regresión lineal, una técnica estadística utilizada para estudiar la relación entre dos variables. El texto explica el concepto de diagrama de regresión, la curva de regresión y el método de mínimos cuadrados para obtener la recta de regresión. Además, se discuten los casos en que una variable no depende linealmente de la otra y se presentan métodos para estimar la relación potencial o exponencial.

Tipo: Apuntes

2014/2015

Subido el 19/08/2015

morante45
morante45 🇪🇸

4

(1)

5 documentos

1 / 12

Toggle sidebar

Esta página no es visible en la vista previa

¡No te pierdas las partes importantes!

bg1
GRADO EN VETERINARIA
DEPARTAMENTO DE ESTADÍSTICA E I.0.
2012-2013
ESTADÍSTICA
BLOQUE I. ESTADÍSTICA DESCRIPTIVA Y ÁNALISIS DE DATOS
Teoría 3.
Regresión y correlación.
Índice
1 Regresión lineal simple por mínimos cuadrados.
2 Aplicaciones de la regresión a funciones linealizables.
3 Referencias.
GRADO EN VETERINARIA
DEPARTAMENTO DE ESTADÍSTICA E I.O.
1
pf3
pf4
pf5
pf8
pf9
pfa

Vista previa parcial del texto

¡Descarga Regresión y Correlación: Introducción al Análisis de Regresión Lineal - Prof. 640 y más Apuntes en PDF de Psicología solo en Docsity!

GRADO EN VETERINARIA

DEPARTAMENTO DE ESTADÍSTICA E I.0.

ESTADÍSTICA

BLOQUE I. ESTADÍSTICA DESCRIPTIVA Y ÁNALISIS DE DATOS

Teoría 3.

Regresión y correlación.

Índice

1 Regresión lineal simple por mínimos cuadrados.

2 Aplicaciones de la regresión a funciones linealizables.

3 Referencias.

GRADO EN VETERINARIA

DEPARTAMENTO DE ESTADÍSTICA E I.O.

TEORÍA 3. Regresión y correlación.

1 Regresión lineal por mínimos cuadrados.

1.1. Introducción al modelo de regresión para dos variables.

1.2. El método de mínimos cuadrados.

1.3. Recta de regresión. Ecuaciones normales.

1.4. Análisis de la calidad del ajuste.

2 Aplicaciones de la regresión a funciones linealizables.

2.1. Funciones exponenciales.

2.2. Funciones potenciales.

2.3. Generalización a distintas combinaciones lineales.

3 Referencias.

1 Regresión lineal por mínimos cuadrados.

1.1. Introducción al modelo de regresión para dos variables.

Cuando ambas variables son continuas, las modalidades a 1 , a 2 ,...., ak son las marcas de clase (puntos medios) z 1 , z 2 ,...., zk de los k intervalos de clase en que se divide el recorrido de X. Se puede, entonces, suponer que cuando la amplitud de los intervalos tiende a cero, y el número de estos crece indefinidamente, los puntos del diagrama se situarán sobre una curva.

Esta curva recibe el nombre de curva de regresión de Y sobre X.

El siguiente Gráfico 3 muestra una curva de regresión correspondiente al diagrama de regresión del Gráfico 2:

Gráfico 3

El diagrama de regresión es una realización experimental de la curva de regresión : es la versión concreta de la curva para una muestra particular.

A partir de un diagrama se puede obtener la curva por distintos métodos. Pero,en términos estadísticos, el método básico es el de mínimos cuadrados.

El método será descrito, en este apartado, a través de la obtención de la recta de regresión que relaciona a dos variables X e Y.

En los siguientes apartados veremos como se puede extender el método al caso en el que existan varias variables independientes y al caso el el que la variable dependiente Y depende linealmente en los parámetros de funciones de las variables independientes (situación que llamaremos linealizable).

1.2. El método de minimos cuadrados.

Caso 1. Un experimento trata de determinar si un método, basado en la medición del ph (= X) del caldo de cultivo de una placa experimental, sirve para calcular el número N (= Y) de bacterias del cultivo. Para ello se utilizaron 100 placas de cultivo, midiéndose en cada una de ellas los valores de ambas variables y llevando a un gráfico el conjunto de resultados. (En el gráfico se introdujeron dos simplificaciones para facilitar su comprensión: los valores del ph se aproximaron, por defecto o por exceso, a 0.25, 0.50,...., 4.75, 5.00, y el número de bacterias se dividió por 10 6 .)

El resultado, que aparece más abajo, llevó a los experimentadores a dos conclusiones: existía una tendencia lineal creciente entre en ph y N (a mayor ph, mayor número de bacterias), y esta relación no era determinista: para un mismo ph el número de bacterias variaba entre ciertos límites, en lugar de proporcionar un valor único. Comprobaron, además, que para cada valor del ph, los diferentes valores de N tenían una desviación típica S muy parecida. Estas conclusiones les llevaron a la conclusión de que era el valor medio de N, y no el mismo valor de N, el que mantenía una relación lineal con el ph. Es decir, que la relación precisa era del tipo , y que, por tanto, los diferentes valores de N se encontraban ligado a los del ph mediante una relación aleatoria de la forma , donde era una variable aleatoria de media 0 y desviación típica F 0 7 3(relacionada con S).

Gráfico 4

Bajo estos datos y supuestos, su problema era por tanto de estimación: ¿qué estimaciones de F 0 6 1, β y F 0 7 3se podían realizar a partir de los datos de la muestra para obtener una ecuación operativa?

El modelo de regresión simple que se expone a continuación es una respuesta a esta pregunta.

(1) Se dispone de una muestra aleatoria {(x 1 , y 1 ), (x 2 , y 2 ),......, (x (^) n , yn )} de una variable bidimensional (X, Y), en la que y 1 , y 2 ,....., yn son los valores medios de Y para cada x 1 , x 2 ,....., x (^) n , respectivamente.

(2) Suponemos que la variable aleatoria Y se encuentra linealmente relacionada con la variable determinista X mediante el modelo:

Y = ( F 0 6 1+ β.X) + F 0 6 5,

siendo F 0 6 5una variable aleatoria de media 0 y desviación típica F 0 7 3.

(3) Suponemos que para cada dos valores de x, x (^) i y xj distintos, los valores de Y, Y/x (^) i e Y/xj , proceden de poblaciones independientes.

(4) Se trata de estimar los parámetros del modelo a partir de los datos de la muestra.

Desde los puntos de vista experimental y del modelo, esto significa:

1. Que los valores de X se pueden determinar sin errores.

La pendiente b = (sy/s (^) x).r (^) x,y , de la recta de regresión recibe el nombre de coeficiente de regresión de y sobre x, y también se representa por b (^) y/x.

La recta de regresión puede escribirse entonces de las formas siguientes:

(y -) = ((s (^) y/s (^) x).).(x -) = b (^) y/x .(x -).

Esta expresión de la recta pone de manifiesto dos propiedades geométricas de importancia en la interpretación de los datos de la muestra:

1. La recta de regresión pasa por el punto (,), que es el centro de gravedad de la

nube de puntos que representa a la muestra (asignando un mismo peso 1 a todos los puntos de la nube).

2. La pendiente b de la recta de regresión tiene el mismo signo que el estadístico.

Cuando se llevan los valores anteriores valores de a y b a la función SS (a, b), se obtiene su valor mínimo:

SS (^) min (a, b) = n.s (^) y^2. (1 – ),

Cuando las dos variables X e Y son aleatorias es el coeficiente de correlación muestral. Pero, cuando X es determinista s (^) x no representa una desviación típica en el sentido estadístico y, por, tanto, este estadístico no representa en sentido estricto un coeficiente de correlación muestral. En este segundo caso, el estadístico recibe también el nombre de coeficiente de determinación , y se le representa por.

Es fácil establecer las siguientes propiedades :

(1) Σ = Σy (^) i,

(2) = (ya que Σ/n = Σyi /n).

(3) SSmin (a, b)/(n.s (^) y^2 ) = /= (1 – ),

1.4. Análisis de la calidad del ajuste.

Obtenida la recta de regresión, estudiaremos diferentes métodos para evaluar su validez en el contexto experimental en el que se esté utilizando. Ello lo haremos por distintos mecanismos, pero interrelacionados:

(a) mediante el estudio del comportamiento de los cuadrados de las desviaciones de

los datos experimentales y de los esperados respecto de la media, del coeficiente de correlación y de los residuos,

(b) mediante la estimación, puntual y por intervalos, de los parámetros de la recta de

regresión, y

(c) mediante distintos contrastes de hipótesis sobre los valores de esos parámetros y

sobre la validez de la dependencia lineal.

Mientras que el análisis (a) puede realizarse con los recursos de la Estadística descriptiva, los análisis (b) y (c) requieren los de la Inferencia estadística, por lo que serán objeto de tratamiento en temas posteriores (5 a 9).

En lo que sigue utilizaremos las siguientes denominaciones para los términos que emplearemos:

Para cada valor de x, x (^) i, se representa con la ordenada de la tabla (denominada empírica o experimental), y con la ordenada correspondiente a ese valor de x por medio de la recta de regresión (denominada teórica o esperada): = a + b.xi.

(1) dT = = desviación entre la ordenada experimental y la media de las

ordenadas experimentales,

(2) dA = = desviación entre la ordenada teórica y la media de las ordenadas

experimentales,

(3) dR = = desviación residual = desviación entre las ordenadas experimentales

y las ordenadas teóricas.

De la relación = +, elevando al cuadrado los dos miembros y sumando los valores obtenidos para todos los puntos, resulta la siguiente relación fundamental entre las sumas de los cuadrados de las desviaciones:

(La propiedad de que la suma es nula es la que hace posible la relación anterior. Recibe el nombre de propiedad de ortogonalidad. )

Cada uno de los términos de la relación anterior se denomina de la siguiente manera:

(a) = SST = suma de cuadrados total,

(b) = SS A = suma de cuadrados absorbida o explicada por la recta de

regresión,

(c) = SS R = SSmin = suma de cuadrados residual o no explicada por la recta de

regresión.

Observemos que el sumatorio (a) es la suma de los cuadrados de los términos definidos en (1), el (b) de los términos de (2), y el de (c) de los términos de (3).

Con esta nomenclatura, la relación fundamental se puede escribir sintéticamente como:

SS T = SSA + SSR.

Puesto que la suma SS (^) T es constante, cuando SSR toma su valor mínimo (para la recta de regresión),

SSR = SSmin (a, b) =, la suma SSA toma su valor mínimo.

Escribiendo la relación fundamental en la forma

SSA /SS T + SSR/SS T = 1,

Además, estas sumas están relacionadas con el coeficiente de determinación por las siguientes relaciones:

SS (^) A/SS (^) T = y SS (^) R /SST = 1 –.

En general, las relaciones existentes entre pares de magnitudes asociadas a fenómenos naturales, expresadas a través de funciones que relacionan las variables asociadas a aquellas magnitudes, solo son lineales en algunas ocasiones. Las leyes naturales, en física, química o biología, por citar solo algunos campos científicos, tienen formas mucho más complejas que la de la simple linealidad. Estas afirmaciones pueden hacer parecer innecesario el estudio que hemos venido realizando sobre los modelos lineales. Pero esto no es así por tres razones de muy distinta naturaleza:

(a) En primer lugar, algunos fenómenos sí tienen un comportamiento lineal. Por ejemplo, el Importe P que pagamos por Q litros de gasolina al repostar el depósito de nuestro coche es P = k.Q, si el k el precio por litro de combustible.

(b) En segundo lugar, aunque determinados fenómenos tengan un comportamiento no lineal, en determinados entornos de sus variables su comportamiento es muy próximo al lineal. Un ejemplo de lo anterior lo tenemos en el caso de la superficie terrestre: aunque esta tiene una forma aproximadamente esférica, cuando nos desplazamos alrededor de un determinado punto unos pocos kilómetros (por fijar ideas, entre 10 y 50) la impresión que tenemos es la de hallarnos en una superficie plana, que es un caso de linealidad bidimensional.

(c) Y, en tercer lugar, si al inicio del estudio de un fenómeno desconocemos por completo la relación que puede resultarnos como consecuencia del mismo, es cómodo y prudente empezar por una relación sencilla, como la lineal, y añadir posteriormente complejidad a esta relación.

En este apartado vamos a ver como se pueden utilizar las técnicas del modelo lineal a situaciones en las que una de sus variables no depende linealmente de la otra.

Los casos que vamos a ver tienen tratamientos específicos y completos en las técnicas denominadas de Regresión no lineal , que quedan fuera de los objetivos de este curso. Tienen en común el que se pueden “linealizar”: un cambio de variable oportuno, o la realización de algunas operaciones sobre la función, transformarán una expresión no lineal en otra lineal.

Trataremos sucesivamente los siguientes modelos:

(a) Exponencial: ,

(b) Potencial: ,

a) El modelo exponencial.

1. Tomando logaritmos neperianos en ambos miembros se obtiene la relación.

Poniendo ln y = y’, ln p = F 0 6 1y q = β, resulta la relación: y’ = F 0 6 1+ β.x.

2. Por lo tanto, si obtenemos la recta de regresión utilizando los ordenadas y’ = ln

y, en lugar de los ordenadas y iniciales, obtendremos una estimación de la forma y’ = a + b.x. Tomando, ahora, antilogaritmos encontraremos la estimación buscada del modelo: , dondees una estimación de p y b es una estimación de q.

a) El modelo potencial.

1. Tomando logaritmos neperianos en ambos miembros se obtiene la relación.

Poniendo ln y = y’, ln x = x’, ln a = F 0 6 1y b = β, resulta la relación: y’ = F 0 6 1+ β.x’.

2. Por lo tanto, si obtenemos la recta de regresión utilizando los logaritmos

neperianos de las ordenadas y de las abscisas, en lugar de estas mismas, obtendremos una estimación de la forma y’ = a* + b.x. Tomando, ahora, antilogaritmos encontraremos la estimación buscada del modelo: , donde es una estimación de a y b es una estimación de b.

Para comparar estos dos métodos, con la regresión lineal directa, utilicemos los datos del Caso 1, en que se suponía que existía una relación entre el número N de bacterias de una colonia y el ph de la misma. Utilizaremos los datos existentes en el fichero N frente a ph.

Realizando las operaciones descritas en los puntos anteriores, y los propios de una regresión lineal, se obtienen las siguientes ecuaciones:

  • Modelo lineal simple: ,
  • Modelo exponencial: = 8.742. ,
  • Modelo potencial:.

En el gráfico siguiente se pueden comparar las ordenadas experimentales (N) con las estimadas a través de los modelos tres modelos: lineal (N 1 ), exponencial (N 2 ) y potencial (N 3 ), respectivamente.

Gráfico 8: Comparación entre los modelos.

3. Referencias.

1. Bioéstadística: Métodos y Aplicaciones

U.D. Bioestadística. Facultad de Medicina. Universidad de Málaga. ISBN: 847496-653-1.

2. http://www.uv.es/uriel/material/Morelisi.pdf