






Prepara tus exámenes y mejora tus resultados gracias a la gran cantidad de recursos disponibles en Docsity
Gana puntos ayudando a otros estudiantes o consíguelos activando un Plan Premium
Prepara tus exámenes
Prepara tus exámenes y mejora tus resultados gracias a la gran cantidad de recursos disponibles en Docsity
Prepara tus exámenes con los documentos que comparten otros estudiantes como tú en Docsity
Encuentra los documentos específicos para los exámenes de tu universidad
Estudia con lecciones y exámenes resueltos basados en los programas académicos de las mejores universidades
Responde a preguntas de exámenes reales y pon a prueba tu preparación
Consigue puntos base para descargar
Gana puntos ayudando a otros estudiantes o consíguelos activando un Plan Premium
Comunidad
Pide ayuda a la comunidad y resuelve tus dudas de estudio
Ebooks gratuitos
Descarga nuestras guías gratuitas sobre técnicas de estudio, métodos para controlar la ansiedad y consejos para la tesis preparadas por los tutores de Docsity
Una introducción básica a la regresión lineal, una técnica estadística utilizada para estudiar la relación entre dos variables. El texto explica el concepto de diagrama de regresión, la curva de regresión y el método de mínimos cuadrados para obtener la recta de regresión. Además, se discuten los casos en que una variable no depende linealmente de la otra y se presentan métodos para estimar la relación potencial o exponencial.
Tipo: Apuntes
1 / 12
Esta página no es visible en la vista previa
¡No te pierdas las partes importantes!







TEORÍA 3. Regresión y correlación.
1 Regresión lineal por mínimos cuadrados.
1.1. Introducción al modelo de regresión para dos variables.
Cuando ambas variables son continuas, las modalidades a 1 , a 2 ,...., ak son las marcas de clase (puntos medios) z 1 , z 2 ,...., zk de los k intervalos de clase en que se divide el recorrido de X. Se puede, entonces, suponer que cuando la amplitud de los intervalos tiende a cero, y el número de estos crece indefinidamente, los puntos del diagrama se situarán sobre una curva.
Esta curva recibe el nombre de curva de regresión de Y sobre X.
El siguiente Gráfico 3 muestra una curva de regresión correspondiente al diagrama de regresión del Gráfico 2:
Gráfico 3
El diagrama de regresión es una realización experimental de la curva de regresión : es la versión concreta de la curva para una muestra particular.
A partir de un diagrama se puede obtener la curva por distintos métodos. Pero,en términos estadísticos, el método básico es el de mínimos cuadrados.
El método será descrito, en este apartado, a través de la obtención de la recta de regresión que relaciona a dos variables X e Y.
En los siguientes apartados veremos como se puede extender el método al caso en el que existan varias variables independientes y al caso el el que la variable dependiente Y depende linealmente en los parámetros de funciones de las variables independientes (situación que llamaremos linealizable).
1.2. El método de minimos cuadrados.
Caso 1. Un experimento trata de determinar si un método, basado en la medición del ph (= X) del caldo de cultivo de una placa experimental, sirve para calcular el número N (= Y) de bacterias del cultivo. Para ello se utilizaron 100 placas de cultivo, midiéndose en cada una de ellas los valores de ambas variables y llevando a un gráfico el conjunto de resultados. (En el gráfico se introdujeron dos simplificaciones para facilitar su comprensión: los valores del ph se aproximaron, por defecto o por exceso, a 0.25, 0.50,...., 4.75, 5.00, y el número de bacterias se dividió por 10 6 .)
El resultado, que aparece más abajo, llevó a los experimentadores a dos conclusiones: existía una tendencia lineal creciente entre en ph y N (a mayor ph, mayor número de bacterias), y esta relación no era determinista: para un mismo ph el número de bacterias variaba entre ciertos límites, en lugar de proporcionar un valor único. Comprobaron, además, que para cada valor del ph, los diferentes valores de N tenían una desviación típica S muy parecida. Estas conclusiones les llevaron a la conclusión de que era el valor medio de N, y no el mismo valor de N, el que mantenía una relación lineal con el ph. Es decir, que la relación precisa era del tipo , y que, por tanto, los diferentes valores de N se encontraban ligado a los del ph mediante una relación aleatoria de la forma , donde era una variable aleatoria de media 0 y desviación típica F 0 7 3(relacionada con S).
Gráfico 4
Bajo estos datos y supuestos, su problema era por tanto de estimación: ¿qué estimaciones de F 0 6 1, β y F 0 7 3se podían realizar a partir de los datos de la muestra para obtener una ecuación operativa?
El modelo de regresión simple que se expone a continuación es una respuesta a esta pregunta.
(1) Se dispone de una muestra aleatoria {(x 1 , y 1 ), (x 2 , y 2 ),......, (x (^) n , yn )} de una variable bidimensional (X, Y), en la que y 1 , y 2 ,....., yn son los valores medios de Y para cada x 1 , x 2 ,....., x (^) n , respectivamente.
(2) Suponemos que la variable aleatoria Y se encuentra linealmente relacionada con la variable determinista X mediante el modelo:
Y = ( F 0 6 1+ β.X) + F 0 6 5,
siendo F 0 6 5una variable aleatoria de media 0 y desviación típica F 0 7 3.
(3) Suponemos que para cada dos valores de x, x (^) i y xj distintos, los valores de Y, Y/x (^) i e Y/xj , proceden de poblaciones independientes.
(4) Se trata de estimar los parámetros del modelo a partir de los datos de la muestra.
Desde los puntos de vista experimental y del modelo, esto significa:
La pendiente b = (sy/s (^) x).r (^) x,y , de la recta de regresión recibe el nombre de coeficiente de regresión de y sobre x, y también se representa por b (^) y/x.
La recta de regresión puede escribirse entonces de las formas siguientes:
(y -) = ((s (^) y/s (^) x).).(x -) = b (^) y/x .(x -).
Esta expresión de la recta pone de manifiesto dos propiedades geométricas de importancia en la interpretación de los datos de la muestra:
nube de puntos que representa a la muestra (asignando un mismo peso 1 a todos los puntos de la nube).
Cuando se llevan los valores anteriores valores de a y b a la función SS (a, b), se obtiene su valor mínimo:
SS (^) min (a, b) = n.s (^) y^2. (1 – ),
Cuando las dos variables X e Y son aleatorias es el coeficiente de correlación muestral. Pero, cuando X es determinista s (^) x no representa una desviación típica en el sentido estadístico y, por, tanto, este estadístico no representa en sentido estricto un coeficiente de correlación muestral. En este segundo caso, el estadístico recibe también el nombre de coeficiente de determinación , y se le representa por.
Es fácil establecer las siguientes propiedades :
(1) Σ = Σy (^) i,
(2) = (ya que Σ/n = Σyi /n).
(3) SSmin (a, b)/(n.s (^) y^2 ) = /= (1 – ),
1.4. Análisis de la calidad del ajuste.
Obtenida la recta de regresión, estudiaremos diferentes métodos para evaluar su validez en el contexto experimental en el que se esté utilizando. Ello lo haremos por distintos mecanismos, pero interrelacionados:
los datos experimentales y de los esperados respecto de la media, del coeficiente de correlación y de los residuos,
regresión, y
sobre la validez de la dependencia lineal.
Mientras que el análisis (a) puede realizarse con los recursos de la Estadística descriptiva, los análisis (b) y (c) requieren los de la Inferencia estadística, por lo que serán objeto de tratamiento en temas posteriores (5 a 9).
En lo que sigue utilizaremos las siguientes denominaciones para los términos que emplearemos:
Para cada valor de x, x (^) i, se representa con la ordenada de la tabla (denominada empírica o experimental), y con la ordenada correspondiente a ese valor de x por medio de la recta de regresión (denominada teórica o esperada): = a + b.xi.
ordenadas experimentales,
experimentales,
y las ordenadas teóricas.
De la relación = +, elevando al cuadrado los dos miembros y sumando los valores obtenidos para todos los puntos, resulta la siguiente relación fundamental entre las sumas de los cuadrados de las desviaciones:
(La propiedad de que la suma es nula es la que hace posible la relación anterior. Recibe el nombre de propiedad de ortogonalidad. )
Cada uno de los términos de la relación anterior se denomina de la siguiente manera:
regresión,
regresión.
Observemos que el sumatorio (a) es la suma de los cuadrados de los términos definidos en (1), el (b) de los términos de (2), y el de (c) de los términos de (3).
Con esta nomenclatura, la relación fundamental se puede escribir sintéticamente como:
Puesto que la suma SS (^) T es constante, cuando SSR toma su valor mínimo (para la recta de regresión),
SSR = SSmin (a, b) =, la suma SSA toma su valor mínimo.
Escribiendo la relación fundamental en la forma
Además, estas sumas están relacionadas con el coeficiente de determinación por las siguientes relaciones:
SS (^) A/SS (^) T = y SS (^) R /SST = 1 –.
En general, las relaciones existentes entre pares de magnitudes asociadas a fenómenos naturales, expresadas a través de funciones que relacionan las variables asociadas a aquellas magnitudes, solo son lineales en algunas ocasiones. Las leyes naturales, en física, química o biología, por citar solo algunos campos científicos, tienen formas mucho más complejas que la de la simple linealidad. Estas afirmaciones pueden hacer parecer innecesario el estudio que hemos venido realizando sobre los modelos lineales. Pero esto no es así por tres razones de muy distinta naturaleza:
(a) En primer lugar, algunos fenómenos sí tienen un comportamiento lineal. Por ejemplo, el Importe P que pagamos por Q litros de gasolina al repostar el depósito de nuestro coche es P = k.Q, si el k el precio por litro de combustible.
(b) En segundo lugar, aunque determinados fenómenos tengan un comportamiento no lineal, en determinados entornos de sus variables su comportamiento es muy próximo al lineal. Un ejemplo de lo anterior lo tenemos en el caso de la superficie terrestre: aunque esta tiene una forma aproximadamente esférica, cuando nos desplazamos alrededor de un determinado punto unos pocos kilómetros (por fijar ideas, entre 10 y 50) la impresión que tenemos es la de hallarnos en una superficie plana, que es un caso de linealidad bidimensional.
(c) Y, en tercer lugar, si al inicio del estudio de un fenómeno desconocemos por completo la relación que puede resultarnos como consecuencia del mismo, es cómodo y prudente empezar por una relación sencilla, como la lineal, y añadir posteriormente complejidad a esta relación.
En este apartado vamos a ver como se pueden utilizar las técnicas del modelo lineal a situaciones en las que una de sus variables no depende linealmente de la otra.
Los casos que vamos a ver tienen tratamientos específicos y completos en las técnicas denominadas de Regresión no lineal , que quedan fuera de los objetivos de este curso. Tienen en común el que se pueden “linealizar”: un cambio de variable oportuno, o la realización de algunas operaciones sobre la función, transformarán una expresión no lineal en otra lineal.
Trataremos sucesivamente los siguientes modelos:
(a) Exponencial: ,
(b) Potencial: ,
Poniendo ln y = y’, ln p = F 0 6 1y q = β, resulta la relación: y’ = F 0 6 1+ β.x.
y, en lugar de los ordenadas y iniciales, obtendremos una estimación de la forma y’ = a + b.x. Tomando, ahora, antilogaritmos encontraremos la estimación buscada del modelo: , dondees una estimación de p y b es una estimación de q.
Poniendo ln y = y’, ln x = x’, ln a = F 0 6 1y b = β, resulta la relación: y’ = F 0 6 1+ β.x’.
neperianos de las ordenadas y de las abscisas, en lugar de estas mismas, obtendremos una estimación de la forma y’ = a* + b.x. Tomando, ahora, antilogaritmos encontraremos la estimación buscada del modelo: , donde es una estimación de a y b es una estimación de b.
Para comparar estos dos métodos, con la regresión lineal directa, utilicemos los datos del Caso 1, en que se suponía que existía una relación entre el número N de bacterias de una colonia y el ph de la misma. Utilizaremos los datos existentes en el fichero N frente a ph.
Realizando las operaciones descritas en los puntos anteriores, y los propios de una regresión lineal, se obtienen las siguientes ecuaciones:
En el gráfico siguiente se pueden comparar las ordenadas experimentales (N) con las estimadas a través de los modelos tres modelos: lineal (N 1 ), exponencial (N 2 ) y potencial (N 3 ), respectivamente.
Gráfico 8: Comparación entre los modelos.
3. Referencias.
U.D. Bioestadística. Facultad de Medicina. Universidad de Málaga. ISBN: 847496-653-1.