Docsity
Docsity

Prepara tus exámenes
Prepara tus exámenes

Prepara tus exámenes y mejora tus resultados gracias a la gran cantidad de recursos disponibles en Docsity


Consigue puntos base para descargar
Consigue puntos base para descargar

Gana puntos ayudando a otros estudiantes o consíguelos activando un Plan Premium


Orientación Universidad
Orientación Universidad


Regresión Simple y Correlación: Un Análisis de la Relación entre Variables, Apuntes de Estadística

una breve introducción a la regresión lineal simple

Tipo: Apuntes

2020/2021

Subido el 10/03/2021

fernando-a-martinez
fernando-a-martinez 🇲🇽

5

(1)

1 documento

1 / 4

Toggle sidebar

Esta página no es visible en la vista previa

¡No te pierdas las partes importantes!

bg1
510 Capítulo 12 Regresión simple y correlación
El vicepresidente de investigación y desarrollo (ID) de una gran
compañía química y de fabricación de fibras cree que las ganancias
anuales de la empresa dependen de la cantidad gastada en ID.El
nuevo presidente de la compañía no está de acuerdo y ha solicitado
pruebas. Los datos de seis años son los siguientes:
Millones gastados en Ganancia anual
Año investigación y desarrollo (millones)
1990 2 20
1991 3 25
1992 5 34
1993 4 30
1994 11 40
1995 5 31
El vicepresidente de ID desea una ecuación para pronosticar los
beneficios anuales derivados de la cantidad presupuestada para ID.Con
los métodos de éste capítulo, podremos proporcionarle esa herramienta
para la toma de decisiones y orientarlo respecto a la precisión que
puede esperar al usarla.
12.1 Introducción
Todos los días, los administradores toman decisiones personales y profesionales basadas en predic-
ciones de sucesos futuros. Para hacer estos pronósticos, se basan en la relación (intuitiva y calculada)
entre lo que ya se sabe y lo que se debe estimar. Si los responsables de la toma de decisiones pueden
determinar cómo lo conocido se relaciona con el evento futuro, pueden ayudar considerablemente al
proceso de toma de decisiones. Ése es el objetivo de este capítulo: cómo determinar la relación en-
tre variables.
En el capítulo 11, utilizamos pruebas de ji-cuadrada de independencia para determinar si existía
una relación estadística entre dos variables. La prueba ji-cuadrada nos dice si existe tal relación, pe-
ro no nos dice cuál es esa relación. Los análisis de regresión y correlación nos mostrarán cómo
determinar tanto la naturaleza como la fuerza de una relación entre dos variables. De esta for-
ma, aprenderemos a pronosticar, con cierta precisión, el valor de una variable desconocida basándo-
nos en observaciones anteriores de ésa y otras variables.
El término regresión fue utilizado por primera vez como un concepto estadístico en 1877 por sir
Francis Galton, quien llevó a cabo un estudio que mostró que la estatura de los niños nacidos de pa-
dres altos tiende a retroceder o “regresar” hacia la estatura media de la población. Designó la palabra
regresión como el nombre del proceso general de predecir una variable (la estatura de los niños) a partir
de otra (la estatura del padre o de la madre). Más tarde, los estadísticos acuñaron el término regresión
múltiple para describir el proceso mediante el cual se utilizan varias variables para predecir otra.
En el análisis de regresión, desarrollaremos una ecuación de estimación, esto es, una fórmula ma-
temática que relaciona las variables conocidas con la variable desconocida. Después de conocer
el patrón de esta relación, podremos aplicar el análisis de correlación para determinar el grado en el
que las variables se relacionan. El análisis de correlación, entonces, nos indica qué tan bien la ecua-
ción de estimación describe realmente la relación.
Tipos de relaciones
Los análisis de regresión y de correlación se basan en la relación, o asociación, entre dos (o más) va-
riables. La variable (o variables) conocida(s) se llaman variable(s) independiente(s); la que tratamos
de predecir es la variable dependiente.
Variables indepen-
dientes y depen-
dientes
Desarrollo de una
ecuación de esti-
mación
Origen de los térmi-
nos regresión y
regresión múltiple
Diferencia entre la
ji-cuadrada y los te-
mas de este capítulo
Relación entre
variables
pf3
pf4

Vista previa parcial del texto

¡Descarga Regresión Simple y Correlación: Un Análisis de la Relación entre Variables y más Apuntes en PDF de Estadística solo en Docsity!

510 Capítulo 12 Regresión simple y correlación

E

l vicepresidente de investigación y desarrollo (ID) de una gran compañía química y de fabricación de fibras cree que las ganancias anuales de la empresa dependen de la cantidad gastada en ID. El nuevo presidente de la compañía no está de acuerdo y ha solicitado pruebas. Los datos de seis años son los siguientes: Millones gastados en Ganancia anual Año investigación y desarrollo (millones)

1990 2 20 1991 3 25 1992 5 34 1993 4 30 1994 11 40 1995 5 31 El vicepresidente de ID desea una ecuación para pronosticar los beneficios anuales derivados de la cantidad presupuestada para ID. Con los métodos de éste capítulo, podremos proporcionarle esa herramienta para la toma de decisiones y orientarlo respecto a la precisión que puede esperar al usarla.

12.1 Introducción

Todos los días, los administradores toman decisiones personales y profesionales basadas en predic- ciones de sucesos futuros. Para hacer estos pronósticos, se basan en la relación (intuitiva y calculada) entre lo que ya se sabe y lo que se debe estimar. Si los responsables de la toma de decisiones pueden determinar cómo lo conocido se relaciona con el evento futuro, pueden ayudar considerablemente al proceso de toma de decisiones. Ése es el objetivo de este capítulo: cómo determinar la relación en- tre variables. En el capítulo 11, utilizamos pruebas de ji-cuadrada de independencia para determinar si existía una relación estadística entre dos variables. La prueba ji-cuadrada nos dice si existe tal relación, pe- ro no nos dice cuál es esa relación. Los análisis de regresión y correlación nos mostrarán cómo determinar tanto la naturaleza como la fuerza de una relación entre dos variables. De esta for- ma, aprenderemos a pronosticar, con cierta precisión, el valor de una variable desconocida basándo- nos en observaciones anteriores de ésa y otras variables. El término regresión fue utilizado por primera vez como un concepto estadístico en 1877 por sir Francis Galton, quien llevó a cabo un estudio que mostró que la estatura de los niños nacidos de pa- dres altos tiende a retroceder o “regresar” hacia la estatura media de la población. Designó la palabra regresión como el nombre del proceso general de predecir una variable (la estatura de los niños) a partir de otra (la estatura del padre o de la madre). Más tarde, los estadísticos acuñaron el término regresión múltiple para describir el proceso mediante el cual se utilizan varias variables para predecir otra. En el análisis de regresión , desarrollaremos una ecuación de estimación , esto es, una fórmula ma- temática que relaciona las variables conocidas con la variable desconocida. Después de conocer el patrón de esta relación, podremos aplicar el análisis de correlación para determinar el grado en el que las variables se relacionan. El análisis de correlación, entonces, nos indica qué tan bien la ecua- ción de estimación describe realmente la relación.

Tipos de relaciones

Los análisis de regresión y de correlación se basan en la relación, o asociación, entre dos (o más) va- riables. La variable (o variables) conocida(s) se llaman variable(s) independiente(s) ; la que tratamos de predecir es la variable dependiente.

Variables indepen- dientes y depen- dientes

Desarrollo de una ecuación de esti- mación

Origen de los térmi- nos regresión y regresión múltiple

Diferencia entre la ji-cuadrada y los te- mas de este capítulo

Relación entre variables

Los científicos saben, por ejemplo, que existe una relación entre las ventas anuales de latas de aerosoles y la cantidad de fluorocarburos liberados a la atmósfera cada año. Si estudiáramos esta re- lación, “el número de latas de aerosol vendidas cada año” sería la variable independiente y “la can- tidad de fluorocarburos liberados anualmente” sería la variable dependiente. Consideremos otro ejemplo. Los economistas pueden basar sus predicciones del producto inter- no bruto anual, o PIB, en el gasto final de consumo dentro de la economía. Por tanto, “el consumo final” es la variable independiente y “el PNB” la variable dependiente. En regresión, podemos tener sólo una variable dependiente en la ecuación de estimación. Sin em- bargo, podemos usar más de una variable independiente. A menudo, cuando agregamos variables independientes, mejoramos la exactitud de nuestra predicción. Los economistas, por ejemplo, con frecuencia añaden una segunda variable independiente, “el nivel de gasto de inversión”, para mejo- rar su estimación del PIB. Los dos ejemplos de fluorocarburos y PIB son ilustraciones de asociaciones directas entre variables independientes y dependientes. Al incrementarse la variable independiente, la variable dependiente también lo hace. De manera similar, esperamos que las ventas de una compañía se incrementen al aumentar el presupuesto de publicidad. Podemos graficar una relación directa de este tipo colocan- do la variable independiente en el eje X y la variable dependiente en el eje Y. La gráfica (a) de la fi- gura 12-1 muestra esto. Note cómo la pendiente de la recta sube cuando X toma valores cada vez más grandes. Se dice que la pendiente de esta recta es positiva , porque Y crece si X crece. Las relaciones pueden ser inversas en vez de directas. En estos casos, la variable dependiente dis- minuye al aumentar la variable independiente. El gobierno supone que existe una asociación inversa entre un mayor gasto anual de una compañía en dispositivos anticontaminantes y menores emisiones contaminantes. La gráfica (b) de la figura 12-1 ilustra este tipo de relación, que se caracteriza por una pendiente negativa (la variable dependiente Y disminuye al aumentar la variable independiente X ). A menudo encontramos una relación causal entre variables, esto es, la variable independien- te “causa” cambios en la variable dependiente. Éste es el caso en el ejemplo de la contaminación. Pero en muchos casos, otros factores ocasionan los cambios tanto en las variables dependientes co- mo en las independientes. Podríamos predecir las ventas de aretes de diamantes observando las de Cadillacs nuevos, pero no podríamos decir que una origina a la otra. Más bien, nos damos cuenta que otro factor, como el nivel de ingresos disponibles, es la causa de los niveles de ventas tanto de Cadi- llacs como de aretes de diamantes. Por esta razón, es importante considerar que las relaciones encontradas por la regresión son relaciones de asociación, pero no necesariamente de causa y efecto. A menos que tenga razones específicas para creer que los valores de la variable dependiente se originan por los valores de las variables independientes, no infiera causalidad en las relaciones encontradas por la regresión.

Diagramas de dispersión

El primer paso para determinar si existe una relación entre dos variables es examinar la gráfica de los datos observados (o conocidos). Esta gráfica, o dibujo, se llama diagrama de dispersión.

Diagrama de dispersión

Relaciones de aso- ciación, no de causa y efecto

Relación inversa entreX yY

Relación directa entreX yY

12.1 Introducción 511

Y

X

(a) Relación directa

Publicidad en dólares

Ventas en dólares

Pendiente positiva

Y

X

(b) Relación inversa

Gastos contra la contaminación

Emisores de contaminación

Pendiente negativa FIGURA 12-

Relaciones directas e inversas entre la variable indepen- dienteX y la varia- ble dependienteY

En este caso, la línea trazada a través de los puntos representa una relación directa, porque Y se incrementa al aumentar X. Como los puntos están relativamente cerca de esta línea, podemos decir que existe un alto grado de asociación entre las calificaciones de exámenes y el promedio de califi- caciones acumulativo. En la figura 12-3, podemos ver que la relación descrita por los puntos está bien descrita por una línea recta. Por tanto, podemos decir que es una relación lineal. La relación entre las variables X y Y también puede tomar la forma de una curva. Los especialis- tas en estadística la llaman relación curvilínea. Los empleados de muchas industrias, por ejemplo, experimentan lo que se denomina “curva de aprendizaje”, es decir, al fabricar un nuevo producto, el tiempo requerido para producir una unidad se reduce en alguna proporción fija al duplicarse el nú- mero total de unidades. Una industria de este tipo es la aviación. El tiempo de fabricación por uni- dad de una nueva aeronave tiende a disminuir un 20% cada vez que se duplica el número de nuevos aviones terminados. La figura 12-4 ilustra la relación curvilínea de este fenómeno de “curva de aprendizaje”. La dirección de la curva puede indicar si la relación curvilínea es directa o inversa. La curva de la figura 12-4 describe una relación inversa porque Y disminuye al aumentar X. Para repasar las relaciones posibles en un diagrama de dispersión, examinemos las gráficas de la figura 12-5. Las gráficas (a) y (b) muestran relaciones lineales directas e inversas. Las gráficas (c) y (d) son ejemplos de relaciones curvilíneas que indican asociaciones directas e inversas entre varia- bles, respectivamente. La gráfica (e) ilustra una relación lineal inversa con un patrón de puntos am- pliamente disperso. Esta mayor dispersión indica que existe menor grado de asociación entre las va-

Repaso de las rela- ciones posibles

Relaciones curvilíneas

Interpretación de la línea recta

12.1 Introducción 513

FIGURA 12-

Relación curvilínea entre el tiempo de construcción de una nuevo avión y el número de uni- dades producidas

Y

X

Número de aviones producidos

Número de horas por avión

1,000 horas

800 horas 640 horas

512 horas

0 5 10 15 20 25 30 35 40 45

250

500

750

1000

Y

X

(a) Recta directa Y

X

(b) Recta inversa Y

X

(c) Curvilínea directa

Y

X

(d) Curvilínea inversa Y

X

(e) Recta inversa con más dispersión Y

X

(f) Ninguna relación

FIGURA 12-

Relaciones posi- bles entreX yY en diagramas de dispersión