Docsity
Docsity

Prepara tus exámenes
Prepara tus exámenes

Prepara tus exámenes y mejora tus resultados gracias a la gran cantidad de recursos disponibles en Docsity


Consigue puntos base para descargar
Consigue puntos base para descargar

Gana puntos ayudando a otros estudiantes o consíguelos activando un Plan Premium


Orientación Universidad
Orientación Universidad


Estadística Descriptiva: Dos Variables - Introducción y Relación Lineal - Prof. anónimo, Apuntes de Biología

En este documento, el profesor julian de la horra de la universidad autónoma de méxico (uam) presenta una introducción a la estadística descriptiva de dos variables cuantitativas, x e y. El objetivo fundamental es encontrar la relación más sencilla posible entre ellas, suponiendo que sea de tipo lineal y expresable mediante la recta de regresión de y sobre x. Se estudian conceptos básicos, el planteamiento de las observaciones, la representación gráfica, la covarianza y el modelo de regresión lineal.

Tipo: Apuntes

2012/2013

Subido el 25/05/2013

xanisa
xanisa 🇪🇸

3.6

(54)

32 documentos

1 / 5

Toggle sidebar

Esta página no es visible en la vista previa

¡No te pierdas las partes importantes!

bg1
ESTAD´
ISTICA DESCRIPTIVA: DOS VARIABLES
Juli´an de la Horra
Departamento de Matem´aticas U.A.M.
1 Introducci´on
En muchos casos estaremos interesados en hacer un estudio conjunto de varias
caracter´ısticas de una poblaci´on. Para fijar ideas y para no complicar la
notaci´on supongamos que deseamos estudiar dos caracter´ısticas cuantitativas
XeYde una poblaci´on (consideramos variables cuantitativas porque los
conceptos que se van a definir, olo tienen sentido para ellas). XeYpueden
ser la longitud y la anchura de una especie de insectos, la tasa de inflaci´on y
la tasa de desempleo de un pa´ıs a lo largo de una serie de nos, etc.
El objetivo fundamental en este cap´ıtulo ser´a encontrar una funci´on lo
as sencilla posible que exprese (de manera resumida) la relaci´on que se
observe entre XeYa partir de los datos obtenidos. Nos centraremos en el
caso en que esta relaci´on sea de tipo lineal y pueda expresarse razonablemente
bien mediante la recta de regresi´on de Ysobre X. Esta recta de regresi´on
es muy ´util porque puede ser utilizada para muchas relaciones no lineales,
mediante sencillos cambios de las variables originales.
2 Conceptos asicos y planteamiento
Para hacer el estudio conjunto de las variables cuantitativas XeY, supon-
dremos que disponemos de una muestra de npares de observaciones de Xe
Y:
(x1, y1),...,(xn, yn)
Es decir, para el elemento i-´esimo de la muestra observamos lo que valen las
variables XeY. Esto es fundamental para poder decir algo sensato sobre
la posible relaci´on entre las variables. Igual que en el cap´ıtulo dedicado a la
Estad´ıstica Descriptiva de una variable, no se har´a ninguna menci´on sobre
omo se ha obtenido la muestra. Tenemos en mente la idea de que representa
a la poblaci´on total (de alguna forma), pero esta idea ni se precisar´a ni se
necesitar´a (de momento).
Por supuesto, se puede hacer un estudio de cada variable por separado
y calcular, en particular, medidas de centralizaci´on y de dispersi´on como
¯x, vx,¯y, vy. Adem´as, estos valores los necesitaremos as adelante. Pero,
como ya hemos indicado, no es ´este el objetivo fundamental.
1
pf3
pf4
pf5

Vista previa parcial del texto

¡Descarga Estadística Descriptiva: Dos Variables - Introducción y Relación Lineal - Prof. anónimo y más Apuntes en PDF de Biología solo en Docsity!

ESTAD´ISTICA DESCRIPTIVA: DOS VARIABLES

Juli´an de la Horra Departamento de Matem´aticas U.A.M.

1 Introducci´on

En muchos casos estaremos interesados en hacer un estudio conjunto de varias caracter´ısticas de una poblaci´on. Para fijar ideas y para no complicar la notaci´on supongamos que deseamos estudiar dos caracter´ısticas cuantitativas X e Y de una poblaci´on (consideramos variables cuantitativas porque los conceptos que se van a definir, s´olo tienen sentido para ellas). X e Y pueden ser la longitud y la anchura de una especie de insectos, la tasa de inflaci´on y la tasa de desempleo de un pa´ıs a lo largo de una serie de a˜nos, etc. El objetivo fundamental en este cap´ıtulo ser´a encontrar una funci´on lo m´as sencilla posible que exprese (de manera resumida) la relaci´on que se observe entre X e Y a partir de los datos obtenidos. Nos centraremos en el caso en que esta relaci´on sea de tipo lineal y pueda expresarse razonablemente bien mediante la recta de regresi´on de Y sobre X. Esta recta de regresi´on es muy ´util porque puede ser utilizada para muchas relaciones no lineales, mediante sencillos cambios de las variables originales.

2 Conceptos b´asicos y planteamiento

Para hacer el estudio conjunto de las variables cuantitativas X e Y , supon- dremos que disponemos de una muestra de n pares de observaciones de X e Y : (x 1 , y 1 ),... , (xn, yn)

Es decir, para el elemento i-´esimo de la muestra observamos lo que valen las variables X e Y. Esto es fundamental para poder decir algo sensato sobre la posible relaci´on entre las variables. Igual que en el cap´ıtulo dedicado a la Estad´ıstica Descriptiva de una variable, no se har´a ninguna menci´on sobre c´omo se ha obtenido la muestra. Tenemos en mente la idea de que representa a la poblaci´on total (de alguna forma), pero esta idea ni se precisar´a ni se necesitar´a (de momento). Por supuesto, se puede hacer un estudio de cada variable por separado y calcular, en particular, medidas de centralizaci´on y de dispersi´on como x, v¯ x, y, v¯ y. Adem´as, estos valores los necesitaremos m´as adelante. Pero, como ya hemos indicado, no es ´este el objetivo fundamental.

Antes de hacer cualquier c´alculo, conviene representar en el plano los pares de valores obtenidos. Con esto obtenemos un diagrama de dispersi´on con una nube de puntos, que nos puede dar una idea visual de las posibles relaciones existentes. Adem´as de los conceptos ya estudiados de media y varianza, vamos a necesitar en nuestro estudio el concepto de covarianza; este concepto utiliza las dos variables a la vez.

Definici´on.- La covarianza muestral entre las observaciones de X e Y se define como

covx,y =

n

∑^ n

i=

(xi − x¯)(yi − y¯) •

La manera m´as sencilla de calcular la covarianza es haciendo un desarrollo similar al de la varianza:

covx,y =

n

∑^ n

i=

(xi − x¯)(yi − ¯y) =

n

( (^) n ∑

i=

xiyi − x¯

∑^ n

i=

yi − y¯

∑^ n

i=

xi + nx¯¯y

)

n

( (^) n ∑ i=

xiyi − nx¯y¯

)

La covarianza va a aparecer de manera natural al obtener rectas de re- gresi´on (un poco m´as adelante). De momento, es f´acil ver que existe una relaci´on entre el signo de la covarianza y el tipo de asociaci´on que hay entre X e Y :

  1. Cuando los valores de Y tienden a crecer al crecer los valores de X, decimos que hay una asociaci´on positiva entre X e Y. Es f´acil razonar gr´aficamente a partir de la definici´on de covarianza para ver que, en este caso, la covarianza ser´a positiva.
  2. Cuando los valores de Y tienden a disminuir al crecer los valores de X, decimos que hay una asociaci´on negativa entre X e Y. Es f´acil razonar gr´aficamente a partir de la definici´on de covarianza para ver que, en este caso, la covarianza ser´a negativa.
  3. Finalmente, cuando no parece haber una influencia clara de X sobre Y (es decir, cuando los valares de X aumentan, no se aprecia ni aumento ni disminuci´on de los valores de Y ), tambi´en es f´acil ver que, en este caso, el valor de la covarianza ser´a pr´oximo a cero.

Se puede comprobar (pero no lo haremos) que esta soluci´on corresponde a un m´ınimo de la funci´on. Por tanto, la recta de regresi´on de Y sobre X es:

y = a + bx = ¯y −

covx,y vx

¯x +

covx,y vx

x

En definitiva, la recta de regresi´on de Y sobre X se puede escribir de la siguiente forma:

y − ¯y =

covx,y vx

(x − x¯)

4 Evaluaci´on del ajuste

La recta de regresi´on de Y sobre X que acabamos de estudiar se puede obtener para cualquier conjunto de datos pero, obviamente, en unos casos, esta recta resumir´a muy bien la nube de puntos (buen ajuste), y en otros casos, la resumir´a peor (mal ajuste). La herramienta num´erica que se suele utilizar para evaluar la bondad de este ajuste es el coeficiente de correlaci´on lineal, que se define a continuaci´on.

Definici´on.- El coeficiente de correlaci´on lineal entre X e Y se define como: r =

covx,y √ vxvy

El problema inicial del coeficiente de correlaci´on es que, a partir de la definici´on, no se sabe cu´al es su significado. Este significado quedar´a muy claro en cuanto veamos que el error cuadr´atico medio cometido con la recta de regresi´on de Y sobre X se puede expresar en funci´on del coeficiente de correlaci´on lineal:

“Error cuadr´atico medio cometido con la recta de regresi´on”

=

n

∑^ n

i=

( yi − ¯y +

covx,y vx

x ¯ −

covx,y vx

xi

) 2

n

( (^) n ∑ i=

(yi − y¯)^2 +

( (^) cov x,y vx

) (^2) ∑n

i=

(xi − x¯)^2 − 2

covx,y vx

∑n i=

(xi − x¯)(yi − ¯y)

)

= vy −

(covx,y)^2 vx

= vy

[ 1 −

(covx,y)^2 vxvy

] = vy(1 − r^2 )

Ahora es f´acil decir varias cosas sobre el significado de r, y sobre sus posibles valores:

  1. El coeficiente de correlacion lineal toma siempre un valor entre -1 y +1 (ya que el E.C.M., al ser una suma de cuadrados, no puede ser negativo).
  2. Cuando el valor de r es pr´oximo a +1, el error cuadr´atico medio cometido con la recta de regresi´on es pr´oximo a cero y, por tanto, el ajuste es bueno. Adem´as, tendremos una asociaci´on positiva entre X e Y , ya que la covarianza es positiva (por ser r positivo).
  3. Cuando el valor de r es pr´oximo a -1, el error cuadr´atico medio cometido con la recta de regresi´on es nuevamente pr´oximo a cero y, por tanto, el ajuste es bueno. Adem´as, tendremos una asociaci´on negativa entre X e Y , ya que la covarianza es negativa (por ser r negativo).
  4. Cuando el valor de r es pr´oximo a cero, el error cuadr´atico medio cometido con la recta de regresi´on se hace mayor y, por tanto, el ajuste es malo. Adem´as, observemos que, en este caso, no habr´a una clara influencia de X sobre Y , ya que el valor de la covarianza es pr´oximo a cero (por ser r pr´oximo a cero).
  5. Finalmente, se˜nalemos que el valor de r siempre hay que tomarlo con precauci´on ya que resume en un s´olo n´umero toda la riqueza de la nube de puntos.