Docsity
Docsity

Prepara tus exámenes
Prepara tus exámenes

Prepara tus exámenes y mejora tus resultados gracias a la gran cantidad de recursos disponibles en Docsity


Consigue puntos base para descargar
Consigue puntos base para descargar

Gana puntos ayudando a otros estudiantes o consíguelos activando un Plan Premium


Orientación Universidad
Orientación Universidad


Estadística, Apuntes de Estadística

Asignatura: Estadística, Profesor: , Carrera: Fisioterapia, Universidad: UCA

Tipo: Apuntes

2011/2012

Subido el 03/12/2012

freya21-1
freya21-1 🇪🇸

4.4

(52)

11 documentos

1 / 13

Toggle sidebar

Esta página no es visible en la vista previa

¡No te pierdas las partes importantes!

bg1
Tema 3. Estad´ıstica Descriptiva Bidimensional
Nuria Ruiz
Estad´ıstica. Grado en Fisioterapia. Curso 2011-2012
´
Indice
1. Introducci´on 1
2. Distribuci´on de frecuencias bidimensional 2
3. Distribuciones marginales y condicionadas 5
3.1. Distribuciones marginales . . . . . . . . . . . . . . . . . . . . 5
3.2. Distribuciones condicionadas . . . . . . . . . . . . . . . . . . . 6
4. Asociaci´on en distribuciones bidimensionales 7
4.1. Nubedepuntos.......................... 8
4.2. Lacovarianza ........................... 8
4.3. El coeficiente de correlaci´on . . . . . . . . . . . . . . . . . . . 9
5. Regresi´on lineal por m´ınimos cuadrados 11
5.1. Regresi´onlineal .......................... 11
5.2. Bondaddeajuste ......................... 13
1. Introducci´on
El an´alisis de multitud de fen´omenos conlleva describir no una ´unica va-
riable sino un conjunto de ellas. En particular, es com´un tener inter´es en
1
pf3
pf4
pf5
pf8
pf9
pfa
pfd

Vista previa parcial del texto

¡Descarga Estadística y más Apuntes en PDF de Estadística solo en Docsity!

Tema 3. Estad´ıstica Descriptiva Bidimensional

Nuria Ruiz

Estad´ıstica. Grado en Fisioterapia. Curso 2011-

´Indice

  1. Introducci´on 1
  2. Distribuci´on de frecuencias bidimensional 2
  3. Distribuciones marginales y condicionadas 5 3.1. Distribuciones marginales.................... 5 3.2. Distribuciones condicionadas................... 6
  4. Asociaci´on en distribuciones bidimensionales 7 4.1. Nube de puntos.......................... 8 4.2. La covarianza........................... 8 4.3. El coeficiente de correlaci´on................... 9
  5. Regresi´on lineal por m´ınimos cuadrados 11 5.1. Regresi´on lineal.......................... 11 5.2. Bondad de ajuste......................... 13

1. Introducci´on

El an´alisis de multitud de fen´omenos conlleva describir no una ´unica va- riable sino un conjunto de ellas. En particular, es com´un tener inter´es en

observar dos variables sobre los individuos de una poblaci´on, describir su comportamiento conjunto e incluso buscar posibles relaciones entre ellas. Este es el cometido del an´alisis descriptivo bidimensional.

En un estudio sobre peso de un grupo de individuos se podr´ıan medir otras caracter´ısticas como altura, sexo, edad, etc.

Se desea estudiar el tiempo de reacci´on (en horas) a un f´armaco en pacientes a los que se inyecta distintas dosis del mismo. O en individuos a los que se inyecta igual dosis pero tienen diagnosticadas distintas enfermedades.

Estudio de relaci´on entre obesidad y la respuesta al dolor.

Ejemplo 1. Sobre un grupo de 30 deportistas se observa el n´umero de lesiones en los ´ultimos dos a˜nos que les han supuesto acudir a rehabilitaci´on (X) y el n´umero de competiciones (Y ) en que han superado una puntuaci´on m´ınima. Los resultados han sido:

(0,8) (0,5) (0,6) (1,6) (2,5) (3,7) (2,8) (1,4) (0,6) (1,6) (1,5) (3,8) (3,8) (0,4) (1,4) (2,6) (3,5) (2,4) (0,8) (3,7) (0,6) (1,7) (2,5) (2,6) (0,8) (2,4) (1,6) (1,6) (2,5) (3,8)

  1. Distribuci´on de frecuencias bidimensional

Observamos dos caracter´ısticas sobre los individuos Dada una poblaci´on de n individuos, observamos dos caracteres X e Y con h y k modalidades, respectivamente. Es decir, con valores x 1 , x 2 , · · · , xh e y 1 , y 2 , · · · , yk. Cada individuo tendr´a asociado un par de valores (xi, yi), i = 1, · · · , n. Al n´umero de individuos que presentan el valor xi de X y el valor yj de Y se le denomina frecuencia absoluta del par y se denota por nij.

Ejercicio 1. Con las observaciones del Ejemplo 1 construir la tabla de fre- cuencias.

Las dos variables pueden ser de iguales o distintas escalas de medida, es decir, la tabla de doble entrada podr´ıa ser construida a partir de dos variables discretas, dos variables continuas, una nominal y otra cuantitativa discreta o agrupada en intervalos, etc. En caso de ser dos variables cualitativas, la distribuci´on de frecuencias se denomina tabla de contingencia.

Ejemplo 2. Se mide el aclaramiento de creatinina en pacientes tratados con Captopril tras la suspensi´on del tratamiento con di´alisis, resultando para 7 pacientes observados la siguiente tabla:

Dias post di´alisis (X) 1 5 10 15 20 25 35 Creatinina (mg/dl) (Y) 5.7 5.2 4.8 4.5 4.2 4 3.

Ejemplo 3. Un grupo de 1500 individuos es clasificado seg´un su grupo san- gu´ıneo y su tensi´on arterial, los resultados est´an organizados en la siguiente tabla: Grupo sangu´ıneo Tensi´on arterial A B AB 0 Total Baja 28 9 7 31 75 Normal 543 211 90 476 1320 Alta 44 22 8 31 105 Total 615 242 105 538 1500

Ejemplo 4. Los datos de la siguiente tabla corresponden al resultado de un estudio en que a 35 personas se les ha preguntado la edad y se ha medido su estatura. Altura Edad 1.65-1.75 1.75-1.8 1.8-1. 17 3 5 1 18 4 10 2 19 3 2 0 25 1 1 3

  1. Distribuciones marginales y condicionadas

3.1. Distribuciones marginales

De una distribuci´on bidimensional podemos obtener dos distribuciones marginales unidimensionales, una para cada una de las variables estudiada de forma aislada, es decir, ignorando la otra variable. Todo lo desarrollado para variables estad´ısticas unidimensionales ser´ıa aplicable a cada una de las distribuciones marginales.

Distribuci´on marginal de X Si la variable X toma los valores xi, la distribuci´on de frecuencias marginal

viene dada por {(xi, ni·)}i=1,··· ,h, con ni· =

∑k j=

nij = ni 1 + · · · + nik el n´umero

de individuos que presentan el valor xi de X. Se podr´ıan utilizar las frecuencias relativas fi· = n ni· , proporci´on de indi- viduos que presentan el valor xi de X.

Distribuci´on marginal de Y Si la variable Y toma los valores yj , la distribuci´on de frecuencias marginal

viene dada por {(yj , n·j )}j=1,··· ,k, con n·j =

∑h i=

nij = n 1 j + · · · + nhj el n´umero

de individuos que presentan el valor yj de Y. Se podr´ıan utilizar las frecuencias relativas f·j = n n·j , proporci´on de indi- viduos que presentan el valor yj de Y.

Ejercicio 2. En el Ejemplo 1 tendr´ıamos dos distribuciones marginales: la distribuci´on de frecuencias de la variable “N´umero de lesiones con necesidad de rehabilitaci´on” y la de la variable “N´umero de competiciones superando una puntuaci´on m´ınima”. Construir sendas distribuciones de frecuencias.

Ejercicio 3. ¿Qu´e distribuci´on de frecuencias es m´as homog´enea, la del n´umero de lesiones con necesidad de rehabilitaci´on o la del n´umero de com- peticiones superando una puntuaci´on m´ınima?

Obs´ervese que en ambos casos el total de individuos pasa de ser n a aquellos que verifican la condici´on establecida, n·j en el primer caso y ni· en el segundo.

Las distribuciones condicionadas ayudan a determinar si existe o no relaci´on estad´ıstica entre las variables X e Y.

Las distribuciones condicionadas son distribuciones de frecuencias uni- dimensionales a las que se pueden aplicar todos los m´etodos referidos a ellas. Podemos calcular medidas de posici´on, dispersi´on, forma, etc.

Ejercicio 4. Construir la tabla de frecuencias del n´umero de lesiones en los dos ´ultimos a˜nos con necesidad de rehabilitaci´on para aquellos individuos con m´as de 6 competiciones superando una puntuaci´on m´ınima. Construir la tabla de frecuencias del n´umero de competiciones superando una puntuaci´on m´ınima para aquellos individuos sin lesiones con necesidad de rehabilitaci´on en los dos ´ultimos a˜nos.

  1. Asociaci´on en distribuciones bidimensio-

nales

El an´alisis conjunto de dos variables predispone a analizar la posible relaci´on entre ambas, incluso si es posible a intentar predecir valores de una de ellas a partir de valores de la otra.

Para detectar la posible asociaci´on estad´ıstica disponemos de m´etodos gr´aficos y anal´ıticos, por una parte la nube de puntos representa gr´aficamente la relaci´on entre las variables y por otra la covarianza y el coeficiente de correlaci´on de Pearson permiten evaluar si existe asociaci´on.

4.1. Nube de puntos

La nube de puntos o diagrama de dispersi´on es la representaci´on en unos ejes cartesianos de los pares de valores observados para dos variables cuan- titativas posiblemente relacionadas. Se obtiene un conjunto de puntos en el plano por lo que tiene aspecto de nube de puntos y de ah´ı su nombre, la disposici´on de los puntos nos da una idea del comportamiento conjunto de las variables.

4.2. La covarianza

La covarianza es una medida de la variabilidad conjunta de dos variables cuantitativas. Se calcula como la media del producto de las distancias a la media de cada variable,

Sxy =

∑^ h i=

∑^ k j=

nij (xi − x¯)(yj − y¯)

n

y en la pr´actica se utiliza la siguiente expresi´on:

Sxy =

∑^ h i=

∑^ k j=

nij xiyj n −^ x¯¯y

¿C´omo interpretar el valor de la covarianza?

Puede tomar valores en todo R.

Si toma valores muy cerca de cero, no existe relaci´on lineal entre las variables.

Si es positiva, hay asociaci´on lineal positiva. Si el valor de X aumenta, el valor de Y tambi´en lo hace.

Si es negativa, hay asociaci´on lineal negativa. Si el valor de X aumenta, el valor de Y disminuye.

Ejercicio 6. Calcular el coeficiente de correlaci´on de las variables del Ejem- plo 4. ¿Qu´e tipo de relaci´on tienen las variables?

  1. Regresi´on lineal por m´ınimos cuadrados

5.1. Regresi´on lineal

La regresi´on tiene como objetivo encontrar una funci´on que exprese, lo mejor posible, la relaci´on entre dos o m´as variables. Cuando disponemos de la mejor curva que expresa la relaci´on entre ellas podemos predecir valores de una de las variables para valores de las dem´as.

Figura 1: Ajuste de varios tipos de curvas a una misma nube

La curva que relacione dos variables de forma lineal y = a+bx se denomina recta de regresi´on, corresponde a regresi´on lineal. Seg´un el grado de relaci´on lineal entre las variables la curva se ajustar´a mejor o peor a la nube de puntos. El objetivo es estimar los par´ametros a y b.

Para cada par observado (xi, yi) de frecuencia nij , la recta estimada dar´a, para cada valor observado de X, xi, un valor estimado de Y , ˆyi = a + bxi. El error que cometemos en la estimaci´on es di = yi − yˆi (ver Figura 2). La recta que mejor se ajuste la elegimos por el criterio de m´ınimos cuadra-

dos, es decir, se calculan a y b tales que

∑^ h i=

∑^ k j=1^ d

(^2) ij nij n sea m´ınima, de ah´ı el nombre de ajuste por m´ınimos cuadrados.

Figura 2: Criterio de m´ınimos cuadrados

Los coeficientes de regresi´on que se ajustan a este criterio son:

b = S Sxy 2 x a = ¯y − b¯x

Por lo que la recta de regresi´on de Y sobre X, es decir, la que expresa c´omo se comporta Y en funci´on de X ser´a:

Y − y¯ = S Sxy 2 x

(X − x¯)

Ejercicio 7. ¿Es fiable la estimaci´on de la altura de un individuo conocida su edad para los datos del Ejemplo 4?

Ejemplo 7. Estimar en el Ejemplo 2 el nivel de creatinina de un individuo pasados 30 d´ıas de la di´alisis.