Docsity
Docsity

Prepara tus exámenes
Prepara tus exámenes

Prepara tus exámenes y mejora tus resultados gracias a la gran cantidad de recursos disponibles en Docsity


Consigue puntos base para descargar
Consigue puntos base para descargar

Gana puntos ayudando a otros estudiantes o consíguelos activando un Plan Premium


Orientación Universidad
Orientación Universidad


Correlación y Regresión: Análisis de Distribuciones Bidimensionales de Frecuencias, Apuntes de Estadística

Conceptos básicos sobre correlación y regresión, incluyendo la distribución bidimensional de frecuencias, independencia y relación funcional de variables, tablas de correlación y contingencia, distribuciones marginales y condicionadas, y el cálculo de coeficientes de correlación y regresión. El documento también incluye ejemplos y ejercicios.

Tipo: Apuntes

2020/2021

Subido el 08/06/2021

lore-zapatero
lore-zapatero 🇪🇸

12 documentos

1 / 10

Toggle sidebar

Esta página no es visible en la vista previa

¡No te pierdas las partes importantes!

bg1
TEMA 2: ANÁLISIS ESTADÍSTICO BIDIMENSIONAL. CORRELACIÓN Y REGRESIÓN.
1. Distribuciones bidimensionales de frecuencias.
La distribución bidimensional de frecuencias es también llamada Bivariante.
Observamos dos variables simultáneamente que se escriben como pares (xi; yi) Se
puede estudiar:
Por separado la distribución de la población según una variable u otra:
De forma simultánea a fin de estudiar posibles relaciones entre ellas,
ejemplos: peso y altura o salario percibido y antigüedad en la empresa.
- Independencia y relación funcional de dos variables.
Si no hay dependencia entre las dos variables se dice que son independientes. Pero
cuando hay una relación perfecta se dice que las variables están relacionadas
funcionalmente: y = f(x)
Ejemplo: velocidad V = e/t
Para comprobar si existe dependencia o no entre dos variables hablaremos de
correlación entre variables y de contingencia.
- Distribuciones bidimensionales: tablas de correlación y contingencia.
Sea una población estudiada por dos caracteres (X e Y); representamos la distribución
de variables (xi, yi nij), donde:
Xi e Yi son dos valores cualesquiera.
nij es la frecuencia absoluta conjunta del valor i-ésimo de X con el j-ésimo de
Y.
TABLA DE CORRELACIÓN:
Ej:
X: numero de libros leídos en el último año.
Y: número de horas en redes sociales al día.
pf3
pf4
pf5
pf8
pf9
pfa

Vista previa parcial del texto

¡Descarga Correlación y Regresión: Análisis de Distribuciones Bidimensionales de Frecuencias y más Apuntes en PDF de Estadística solo en Docsity!

TEMA 2: ANÁLISIS ESTADÍSTICO BIDIMENSIONAL. CORRELACIÓN Y REGRESIÓN.

1. Distribuciones bidimensionales de frecuencias.

La distribución bidimensional de frecuencias es también llamada Bivariante.

Observamos dos variables simultáneamente que se escriben como pares (xi; yi) Se

puede estudiar:

Por separado la distribución de la población según una variable u otra:

De forma simultánea a fin de estudiar posibles relaciones entre ellas,

ejemplos: peso y altura o salario percibido y antigüedad en la empresa.

  • Independencia y relación funcional de dos variables.

Si no hay dependencia entre las dos variables se dice que son independientes. Pero

cuando hay una relación perfecta se dice que las variables están relacionadas

funcionalmente: y = f(x)

Ejemplo: velocidad V = e/t

Para comprobar si existe dependencia o no entre dos variables hablaremos de

correlación entre variables y de contingencia.

  • Distribuciones bidimensionales: tablas de correlación y contingencia.

Sea una población estudiada por dos caracteres (X e Y); representamos la distribución

de variables (xi, yi nij), donde:

Xi e Yi son dos valores cualesquiera.

nij es la frecuencia absoluta conjunta del valor i-ésimo de X con el j-ésimo de

Y.

TABLA DE CORRELACIÓN:

Ej:

X: numero de libros leídos en el último año.

Y: número de horas en redes sociales al día.

Si la distribución bidimensional es de atributos la tabla se llama tabla de contingencia.

Ej: TABLA DE CONTINGENCIA:

  • Distribuciones marginales.

Puede darse el caso de que nos interese estudiar de forma aislada cada una de las

variables; por lo que tendrí amos dos distribuciones unidimensionales (de X y de Y

respectivamente).

Para poder obtener estas distribuciones necesitamos calcular las frecuencias de cada

variable.

En la distribució n marginal de X tenemos que hallar cuá ntas veces se repite cada valor

de x i

con independencia de Y. De esta forma, el nú mero de veces que se repite x 1

independientemente de los valores de Y ser á:

  • Distribuciones condicionadas.

Las frecuencias condicionadas son un conjunto de valores que toma una variable

cuando otra variable toma un valor concreto.

En general:

Las frecuencias relativas condicionadas a algún valor de Y o de X sería,

respectivamente:

Cómo se expresa la frecuencia condicionada de X con respecto a un valor concreto de

Y:

Cómo se expresa la frecuencia condicionada de Y con respecto a un valor concreto de

X:

2. Representaciones gráficas.

La representación grafica más utilizada es la nube de puntos o diagrama de dispersión.

Es simplemente saber eje x

y eje y para colocarlos en

la tabla.

3. Momentos.

Son una serie de valores concretos, específicos, o medidas, que caracterizan la

distribución de frecuencias. Los momentos de naturaleza bidimensional son los que

consideran al mismo tiempo valores de la variable X e Y.

Momentos ordinarios o respecto al origen.

Momentos centrales o respecto a la media.

Relación entre los momentos respecto al origen y respecto a la media.

  • Ejercicio. 4. Covarianza.

Es un parámetro estadístico conjunto, pues, en su cálculo intervienen las dos variables

a la vez. Se define como la media aritmética de los productos de las diferencias de los

valores de cada variable respecto de su media marginal.

Sxy > 0

ej: euros invertidos en publicidad y número de

unidades variables.

Sxy < 0

ej: inversión y tipo de interés.

Sxy = 0

ej: número de trabajadores de una empresa y altura

de los mismos.

Ejericicio: dada la siguiente tabla

a) Halle los parámetros

estadísticos: media, varianza,

desviación típica y covarianza.

b) Estudie la independencia

entre variables.

(i) (5∙1∙1) +(5∙2∙0) + (5∙4∙2) = 45

(ii) (10∙ 1 ∙ 2) + (10 ∙ 2 ∙ 1) + (10 ∙ 4 ∙ 0) = 40

(iii) (15∙ 1 ∙ 0) + (15 ∙ 2 ∙ 1) + (15 ∙ 4 ∙ 3) = 210

Medias Marginales:

Varianza y desviación típica Marginales:

Covarianza:

  • Regresión de tipo II.

Seguiremos el criterio de mínimo cuadrático de números ordinarios que más se

aproxima a la nube de puntos.

o Regresión II de Y sobre X:

o Regresión II de Y sobre X:

La regresión tipo II nos proporciona una función continua y es el método más habitual,

siendo el primer paso para realizar una estimación.

Se considera un método de aproximación a la regresión I.

La diferencia práctica es que mientras que en la I no fijamos a priori el tipo de

función, en la II es el primer paso.

El grado de ajuste será tanto mejor en la medida en que la curva describa la nube de

puntos

  • Regresión lineal.

La regresión lineal es un caso particular de la Regresión tipo II.

Si el tipo de función para la relación entre X e Y es una función lineal, estamos ante

la regresión lineal simple. (Una sola variable explicativa)

El objetivo es seleccionar de entre las infinitas funciones (rectas) que pasan por la

nube de puntos, la que mejor se “adapte” o más se “acerque” a la nube de puntos.

El tipo de ajuste que vamos a estudiar es el método de los mínimos cuadrados, que

identifica la función (recta) que reduce al mínimo la suma de los errores cometidos.

X: es la variable independiente o variable explicativa.

Y: es la variable dependiente o variable explicada.

Hay dos rectas de regresión:

o La recta de regresió n de Y sobre X (Y/X): hace mí nimos los errores

cuadrá ticos al estimar Y con informació n de X.

o La recta de regresión de X sobre Y (X/Y): hace mínimos los errores

cuadráticos al estimar X con información de Y.

Es importante detectar cuál de las dos tiene sentido económico o si las dos lo tienen.

Ambas rectas pasan por el centro de gravedad de la nube de puntos, es decir, (x,y)

Interpretación de los parámetros Y* = a + bxi

a: es la ordenada en el origen, el valor medio que toma la variable explicada cuando

la variable explicativa toma el valor 0.

b: es el coeficiente de regresión.

El coeficiente de la recta de regresión Y/X se

interpreta como cuánto varía la variable Y

según varíe una unidad la variable X.

El coeficiente de la recta de regresión X/Y se

interpreta de forma análoga.

El signo de b y b’ será el signo de la covarianza:

Sxy > 0 coeficiente de regresión positivo (rectas crecientes).

Sxy < 0 coeficiente de regresión negativo (rectas decrecientes).

Sxy = 0 coeficiente de regresión nulo (rectas paralelas a los ejes).

  • Coeficiente de determinación, R

2 .

La recta de regresión por mínimos cuadrados minimiza lo errores cuadráticos. Ahora

nos preguntamos si este ajuste es bastante bueno.

Mirando en el diagrama de dispersión si los puntos quedan muy cerca de la recta de

regresión obtenida, podemos tener una idea de si la recta se ajusta o no a los datos,

pero nos hace falta un valor numérico que nos ayude a precisarlo.

La medida más importante de la bondad del ajuste es el coeficiente dedeterminación,

R

2 .

El coeficiente de determinación mide el grado de ajuste de la recta de regresión a los

valores de la muestra, y se define como el porcentaje de la variabilidad total de la

variable dependiente Y que es explicada por la recta de regresión.

*Calculo del coeficiente de determinación.

Cuando el modelo es lineal simple se puede demostrar que el coeficiente de

determinación es igual al coeficiente de correlación lineal de Pearson (entre x e y) al

cuadrado.

*Interpretación de R

2 .

R

2 está cercano a 1 el ajuste es bueno (mayor será la fuerza de asociación entre

ambas variables).

R

2 está cercano a 0 el ajuste es malo (la recta no explica nada, es decir, no existe

asociación entre X e Y).

  • Ejercicio.

Una compañía ha recopilado en la tabla adjunta la

siguiente información sobre el número de conciertos

dados por 15 grupos musicales durante su verano, y

las ventas de discos de estos grupos (en miles).

a) El número medio de discos vendidos.

b) ¿Cuál es el coeficiente de correlación?

c) ¿Cuál es el coeficiente de determinación?

d) Obtener la recta de regresión de Y sobre X.

e) Si un grupo musical vende 18000 discos, ¿Qué número de conciertos se

prevé para él?