Prepara tus exámenes
Consigue puntos
Orientación Universidad
Vende en Docsity
Docsity AI

Prepara tus exámenes

Prepara tus exámenes y mejora tus resultados gracias a la gran cantidad de recursos disponibles en Docsity

Consigue puntos base para descargar

Gana puntos ayudando a otros estudiantes o consíguelos activando un Plan Premium

Orientación Universidad

Vende en Docsity

Inicia sesión Regístrate

Prepara tus exámenes

Prepara tus exámenes y mejora tus resultados gracias a la gran cantidad de recursos disponibles en Docsity

Busca documentos

Prepara tus exámenes con los documentos que comparten otros estudiantes como tú en Docsity

Busca tu universidad

Encuentra los documentos específicos para los exámenes de tu universidad

Estudia con lecciones y exámenes resueltos basados en los programas académicos de las mejores universidades

Responde a preguntas de exámenes reales y pon a prueba tu preparación

Resume tus documentos, hazles preguntas, conviértelos en quiz y mapas conceptuales

Despeja tus dudas leyendo las respuestas a las preguntas que realizaron otros estudiantes como tú

Consigue puntos base para descargar

Gana puntos ayudando a otros estudiantes o consíguelos activando un Plan Premium

Compartir documentos

Por cada documento subido

Responde a las preguntas

por cada respuesta dada (máx. 1 al día)

Todos los modos para conseguir puntos gratis

Consigue puntos de inmediato

Elige un plan Premium con todos los puntos que necesitas.

Oportunidades de estudio

Elige tu próximo programa de estudio

Ponte en contacto inmediatamente con las mejores universidades del mundo. Busca entre miles de universidades en todo el mundo. Busca entre miles de universidades partner oficiales

Comunidad

Pregúntale a la comunidad

Pide ayuda a la comunidad y resuelve tus dudas de estudio

Ebooks gratuitos

¡Nuestros e-books salva-estudiantes!

Descarga nuestras guías gratuitas sobre técnicas de estudio, métodos para controlar la ansiedad y consejos para la tesis preparadas por los tutores de Docsity

3 analisis bidimensional, Apuntes de Estadística

Universitat Rovira i Virgili (URV)Estadística

Asignatura: Estadística I, Profesor: , Carrera: Ciències Empresarials, Universidad: URV

Tipo: Apuntes

Antes del 2010

Subido el 24/05/2008

martintxu 🇪🇸

3.8

(202)

170 documentos

1 / 52

Esta página no es visible en la vista previa

¡No te pierdas las partes importantes!

bg1

Introducción a la Estadística Empresarial. Capítulo 3.- Análisis conjunto de dos variables.

Jesús Sánchez Fernández

CAPITULO 3.- ANÁLISIS CONJUNTO DE DOS VARIABLES

3.1 Presentación de los datos. Tablas de doble entrada.

En el capítulo anterior nos hemos interesado por el análisis y descripción de una sola

variable. Para ello hemos definido un proceso de reducción de la información inicialmente

disponible. Esta reducción ha dado como resultado la construcción de una tabla

estadística donde se daba la distribución de frecuencias de la variable. Posteriormente se

ha analizado la forma, se han definido medidas de tendencia central, medidas de

dispersión, de simetría y curtosis. También se ha estudiado el problema de la

concentración. Pero este análisis es de tipo unidimensional, pues de todos los caracteres

de los elementos de una población solo nos ha preocupado observar un de ellos que, por

lo regular, siempre ha sido de tipo cuantitativo. Pero que duda cabe que los elementos de

una población cualquiera gozan de más de un carácter susceptible de ser observado. En

este sentido, imaginemos que los elementos observados son las empresas. En ellas se

pude observar de forma conjunta los beneficios y los costes de las mismas o cualquier

otro par de caracteres. Así podríamos pensar en los gastos en publicidad y sus beneficios,

o los costes y el número de empleados. El número de ejemplos que podríamos dar es tan

amplio que no merece la pena seguir mencionándolos.

El objetivo de este capitulo será similar al del anterior, pero ahora buscando el análisis

conjunto de dos variables o análisis bidimensional. Para ello se procederá a la

observación de dos características de todos los elementos de una población. Inicialmente

supondremos que esas características son de naturaleza cuantitativa. El resultado de esa

observación conjunta será la definición de dos variables a las que llamaremos X e Y, las

cuales pueden ser discretas o continuas, y nuestra primera preocupación será la de

presentar de forma conjunta las frecuencias de los pares de valores de esas variables (xi,

yj). El instrumento que se utiliza para alcanzar ese objetivo es lo que se conoce como

tabla de doble entrada, tabla de correlaciones o tabla de contingencia. Esta última

denominación se reserva especialmente para los casos de caracteres cualitativos. De

todas las denominaciones que hemos señalado, usaremos la de tabla de doble entrada,

pues la denominación de tabla de correlaciones tiene un significado que va más allá de la

mera representación numérica de las la distribución conjunta de frecuencias.

pf3

pf4

pf5

pf8

pf9

pfa

pfd

pfe

pff

pf12

pf13

pf14

pf15

pf16

pf17

pf18

pf19

pf1a

pf1b

pf1c

pf1d

pf1e

pf1f

pf20

pf21

pf22

pf23

pf24

pf25

pf26

pf27

pf28

pf29

pf2a

pf2b

pf2c

pf2d

pf2e

pf2f

pf30

pf31

pf32

pf33

pf34

Descubre Apuntes de Estadística Universitat Rovira i Virgili (URV)

Documentos relacionados

Estadística bidimensional

(1)

analisis de una variable

Distribución de Frecuencias Bidimensional: Concepto, Tabla y Cálculo

analisis bidimensional

5 numeros indices

(1)

formulari contrast d'hipotesi

(1)

1 introducción a la estadística empresarial

(5)

esquma estadistic mostral

(1)

Mesures de posició central (mediana i moda)

Mesures concentració (Gini - Lorenz)

(1)

Signe covariança

Estadística descriptiva

(1)

Vista previa parcial del texto

¡Descarga 3 analisis bidimensional y más Apuntes en PDF de Estadística solo en Docsity!

Jesús Sánchez Fernández

CAPITULO 3.- ANÁLISIS CONJUNTO DE DOS VARIABLES

3.1 Presentación de los datos. Tablas de doble entrada.

En el capítulo anterior nos hemos interesado por el análisis y descripción de una sola variable. Para ello hemos definido un proceso de reducción de la información inicialmente disponible. Esta reducción ha dado como resultado la construcción de una tabla estadística donde se daba la distribución de frecuencias de la variable. Posteriormente se ha analizado la forma, se han definido medidas de tendencia central, medidas de dispersión, de simetría y curtosis. También se ha estudiado el problema de la concentración. Pero este análisis es de tipo unidimensional, pues de todos los caracteres de los elementos de una población solo nos ha preocupado observar un de ellos que, por lo regular, siempre ha sido de tipo cuantitativo. Pero que duda cabe que los elementos de una población cualquiera gozan de más de un carácter susceptible de ser observado. En este sentido, imaginemos que los elementos observados son las empresas. En ellas se pude observar de forma conjunta los beneficios y los costes de las mismas o cualquier otro par de caracteres. Así podríamos pensar en los gastos en publicidad y sus beneficios, o los costes y el número de empleados. El número de ejemplos que podríamos dar es tan amplio que no merece la pena seguir mencionándolos.

El objetivo de este capitulo será similar al del anterior, pero ahora buscando el análisis conjunto de dos variables o análisis bidimensional. Para ello se procederá a la observación de dos características de todos los elementos de una población. Inicialmente supondremos que esas características son de naturaleza cuantitativa. El resultado de esa observación conjunta será la definición de dos variables a las que llamaremos X e Y , las cuales pueden ser discretas o continuas, y nuestra primera preocupación será la de presentar de forma conjunta las frecuencias de los pares de valores de esas variables ( xi, yj ). El instrumento que se utiliza para alcanzar ese objetivo es lo que se conoce como tabla de doble entrada, tabla de correlaciones o tabla de contingencia. Esta última denominación se reserva especialmente para los casos de caracteres cualitativos. De todas las denominaciones que hemos señalado, usaremos la de tabla de doble entrada, pues la denominación de tabla de correlaciones tiene un significado que va más allá de la mera representación numérica de las la distribución conjunta de frecuencias.

Jesús Sánchez Fernández

Una tabla de doble entrada no es más que la representación de ( xi, yj, nij ) en la forma que se muestra en la Tabla 1.

Tabla 1. Distribución conjunta de dos variables Y y 1 y 2 ...... yj ........ yk ni. x 1 n 11 n 12 ...... n1j ....... n1k n1. x 2 n 21 n 22 ...... n2j ........ n2k n2. . . .

. . .

. . .

. ..... .

. . .

. ..... .

. . .

. . . xi ni1 ni2 nij nik ni. . . .

. . .

. . .

. ..... .

. ..... .

. . .

. . . xh nh1 nh2 ..... nhi ..... nhk nh.

X

n.j n.1 n.2 ..... n.j ..... n.k N

La lectura del contenido de esta tabla sería el siguiente. El valor nij nos da la frecuencia conjunta con la que se presentan el valor xi de X y el valor yj de Y. A su vez ni1 da la frecuencia conjunta de xi y de y 1. De forma similar habría que leer e interpretar el resto de las frecuencias conjuntas que son las que están dentro del cuerpo central de la tabla, es decir, las que llevan un doble subíndice alfanumérico.

Mención aparte merecen la última fila y la última columna. A esa fila y a esa columna se les conoce como distribuciones marginales de Y y de X , respectivamente. Se trata de la distribución de frecuencias de cada una de las variables tomadas por separado. Así pues la distribución marginal de X vendría dada por los pares ( xi, ni. ), mientras que la marginal de Y vendría dada por los pares ( yj, n.j ), es decir:

Jesús Sánchez Fernández valores de esta distribución son los de la marginal de Y , pero las frecuencias son distintas y se representa por nj/i. Estas nuevas distribuciones aparecen en la Tabla 3.

Tabla 3. Distribuciones condicionales de X y de Y

X/yj ni/j Y/xi nj/i x 1 x 2 . . xi . . xh

n1j n2j . . nij . . nhj

y 1 y 2 . . yj . . yk

ni ni . . nij . . nik

La distribución condicional no es única, al el contrario de lo que ocurre con la marginal. Habrá tantas como valores pueda tomar la variable condicionante. Así, para variables continuas el número de distribuciones condicionales será infinito.

Todas y cada una de esta nuevas distribuciones univariantes que se han definido es posible tratarlas con los instrumentos de análisis definidos en las lecciones anteriores. Además, aunque la tabla de doble entrada que se ha diseñado antes lo es para variables de tipo cuantitativo, también es posible hablar de tablas de doble entrada para variables de tipo cualitativo o mixto, en cuyo caso se les conoce como tablas de contingencia. Por otro lado, en la Tabla 1 se recogen dos variables discretas con frecuencias unitarias o mayores que la unidad. Sin embargo ese diseño de tabla de doble entrada es también válido para el caso de variables continuas. Bastaría con sustituir los valores puntuales de cada variable por intervalos.

A continuación vamos a dar un ejemplo que permita aclarar todos estos conceptos.

Jesús Sánchez Fernández Ejemplo 1. Para un conjunto de 2005 empresas de menos de 9 empleados se han observado dos caracteres de las mismas. El número de sus empleados (X) y el número de días perdidos por bajas (Y) en esas empresas. Los resultados son los que se dan en la siguiente tabla de doble entrada:

Y 0 1 2 3 4 5 6 7 8 ni. 1^50 45 40 30 20 15 10 5 5 2^40 50 45 40 30 20 15 10 5 3^20 40 50 40 35 25 20 15 10 4^15 30 30 50 40 30 25 20 15 5^10 20 20 40 50 40 40 35 30 6^5 10 15 30 40 50 45 40 35 7^5 5 10 20 30 40 50 45 40 8^5 5 5 10 20 30 45 50 50

X

n.j^150 205 215 260 255 250 250 220 200

A partir de esos datos, obtenga

a) La marginal de X y la condicional de X/y=5. b) La marginal de Y y la condicional de Y/x=

a) b) Marginal de X

Condicional de X/y=

Marginal de Y

Condicional de Y/x= xi ni. xi/y=5 ni/y=5 y n.j yj/x=3 nj/x= 1 2 3 4 5 6 7 8 220 255 255 255 285 270 245 220

Jesús Sánchez Fernández

3.2 La covariación.

En el apartado anterior hemos presentado una distribución frecuencias conjunta para dos variables. En ese apartado se ha señalado que tipo de distribuciones unidimensionales o univariantes se pueden definir a partir de la bivariante, y se ha indicado que las mismas podían ser tratadas con los instrumentos definidos en lecciones anteriores. Sin embargo, el interés de este capitulo no es precisamente el de realizar un análisis individualizado de todas y cada una de las distintas distribuciones univariantes que se pueda definir a partir de una distribución bivariante. Ahora, nuestro objetivo es el análisis conjunto de las dos variables que se definen en tabla de doble entrada.

Ya no se trata de estudiar solo los promedios y las medidas de dispersión de cada una de esas variables. El siguiente paso que se pretende dar con este capítulo es el análisis de la relación o dependencia que pueda existir entre dos variables. A esa relación la vamos a denominar covariación o variación conjunta.

La covariación es un fenómeno bastante habitual entre variables de carácter económico y de otra naturaleza. La covariación que puede darse entre dos variables X e Y cualesquiera puede ser de distinto tipo. Así puede hablarse de:

1º Dependencia causal unilateral. Este tipo de covariación se da cuando una variable influye en la otra y no al contrario. Es decir las variaciones de una variable pueden explicarse por las variaciones de otra, pero no a la inversa.

En este tipo de análisis, a la variable que ejerce influencia en la otra se le llama variable independiente, explicativa, variable causa o exógena. A la otra variable se le llama dependiente, explicada, variable efecto o endógena. Generalmente a la independiente se

le suele representar por la letra X , mientras que a la dependiente se le representa por la letra Y.

A título de ejemplo se puede señalar los siguientes pares de variables: los impuestos y la renta, los benéficos empresariales y el volumen de ventas, los salarios y la cualificación profesional, etc.

Jesús Sánchez Fernández 2º Interdependencia. Esta situación se da cuando la influencia es recíproca entre las dos variables. En este caso se habla de una relación causal bilateral o interdependencia.

Un ejemplo muy claro en Economía de este tipo de relación se encuentra entre precio y producción de un bien. Es bien conocido que, en un sistema de mercado en régimen de competencia perfecta, estas dos variables están interrelacionadas.

3º Dependencia indirecta. Este tipo de covariación se da cuando existe una tercera variable que influye simultáneamente sobre X e Y. En estos casos no existe una relación de causalidad entre esas variables. Sin embargo, la presencia de una tercera que influye en ambas hace que ellas se muevan de forma sincronizada. Pensemos en la superficie quemada por incendios forestales y el número de viajeros en zonas turísticas. Estas dos variables se comportan a lo largo del año de una forma parecida. Pero no puede hablarse de una relación causa efecto entre ellas. En realidad es la variable temperatura climatológica la que condiciona su evolución paralela.

4º Concordancia. A veces se sabe que las variables X e Y son por naturaleza independientes. Sin embargo puede que muestren un movimiento sincronizado, lo que nos llevaría a pensar en un cierta dependencia. Tal podría ser el caso el resultado de las opiniones de un panel de expertos relativas a expectativas de crecimiento de la economía de un conjunto de países.

5º Covariación casual o espúrea. Ocurre cuando dos variable se mueven de forma sincronizada pero sin que exista una relación de causalidad entre ellas.

Es conveniente señalar que el tipo de relación que pueda existir entre dos variables no se puede determinar fácilmente mediante instrumentos estadísticos, por lo que ese tipo de covariación habrá que buscarla en el conocimiento previo que se tenga de esas variables. Lo que si puede hacer la Estadística, en cualquier caso, es cuantificar y formalizar matemáticamente la relación o covariación previamente señalada, con el fin de confirmar tal relación y utilizarla luego para describir el fenómeno, para explicarlo y para realizar predicciones.

Jesús Sánchez Fernández

Mediante este método gráfico lo que se consigue es descubrir la posible relación que existe entre las variables. Esto representa un paso importante para un instrumento tan sencillo como es un simple gráfico.

En la Figura 1, denominada como covariación directa, se detecta una relación lineal positiva o directa. La Figura 2 nos advierte de una relación lineal negativa o inversa; la tercera nos indica que entre las variables X e Y no existe relación evidente de tipo alguno; finalmente, la última gráfica nos pone de manifiesto una relación que no es lineal.

Que duda cabe que estos cuatro modelos de diagramas de dispersión no son los únicos, pero si los más representativos.

Una vez agotada la vía gráfica para el estudio de la covariación, hay que recurrir a otros procedimientos que nos permitan cuantificar la covariación. Los dos procedimientos más utilizados son la correlación y la regresión.

Antes de finalizar este epígrafe sería conveniente resaltar que para los distintos tipos de covariación que hemos definido hay un concepto que aparece de forma recurrente. Se trata de la independencia o dependencia entre variables. Para definir este concepto en términos estadísticos haremos uso a la tabla de doble entrada que se vio en el apartado anterior. Con la terminología utilizada en esa tabla, se dice que dos variables X e Y son estadísticamente independientes si se cumple la siguiente relación:

nij/N = (ni./N).(n.j./N) (3.4)

es decir, que la frecuencia relativa conjunta sea igual al producto de las frecuencias relativas marginales.

Otra forma de dar el concepto de independencia estadística es haciendo uso de las distribuciones condicionales. En este caso se dice que dos variables son estadísticamente independientes si las frecuencias relativas condicionales son iguales a sus correspondientes frecuencias relativas marginales.

Jesús Sánchez Fernández

fi/j = nij/n.j = (ni./N) = fi. (3.5)

fj/i = nij/ni. = (n.j/N) = f.j (3.6)

Ejemplo 3. Estudie si las variables del ejemplo 1 son o no independientes.

En este caso, como en otros de naturaleza similar, para determinar si esas dos variables son o no independientes se procederá a aplicar alguna de las condiciones de independencia dadas con anterioridad. Para ello nos centraremos en un punto del espacio de X e Y, por ejemplo el par de valores (x=3, y=6). En este caso se tiene que

20/2005 = f 36 ≠ (f3.)( f.6) = (255/2005)(250/2005)

(255/2005) = (f3.) ≠ ( f (^) 3/y ) = 25/

Lo anterior nos lleva a concluir que esas variables no son independientes. La selección del par (x, y) es indiferente, pues basta que para un par no se cumpla la condición de independencia para que se pueda concluir que las variables no son independientes.

A la independencia estadística definida de esta forma se le llama determinista, frente a la estocástica.

3.3 Correlación: covariancia y coeficiente de correlación lineal.

De los distintos diagramas de dispersión que hemos mostrado en el epígrafe anterior, dos de ellos implicaban una covariación de tipo lineal, en un caso directa y en el otro indirecta o inversa. También se dijo anteriormente que una forma de cuantificar la covariación entre dos variables es mediante el análisis de la correlación. Pues bien, en lo que sigue vamos a definir un instrumento que nos va a permitir cuantificar el grado de covariación lineal entre dos variables. Se trata del coeficiente de correlación lineal.

Jesús Sánchez Fernández c) el producto xiyi del tercer cuadrante será positivo d) el producto xiyi del cuarto cuadrante será negativo.

Teniendo en cuata esos resultados, resulta que Σixiyi sirve como medida de covariación

entre X e Y. Esto es así porque si esa suma es positiva, la mayor parte de los puntos estarán en los cuadrantes I y III, con lo que la relación será directa. Por el contrario, si la mayoría de los puntos están en los cuadrantes II y IV, la suma será negativa y la relación será inversa. En cambio si los puntos están muy repartidos entre los cuatro cuadrantes, la suma será pequeña, tendente a cero, lo que nos informará de que no hay relación lineal alguna.

Pero ese indicador del grado de asociación lineal entre dos variables adolece de dos defectos. Por un lado bastaría con cambiar el número de pares de valores de X e Y para que el mismo fuera distinto. Por otro, el mismo viene influido por las unidades de medida de X e Y. La forma de corregir estos inconvenientes es promediar la suma (se elimina el primer problema) y expresarla en términos de la desviación estándar de X y de Y. El resultado es

(3.7 ) X Y

XY X Y

i i i

S S

S

S S

N

xy

r = =

∑

que se conoce como coeficiente de correlación lineal.

Al numerador del coeficiente de correlación se le llama covariancia ( SXY ), siendo SX la desviación estándar de X y SY la de Y. Como las expresiones de cálculo de las desviaciones estándares las conocemos, habrá que dar ahora la correspondiente a la covariancia.

( )( ) (3.8 ) N

Y n N

Xn N

XYn N

X X Y Yn N

xyn S i i i i i i i i i i i i i i i i i i XY

∑ ∑ ∑ ∑ ∑ = −

Jesús Sánchez Fernández

Mediante el coeficiente de correlación lineal lo que se busca es un número que indique, de forma objetiva, el grado de variación lineal conjunta entre las dos variables. El signo de este coeficiente puede ser positivo o negativo, según cual sea el de la covariancia. Los valores de este coeficiente oscilan entre menos uno y más uno. La forma de interpretar el significado de esos valores es la siguiente:

a) Si r =1 , la correlación lineal es perfecta y directa, o sea, la nube de puntos se sitúa sobre una línea recta creciente.

b) Si r = -1 , la correlación lineal es perfecta y inversa, o sea, la nube de puntos se sitúa sobre una linera recta decreciente.

c) Si r = 0 , no existe relación lineal, bien porque no exista covariación entre las variables o porque ésta no sea lineal. En este caso decimos que las variables están incorrelacionadas linealmente, lo que no significa que necesariamente sean independientes. Si el coeficiente de correlación lineal es cero, entonces las variables puede que sean independientes o bien que no lo sean y que presenten otro tipo de covariación distinto al lineal. En cambio si las variables son independientes, entonces el coeficiente de correlación lineal será siempre cero.

d) En los demás casos se puede hablar de una correlación débil o fuerte según que el valor de r esté próximo a 0 o a ± 1.

En cuanto a las propiedades del coeficiente de correlación lineal, hay que indicar que el mismo es invariante frente a cambios de origen y de escala. Para probar que esta afirmación es cierta se estudiará el comportamiento de la covariancia frente a cambios de origen y de escala en las variables X e Y , pues ya se sabe cual es la respuesta de la desviación estándar frente a este tipo de cambios. Supóngase que se definen las siguientes variables: X’ = h + kX e Y’ = f + gY. Entonces:

Jesús Sánchez Fernández

xi yi xi^2 yi^2 xiyi 3 10 9 1 2 4 6 5 7 7

3 9 10 4 1 2 5 6 7 9

9 100 81 1 4 16 36 25 49 49

9 81 100 16 1 4 25 36 49 81

9 90 90 4 2 8 30 30 49 63 54 56 370 402 375

=∑ −∑^ ∑ =^375 − =

N

y n

N

xn

N

xyn

S i

i i i i i i i i i XY

( ) 2 , 8

2

^ =

=^ ∑^ − x = −

N

xn

S i

i i x

( ) (^2) , 97

2

^ =

=^ ∑^ − y = −

N

yn

S i

i i y

( )( )

= =^7 ,^26 =

X Y

XY S S r S

Jesús Sánchez Fernández Ejemplo 5. Obtenga el coeficiente de correlación lineal para las variables que se recogen en la tabla siguiente.

Y 1 2 3 4 1^10 8 5 2^7 12 6 3^6 8 8

X

4^1 4 5

En este caso, se trata de obtener el coeficiente de correlación cuando las frecuencias de los distintos pares de valores de las variables no son unitarias y, además, todos esos pares tienen frecuencias distintas de cero, cosa que no ocurría en el Ejemplo 4. Para calcular la correlación existente entre X e Y, es aconsejable, cuando se tiene una distribución de frecuencias como la presente, determinar previamente las marginales y después dar esa tabla de doble entrada en forma de pares de valores. Todo ello nos lleva a que:

xi ni xini xi^2 ni 1 2 3 4 Total

( ) 1 , 077

2

^ =

=^ ∑^ − x = −

N

x n

S i

i i x

( ) (^1) , 058

2

=^ ∑^ − y = −

N

y n

S i

i i y

yi ni yini yi^2 ni 1 2 3 4 Total

Jesús Sánchez Fernández línea que intentará resumir toda la nube de puntos del diagrama de dispersión. Como tal tendrá un carácter de línea media, y esta línea nos medirá la dependencia estadística existente entre las variables. Este tipo de dependencia es distinta a la dependencia funcional o exacta. La diferencia entre las mismas radica en que en el primer caso, aunque las variables estén fuertemente relacionadas, las observaciones suelen tener una componente aleatoria que les impide que la nube de puntos aparezca exactamente distribuida a lo largo de una línea. Pero esa falta de alineación perfecta no impide que esos puntos tiendan a agruparse con mayor o menor intensidad en torno a esa línea “ideal” o media de la que se ha hablado.

Pues bien, el análisis de regresión consiste en obtener esa línea “ideal” o media, línea de regresión, hacia la cual tienden los puntos de un diagrama de dispersión. De lo que se trata, en realidad, es de determinar la dependencia exacta que se haya contenida en la dependencia estadística observada mediante la eliminación de los factores aleatorios.

Para centrar un poco estas ideas se hará uso de la Figura 6. Admitamos de entrada que esa línea media es conocida y que es la que se ha representado en el mismo como AB^1. En ese gráfico podemos comprobar como para un determinado valor de X ( x 1 ) observado, la variable Y puede tomar, y de hecho los toma en este caso, más de una valor ( y 11 e y 12 ), mientras que por la línea de regresión le correspondería solo uno (y* 1 ). Este paso de la dependencia estadística a la dependencia exacta implica que a cada valor de la variable independiente le asignemos uno solo de la variable dependiente. Ese valor de la variable dependiente, dado por la línea de regresión, tiene categoría de valor medio, pues como ya hemos indicado, la línea de regresión tiene ese carácter de línea media.

(^1) Pese a que en el gráfico la línea media o línea de regresión se ha representado como una recta, la misma puede ser una curva cualquiera.

Jesús Sánchez Fernández

Figura 6. Diagrama de dispersión

0

16

0 14

A

B

yi

xi

yi*

ei

x 1

y 11

y 12

Mediante este gráfico también es posible comprobar como cada valor de yi observado se puede descomponer en dos partes. Una de ellas viene dada por el valor de la línea de regresión, yi*= f(xi) , y la otra sería la diferencia entre el valor observado y el asignado por nuestra relación funcional exacta a la que llamaremos error o residuo, ei. Formalmente tendríamos:

yi = f(xi) + ei = yi* + ei. (3.9)

En consecuencia el análisis de regresión lo que persigue es obtener los valores medios y*i de la variable dependiente que corresponden a los valores xi observados.

El siguiente paso en el análisis de la regresión es definir los procedimientos que nos permitan obtener esa línea media que es la línea de regresión. No vamos a entrar a describir todos los posibles métodos que existen para determinar esa línea de regresión. Solo vamos a mencionar tres. El primero es el más sencillo y consiste en trazar la línea que más se ajuste a la nube de puntos. Este procedimiento gráfico, frente a su sencillez, tiene en su contra la falta de rigor.