Docsity
Docsity

Prepara tus exámenes
Prepara tus exámenes

Prepara tus exámenes y mejora tus resultados gracias a la gran cantidad de recursos disponibles en Docsity


Consigue puntos base para descargar
Consigue puntos base para descargar

Gana puntos ayudando a otros estudiantes o consíguelos activando un Plan Premium


Orientación Universidad
Orientación Universidad


Datos: Variables Cualitativas y Cuantitativas, Distribución, Medidas y Correlación - Prof., Apuntes de Econometría

Conceptos básicos del análisis descriptivo de datos, incluyendo variables cualitativas y quantitativas, distribución de frecuencias, medidas centrales y dispersión, y correlación. Se explican tipos de variables, medidas de centralidad como mediana y medidas de dispersión como varianza y desviación típica, así como la correlación entre dos variables.

Tipo: Apuntes

2016/2017

Subido el 25/05/2017

beaneo
beaneo 🇪🇸

3.6

(36)

29 documentos

1 / 67

Toggle sidebar

Esta página no es visible en la vista previa

¡No te pierdas las partes importantes!

bg1
Tema 2. Análisis descriptivo de
datos y modelo de regresión lineal
simple
Universidad Complutense de
Madrid
pf3
pf4
pf5
pf8
pf9
pfa
pfd
pfe
pff
pf12
pf13
pf14
pf15
pf16
pf17
pf18
pf19
pf1a
pf1b
pf1c
pf1d
pf1e
pf1f
pf20
pf21
pf22
pf23
pf24
pf25
pf26
pf27
pf28
pf29
pf2a
pf2b
pf2c
pf2d
pf2e
pf2f
pf30
pf31
pf32
pf33
pf34
pf35
pf36
pf37
pf38
pf39
pf3a
pf3b
pf3c
pf3d
pf3e
pf3f
pf40
pf41
pf42
pf43

Vista previa parcial del texto

¡Descarga Datos: Variables Cualitativas y Cuantitativas, Distribución, Medidas y Correlación - Prof. y más Apuntes en PDF de Econometría solo en Docsity!

Tema 2.

Análisis descriptivo de

datos y modelo de regresión lineal

simple

Universidad Complutense de

Madrid

¿Qué aprenderá en este tema?

2.1. Análisis gráfico y descriptivo de una variable2.2. Análisis gráfico y descriptivo de dos variables2.3. Modelo de regresión lineal simple

Población y tipos de variables

•^

Población

: El universo de objetos estudiados

  • Conjunto de hogares; alumnos de un curso; automóviles fabricadoseste año... -^

Variable

: Cada rasgo o característica de los elementos de

la población. - Gasto anual en alimentación; color de ojos; consumo de combustiblepor km...^ 

Cualitativas

: El rasgo descrito no es de naturaleza

numérica

(color de ojos, sexo, nombre de la empresa.. .)

Cuantitativas

: El rasgo es numérico

(peso, temperatura,

ingresos anuales, precio)

Variables estadísticas cualitativas

•^

Pueden ser

dicotómicas

cuando sólo pueden tomar dos

valores posibles (ej: sí o no) o ser

politómicas

cuando

pueden adquirir tres o más valores.

-^

Con cierta frecuencia las variables cualitativas seexpresan con números.

Variables cualitativas nominales

: la asignación de

números a las categorías es arbitraria

(mujer = 1,

hombre = 0) 

Variables cualitativas ordinales

: indican un orden

(ej: el orden de nacimiento que ocupa el recién nacido dentro delos hijos de una familia; primer hijo=1, segundo hijo=2, tercerhijo=3)

La distribución de frecuencias

•^

Es la agrupación de datos en categorías o clasesmutuamente excluyentes que indican el número deobservaciones en cada categoría.

-^

Tenemos

N

datos, agrupados en

k

categorías:

Si la variable es cualitativa, de forma natural

-^

Ej: estado civil: soltero, casado, divorciado, viudo

Si la variable es cuantitativa, se puede agrupar enintervalos no solapados

-^

Ej: Años: -18, 18-30, 31-45,46-60, 60+

•^

Número de observaciones en cada clase o

frecuencia

absoluta

: n

, n 1

,.., n 2

k

•^

Frecuencia relativa

de la clase i-ésima:

n^ N

i

Ejemplo

•^

Muestra de 100 individuos

-^

Tenemos 4 categorías de estado civil (k=4)

Estado Civil

FrecuenciaAbsoluta

Frecuenciarelativa

Soltero

50

0,

Casado

30

0,

Divorciado

15

0,

Viudo

5

0,

Las distribuciones de frecuencias se pueden representaren un

histograma

(que serán diagramas de barras en el

caso de variables cualitativas y variables continuasdiscretas)

Descripción numérica de una variable 

Medidas de centralización^ •

Moda

  • Categoría con mayor frecuencia– Única medida para variables cualitativas– Sensible a la agregración de clases– Puede haber múltiples modas (multimodal) •^

Media aritmética o promedio

  • La más utilizada– Sensible a datos atípicos

x^ i

x

N

=

Descripción numérica de una variable 

Medidas de centralización^ •

Mediana

: “el centro de los datos”

  • El dato (o datos) que separa la muestra (ordenada de

menor a mayor) en dos grupos con igual número deelementos.

  • Depende del orden (y no tanto de la magnitud) de los

datos

  • Robusto a datos atípicos

Medidas de dispersión

-^

Coeficiente de variación:

describe la variabilidad de una

variable en relación con la media– La media no puede ser cero– Es adimensional (no posee unidades de medida)– Permite comparar distribuciones con distintas unidades

de medida

•^

Rango^ – Diferencia entre los datos máximo y mínimo– Muy sensible a datos atípicos Descripción numérica de una variable

x

x CV

σ x

Otras medidas

•^

Coeficientes de asimetría

(g

) y 3

curtosis

(g

Simetría de distribución

g^4

>

g^4

=

g^4

<

La distribución normal tiene curtosis igual a 3. Poreso a veces se le resta el valor 3 a g

(“exceso de 4

curtosis”)

Curtosis de distribución

g^3

<

g^3

=

g^3

>

Nubes de puntos o diagrama de

dispersión

Nos pueden sugerir la existencia de relaciones entrevariables

Medidas de asociación entre variables •

Covarianza

  • Mide el grado de asociación lineal entre dos variables– Si cov(x,y) > 0

asociación lineal directa

  • Si cov(x,y) < 0

asociación lineal inversa

  • Cuanto “más grande” sea su valor (en valor absoluto)

mayor el grado de asociación lineal

pero N¿qué

significa grande?

  • La covarianza depende de las unidades de medida

de x e y. También, de la dispersión de x e y 

Es necesaria una normalización

(^

cov( ,

)^

i^

i

x

x

y

y

x y

N

Ejemplo de nubes de puntos y

correlaciones

Correlación y causalidad

•^

Un coeficiente de correlación alto no permite concluir laexistencia de relación de causalidad entre las variables

-^

Existen muchas correlaciones espurias: se deben alefecto de una tercera variable^ – Ej: consumo de helados y lipotimias se hallan muy correlados

pero el consumo de helados no causa lipotimias ni viceversa. Latercera variable es la temperatura

  • Más ejemplos en:

http://tylervigen.com/spurious-correlations