Docsity
Docsity

Prepara tus exámenes
Prepara tus exámenes

Prepara tus exámenes y mejora tus resultados gracias a la gran cantidad de recursos disponibles en Docsity


Consigue puntos base para descargar
Consigue puntos base para descargar

Gana puntos ayudando a otros estudiantes o consíguelos activando un Plan Premium


Orientación Universidad
Orientación Universidad


Análisis de Bases de Datos: Codificación, Introducción de Datos y Depuración - Prof. Pitar, Apuntes de Estadística

El proceso de codificación, introducción de datos, limpieza y detección de valores atípicos en bases de datos utilizando el software spss. Se abordan conceptos como valores faltantes, distribución de frecuencias y procedimientos de detección de valores atípicos.

Tipo: Apuntes

2016/2017

Subido el 10/01/2017

atorrijosded
atorrijosded 🇪🇸

2

(1)

6 documentos

1 / 24

Toggle sidebar

Esta página no es visible en la vista previa

¡No te pierdas las partes importantes!

bg1
TEMA 2. Organización de datos.
1. Introducción.
2. Bases de datos.
2.1. Codificación, introducción de datos, depuración, etc
2.2. Valores atípicos.
2.3. Valores faltantes.
3. Distribución de frecuencias.
4. Gráficas.
4.1. Variables cualitativas.
4.2. Variables cuantitativas.
1
pf3
pf4
pf5
pf8
pf9
pfa
pfd
pfe
pff
pf12
pf13
pf14
pf15
pf16
pf17
pf18

Vista previa parcial del texto

¡Descarga Análisis de Bases de Datos: Codificación, Introducción de Datos y Depuración - Prof. Pitar y más Apuntes en PDF de Estadística solo en Docsity!

TEMA 2. Organización de datos.

1. Introducción.

2. Bases de datos.

2.1. Codificación, introducción de datos, depuración, etc

2.2. Valores atípicos.

2.3. Valores faltantes.

3. Distribución de frecuencias.

4. Gráficas.

4.1. Variables cualitativas.

4.2. Variables cuantitativas.

Bases de datos

1) Codificar los datos (crear libro de códigos)

2) Introducir los datos en el SPSS:

- Vista de variables

- Vista de datos (escribir aquí los datos utilizando

tantas filas como sujetos, tantas columnas como

variables)

3) Limpieza de datos:

- Detección de valores erróneos y atípicos,

- Datos faltantes

Procedimientos de detección de valores atípicos :

1. Ver los valores máximos y mínimos (y analizar si se salen del rango

media más/menos 2 desviaciones típicas).

SPSS: Analizar > Estadísticos descriptivos > Descriptivos > opciones

2. Distribución de frecuencias.

SPSS: Analizar > Estadísticos descriptivos > Frecuencias

3. Gráficos de caja.

SPSS: Analizar > Estadísticos descriptivos > Explorar > Gráficos

4. Comparar los estadísticos robustos (M estimadores; p.e. Huber) con

los no robustos (medias).

SPSS: Analizar > Estadísticos descriptivos > Explorar > Estadísticos

Valores faltantes (missing)

Los valores faltantes se pueden introducir en el SPSS sin poner nada en la celdilla (queda visible un punto) o bien reservando un número especial para referirse a ellos (p.e. el 999 y definirlo en “perdidos” y "valores” en la vista de variables) Pueden haber varias causas (registro defectuoso, falta de respuesta total o parcial,…). Si una variable tiene muchos valores faltantes (p.e. >25%) quizás es mejor eliminarla. Soluciones: a) Supresión de datos (las más usual): Sólo analizar los sujetos que tengan los datos completos en las variables necesarias para un análisis. Si falta un valor en una variable que no está siendo utilizada en un cálculo, el sujeto sí que es tenido en cuenta en el análisis. P.e: Sí que utilizaríamos los datos de un sujeto del que no sabemos la edad si lo que queremos analizar es la relación entre “sueldo” y “satisfacción laboral”. b) Imputación de datos: Proceso de estimación de los valores ausentes basado en valores válidos de otras variables o casos de la muestra. Por ejemplo: i. Sustitución por la media. ii. Sustitución por la mediana. P.e: En un test hay 5 ítems que miden autoestima. Para obtener la puntuación total tenemos que sumar los puntos de las respuestas que un sujeto ha dado a los 5 ítems. Si no ha contestado uno de ellos debemos imputar el valor ausente para que la puntuación no se quede en la suma de 4 ítems puesto que no se podría comparar con las puntuaciones totales correspondientes a la suma de 5 ítems.

IMPUTAR no quiere decir INVENTAR datos

 Frecuencia relativa o proporción (p

i

): Fracción de elementos de una muestra que

tienen un determinado valor de una variable.

Se calcula dividiendo el número de veces que se repite un valor de una variable por

el número total de elementos n de la muestra. La suma de todas las frecuencias

relativas ha de ser igual a 1.

 Frecuencia relativa acumulada o proporción acumulada (pa

i

): Suma de las

frecuencias relativas o proporciones de una variable hasta la última categoría. Nos

indica la proporción de elementos muestrales con valores inferiores o iguales a una

categoría determinada.

 Porcentaje (Pi) y Porcentaje acumulado (Pai): Lo mismo que la proporción y la

proporción acumulada pero multiplicado por 100.

o Frecuencia absoluta (n

i

) : Número de elementos de una muestra que tienen un

determinado valor de una variable. La suma de todas las frecuencias absolutas ha de

ser igual al n de la muestra.

o Frecuencia absoluta acumulada (na

i

): Suma de las frecuencias absolutas de una

variable hasta la última categoría. Nos indica la cantidad de elementos muestrales

con valores inferiores o iguales a una categoría determinada.

n

i

p

i

P

i

1 Mujer 76 0.55 55

2 Hombre 61 0.45 45

Distribución de frecuencias para variables cualitativas:

No tiene sentido acumular observaciones porque al no presentar la

relación de orden, la disposición de las categorías es arbitraria.

Ejemplo: Género

¿Como se interpreta? El 55 % de la muestra es mujer

SPSS

Ejemplo:

Estudios de

la madre

n

i

na

i

p

i

pa

i

P

i

Pa

i 6 Licenciatura o similar 25 137 0.182 1.000 18.2 100. 5 Diplomatura o similar 11 112 0.080 0.818 8.0 81. 4 Bachillerato superior 22 101 0.161 0.738 16.1 73. 3 Bachillerato elemental 23 79 0.168 0.577 16.8 57. 2 Estudios primarios 47 56 0.343 0.409 34.3 40. 1 Sin estudios 9 9 0.066 0.066 6.6 6.

SPSS

Distribución de frecuencias para variables cuantitativas:

Se pueden acumular datos.

Ejemplo: Edad (en años) de una muestra de adolescentes

n

i

na

i

p

i

pa

i

P

i

Pa

i 17 6 54 0.111 0.999 11.1 99. 16 8 48 0.148 0.888 14.8 88. 15 16 40 0.296 0.740 29.6 74. 14 12 24 0.222 0.444 22.2 44. 13 10 12 0.185 0.222 18.5 22. 12 2 2 0.037 0.037 3.7 3. 54 0.999 99.

Como se interpreta P 13? El 18.5% de los adolescentes tienen 13 años.

Como se interpreta na 16? 48 adolescentes tienen 16 o menos de 16 años.^11

Tablas con intervalos

agrupados

 Cuando una variable

presenta muchas

categorías, se pueden

agrupar en modalidades

llamadas intervalos no

unitarios o de amplitud

superior a la unidad.

 Ejemplo: Edad

Edad n

i

P

i

Pa

i

42 o + 1 0.7 100.

Gráficos (Botella et al. , 2012, ejercicios (pps. 63-65): 1, 2, 5, 6, 7, 8 y 9)

SPSS: Analizar > Estadísticos descriptivos > Frecuencias > Gráficos >

Gráficos circulares + porcentajes

Gráficos de pastel o de sectores:

Representación gráfica de los datos mediante un círculo dividido en sectores

proporcionales a las frecuencias. Para calcular el área de cada sector se ha de

multiplicar la frecuencia relativa por 360º.

Especialmente utilizado con variables cualitativas aunque puede utilizarse

con cualquier tipo de variable.

Mujer Hombre

Histogramas:

Representación gráfica para variables cuantitativas continuas.

Esta representación se puede hacer también con los datos acumulados.

A diferencia del diagrama de barras, los rectángulos están juntos para

indicar continuidad.

SPSS: Analizar > Estadísticos descriptivos > Frecuencias > Gráficos >

Histogramas + porcentajes

Polígono de frecuencias

Se utiliza con variables cuantitativas, tanto discretas como continuas.

Especialmente útil para ver la forma de la distribución.

Se dibuja uniendo por medio de una línea el punto central de cada rectángulo del

diagrama de barras o histograma, eliminando posteriormente los rectángulos.

Polígono de Frecuencias

¿Cómo se construye o dibuja?

1) Separamos cada OBSERVACIÓN (dato) en TALLO

(primera parte del dato) y la HOJA (segunda parte del dato).

Por ejemplo el 5.3 5 (tallo) y 3 (hoja)

2) Se listan verticalmente en orden creciente todos los tallos y

se coloca una raya vertical a su derecha.

3) Se colocan las hojas horizontalmente, con lo que tenemos

como un diagrama de barras, pero que conserva todas las

puntuaciones originales, y sabemos, por ejemplo, que el

dato 6.7 se repite en 4 ocasiones.

Una posible manera de representar los datos:

Otra posible manera de representar los mismos datos: