¡Descarga Codificar los datos (crear libro de códigos) y más Apuntes en PDF de Estadística solo en Docsity!
TEMA 2. Organización de datos.
1. Bases de datos.
1.1. Codificación e introducción de datos
1.2. Valores atípicos.
1.3. Valores faltantes.
2. Distribución de frecuencias.
3. Gráficos.
1.1 Bases de datos
1) Codificar los datos (crear libro de códigos)
2) Introducir los datos en el SPSS:
- Vista de variables (nombre, medida: nonimal,
ordinal o escala; y valores para variables cualitativas)
- Vista de datos (escribir aquí los datos utilizando
tantas filas como sujetos, tantas columnas como
variables)
3) Limpieza de datos:
- Detección de valores erróneos y atípicos,
- Datos faltantes
Procedimientos de detección de valores atípicos :
1. Variables cuantitativas (y también semicuantitativas) :
SPSS: Analizar > Estadísticos descriptivos > Explorar > Estadísticos >
Valores atípicos
Analizar los valores máximos y mínimos (en descriptivos), y los valores
extremos (representados también en el gráfico de caja).
2. Variables cualitativas y semicuantitativas (y también cuantitativas):
SPSS: Analizar > Estadísticos descriptivos > Frecuencias
Analizar si todos los datos válidos entran en los niveles o categorías definidos
de la variable.
1.3. Valores faltantes (missing)
Los valores faltantes se pueden introducir en el SPSS sin poner nada en la celdilla (queda visible un punto) o bien reservando un número especial para referirse a ellos (p.e. el 99 y definirlo en “perdidos” en la vista de variables del SPSS) Pueden haber varias causas (registro defectuoso, falta de respuesta total o parcial,…). Si una variable tiene muchos valores faltantes (p.e. >25%) quizás es mejor eliminarla. Soluciones: a) Supresión de datos (las más usual). El SPSS la utiliza por defecto. b) Imputación de datos: Proceso de estimación de los valores ausentes basado en los valores válidos de la muestra. Por ejemplo: i. Sustitución por la media. ii. Sustitución por la mediana.
IMPUTAR no quiere decir INVENTAR datos
o Frecuencia relativa o proporción (p
i
): Fracción de elementos de una muestra que
tienen un determinado valor de una variable.
Se calcula dividiendo el número de veces que se repite un valor de una variable por
el número total de elementos n de la muestra. La suma de todas las frecuencias
relativas ha de ser igual a 1.
o Frecuencia relativa acumulada o proporción acumulada (pa
i
): Suma de las
frecuencias relativas o proporciones de una variable hasta la última categoría. Nos
indica la proporción de elementos muestrales con valores inferiores o iguales a una
categoría determinada.
o Porcentaje (Pi) y Porcentaje acumulado (Pai): Lo mismo que la proporción y la
proporción acumulada pero multiplicado por 100.
o Frecuencia absoluta (n
i
) : Número de elementos de una muestra que tienen un
determinado valor de una variable. La suma de todas las frecuencias absolutas ha de
ser igual al n de la muestra.
o Frecuencia absoluta acumulada (na
i
): Suma de las frecuencias absolutas de una
variable hasta la última categoría. Nos indica la cantidad de elementos muestrales con
valores inferiores o iguales a una categoría determinada.
n
i
p
i
P
i
1 Mujer 76 0.55 55
2 Hombre 61 0.45 45
Distribución de frecuencias para variables cualitativas:
No tiene sentido acumular observaciones porque al no presentar la
relación de orden, la disposición de las categorías es arbitraria.
Ejemplo: Género
¿Como se interpreta? El 55 % de la muestra es mujer
SPSS
Ejemplo:
Estudios de
la madre
n
i
na
i
p
i
pa
i
P
i
Pa
i 6 Licenciatura o similar 25 137 0.182 1.000 18.2 100. 5 Diplomatura o similar 11 112 0.080 0.818 8.0 81. 4 Bachillerato superior 22 101 0.161 0.738 16.1 73. 3 Bachillerato elemental 23 79 0.168 0.577 16.8 57. 2 Estudios primarios 47 56 0.343 0.409 34.3 40. 1 Sin estudios 9 9 0.066 0.066 6.6 6.
SPSS
Distribución de frecuencias para variables cuantitativas (poco
utilizadas):
Se pueden acumular datos.
Ejemplo: Edad (en años) de una muestra de adolescentes
n
i
na
i
p
i
pa
i
P
i
Pa
i 17 6 54 0.111 0.999 11.1 99. 16 8 48 0.148 0.888 14.8 88. 15 16 40 0.296 0.740 29.6 74. 14 12 24 0.222 0.444 22.2 44. 13 10 12 0.185 0.222 18.5 22. 12 2 2 0.037 0.037 3.7 3. 54 0.999 99.
Como se interpreta P 13? El 18.5% de los adolescentes tienen 13 años.
Como se interpreta na 16? 48 adolescentes tienen 16 o menos de 16 años. 11
Tablas con intervalos
agrupados
n Cuando una variable
presenta muchas
categorías, se pueden
agrupar en modalidades
llamadas intervalos no
unitarios
n Ejemplo: Edad
Edad
n
i
P
i
Pa
i
42 o + 1 0.7 100.
3. Gráficos 55%
Mujer Hombre
Gráficos de pastel o de sectores:
SPSS: Analizar > Estadísticos descriptivos > Frecuencias > Gráficos > Gráficos circulares + porcentajes
Representación gráfica de los datos mediante un círculo dividido en sectores
proporcionales a las frecuencias. Para calcular el área de cada sector se ha de
multiplicar la frecuencia relativa por 360º.
Especialmente utilizado con variables cualitativas ( aunque puede utilizarse
con cualquier tipo de variable).
Histogramas:
Representación gráfica para variables cuantitativas continuas.
A diferencia del diagrama de barras, los rectángulos están juntos para
indicar continuidad.
SPSS: Analizar > Estadísticos descriptivos > Frecuencias > Gráficos >
Histogramas + porcentajes
Polígono de frecuencias
Se utiliza con variables cuantitativas, tanto discretas como continuas.
Especialmente útil para ver la forma de la distribución.
Se dibuja uniendo por medio de una línea el punto central de cada rectángulo del
diagrama de barras o del histograma (y eliminando posteriormente los rectángulos).
Polígono de Frecuencias
¿Cómo se construye o dibuja?
1) Separamos cada OBSERVACIÓN (dato) en TALLO
(primera parte del dato) y la HOJA (segunda parte del dato).
Por ejemplo el 5.3 5 (tallo) y 3 (hoja)
2) Se listan verticalmente en orden creciente todos los tallos y
se coloca una raya vertical a su derecha.
3) Se colocan las hojas horizontalmente, con lo que tenemos
como un diagrama de barras, pero que conserva todas las
puntuaciones originales, y sabemos, por ejemplo, que el dato
6.7 se repite en 4 ocasiones.
Una posible manera de representar los datos:
Otra posible manera de representar los mismos datos
(donde * indica decimal ≥.