Docsity
Docsity

Prepara tus exámenes
Prepara tus exámenes

Prepara tus exámenes y mejora tus resultados gracias a la gran cantidad de recursos disponibles en Docsity


Consigue puntos base para descargar
Consigue puntos base para descargar

Gana puntos ayudando a otros estudiantes o consíguelos activando un Plan Premium


Orientación Universidad
Orientación Universidad


analisis de datos, Apuntes de Psicología

Asignatura: El hecho religioso, Profesor: Gaspar Gaspar, Carrera: Psicología, Universidad: UPSA

Tipo: Apuntes

2014/2015

Subido el 31/01/2015

sandramg23
sandramg23 🇪🇸

4.3

(37)

11 documentos

1 / 88

Toggle sidebar

Esta página no es visible en la vista previa

¡No te pierdas las partes importantes!

bg1
Tema 1 de Análisis de datos resumen
Conceptos básicos y organización de datos
UNED
Curso 2012
Mariluz Lozano Gago
pf3
pf4
pf5
pf8
pf9
pfa
pfd
pfe
pff
pf12
pf13
pf14
pf15
pf16
pf17
pf18
pf19
pf1a
pf1b
pf1c
pf1d
pf1e
pf1f
pf20
pf21
pf22
pf23
pf24
pf25
pf26
pf27
pf28
pf29
pf2a
pf2b
pf2c
pf2d
pf2e
pf2f
pf30
pf31
pf32
pf33
pf34
pf35
pf36
pf37
pf38
pf39
pf3a
pf3b
pf3c
pf3d
pf3e
pf3f
pf40
pf41
pf42
pf43
pf44
pf45
pf46
pf47
pf48
pf49
pf4a
pf4b
pf4c
pf4d
pf4e
pf4f
pf50
pf51
pf52
pf53
pf54
pf55
pf56
pf57
pf58

Vista previa parcial del texto

¡Descarga analisis de datos y más Apuntes en PDF de Psicología solo en Docsity!

Tema 1 de Análisis de datos resumen

Conceptos básicos y organización de datos

UNED

Curso 2012

Mariluz Lozano Gago

1.1.Introducción La estadística se aplica en todas las áreas del saber, y puede ser teórica o aplicada (a la realidad, se entiende), siendo llamada esta última: "análisis de datos". 1.2. La investigación en Psicología. Con la aparición de la ciencia moderna en el siglo XVII, el método científico pasó a ser la fuente de estudio más utilizada, aunque no la única. El método científico consiste en dar razón sistemática, empírica y en lo posible experimental, de los fenómenos (Yela, 1994). El método científico se caracteriza por ser sistemático (=en fases) y replicable (= debe arrojar datos susceptibles de réplica o refutación por cualquier investigador interesado). Las fases interdependientes del método científico son:

  1. Definición del problema.
  2. Deducción de hipótesis contrastables.
  3. Establecimiento de un procedimiento de recogida de datos.
  4. Análisis de los resultados obtenidos. * (objeto de esta asignatura)
  5. Discusión de dichos resultados y búsqueda de conclusiones.
  6. Informe. 1.3. Concepto y funciones de la estadística: descriptiva e inferencial. La Estadística en general se ocupa de la sistematización, recogida, ordenación y presentación de los datos referentes a un fenómeno que presenta variabilidad o incertidumbre para su estudio metódico, con objeto de hacer previsiones sobre los mismos, tomar decisiones u obtener conclusiones. La Estadística descriptiva = mediante la estadística descriptiva se organizan y resumen conjuntos de observaciones procedentes de una muestra o de la población total, en forma cuantitativa. La Estadística inferencial = se realizan inferencias acerca de una población basándose en los datos obtenidos a partir de una muestra. Para realizar estas generalizaciones de la muestra a la población se utiliza el cálculo de probabilidades.
    • Conceptos estadísticos básicos: Población : Conjunto de todos los elementos que cumplen una determinada característica objeto de estudio. Muestra: Un subconjunto cualquiera de una población Parámetro: Es una medida (= propiedad descriptiva) de una población Estadístico: Es una medida (= propiedad descriptiva) de una muestra (vg, el porcentaje de la muestra que responde que sí votará en unas elecciones)

Aparte de esta clasificación existen más clasificaciones:

  • Variable independiente: Cualquier suceso que sospechamos es la causa de otro, es la manipulada o controlada a su vez por el investigador
  • Variable dependiente: Medida utilizada para estudiar la variable independiente = es también llamada variable consecuente, y está subordinada a la independiente.
  • Variable extraña: Aquellas que pueden influir sobre la variable dependiente pero no nos interesa estudiar sus efectos. Para referirnos a un valor cualquiera de la variable X se utiliza el subíndice i (Xi ), siendo n el número de elementos que componen la muestra: 1.6. Distribución de frecuencias. Una distribución de frecuencias es una representación de la relación entre un conjunto de medidas exhaustivas y mutuamente influyentes y la frecuencia de cada una de ellas. Funciones:
  • Ofrecer la información necesaria para realizar representaciones gráficas
  • Facilitar los datos para obtener los estadísticos muestrales

Conceptos Frecuencia absoluta (ni): Número de veces que se repite cada uno de los valores de una variable. La suma de todas las frecuencias absolutas representa el total de la muestra (n) Proporción o frecuencia relativa (pi): Cociente entre la frecuencia absoluta de cada valor de la variable (ni) y el número total de observaciones (n). pi = ni /n Porcentaje (Pi): Valor de la frecuencia relativa (pi) multiplicado por cien: Pi = pi x 100 Frecuencia absoluta acumulada (na): Número de veces que se repita cada modalidad o cualquiera de las modalidades inferiores. Proporción acumulada o frecuencia relativa acumulada (pa): Cociente entre la frecuencia absoluta acumulada de cada clase y el total de observaciones. pa = na / n Porcentaje acumulado (Pa): Valor de la frecuencia relativa acumulada multiplicado por cien. Pa= pax 100 Más conceptos Si la variable cuantitativa es reducida (número de hijos) no hay problema, la utilizamos tal cual. Pero si ocurre que puede ser muy amplia (edad) debemos recurrir a la agrupación en intervalos. La amplitud de los intervalos representa al número de unidades que tenemos dentro de cada intervalo. No es lo mismo tener una amplitud de intervalos de 10 en 10 (11-20) (21-30) (31-40) que de 5 en 5 (15-19) (20-24) (25-29). Obviamente al establecer intervalos siempre se pierde información. Por lo tanto hay que buscar equilibrio entre la precisión que buscamos y lo cómodo que sea trabajar con esos datos (si no estableciésemos intervalos podríamos encontrarnos con tablas de 100 filas) Aunque tengamos un intervalo de edad (25-35) (36-45) no significa que no pueda haber personas con 35,5 años. Por lo tanto los intervalos (25-35) y (36-45) reciben el nombre de limites informados o aparentes. (aparentan ser lo que no son) ya que en realidad los límites verdaderos son (25,5-35,5) y (35,5-45,5). El límite superior exacto del primer intervalo (35,5) coincide con el límite inferior exacto del siguiente (35,5) Cálculo de límites exactos Límite exacto = Valor informado (el que nos han dado) +- 0,5 x I I = Instrumento de medida. (en el caso de las edades I = 1) Punto Medio: Es la semisuma del límite superior e inferior del intervalo. Se calcula a través de los límites informados o de los límites exactos. *Nota: Con un poco de sentido común el punto medio se haya sumando los dos valores del intervalo y dividiendo el resultado entre 2 Tomemos el intervalo (26-35) = 26 + 35 = 61/2 = 35,5. Ya sabemos lo que es la semisuma

c) Pictograma Se utiliza para variables cualitativas

  • Son dibujos alusivos al objeto de estudio. Son escalas que deben ser proporcionales al valor que representan. d) Histograma (parecido al diagrama de barras pero no hay espacio entre los rectángulos) Se utiliza para variables cuantitativas continuas con datos agrupados en intervalos
  • En el eje X se colocan los límites exactos de los intervalos y en el eje Y la frecuencia. e) Polígono de frecuencias Se utiliza para variables discretas
  • La forma que obtenemos es una línea poligonal cuya figura se obtiene a partir de una diagrama de barras o de un histograma.
  • También se puede utilizar en frecuencias acumuladas

Representación gráfica de dos variables a) Diagrama de barras conjunto Se utiliza cuando al menos una de las dos variables es cualitativa

  • Los datos se organizan en una tabla de doble entrada. Se sitúan los valores de una variable en las filas y los valores de la otra variable en las columnas.
  • Una vez construida la tabla, se procede a dibujar los gráficos por columnas b) Diagrama de dispersión o nube de puntos Se utiliza en el caso de dos variables cuantitativas
  • Una variable se sitúa en el eje X y la otra en el eje Y. Para cada par de datos se localiza la intersección entre ambas variables y se marca con un punto.
  • Es una manera rápida de hallar relaciones lineales entre las dos variables.

Asimetría positiva: Cuando la mayor concentración de puntuaciones se produce en la parte baja de la escala. Asimetría negativa: Cuando la mayor parte de puntuaciones se sitúa en la parte alta de la escala.

Tema 2 de Análisis de datos resumen

Conceptos básicos y organización de datos

UNED

Curso 2012

Mariluz Lozano Gago

Propiedades de la media aritmética

  1. En una distribución, la suma de las desviaciones de cada valor con respecto a su media es igual a cero. _ Σ (Xi-X) = 0 Ejemplo Obtener las desviaciones con respecto a la media en la siguiente distribución y comprobar que su suma es cero. li -1 - li ni 0 - 10 1 10 - 20 2 20 - 30 4 30 - 40 3 Solución: li -1 - li ni xi xi ni 0 - 10 1 5 5 -19 - 10 - 20 2 15 30 -9 - 20 - 30 4 25 100 +1 + 30 - 40 3 35 105 +11 + n = La media aritmética es: Como se puede comprobar sumando los elementos de la última columna,  Para intervalos abiertos (ó más / ó menos) no es posible calcular la Media (no se puede obtener el punto medio).  La media es un índice apropiado para una distribución simétrica.  Si cada una de las puntuaciones de una distribución (X) se multiplica por una constante (b) y se le suma otra constante (a) , la media de las nuevas puntuaciones (Y) es igual a la media de las puntuaciones originales (X) multiplicada por la constante b más la constante a :

Esto quiere decir que si cada uno de los valores antiguos (X) lo multiplicamos por un número cualquiera y le sumamos otro número, obtenemos nuevos valores (Y) pero con la misma proporción anterior. Es decir, si tenemos dos valores: X=4 y X=8 y los multiplicamos por 10, tendremos Y=40 y Y=80, pero la proporción se sigue manteniendo, el segundo valor sigue siendo el doble que el primero. LA MEDIANA

  • La utilizaremos cuando la distribución sea muy asimétrica.
  • Los valores extremos no le afectan (a diferencia de la media aritmética) ya que para su cálculo sólo se toman los valores que ocupan posiciones centrales.
  • Se puede calcular para todo tipo de variables, excepto cualitativas. La Mediana de una variable X, representada por Md , se define como el valor de la variable que divide la distribución de frecuencias en dos partes iguales, conteniendo cada una el 50% de las observaciones. Cálculo de mediana con pocos casos 1º - Se ordenan las puntuaciones n de mayor a menor 2º - Se Observa si el número de observaciones n es par o impar
  • Si es impar, la mediana es el valor de la posición central
  • Si es par, la mediana es la media aritmética de los dos valores centrales. Al ser muchos casos, los datos vienen presentados en intervalos. El intervalo en el que se encuentra la mediana se llama Intervalo crítico y se corresponde con aquel en el que la frecuencia absoluta acumulada na es igual o superior a n/2. Li = Límite exacto inferior del intervalo crítico n = Número de observaciones nd = Frecuencia absoluta acumulada por debajo del intervalo crítico nc = Frecuencia absoluta del intervalo crítico I = Amplitud del intervalo crítico
  • Si los datos están agrupados en intervalos, la moda se puede calcular excepto si el intervalo modal coincide con el intervalo abierto. VARIABLES NOMINALES (Categoría o modalidad más frecuente) Mo VARIABLES ORDINALES (Grado o magnitud de la característica más frecuente) Es preciso ordenar previamente los valores para facilitar la lectura de las frecuencias. (^) Mo VARIABLES CUANTITATIVAS (DE INTERVALO O RAZÓN)
  • Punto medio del intervalo con mayor frecuencia.
  • Cuando se trata de intervalos abiertos (intervalo superior o inferior sin límite (o más / o menos) la Moda no puede caer en uno de ellos. M0 = 10 Punto Medio Si la variable es cualitativa , la moda es la categoría con la máxima frecuencia.
  • Si la variable es cuantitativa , la moda es el valor con la máxima frecuencia absoluta.
  • Si la variables es cuantitativa con datos en intervalos , se localiza el intervalo modal (intervalo con la frecuencia máxima) y la moda es el punto medio de dicho intervalo. Podemos tener distinto número de modas en la distribución (1= unimodal) (2=bimodal) (3=trimodal); etc. Distribución amodal = cuando no hay moda ya que todos los valores tienen la misma frecuencia absoluta. La elección de una medida de tendencia central
  • En primer lugar probaremos con la media aritmética (menos en los casos en que la distribución sea muy asimétrica, o el nivel de medida sea nominal u ordinal, o existan datos agrupados en intervalos con intervalos abiertos.
  • Si vemos que por alguna de estas razones la media aritmética no funciona probaremos con la mediana. Sin embargo la mediana no podremos utilizarla cuando el nivel de la variable sea nominal o la mediana se encuentre en el intervalo abierto. Xi n! Solteras 25 Casadas 50 Divorciadas Viudas 15 10 100 Xi n! Pésimo Regular Bueno 5 15 25 Muy bueno 45 Excelente 10 100 Xi ni 3 - 5 6 - 8 6 9 9 - 11 18 12 - 14 15 - 17 12 7
  • Entonces, descartando las dos medidas anteriores, probaremos con la moda. Aunque no podremos calcularla si la distribución es amodal o el intervalo abierto coincide con el intervalo modal. Hoy en día se recomienda calcular las 3 (siempre que se pueda).
  • Variables cualitativas: Solo podremos calcular la moda
  • Variables ordinales: moda y mediana
  • Variables cuantitativas: Podemos calcular las 3. Tendencia central Tipo de variable Moda Cualitativo (nominal) (sexo, estado civil) Mediana Ordinal (cuasi-cuantitativa) Media Intervalo o razón Cuantitativa continua 2. MEDIDAS DE POSICIÓN La medida de tendencia central buscaba un indicador para representar a un conjunto de datos. En cambio, las medidas de posición buscan un indicador para representar a un sujeto o a un dato en particular. Medidas de tendencia central: Nota media de un examen en una clase de 30 niños Medidas de posición: ¿Qué nota debe sacar un alumno para superar al 50% de compañeros? Las medidas o índices de posición (también llamados cuantiles), informan acerca de la posición relativa de un sujeto con respecto a su grupo de referencia Percentiles También llamados “centiles”, son los 99 valores de la variable que dividen en 100 partes iguales la distribución de frecuencias. Percentil k (Pk ): Es un valor de la variable de interés que deja por debajo de sí un porcentaje k de sujetos, donde k = 1,2… Ejemplo P40 = 25 (25 es la puntuación en un examen) Quiere decir que los sujetos con X= 25 están por encima del 40% de los sujetos. En los percentiles, la mediana coincide con el percentil 50 (es justo la mitad). Por esta razón el percentil lo calcularemos a partir de las fórmulas para la mediana. Cálculo de los percentiles Utilizaremos la misma fórmula que la mediana pero sustituyendo nk/100 en lugar de n/