Docsity
Docsity

Prepara tus exámenes
Prepara tus exámenes

Prepara tus exámenes y mejora tus resultados gracias a la gran cantidad de recursos disponibles en Docsity


Consigue puntos base para descargar
Consigue puntos base para descargar

Gana puntos ayudando a otros estudiantes o consíguelos activando un Plan Premium


Orientación Universidad
Orientación Universidad


Análisis de Datos: Valores Atípicos, Caracterización de Grupos, Asociación y Correlación. , Apuntes de Estadística

Temas clave en el análisis descriptivo de datos, incluyendo procedimientos de detección de valores atípicos, caracterización de grupos, asociación y correlación. Aprende sobre métodos de encuestas, observacionales y cualitativos, procedimientos de detección de valores extremos y atípicos, medidas de tendencia central, curtosis, asociación y correlación lineal y cuadrática, y más. Este texto es una guía útil para estudiantes de estadística y análisis de datos.

Tipo: Apuntes

2016/2017

Subido el 10/01/2017

martoleta
martoleta 🇪🇸

1 documento

1 / 14

Toggle sidebar

Esta página no es visible en la vista previa

¡No te pierdas las partes importantes!

bg1
TEMA 1: El proceso de
investigación científica
Método científico:
1- Plantea una pregunta
2- Plantea una hipótesis
3- Comprueba esa hipótesis empíricamente
4- Saca conclusiones con las pruebas y refuta o avala una teoría
En Psicología la Estadística es importante no sólo para analizar investigaciones si no
también en la práctica profesional de los psicológos (educativos, recursos humanos, ...)
y para entender los artículos científicos (apartado de resultados) que todo profesional
debe de leer para tener un conocimiento actualizado en su especialidad profesional
a) Estadística descriptiva. Objetivo de resumir información.
b) Estadística inferencial. Obtener resultados generalizables a una población a
partir del resultado de una muestra.
Población o universo: Conjunto de individuos o elementos que son objeto de estudio, N.
Las variables se llaman parámetros.
Muestra. Subcojnunto de una población, n. Las variables las llamamos estadísticos.
Muestreo: Extracción de la muestra. Ha de ser representativa, no sesgada.
Muestreo probabilístico: aleatoria pura.
Aleatorio simple
Sistemático
Estratificado
Por conglomerados
Polietápico
Muestreo no probabilístico: No todos tienen la misma probabilidad de salir.
Sesgo: error sistemático en el muestreo.
Las VD pueden ser:
Cuantitativas: Los cambios en la variable son proporcionales a los cambios en el atributo
medido. Pueden ser:
Discretas: Sólo admiten un cierto número de modalidades.
Continuas: Pueden tener infinitas modalidades.
Semicuantitativas: Los sujetos son ordenados según el grado de posesión del atributo
medido, pero no hay proporcionalidad entre la variable y el atributo.
Cualitativas: Sólo indican cualidad. Se tiene o no se tiene.
Diseños de investigación psicológica:
pf3
pf4
pf5
pf8
pf9
pfa
pfd
pfe

Vista previa parcial del texto

¡Descarga Análisis de Datos: Valores Atípicos, Caracterización de Grupos, Asociación y Correlación. y más Apuntes en PDF de Estadística solo en Docsity!

TEMA 1: El proceso de

investigación científica

Método científico: 1 - Plantea una pregunta 2 - Plantea una hipótesis 3 - Comprueba esa hipótesis empíricamente 4 - Saca conclusiones con las pruebas y refuta o avala una teoría En Psicología la Estadística es importante no sólo para analizar investigaciones si no también en la práctica profesional de los psicológos (educativos, recursos humanos, ...) y para entender los artículos científicos (apartado de resultados) que todo profesional debe de leer para tener un conocimiento actualizado en su especialidad profesional a) Estadística descriptiva. Objetivo de resumir información. b) Estadística inferencial. Obtener resultados generalizables a una población a partir del resultado de una muestra. Población o universo : Conjunto de individuos o elementos que son objeto de estudio, N. Las variables se llaman parámetros. Muestra. Subcojnunto de una población, n. Las variables las llamamos estadísticos. Muestreo : Extracción de la muestra. Ha de ser representativa, no sesgada.  Muestreo probabilístico: aleatoria pura.  Aleatorio simple  Sistemático  Estratificado  Por conglomerados  Polietápico  Muestreo no probabilístico: No todos tienen la misma probabilidad de salir. Sesgo : error sistemático en el muestreo. Las VD pueden ser : Cuantitativas : Los cambios en la variable son proporcionales a los cambios en el atributo medido. Pueden ser: Discretas : Sólo admiten un cierto número de modalidades. Continuas : Pueden tener infinitas modalidades. Semicuantitativas : Los sujetos son ordenados según el grado de posesión del atributo medido, pero no hay proporcionalidad entre la variable y el atributo. Cualitativas : Sólo indican cualidad. Se tiene o no se tiene. Diseños de investigación psicológica:

 Experimental  Aleatorización: Metodología experimental.  Grupos naturales: Metodología cuasiexperimental.  Correlacional  Metodología de encuestas  Metodología observacional  Metodología cualitativa

TEMA 2: Organización de datos

Procedimientos de detección de valores atípicos:

  1. Ver los valores máximos y mínimos (y analizar si se salen del rango media más/menos 2 desviaciones típicas). SPSS: Analizar > Estadísticos descriptivos > Descriptivos > opciones
  2. Distribución de frecuencias. SPSS: Analizar > Estadísticos descriptivos > Frecuencias
  3. Gráficos de caja. SPSS: Analizar > Estadísticos descriptivos > Explorar > Gráficos
  4. Comparar los estadísticos robustos (M estimadores; p.e. Huber) con los no robustos (medias). SPSS: Analizar > Estadísticos descriptivos > Explorar > Estadísticos Distribuciones de frecuencias: SPSS: Analizar > Estadísticos descriptivos > Frecuencias Son tablas resumen de los n datos recogidos  Frecuencia absoluta (ni) (personas)  Frecuencia absoluta acumulada (nai) (esas personas tienen eso o menos)  Frecuencia relativa o proporción (pi)  Frecuencia relativa acumulada o Proporción acumulada (pai)  Porcentaje (Pi) (tanto porciento tiene solo eso)  Porcentaje acumulado (Pai) (tanto por ciento tiene eso o menos) Cuando una variable presenta muchas categorías, se pueden agrupar en modalidades llamadas intervalos no unitarios o de amplitud superior a la unidad. (edad) GRÁFICOS  Pastel. Sectores proporcionales a las frecuencias. Para calcular el área de cada sector se ha de multiplicar la frecuencia relativa por 360º. Sobre todo cualitativas.  Barras. Horizontal se representan los niveles o categorías de la variable, vertical se representa la frecuencia absoluta o relativa (proporción) o el

constante a cada uno de los valores, la nueva media aritmética resultante será la original más la constante. Lo mismo si multiplicamos y si hacemos una transformación lineal (multiplicar por x y sumar y) Otras medias:  Media recortada, calculando la media ar. sobre un subconjunto central de datos no considerando los extremos.  Media ponderada o media total de varios grupos n X ni Xi T^ ^   VARIABILIDAD Grado de variación o dispersión de unos datos, es decir, la similitud u homogeneidad que presentan. Mayor dispersión = Mayores diferencias entre los datosEs independiente de la tendencia central. Amplitud total, rango o recorrido. EL mas alto menos el mas bajo Varianza, promedio de las diferencias cuadráticas respecto a la media Desviación típica estándar, la raíz cuadrada de la varianza. El subíndice n o n-1 es el que indica si hablamos de la varianza o cuasivarianza muestral. Cuando las muestras son grandes (n>35) la varianza y cuasivarianza muestrales apenas difieren. Se suele utilizar más la cuasi-varianza y cuasi-desviación típica por ser estimadores insesgados de la varianza y desviación típica poblacional. El SPSS calcula la cuasi-varianza y cuasi-desviación típica pero les llama varianza y desviación típica. Con una Transformación lineal consistente en multiplicar una constante: las distancias entre los datos también se multiplican por la misma constante, por lo que la DT se ve afectada por la cantidad multiplicada (en valor absoluto), y consecuentemente, la varianza se ve afectada por su cuadrado. AMPLITUD INTERCUARTÍLICA Y COEFICIENTE DE VARIACIÓN  Amplitud Intercuarílica (AI). Distancia entre el Q 1 y el Q 3 e indica el recorrido del 50% central de los datos. Robusto ya que no depende de las colas de la distribución. Medida de variabilidad adecuada cuando lo es la Md como medida de tendencia central (p.e. diagramas de caja y bigotes).  Coeficiente de Variación (CV). Porcentaje de dispersión respecto a la media.   100 X CV Sx

. porcentaje que la DT (variabilidad absoluta) representa respecto a la media. Ha de ponerse en valor absoluto. Para comparar la dispersión de una variable medida en varios grupos con distintas escalas o medidas diferentes y para comparar la variabilidad de distintas variables. Sensible a las colas de distribución. La Varianza y Desviación Típica son adecuadas cuando lo es la media como medida de tendencia central.

La Amplitud Intercuartílica es adecuada cuando lo es la mediana como medida de tendencia central. El Coeficiente de Variación se usará cuando se quiera comparar la variabilidad de varios grupos de datos en relación a sus respectivas medias. La Amplitud Total es sólo una primera aproximación a la variabilidad que incluso se puede obtener para variables en escala nominal, indicando en ese caso el número de categorías que presenta la variable. ASIMETRÍA Y CURTOSIS  Simetría/asimetría. Pueden ser negativas, a la derecha lo más alto, o positivas, a la izquierda lo más alto. Es sensible, se basa en la media y DT. Pearson 3

As  z

Intercuartílico As

 Q 3 ^ Q 2 ^  Q 2 ^ Q 1 

Q 3  Q 1  Curtosis. Grado en que una distribución acumula casos en sus colas en comparación con una distribución normal con la misma varianza. Los índices de curtosis próximos a cero indican similitud con la curva normal. Leptocúrtica : curtosis positiva; mesocúrtica : curtosis cero (curva normal); platicúrtica : curtosis negativa.

4

Cr  z 

Para demostrar que una variable cuantitativa se distribuye normalmente es condición suficiente el que en los tests de Kolmogorov-Smirnov o Shapiro-Wilk salga no significativa (sig>0, 05 ).

TEMA 4: Medidas de posición

individual.

La principal función de las medidas de posición individual es estudiar la posición relativa de un sujeto con respecto a su grupo en una o varias variables. Sirven también para comparar puntuaciones de varios sujetos de distintos grupos en una misma variable o de un mismo sujeto en variables distintas. Los cuantiles sonlas puntuaciones de una distribución de datos que esta dividida en partes iguales, para variables semicuantitativas o cuantitativas. Los más utilizados son:

  • centiles o percentiles, Los 99 valores que dividen la distribución en 100 partes iguales, es decir, con el mismo porcentaje de datos (1%). CX → es el valor que deja por debajo al X% de los datos. PARA ARRIBA
  • rangos percentiles, RCX → es el porcentaje de casos que quedan por debajo del valor X. RCx=numero de valores por debajo de x/numero de valores x 100. PARA ABAJO.

TEMA 5: Asociación y correlación

El análisis descriptivo bivariante o multivariante consiste en caracterizar la distribución conjunta de dos o más variables, respectivamente. Este análisis se basa en el cálculo de uno o varios coeficientes que describen el nivel de asociación o correlación entre las variables. Asociación y correlación son sinónimos pero se tiende a utilizar uno u otro según la escala de medida de las variables que se analicen, cualitativas asociación y semicuantitativas o cuatitativas correlación. TABLAS Y GRAFICAS BIVARIADAS Tablas de contingencia para cualitativas o semicuantitativas. Diagramas de dispersión para cuantitativas. Distribucion conjunta de dos variables. COVARIANZA Media de los productos cruzados de las puntuaciones diferenciales. Sxy es covarianza<->Sx es desviación típica. COEFICIENTE DE CORRELACIÓN DE PEARSON

Indice derivado de la covarianza con límites - 1<rxy<+

Su interpretación es como en la covarianza. Sxy  Xi  Yi n ^ X^ ^ Y Sxy  xi  yi n ^ ( Xi  X)  (Yi  Y) n

Relació lineal nul.la

Relació lineal directa o positiva

Relació lineal inversa o negativa

Sxy  0

Sxy  0

Sxy  0

Relación lineal nula (no hay relación)

Relación lineal directa o positiva

Relación lineal inversa o negativa

Coeficiente entre la covarianza y el producto de las desviaciones típicas: SI LA SIG. ES MENOR QUE 0,05 ES SIGNIFICATIVA* La correlacion de una variable consigo misma siempre será 1. El CCPearson en valor absoluto no varía cuando se transforman linealmente las variables, por tanto, el coeficiente de correlación de Pearson es el mismo entre las puntuaciones directas de X e Y, o entre las puntuaciones diferenciales de X e Y, o entre las puntuaciones típicas de X e Y. Si es próximo a cero indica una relación lineal nula, pero puede haber otro tipo de relación (Yerkes-Dodson). Se ve muy afectado por los datos atípicos. MATRIZ DE VARIANZAS/COVARIANZAS Matriz en la que se calculan todas las posibles covarianzas entre un conjunto de variables. La covarianza de una variable consigo misma es total y coincide, por tanto, con la varianza de la variable (diagonal principal). Sxx = Sx Es simétrica respecto a la diagonal principal. Sxy = Syx MATRIZ DE CORRELACIONES Matriz en la que se calculan todas las posibles correlaciones lineales bivariadas entre un conjunto de variables. Es una matriz simétrica respecto a la diagonal principal (donde r = 1) , ya que al ser relaciones lineales entonces: rxy = ryx COEFICIENTE DE CORRELACIÓN DE SPEARMAN Igual que Pearson pero para ordinales. di es la diferencia de los rangos que cada sujeto tiene en las dos variables JI CUADRADO Para cualitativas, se calcula a partir de una tabla de contingencia de dos variables categoriales o nominales. Se basa en la comparación o diferencia entre las frecuencias teóricas y las empíricas de cada celdilla de dicha tabla por medio de esta fórmula: Chi cuadrado sólo puede tomar valores positivos. V DE CRAMER

rxy 

Sxy

Sx  Sy

Rho  1  6 d^2 i N (N^2  1) ^2  (fe  ft) 2 ft

Coeficiente de determinación

  • Es también el cuadrado de la r de Pearson entre las variables X e Y
  • Indica la proporción de varianza del criterio (Y) que es explicada por el modelo
  • Indica la capacidad de predicción de la ecuación de regresión en una escala de 0 a 1 El cociente entre la varianza explicada y la varianza total, indica la proporción de la varianza de la variable predicha (Y) explicada por el modelo de regresión, y se puede demostrar que es el coeficiente de correlación al cuadrado. R^2 = r^2 XY = r^2 YY’. Al multiplicarlo por 100 tendremos el porcentaje de varianza explicada por el modelo. REGRESIÓN LINEAL MÚLTIPLE En general, al hacer pronósticos mediante diferentes predictores, la capacidad predictiva del modelo se incrementa.

Y ' A  B 1 X 1  B 2 X 2  Bk Xk en puntuaciones directas.

A” representa el lugar donde el hiperplano de regresión múltiple corta al eje de la variable predicha. Hay tantos coeficientes de regresión (B 1 ,B 2 ,…,Bk o b 1 , b 2 ,…, bk) como variables predictoras. Igual que en la regresión simple, se valora la calidad de un modelo bien a partir del error típico o estándar de estimación o del porcentaje de varianza del criterio que se consigue explicar con el modelo, es decir, el coeficiente de determinación. El ANOVA nos dirá si el ajuste es significativo o no. R^2 representa la proporción de varianza del criterio (Y) que es explicada por todos los predictores del modelo. Se observa analizando los coeficientes de regresión estandarizados (betas), es decir, los que obtendríamos si las variables estuvieran tipificadas en puntuaciones típicas. Mayor coeficiente indica mayor importancia de la variable dentro del modelo. El signo de la beta indica si el predictor se relaciona con el criterio de forma directa o inversa. Por último la significación (sig) de cada beta nos dice si el predictor puede ser excluido o no del modelo (Regresión por pasos): si sig ≤ .05 el predictor es significativo, si no se puede quitar del modelo. Uno de los supuestos del modelo de regresión lineal múltiple es que las variables predictoras no han de estar correlacionadas entre sí. El incumplimiento de este supuesto (colinealidad o multicolinealidad) es grave porque el valor del coeficiente de determinación no se altera por la presencia de colinealidad, pero los efectos atribuidos a las variables independientes pueden ser engañosos. En términos generales, cuantas más variables hay en una ecuación, más fácil es que exista colinealidad. Lo ideal en un modelo de regresión múltiple es que la correlación entre cada variable predictora y la VD sea lo más alta posible, y que las correlaciones entre las variables predictoras sean lo más bajas posible. Una forma sencilla de detectar la colinealidad es pedir al SPSS que nos haga la matriz de correlaciones de Pearson entre la VD y las VIs y observar que entre estas últimas no existan r significativas. R es la correlación entre las puntuaciones de la VD y las puntuaciones pronosticadas por el modelo de regresión múltiple para la VD. S 2 y = S 2 r y^ ' xy 2

En regresión múltiple las correlaciones parciales indican las correlaciones entre cada VI con la VD tras eliminar de ambas el efecto del resto de VIs. Comparándolas con las r de orden cero (o correlaciones entre cada VI y la VD sin considerar el resto de VIs) nos indican si el efecto de cada VI sobre la VD es real (cuando haya poca diferencia entre ambas r) o espúreo (cuando haya mucha diferencia entre ambas r, debido p.e. a una alta colinealidad), lo que suele coincidir con las sig asociadas a las betas.

TEMA 7: Uso de la probabilidad en

la investigación psicológica

Todo evento que no podamos predecir con certeza su resultado se denomina experimento aleatorio. Las variables implicadas en un experimento aleatorio se denominan variables aleatorias. La probabilidad se expresa en forma de número decimal de 0 a 1, donde el 0 es la probabilidad del suceso imposible y 1 es la probabilidad del suceso seguro. Cálculo de la probabilidad teórica: Casos favorables/Casos posibles. Cálculo de la probabilidad empírica: Frecuencia relativa de aparición de un suceso o proporción de casos observados. FUNCIONES SOBRE LAS VARIABLES ALEATORIAS DISCRETAS Función de probabilidad : Función que asocia a cada valor de la variable su probabilidad de ocurrencia. Se corresponde muchas veces con la frecuencia relativa de aparición (pi = probabilidad empírica).𝒇^ =^ 𝑷^ 𝒙𝒊 (𝑿^ =^ 𝒙𝒊 ) Función de distribución : Función que asocia a cada valor de la variable la probabilidad de que ésta tenga ese valor o un valor inferior. Se corresponde muchas veces con la frecuencia relativa acumulada (pa). 𝑭 𝒙𝒊 = 𝑷(𝑿 ≤ 𝒙𝒊 ) Función de probabilidad: f(xi) = P(X = xi) La función de distribución asocia a cada valor de la variable la probabilidad de obtener este valor o un valor inferior.Por tanto, si acumulamos comenzando por el valor inferior obtendremos la función de distribución: F(xi) = P(X  xi) FUNCIONES SOBRE LAS VARIABLES ALEATORIAS CONTINUAS Función de densidad de probabilidad : Función que asocia a cada valor de la variable la probabilidad de que esta tenga un valor comprendido entre dos valores dados. Función de distribución : Función que asocia a cada valor de la variable la probabilidad de que esta tenga ese valor o un valor inferior.

f x  1 , x 2  P x  1  X  x 2  x f ( X ) dx

1 x 2 

X es N (,)

Simétrica respecto a un valor central En este valor central coinciden la media, la mediana y la moda. Asintótica respecto al eje de abscisas (solamente en el infinito tocaría el eje). Los puntos de inflexión se encuentran en (m-s) y (m+s) donde la distribución pasa de convexa a cóncava. No hay una sino toda una familia de curvas normales dependiendo de los valores de m y s. Se representan: N(m,s) Entre todas destaca la llamada distribución normal unitaria, en la que m=0 y s=1. Distribución Normal Unitaria: N(0,1) Cualquier combinación lineal de v.a. normales también se ajusta al modelo normal. Regla de la tipificación: La función de distribución de cualquier valor de una v.a. X distribuida normalmente es la misma que la de sus correspondientes puntuaciones típicas en la distribución normal unitaria. X N(m,s)zx N(0,1) Cualquier v.a. N(m,s) presenta las siguientes proporciones de casos comprendidos dentro de los intervalos que se especifican. Distribución X^2 de Pearson Es la distribución que se obtiene cuando se suman valores de la normal unitaria elevados al cuadrado.La cantidad de valores sumados es el único parámetro que se ha de considerar y se le conoce como grados de libertad (gl). 2 2 2 2 1 2  kzz ...  zk 1 ) Familia de curvas definidas por sus g.l.

  1. Oscilan de 0 a infinito. Una variable distribuida según c^2 no puede adoptar valores negativos
  2. Asintóticas por la derecha respecto al eje de abscisas
  3. La distribución es asimétrica positiva
  4. Su forma específica depende de los grados de libertad, pero se aproxima a la normal a medida que aumentan los grados de libertad
  5. La esperanza matemática se corresponde con el valor de los gl  E(X) = k Distribución T de Student* a) las variables X e Y presentan respectivamente una distribución N(0,1) y c 2 k b) formamos la variable T según la siguiente fórmula entonces, la variable aleatoria T se ajusta al modelo t con k g.l. 1)Familia de curvas definidas por sus g.l.
  6. Simétricas respecto al valor 0 donde coinciden media, mediana y moda
  7. Puede adoptar valores positivos y negativos T 

X

Y / k

  1. Asintótica respecto al eje de abscisas
  2. La distribución t se aproxima a la normal cuando los g.l. aumentan *Distribución F de Snedecor**** a) las variables C 1 y C 2 se distribuyen según c^2 con m y n g.l. respectivamente b) extraemos valores independientes de C 1 y C 2 , y c) formamos la variable aleatoria T 1 ) Familia de curvas según g.l. del numerador y denominador (ojo: no son intercambiables!) 2 ) Oscila de 0 a + infinito. Solamente puede presentar valores positivos
  3. Asintótica por la derecha respecto al eje de abscisas
  4. La distribución es asimétrica positiva
  5. La distribución F se aproxima a la normal al aumentar los g.l. de numerador y denominador PASOS A SEGUIR PARA OBTENCION DE PROBABILIDADES: DN
  6. Dibujar un diagrama del problema planteado
  7. Transformar la puntuación directa en puntuación típica
  8. Buscar la probabilidad asociada en la tabla de la curva normal estandarizada
  9. Dar respuesta al problema planteado en función de:
  • El valor de la tabla
  • El diagrama planteado PEARSON
  1. Dibujar un diagrama del problema planteado
  2. Buscar la probabilidad asociada en la tabla de la distribución c^2
  3. Dar respuesta al problema planteado en función de:
  • El valor de la tabla
  • El diagrama planteado PASOS A SEGUIR PARA OBTENCION DE PUNTUACIONES
  1. Dibujar un diagrama del problema planteado
  2. Buscar la probabilidad en la tabla de la curva normal estandarizada e identificar la puntuación típica buscada
  3. Transformar la puntuación típica en puntuación directa

T 

C 1 / m

C 2 / n