








Prepara tus exámenes y mejora tus resultados gracias a la gran cantidad de recursos disponibles en Docsity
Gana puntos ayudando a otros estudiantes o consíguelos activando un Plan Premium
Prepara tus exámenes
Prepara tus exámenes y mejora tus resultados gracias a la gran cantidad de recursos disponibles en Docsity
Prepara tus exámenes con los documentos que comparten otros estudiantes como tú en Docsity
Encuentra los documentos específicos para los exámenes de tu universidad
Estudia con lecciones y exámenes resueltos basados en los programas académicos de las mejores universidades
Responde a preguntas de exámenes reales y pon a prueba tu preparación
Consigue puntos base para descargar
Gana puntos ayudando a otros estudiantes o consíguelos activando un Plan Premium
Comunidad
Pide ayuda a la comunidad y resuelve tus dudas de estudio
Ebooks gratuitos
Descarga nuestras guías gratuitas sobre técnicas de estudio, métodos para controlar la ansiedad y consejos para la tesis preparadas por los tutores de Docsity
Temas clave en el análisis descriptivo de datos, incluyendo procedimientos de detección de valores atípicos, caracterización de grupos, asociación y correlación. Aprende sobre métodos de encuestas, observacionales y cualitativos, procedimientos de detección de valores extremos y atípicos, medidas de tendencia central, curtosis, asociación y correlación lineal y cuadrática, y más. Este texto es una guía útil para estudiantes de estadística y análisis de datos.
Tipo: Apuntes
1 / 14
Esta página no es visible en la vista previa
¡No te pierdas las partes importantes!









Método científico: 1 - Plantea una pregunta 2 - Plantea una hipótesis 3 - Comprueba esa hipótesis empíricamente 4 - Saca conclusiones con las pruebas y refuta o avala una teoría En Psicología la Estadística es importante no sólo para analizar investigaciones si no también en la práctica profesional de los psicológos (educativos, recursos humanos, ...) y para entender los artículos científicos (apartado de resultados) que todo profesional debe de leer para tener un conocimiento actualizado en su especialidad profesional a) Estadística descriptiva. Objetivo de resumir información. b) Estadística inferencial. Obtener resultados generalizables a una población a partir del resultado de una muestra. Población o universo : Conjunto de individuos o elementos que son objeto de estudio, N. Las variables se llaman parámetros. Muestra. Subcojnunto de una población, n. Las variables las llamamos estadísticos. Muestreo : Extracción de la muestra. Ha de ser representativa, no sesgada. Muestreo probabilístico: aleatoria pura. Aleatorio simple Sistemático Estratificado Por conglomerados Polietápico Muestreo no probabilístico: No todos tienen la misma probabilidad de salir. Sesgo : error sistemático en el muestreo. Las VD pueden ser : Cuantitativas : Los cambios en la variable son proporcionales a los cambios en el atributo medido. Pueden ser: Discretas : Sólo admiten un cierto número de modalidades. Continuas : Pueden tener infinitas modalidades. Semicuantitativas : Los sujetos son ordenados según el grado de posesión del atributo medido, pero no hay proporcionalidad entre la variable y el atributo. Cualitativas : Sólo indican cualidad. Se tiene o no se tiene. Diseños de investigación psicológica:
Experimental Aleatorización: Metodología experimental. Grupos naturales: Metodología cuasiexperimental. Correlacional Metodología de encuestas Metodología observacional Metodología cualitativa
Procedimientos de detección de valores atípicos:
constante a cada uno de los valores, la nueva media aritmética resultante será la original más la constante. Lo mismo si multiplicamos y si hacemos una transformación lineal (multiplicar por x y sumar y) Otras medias: Media recortada, calculando la media ar. sobre un subconjunto central de datos no considerando los extremos. Media ponderada o media total de varios grupos n X ni Xi T^ ^ VARIABILIDAD Grado de variación o dispersión de unos datos, es decir, la similitud u homogeneidad que presentan. Mayor dispersión = Mayores diferencias entre los datosEs independiente de la tendencia central. Amplitud total, rango o recorrido. EL mas alto menos el mas bajo Varianza, promedio de las diferencias cuadráticas respecto a la media Desviación típica estándar, la raíz cuadrada de la varianza. El subíndice n o n-1 es el que indica si hablamos de la varianza o cuasivarianza muestral. Cuando las muestras son grandes (n>35) la varianza y cuasivarianza muestrales apenas difieren. Se suele utilizar más la cuasi-varianza y cuasi-desviación típica por ser estimadores insesgados de la varianza y desviación típica poblacional. El SPSS calcula la cuasi-varianza y cuasi-desviación típica pero les llama varianza y desviación típica. Con una Transformación lineal consistente en multiplicar una constante: las distancias entre los datos también se multiplican por la misma constante, por lo que la DT se ve afectada por la cantidad multiplicada (en valor absoluto), y consecuentemente, la varianza se ve afectada por su cuadrado. AMPLITUD INTERCUARTÍLICA Y COEFICIENTE DE VARIACIÓN Amplitud Intercuarílica (AI). Distancia entre el Q 1 y el Q 3 e indica el recorrido del 50% central de los datos. Robusto ya que no depende de las colas de la distribución. Medida de variabilidad adecuada cuando lo es la Md como medida de tendencia central (p.e. diagramas de caja y bigotes). Coeficiente de Variación (CV). Porcentaje de dispersión respecto a la media. 100 X CV Sx
. porcentaje que la DT (variabilidad absoluta) representa respecto a la media. Ha de ponerse en valor absoluto. Para comparar la dispersión de una variable medida en varios grupos con distintas escalas o medidas diferentes y para comparar la variabilidad de distintas variables. Sensible a las colas de distribución. La Varianza y Desviación Típica son adecuadas cuando lo es la media como medida de tendencia central.
La Amplitud Intercuartílica es adecuada cuando lo es la mediana como medida de tendencia central. El Coeficiente de Variación se usará cuando se quiera comparar la variabilidad de varios grupos de datos en relación a sus respectivas medias. La Amplitud Total es sólo una primera aproximación a la variabilidad que incluso se puede obtener para variables en escala nominal, indicando en ese caso el número de categorías que presenta la variable. ASIMETRÍA Y CURTOSIS Simetría/asimetría. Pueden ser negativas, a la derecha lo más alto, o positivas, a la izquierda lo más alto. Es sensible, se basa en la media y DT. Pearson 3
Intercuartílico As
Q 3 Q 1 Curtosis. Grado en que una distribución acumula casos en sus colas en comparación con una distribución normal con la misma varianza. Los índices de curtosis próximos a cero indican similitud con la curva normal. Leptocúrtica : curtosis positiva; mesocúrtica : curtosis cero (curva normal); platicúrtica : curtosis negativa.
4
Para demostrar que una variable cuantitativa se distribuye normalmente es condición suficiente el que en los tests de Kolmogorov-Smirnov o Shapiro-Wilk salga no significativa (sig>0, 05 ).
La principal función de las medidas de posición individual es estudiar la posición relativa de un sujeto con respecto a su grupo en una o varias variables. Sirven también para comparar puntuaciones de varios sujetos de distintos grupos en una misma variable o de un mismo sujeto en variables distintas. Los cuantiles sonlas puntuaciones de una distribución de datos que esta dividida en partes iguales, para variables semicuantitativas o cuantitativas. Los más utilizados son:
El análisis descriptivo bivariante o multivariante consiste en caracterizar la distribución conjunta de dos o más variables, respectivamente. Este análisis se basa en el cálculo de uno o varios coeficientes que describen el nivel de asociación o correlación entre las variables. Asociación y correlación son sinónimos pero se tiende a utilizar uno u otro según la escala de medida de las variables que se analicen, cualitativas asociación y semicuantitativas o cuatitativas correlación. TABLAS Y GRAFICAS BIVARIADAS Tablas de contingencia para cualitativas o semicuantitativas. Diagramas de dispersión para cuantitativas. Distribucion conjunta de dos variables. COVARIANZA Media de los productos cruzados de las puntuaciones diferenciales. Sxy es covarianza<->Sx es desviación típica. COEFICIENTE DE CORRELACIÓN DE PEARSON
Su interpretación es como en la covarianza. Sxy Xi Yi n ^ X^ ^ Y Sxy xi yi n ^ ( Xi X) (Yi Y) n
Coeficiente entre la covarianza y el producto de las desviaciones típicas: SI LA SIG. ES MENOR QUE 0,05 ES SIGNIFICATIVA* La correlacion de una variable consigo misma siempre será 1. El CCPearson en valor absoluto no varía cuando se transforman linealmente las variables, por tanto, el coeficiente de correlación de Pearson es el mismo entre las puntuaciones directas de X e Y, o entre las puntuaciones diferenciales de X e Y, o entre las puntuaciones típicas de X e Y. Si es próximo a cero indica una relación lineal nula, pero puede haber otro tipo de relación (Yerkes-Dodson). Se ve muy afectado por los datos atípicos. MATRIZ DE VARIANZAS/COVARIANZAS Matriz en la que se calculan todas las posibles covarianzas entre un conjunto de variables. La covarianza de una variable consigo misma es total y coincide, por tanto, con la varianza de la variable (diagonal principal). Sxx = Sx Es simétrica respecto a la diagonal principal. Sxy = Syx MATRIZ DE CORRELACIONES Matriz en la que se calculan todas las posibles correlaciones lineales bivariadas entre un conjunto de variables. Es una matriz simétrica respecto a la diagonal principal (donde r = 1) , ya que al ser relaciones lineales entonces: rxy = ryx COEFICIENTE DE CORRELACIÓN DE SPEARMAN Igual que Pearson pero para ordinales. di es la diferencia de los rangos que cada sujeto tiene en las dos variables JI CUADRADO Para cualitativas, se calcula a partir de una tabla de contingencia de dos variables categoriales o nominales. Se basa en la comparación o diferencia entre las frecuencias teóricas y las empíricas de cada celdilla de dicha tabla por medio de esta fórmula: Chi cuadrado sólo puede tomar valores positivos. V DE CRAMER
Rho 1 6 d^2 i N (N^2 1) ^2 (fe ft) 2 ft
Coeficiente de determinación
A” representa el lugar donde el hiperplano de regresión múltiple corta al eje de la variable predicha. Hay tantos coeficientes de regresión (B 1 ,B 2 ,…,Bk o b 1 , b 2 ,…, bk) como variables predictoras. Igual que en la regresión simple, se valora la calidad de un modelo bien a partir del error típico o estándar de estimación o del porcentaje de varianza del criterio que se consigue explicar con el modelo, es decir, el coeficiente de determinación. El ANOVA nos dirá si el ajuste es significativo o no. R^2 representa la proporción de varianza del criterio (Y) que es explicada por todos los predictores del modelo. Se observa analizando los coeficientes de regresión estandarizados (betas), es decir, los que obtendríamos si las variables estuvieran tipificadas en puntuaciones típicas. Mayor coeficiente indica mayor importancia de la variable dentro del modelo. El signo de la beta indica si el predictor se relaciona con el criterio de forma directa o inversa. Por último la significación (sig) de cada beta nos dice si el predictor puede ser excluido o no del modelo (Regresión por pasos): si sig ≤ .05 el predictor es significativo, si no se puede quitar del modelo. Uno de los supuestos del modelo de regresión lineal múltiple es que las variables predictoras no han de estar correlacionadas entre sí. El incumplimiento de este supuesto (colinealidad o multicolinealidad) es grave porque el valor del coeficiente de determinación no se altera por la presencia de colinealidad, pero los efectos atribuidos a las variables independientes pueden ser engañosos. En términos generales, cuantas más variables hay en una ecuación, más fácil es que exista colinealidad. Lo ideal en un modelo de regresión múltiple es que la correlación entre cada variable predictora y la VD sea lo más alta posible, y que las correlaciones entre las variables predictoras sean lo más bajas posible. Una forma sencilla de detectar la colinealidad es pedir al SPSS que nos haga la matriz de correlaciones de Pearson entre la VD y las VIs y observar que entre estas últimas no existan r significativas. R es la correlación entre las puntuaciones de la VD y las puntuaciones pronosticadas por el modelo de regresión múltiple para la VD. S 2 y = S 2 r y^ ' xy 2
En regresión múltiple las correlaciones parciales indican las correlaciones entre cada VI con la VD tras eliminar de ambas el efecto del resto de VIs. Comparándolas con las r de orden cero (o correlaciones entre cada VI y la VD sin considerar el resto de VIs) nos indican si el efecto de cada VI sobre la VD es real (cuando haya poca diferencia entre ambas r) o espúreo (cuando haya mucha diferencia entre ambas r, debido p.e. a una alta colinealidad), lo que suele coincidir con las sig asociadas a las betas.
Todo evento que no podamos predecir con certeza su resultado se denomina experimento aleatorio. Las variables implicadas en un experimento aleatorio se denominan variables aleatorias. La probabilidad se expresa en forma de número decimal de 0 a 1, donde el 0 es la probabilidad del suceso imposible y 1 es la probabilidad del suceso seguro. Cálculo de la probabilidad teórica: Casos favorables/Casos posibles. Cálculo de la probabilidad empírica: Frecuencia relativa de aparición de un suceso o proporción de casos observados. FUNCIONES SOBRE LAS VARIABLES ALEATORIAS DISCRETAS Función de probabilidad : Función que asocia a cada valor de la variable su probabilidad de ocurrencia. Se corresponde muchas veces con la frecuencia relativa de aparición (pi = probabilidad empírica).𝒇^ =^ 𝑷^ 𝒙𝒊 (𝑿^ =^ 𝒙𝒊 ) Función de distribución : Función que asocia a cada valor de la variable la probabilidad de que ésta tenga ese valor o un valor inferior. Se corresponde muchas veces con la frecuencia relativa acumulada (pa). 𝑭 𝒙𝒊 = 𝑷(𝑿 ≤ 𝒙𝒊 ) Función de probabilidad: f(xi) = P(X = xi) La función de distribución asocia a cada valor de la variable la probabilidad de obtener este valor o un valor inferior.Por tanto, si acumulamos comenzando por el valor inferior obtendremos la función de distribución: F(xi) = P(X xi) FUNCIONES SOBRE LAS VARIABLES ALEATORIAS CONTINUAS Función de densidad de probabilidad : Función que asocia a cada valor de la variable la probabilidad de que esta tenga un valor comprendido entre dos valores dados. Función de distribución : Función que asocia a cada valor de la variable la probabilidad de que esta tenga ese valor o un valor inferior.
1 x 2
Simétrica respecto a un valor central En este valor central coinciden la media, la mediana y la moda. Asintótica respecto al eje de abscisas (solamente en el infinito tocaría el eje). Los puntos de inflexión se encuentran en (m-s) y (m+s) donde la distribución pasa de convexa a cóncava. No hay una sino toda una familia de curvas normales dependiendo de los valores de m y s. Se representan: N(m,s) Entre todas destaca la llamada distribución normal unitaria, en la que m=0 y s=1. Distribución Normal Unitaria: N(0,1) Cualquier combinación lineal de v.a. normales también se ajusta al modelo normal. Regla de la tipificación: La función de distribución de cualquier valor de una v.a. X distribuida normalmente es la misma que la de sus correspondientes puntuaciones típicas en la distribución normal unitaria. X N(m,s) zx N(0,1) Cualquier v.a. N(m,s) presenta las siguientes proporciones de casos comprendidos dentro de los intervalos que se especifican. Distribución X^2 de Pearson Es la distribución que se obtiene cuando se suman valores de la normal unitaria elevados al cuadrado.La cantidad de valores sumados es el único parámetro que se ha de considerar y se le conoce como grados de libertad (gl). 2 2 2 2 1 2 k z z ... zk 1 ) Familia de curvas definidas por sus g.l.
Y / k