























Prepara tus exámenes y mejora tus resultados gracias a la gran cantidad de recursos disponibles en Docsity
Gana puntos ayudando a otros estudiantes o consíguelos activando un Plan Premium
Prepara tus exámenes
Prepara tus exámenes y mejora tus resultados gracias a la gran cantidad de recursos disponibles en Docsity
Prepara tus exámenes con los documentos que comparten otros estudiantes como tú en Docsity
Encuentra los documentos específicos para los exámenes de tu universidad
Estudia con lecciones y exámenes resueltos basados en los programas académicos de las mejores universidades
Responde a preguntas de exámenes reales y pon a prueba tu preparación
Consigue puntos base para descargar
Gana puntos ayudando a otros estudiantes o consíguelos activando un Plan Premium
Comunidad
Pide ayuda a la comunidad y resuelve tus dudas de estudio
Ebooks gratuitos
Descarga nuestras guías gratuitas sobre técnicas de estudio, métodos para controlar la ansiedad y consejos para la tesis preparadas por los tutores de Docsity
Se trata de un resumen de todos los temas de Estadística, del primer año de carrera de Psicología en la Universidad de Valencia
Tipo: Apuntes
1 / 31
Esta página no es visible en la vista previa
¡No te pierdas las partes importantes!
























Primero hemos de definir lo que es la ciencia.
Por lo tanto, podemos decir que la ciencia es el conjunto de conocimientos que adquirimos
debido al razonamiento y la observación, sistemáticamente estructurados y de los cuales
deducimos principios y leyes generales las cuales tienen capacidad predictiva y podemos
comprobar de forma experimental.
Por otro lado, siempre ha estado la duda de si la psicología es una disciplina científica o no.
Pues bien, primero que nada, hemos de diferenciar las diferentes ramas de la ciencia. Están:
Ciencias duras; que son las ciencias naturales y físicas como la biología, la astronomía, física o
la química.
Estas ciencias se caracterizan por llevar a cabo experimentos comprobables y tener
predicciones constatables, se basan en modelos matemáticos y son extremadamente
objetivos, esto hace que tengan una predicción perfecta del objetivo.
Por otro lado, están las ciencias blandas; que son las subjetivas o empíricas, es decir la
psicología, la sociología, ciencias políticas, etc. Estas ciencias tienen como objetivo principal el
estudio del ser humano y gracias a ello se considera que no tienen una base experimental
rigurosa.
La ciencia tiene como resultado final ; la producción del conocimiento científico.
El objetivo de la ciencia es: describir, explicar, predecir y controlar el objeto de estudio.
Un objeto de estudio es cualquier fenómeno en el cual estemos interesados.
Entonces, teniendo todo ello en cuenta, ¿si tratamos nuestro objeto de estudio igual a como lo
hacen las ciencias duras, podemos decir que la psicología es una ciencia? Sí, debido a que
utilizamos el mismo método que en las ciencias duras, el método científico.
Y, ¿Qué es el método científico? Es un procedimiento por el cual ampliamos el conocimiento.
Gracias a la experimentación y observación.
¿Por qué ítems se caracteriza el método científico? Este se caracteriza por ser sistemático ,
pues tienen unas etapas definidas, además de ser reproducible , esto es sumamente útil
porque así podemos comprobar que los resultados obtenidos pueden repetirse en las mismas
circunstancias por otros investigadores.
No obstante, dentro de los métodos científicos hemos de clasificar los diferentes tipos que
existen:
específico hasta lo general.
específico.
Pero, estos dos métodos se pueden fusionar y es por ello que en psicología utilizamos la fusión
de estos dos: el método hipotético-deductivo.
La investigación científica ha de seguir unos pasos/fases que son proporcionadas por el
método científico.
Estas fases son:
tengamos interés.
no.
Teniendo ya todo esto claro, nos centramos en la Estadística:
¿Qué es la Estadística? Se trata de una rama de las matemáticas que se puede definir como la
ciencia que resume y organiza datos y que tiene como objetivos extraer información de los
datos de una muestra y elaborar conclusiones de la población de dicha muestra.
Encontramos dos tipos de estadística:
conclusiones sobre una muestra de datos. Es la primera fase de toda investigación.
datos muestrales y requiere el cálculo de probabilidades.
Por otro lado, también es necesario definir unos conceptos básicos de la estadística:
individuos, unidades o elementos que son el objeto de estudio y de los cuales se
obtiene información. Generalmente se simbolizan con la letra N.
características del conjunto de la población. Generalmente se simboliza con la letra n.
resultados de la muestra de la población y dicha muestra ha de ser representativa.
Existen dos tipos de muestreo:
3.1 el muestreo probabilístico : donde se determina la probabilidad que tiene cada
elemento de la población de formar parte de la muestra.
3.2 El muestreo no probabilístico : se desconoce o no se tiene en cuenta la
probabilidad asociada a cada una de las muestras posibles. No permite saber el
grado de representatividad de la muestra.
población determinada y tienen las mismas características generales que la población.
selección produciendo muestras no representativas.
por ejemplo de género tenemos hombre y mujer.
Es importante siempre tener en cuenta que antes de comenzar a analizar los datos que
tenemos, revisar que no haya errores en la base de datos. Por lo tanto, debemos comprobar
que no haya:
nunca un valor de 11.
hace examinando las tablas de frecuencia de cada variable.
Hemos de conocer lo que es un valor atípico o un outliers :
Se tratan de valores inusuales, generalmente por estar en el extremo superior o inferior de la
escala de medida de la variable.
➢ Se trata de un valor que es muy diferente al resto.
➢ Una de las ventajas es que podemos identificarlo, lo que resulta muy necesario ya que
puede distorsionar las conclusiones.
➢ Afecta a la tendencia central, la variabilidad y las relaciones entre variables.
Algunos procedimientos de detección de valores atípicos son, por ejemplo:
En gráficos:
Distribución de frecuencias, diagrama de caja y gráficos de control.
En formales :
Diferencia entre el resultado de los estadísticos robustos y no robustos y el test de Dixon o test
de grubs.
Por otro lado, los valores ausentes o perdidos son:
➢ Tendríamos que explorar el grado de valores perdidos que presentan las variables
cuando empezamos a trabajar con una nueva base de datos.
Hay diferentes motivos por los que podemos encontrar datos ausentes:
➢ MCAR (Missing completely at random) Pérdida aleatoria, los datos ausentes son
independientes.
➢ MAR (Missing at Random) La pérdida de un dato de una variable depende de otra
variable.
➢ NMAR (Not missing at random) La pérdida depende del valor de la variable.
Por lo tanto, ¿Qué debemos de hacer con las variables perdidas?
Tenemos dos opciones ante dichas variables.
La supresión:
Solo analizamos a los sujetos que tengan los datos completos en las variables que necesitamos
para hacer un análisis. Es importante saber que si falta un valor en una variable que no se está
utilizando el sujeto SÍ que se tiene en cuenta.
La imputación:
Proceso de estimación de los valores ausentes basados en valores validos de otras variables o
casos de la muestra.
Los datos los solemos distribuir en filas y columnas para tener la información mejor resumida y
mejor vista. En las filas están las categorías o niveles de la variable las cuales deben de ser
Es decir, que todos los elementos de la muestra han de estar arreplegados en la
distribución (exhaustiva) en una sola ocasión (excluyente).
En la columna suelen ir:
1. Frecuencia absoluta : Se representa normalmente (𝑛
𝑖
Número de veces que se repite cada uno de los valores de una variable. La suma de todas
las frecuencias absolutas representa el total de la muestra (n).
Ejemplo: en una muestra de 500 estudiantes de psicología tenemos 400 mujeres y 100
hombres. La FRECUENCIA ABSOLUTA DE HOMBRES en la variable GÉNERO es de 100.
Mientras que la FRECUENCIA ABSOLUTA DE MUJERES en la variable GÉNERO es de
caso 500, que representa nuestra n.
2. Frecuencia absoluta acumulada: Se representa normalmente (𝑛
𝑎
llaman centiles ). Son 99 valores de la variable que la dividen en 100 secciones iguales. No se
pueden calcular en variables categóricas.
Gráficos :
variable, el ángulo central es proporcional a la frecuencia.
GRÁFICAS PARA VARIABLES CUANTITATIVAS: DISCRETAS (no tiene valores intermedios) Y
se sitúa a una altura proporcional a la frecuencia de cada valor; se unen los puntos
para formar una línea.
valores de la variable.
➢ Diagrama de tija y hoja
➢ Diagrama de caja y bigotes.
Las medidas que caracterizan un grupo son aquellas que permiten describir o sintetizar sus
principales características, entre las cuales tenemos:
➢ Tendencia central
➢ La variabilidad
➢ La forma: asimetría y curtosis
Como hemos visto antes, cuando el grupo que se va a caracterizar es la población , la función
matemática que calculemos le denominamos parámetro. Mientras que, cuando el grupo que
se va a caracterizar es la muestra , la función matemática calculada recibe el nombre de
estadístico.
Las medidas de tendencia central indican un valor representativo del grosor de los datos. La
medida de tendencia central resume todos los valores que tenemos en uno único. Por lo que
es una medida de síntesis de la posición que un grupo ocupa en el grado de posesión de una
variable. También se denomina medidas de posición grupal.
Las medidas más utilizadas son:
➢ La moda (Mo)
➢ La mediana (Mdn-md)
➢ La media aritmética (M o 𝑥̅ )
Una clase de 15 personas ha sacado las siguientes notas en un examen: 4,7,5,6,5,4,5,5,5,6,5,4,4,5,
Ha simple vista podemos ver que el valor con mayor frecuencia es 5, por tanto, la
moda es: 5.
La moda es el valor de la variable que tiene mayor frecuencia, es decir, el valor que
más se repite.
Sus propiedades son las siguientes:
➢ Se puede calcular con datos nominales
➢ Las distribuciones pueden ser amodales, unimodales, bimodales o
multimodales en función de la cantidad de modas que haya.
➢ Es un estadístico muy inestable
➢ Si hay varios valores que se repiten igual de veces y son consecutivos, es decir,
(1,2,3…) la moda será la media de ellos.
➢ No utiliza todos los datos en su cálculo
Ejemplo: con los datos anteriores (ordenados):
Buscamos la media recortada al 20%: el 20% de 15 datos son 3 datos. (15 · 0,2: 3) entonces,
eliminamos 3 datos más pequeños y los 3 datos más altos, extremos. Entonces nos queda:
La media recortada al 20% es 5. Lo sabemos porque hemos aplicado la siguiente fórmula:
𝛴𝑥
𝑖
𝑛
No debemos olvidar que:
➢ La media recortada al 0% es igual a la media aritmética
➢ Es habitual calcularla recortada al 5%, evitando así valores atípicos
➢ Si la cantidad de datos a eliminar no es igual a un número entero se recomienda
utilizar una fracción de valor a través de una ponderación.
Una vez tenemos claros todos los tipos de medida de tendencia central que existe, hemos de
conocer sus criterios de uso :
Dependiendo de los datos que tenemos elegiremos una medida u otra.
Resistencia/Robustez: Decimos que un estadístico es robusto cuando no se ve influido por
cambios en los datos. La media es un estadístico poco robusto, puesto que considera todos los
datos para su cálculo. La mediana es un estadístico altamente resistente. Otro estadístico
robusto es por ejemplo la media recortada.
➢ Es la norma general
➢ Tiene en cuenta todas las puntuaciones y por lo tanto es sensible
➢ Está en la base de las mejores pruebas de estadística inferencial
➢ Si la variable es ordinal
➢ Si hay valores extremos porque no se ve afectada por las colas de la distribución, por
lo tanto, es robusta.
➢ Si la distribución es asimétrica
3. Moda
➢ Si la variable es nominal.
La Variabilidad es la propiedad que nos informa del grado de heterogeneidad de un grupo.
Para representar adecuadamente la totalidad de un grupo:
➢ No es suficiente un único valor de tendencia central
➢ Necesitamos conocer cómo de diferentes son los miembros del grupo
➢ Nuestro objetivo es describir el grado de variación o dispersión de unos datos, es decir,
la similitud o homogeneidad que presentan
➢ Mayor dispersión es igual a mayores diferencias entre los datos.
➢ Es independiente de la tendencia central
Por otro lado, tenemos la amplitud total , rango o recorrido (AT) es la diferencia entre los
valores extremos. 𝐴𝑇 = 𝑋 𝑚𝑎𝑥 −𝑋 𝑚
𝑖
𝑛
No obstante, una de las desventajas que presenta es que no es sensible a todos los valores
(poco sensible al centro de la distribución y muy sensible a los extremos). Pero, como ventaja
tiene que se trata de un cálculo sencillo.
La varianza (VAR) es un estimador sesgado de la varianza poblacional. Es la media de las
diferencias cuadráticas respecto a la media aritmética.
La desviación típica (DT) es la raíz cuadrada de la varianza. Se representa de la siguiente
forma: 𝑆 𝑥
o σ
Propiedades de la varianza y desviación típica:
hay variabilidad tanto la DT como VAR serán cero.
Otro concepto a tener claro es la cuasivarianza: es un estimador NO sesgado de la varianza
poblacional.
La cuasidesviación típica: es la raíz cuadrada de la cuasivarianza.
Son una variante de la DT y VAR que consiste en dividir por (n-1) en lugar de por n.
La amplitud intercuartílica (AL o Q) es la distancia entre el Q1 y el Q34, se calcula la diferencia
entre el tercer cuartil y el primero.
➢ Es robusto porque no depende de las colas de la distribución, por lo cual se utiliza
dentro de la corriente del Análisis Exploratorio de Datos.
➢ Media de variabilidad adecuada cuando la media es la medida de tendencia central.
El coeficiente de variación (CV) Indica el porcentaje de dispersión respecto a la media. Eso es,
se trata de un indicador de variabilidad relativa, ya que la variabilidad absoluta (DT) la
relativiza o compara con la media del grupo.
Es el cociente entre la DT y la media en valor absoluto. Se trata del porcentaje que la DT
representa respecto a la media. Por ejemplo, un CV del 25% indica que la DT es una cuarta
parte de la media.
➢ Se tiene que poner en valor absoluto, por lo tanto, da igual que salga u número
negativo.
➢ Permite comparar y es útil para comparar la dispersión de una variable medida en
varios grupos con distintas escalas.
➢ Útil para comparar la variabilidad de distintas variables.
➢ Es sensible a las colas de distribución, puesto que se basa en la media y la DT que son
estadísticos sensibles.
La curtosis expresa el grado en que una distribución acumula casos en sus colas en
comparación con los casos acumulados en las colas de una distribución normal con la misma
varianza.
posición de un sujeto respecto a su grupo.
una misma variable.
distintas.
y puntuaciones típicas.
Ejemplo: Un estudiante se ha examinado de Matemáticas y Lengua y ha obtenido un 6
en los dos exámenes. ¿En cuál de los dos su rendimiento ha sido mejor teniendo en
cuenta que el examen de Lengua ha sido muy fácil?
Los percentiles/centiles son 99 valores de la variable que la dividen en 100 secciones
iguales.
mismo porcentaje de datos (1%)
forma de la distribución.
en variables categóricas.
Los deciles son los centiles que dividen la variable en 10 secciones iguales
Decil 1= centil 10, decil 7= centil 70; …
Los cuartiles son los centiles que dividen la variable en 4 secciones iguales
Primer cuartil= centil 25; tercer cuartil= centil 75. Esto nos deja en claro que el segundo cuartil
es el centil 50 es decir, la mediana.
Ahora bien, el rango percentil de una puntuación x es el porcentaje de los datos con valores
iguales o inferiores a x. Tiene una función inversa a la del centil porque en el rango se parte la
puntuación por arriba del porcentaje.
CP → de P (porcentaje) a X (puntuación) CP significa centil
RCX → de X (puntuación) a P (porcentaje) RC Significa rango centil
Esto permiten la comparación de puntuaciones individuales sin necesidad de conocer la escala
de medida. 𝑅𝑝 𝑥
𝑓
𝑎
𝑛
Otro concepto que se utiliza mucho en estadística y por lo tanto es muy importante es la
puntuación típica. Las puntuaciones típicas indican el número de desviaciones típicas que una
observación se aleja de la media del grupo.
𝑖
𝑖
𝑥
Si por ejemplo z > 0, la observación está por arriba de la media
Si z = 0, la observación es igual a la media
Si z < 0, la observación está por debajo de la media.
Las principales característica y propiedades de la puntuación típica son las siguientes:
es 1.
la distribución (transformación lineal).
Hacer una valoración individual solo con puntuaciones diferenciales es insuficiente, puesto que
influye la variabilidad del grupo.
Tiene dos funciones:
función de los cuantiles.
Si Z >> o Z < - 3, se suele considerar que es un valor atípico porque se aleja mucho de la
media.
distribución poblacional de la variable.
En este tema vemos la asociación y para ello hemos de conocer lo que es un diagrama de
dispersión.
El diagrama de dispersión sirve para mostrar la distribución conjunta de dos variables. Estas
dos han de ser cuantitativas. Tanto el eje de abscisas (X) como el eje de ordenadas (Y)
representan los valores de las dos variables. Mientras que, los puntos simbolizan los distintos
valores de los sujetos.
Así como para variables cuantitativas tenemos el diagrama de dispersión, para variables
cualitativas o nominales utilizamos la tabla de contingencia. En esta tabla en la fila aparecen
las modalidades de una variable mientras que en la columna aparecen las modalidades de la
otra variable.
En cada casilla aparece la frecuencia conjunta de los distintos cruzamientos de modalidades.
Así mismo, esta tabla se puede utilizar para más de dos variables, pero resulta poco manejable.
Es importante también mencionar que las frecuencias marginales son las sumas de las
frecuencias conjuntas.
¿Qué es la covarianza?
La covarianza es un valor que indica el grado de variación conjunta entre dos variables.
𝑋𝑦
𝑖
𝑖
No obstante, antes de aplicar la covarianza es necesario tener en cuenta que :
dos variables
variables
relación será negativa o inversa
Pero, la covarianza presenta un problema y es que no es un índice acotado, es decir que es
infinito y no tiene en cuenta la variabilidad de las variables. La solución para este problema es
que utilizaremos el coeficiente de relación lineal de Pearson.
El coeficiente de correlación lineal de Pearson también mide el grado de covariación.
Proporción que se obtiene al dividir la covarianza entre las desviaciones típicas de cada una de
𝑥𝑦
𝑥
𝑦
➢ Derivado de la covarianza, pero con la diferencia de que tiene en cuenta la variabilidad
de los datos.
➢ Mide el grado de relación lineal
➢ Es un valor acotado entre - 1 y +
➢ Permite comparar correlaciones entre distintas variables
Es importante recordar siempre que la correlación no implica causalidad.
Por otro lado, la matriz de varianzas-covarianzas, ¿Qué es?
Esta es una matriz en la que se calculan todas las posibles covarianzas entre un conjunto de
variables.
La covarianza de una variable consigo misma es total y coincide es por ello que en la diagonal
de la matriz tenemos las varianzas, es decir, la relación entre la variable con si misma. Mientras
que, arriba y debajo de la diagonal estará la relación con las demás variables. Por otro lado, la
matriz es simétrica respecto a la diagonal.
Además de la matriz varianzas-covarianzas tenemos la matriz de correlaciones. Esta es una
matriz en la cual se calculan todas las posibles correlaciones lineales bivariados entre un
conjunto de variables. Al igual que en la matriz de varianzas-covarianzas a lo largo de la
diagonal de esta matriz encontraremos la relación que una variable tiene consigo misma, y
también es simétrica.
Por otro lado, el coeficiente de correlación de Pearson puede estar afectado por la influencia
de terceras variables.
El COEFICIENTE DE CORRELACIÓN PARCIAL ayuda a estudiar la relación entre dos variables
cuando se sabe que no hay una tercera influyendo en dicha relación.
Por lo tanto, la correlación parcial 𝑟 123
sería la correlación lineal entre la variable 1 (X) y 2 (y),
dejando como constante la variable 3 (z).
Pero, el coeficiente de correlación de Pearson solo se aplica para variables cuantitativas. Si se
trata de variables semicuantitativas , es decir, ordinales utilizaremos el coeficiente de
correlación de Spearman.
Como bien se ha dicho antes la correlación no implica causalidad, pero predecir la variable a
partir de otra sí. Nuestro objetivo será obtener la fórmula matemática que exprese la relación
entre la variable X (VI) y la variable Y (VD).
La función matemática de una línea recta es la siguiente: Y = A +BX
➢ X será la variable predictora
➢ Y será la variable criterio
➢ A es el valor de la ordenada en el origen
➢ B es la pendiente: unidades de incremento de Y por cada unidad de incremento de X.
En psicología es habitual tener información sobre algunas X e Y, por lo tanto, buscaremos los
valores correspondientes a, A y B.
Y, como haremos predicciones para Y (Y’) cometeremos errores, por lo tanto, la ecuación de la
recta para predecir la puntuación de un sujeto (Y’) será: Y’ = A + B + e
Características de la línea de regresión obtenida por medio del criterio de mínimos
cuadrados:
′
Error de estimación o residual (e):
diferencia entre el valor obtenido
en la variable Y, y el pronosticado
por el modelo (Y’)
Además, la suma de los errores
cuadráticos (errores de
estimación o residuales al
cuadrado) es mínima.
′
2
La relación lineal simple es un caso particular de la regresión lineal múltiple, donde solo
tenemos una VI. Normalmente, trabajamos con las puntuaciones b estandarizadas (típicas). En
lugar de indicar aumento de puntos en Y, indican aumento de desviaciones típicas en Y.
Las b estandarizadas las denotarán como Beta.
Β (pendiente de la recta) puede tener valores entre - 1 y +1, siendo cero la ausencia de relación
entre X e Y.
Α (ordenada en el origen/constante) siempre será cero.
Se interpreta de la siguiente manera: un cambio de una DT en X predice un cambio de β en Y.