Docsity
Docsity

Prepara tus exámenes
Prepara tus exámenes

Prepara tus exámenes y mejora tus resultados gracias a la gran cantidad de recursos disponibles en Docsity


Consigue puntos base para descargar
Consigue puntos base para descargar

Gana puntos ayudando a otros estudiantes o consíguelos activando un Plan Premium


Orientación Universidad
Orientación Universidad


Resumen Estadística I, Apuntes de Estadística

Se trata de un resumen de todos los temas de Estadística, del primer año de carrera de Psicología en la Universidad de Valencia

Tipo: Apuntes

2022/2023

Subido el 29/04/2023

caramel-machiatto
caramel-machiatto 🇪🇸

11 documentos

1 / 31

Toggle sidebar

Esta página no es visible en la vista previa

¡No te pierdas las partes importantes!

bg1
Estadística tema 1.
Primero hemos de definir lo que es la ciencia.
Por lo tanto, podemos decir que la ciencia es el conjunto de conocimientos que adquirimos
debido al razonamiento y la observación, sistemáticamente estructurados y de los cuales
deducimos principios y leyes generales las cuales tienen capacidad predictiva y podemos
comprobar de forma experimental.
Por otro lado, siempre ha estado la duda de si la psicología es una disciplina científica o no.
Pues bien, primero que nada, hemos de diferenciar las diferentes ramas de la ciencia. Están:
Ciencias duras; que son las ciencias naturales y físicas como la biología, la astronomía, física o
la química.
Estas ciencias se caracterizan por llevar a cabo experimentos comprobables y tener
predicciones constatables, se basan en modelos matemáticos y son extremadamente
objetivos, esto hace que tengan una predicción perfecta del objetivo.
Por otro lado, están las ciencias blandas; que son las subjetivas o empíricas, es decir la
psicología, la sociología, ciencias políticas, etc. Estas ciencias tienen como objetivo principal el
estudio del ser humano y gracias a ello se considera que no tienen una base experimental
rigurosa.
La ciencia tiene como resultado final; la producción del conocimiento científico.
El objetivo de la ciencia es: describir, explicar, predecir y controlar el objeto de estudio.
Un objeto de estudio es cualquier fenómeno en el cual estemos interesados.
Entonces, teniendo todo ello en cuenta, ¿si tratamos nuestro objeto de estudio igual a como lo
hacen las ciencias duras, podemos decir que la psicología es una ciencia? Sí, debido a que
utilizamos el mismo método que en las ciencias duras, el método científico.
Y, ¿Qué es el método científico? Es un procedimiento por el cual ampliamos el conocimiento.
Gracias a la experimentación y observación.
¿Por qué ítems se caracteriza el método científico? Este se caracteriza por ser sistemático,
pues tienen unas etapas definidas, además de ser reproducible, esto es sumamente útil
porque así podemos comprobar que los resultados obtenidos pueden repetirse en las mismas
circunstancias por otros investigadores.
No obstante, dentro de los métodos científicos hemos de clasificar los diferentes tipos que
existen:
1. Método inductivo: se tratan de las observaciones específicas, va desde lo más
específico hasta lo general.
2. Método deductivo: formula primero las teorías y va desde lo general hasta lo más
específico.
pf3
pf4
pf5
pf8
pf9
pfa
pfd
pfe
pff
pf12
pf13
pf14
pf15
pf16
pf17
pf18
pf19
pf1a
pf1b
pf1c
pf1d
pf1e
pf1f

Vista previa parcial del texto

¡Descarga Resumen Estadística I y más Apuntes en PDF de Estadística solo en Docsity!

Estadística tema 1.

Primero hemos de definir lo que es la ciencia.

Por lo tanto, podemos decir que la ciencia es el conjunto de conocimientos que adquirimos

debido al razonamiento y la observación, sistemáticamente estructurados y de los cuales

deducimos principios y leyes generales las cuales tienen capacidad predictiva y podemos

comprobar de forma experimental.

Por otro lado, siempre ha estado la duda de si la psicología es una disciplina científica o no.

Pues bien, primero que nada, hemos de diferenciar las diferentes ramas de la ciencia. Están:

Ciencias duras; que son las ciencias naturales y físicas como la biología, la astronomía, física o

la química.

Estas ciencias se caracterizan por llevar a cabo experimentos comprobables y tener

predicciones constatables, se basan en modelos matemáticos y son extremadamente

objetivos, esto hace que tengan una predicción perfecta del objetivo.

Por otro lado, están las ciencias blandas; que son las subjetivas o empíricas, es decir la

psicología, la sociología, ciencias políticas, etc. Estas ciencias tienen como objetivo principal el

estudio del ser humano y gracias a ello se considera que no tienen una base experimental

rigurosa.

La ciencia tiene como resultado final ; la producción del conocimiento científico.

El objetivo de la ciencia es: describir, explicar, predecir y controlar el objeto de estudio.

Un objeto de estudio es cualquier fenómeno en el cual estemos interesados.

Entonces, teniendo todo ello en cuenta, ¿si tratamos nuestro objeto de estudio igual a como lo

hacen las ciencias duras, podemos decir que la psicología es una ciencia? Sí, debido a que

utilizamos el mismo método que en las ciencias duras, el método científico.

Y, ¿Qué es el método científico? Es un procedimiento por el cual ampliamos el conocimiento.

Gracias a la experimentación y observación.

¿Por qué ítems se caracteriza el método científico? Este se caracteriza por ser sistemático ,

pues tienen unas etapas definidas, además de ser reproducible , esto es sumamente útil

porque así podemos comprobar que los resultados obtenidos pueden repetirse en las mismas

circunstancias por otros investigadores.

No obstante, dentro de los métodos científicos hemos de clasificar los diferentes tipos que

existen:

  1. Método inductivo: se tratan de las observaciones específicas, va desde lo más

específico hasta lo general.

  1. Método deductivo: formula primero las teorías y va desde lo general hasta lo más

específico.

Pero, estos dos métodos se pueden fusionar y es por ello que en psicología utilizamos la fusión

de estos dos: el método hipotético-deductivo.

La investigación científica ha de seguir unos pasos/fases que son proporcionadas por el

método científico.

Estas fases son:

  1. El planteamiento de un problema: de cualquier fenómeno o situación de la cual

tengamos interés.

  1. Formulación de hipótesis: se trata de una declaración predictiva de los resultados.
  2. Contrastación empírica de los resultados: se comprueba si las hipótesis son correctas o

no.

Teniendo ya todo esto claro, nos centramos en la Estadística:

¿Qué es la Estadística? Se trata de una rama de las matemáticas que se puede definir como la

ciencia que resume y organiza datos y que tiene como objetivos extraer información de los

datos de una muestra y elaborar conclusiones de la población de dicha muestra.

Encontramos dos tipos de estadística:

  1. La estadística descriptiva : que tiene como objetivo caracterizar, describir y extraer

conclusiones sobre una muestra de datos. Es la primera fase de toda investigación.

  1. La estadística inferencial : Implica realizar inferencial sobre la población a partir de los

datos muestrales y requiere el cálculo de probabilidades.

Por otro lado, también es necesario definir unos conceptos básicos de la estadística:

  1. En primer lugar, Población o universo : se trata de un conjunto finito o infinito de

individuos, unidades o elementos que son el objeto de estudio y de los cuales se

obtiene información. Generalmente se simbolizan con la letra N.

  1. Muestra : se trata del subconjunto de la población, se utiliza para explicar

características del conjunto de la población. Generalmente se simboliza con la letra n.

  1. Muestreo : es el proceso de extracción de la muestra. Sirve para poder generalizar los

resultados de la muestra de la población y dicha muestra ha de ser representativa.

Existen dos tipos de muestreo:

3.1 el muestreo probabilístico : donde se determina la probabilidad que tiene cada

elemento de la población de formar parte de la muestra.

3.2 El muestreo no probabilístico : se desconoce o no se tiene en cuenta la

probabilidad asociada a cada una de las muestras posibles. No permite saber el

grado de representatividad de la muestra.

  1. Muestra representativa : se trata del subconjunto de sujetos que pertenecen a una

población determinada y tienen las mismas características generales que la población.

  1. Sesgo : error sistemático en el muestreo producido por una restricción en el proceso de

selección produciendo muestras no representativas.

  1. Parámetro : propiedad descriptiva de una población como lo es la media o la varianza
  2. Estadístico : propiedad descriptiva de una muestra como la media o la varianza
  3. Característica : propiedad o cualidad de un individuo como lo es el género.
  4. Modalidad : cada una de las formas en que se puede presentar una característica como

por ejemplo de género tenemos hombre y mujer.

ESTADÍSTICA TEMA 2.

Es importante siempre tener en cuenta que antes de comenzar a analizar los datos que

tenemos, revisar que no haya errores en la base de datos. Por lo tanto, debemos comprobar

que no haya:

  1. Valores imposibles: es decir que en una variable ordinal de 1 a 4 no puede haber

nunca un valor de 11.

  1. No quede ningún valor sin codificar.
  2. Que todos los valores estén codificados correctamente.
  3. Los valores perdidos se corresponden realmente con respuestas incompletas, esto se

hace examinando las tablas de frecuencia de cada variable.

Hemos de conocer lo que es un valor atípico o un outliers :

Se tratan de valores inusuales, generalmente por estar en el extremo superior o inferior de la

escala de medida de la variable.

➢ Se trata de un valor que es muy diferente al resto.

➢ Una de las ventajas es que podemos identificarlo, lo que resulta muy necesario ya que

puede distorsionar las conclusiones.

➢ Afecta a la tendencia central, la variabilidad y las relaciones entre variables.

Algunos procedimientos de detección de valores atípicos son, por ejemplo:

En gráficos:

Distribución de frecuencias, diagrama de caja y gráficos de control.

En formales :

Diferencia entre el resultado de los estadísticos robustos y no robustos y el test de Dixon o test

de grubs.

Por otro lado, los valores ausentes o perdidos son:

  1. Pueden darse por varias causas como un registro defectuoso de la información.
  2. La ausencia natural de la información
  3. Falta de respuesta total o parcial.

➢ Tendríamos que explorar el grado de valores perdidos que presentan las variables

cuando empezamos a trabajar con una nueva base de datos.

Hay diferentes motivos por los que podemos encontrar datos ausentes:

➢ MCAR (Missing completely at random) Pérdida aleatoria, los datos ausentes son

independientes.

➢ MAR (Missing at Random) La pérdida de un dato de una variable depende de otra

variable.

➢ NMAR (Not missing at random) La pérdida depende del valor de la variable.

Por lo tanto, ¿Qué debemos de hacer con las variables perdidas?

Tenemos dos opciones ante dichas variables.

La supresión:

Solo analizamos a los sujetos que tengan los datos completos en las variables que necesitamos

para hacer un análisis. Es importante saber que si falta un valor en una variable que no se está

utilizando el sujeto SÍ que se tiene en cuenta.

La imputación:

Proceso de estimación de los valores ausentes basados en valores validos de otras variables o

casos de la muestra.

  1. Podemos hacer una sustitución por la media general de la variable

DISTRIBUCIÓN DE FRECUENCIAS :

Los datos los solemos distribuir en filas y columnas para tener la información mejor resumida y

mejor vista. En las filas están las categorías o niveles de la variable las cuales deben de ser

  1. Mutuamente excluyentes
  2. Exhaustivas

Es decir, que todos los elementos de la muestra han de estar arreplegados en la

distribución (exhaustiva) en una sola ocasión (excluyente).

En la columna suelen ir:

1. Frecuencia absoluta : Se representa normalmente (𝑛

𝑖

Número de veces que se repite cada uno de los valores de una variable. La suma de todas

las frecuencias absolutas representa el total de la muestra (n).

Ejemplo: en una muestra de 500 estudiantes de psicología tenemos 400 mujeres y 100

hombres. La FRECUENCIA ABSOLUTA DE HOMBRES en la variable GÉNERO es de 100.

Mientras que la FRECUENCIA ABSOLUTA DE MUJERES en la variable GÉNERO es de

  1. Y la suma de las dos frecuencias absolutas sería el total de la muestra, en este

caso 500, que representa nuestra n.

2. Frecuencia absoluta acumulada: Se representa normalmente (𝑛

𝑎

llaman centiles ). Son 99 valores de la variable que la dividen en 100 secciones iguales. No se

pueden calcular en variables categóricas.

Gráficos :

GRÁFICAS PARA VARIABLES CUALITATIVAS :

  1. Pictograma o diagrama de sectores: cada sector representa una categoría de la

variable, el ángulo central es proporcional a la frecuencia.

  1. Diagrama de barras.

GRÁFICAS PARA VARIABLES CUANTITATIVAS: DISCRETAS (no tiene valores intermedios) Y

ORDINALES :

  1. Polígono de frecuencias (también llamado diagrama de línea): cada punto de inflexión

se sitúa a una altura proporcional a la frecuencia de cada valor; se unen los puntos

para formar una línea.

  1. Diagrama de barras (también acumulativo)

GRÁFICAS PARA VARIABLES CUANTITATIVAS: CONTINUAS

  1. Polígono de frecuencias (también acumulativo): Se trabaja con frecuencias acumuladas
  2. Histogramas: Las barras están unidas, indicando que existe continuidad entre los

valores de la variable.

  1. Gráficas exploratorias:

➢ Diagrama de tija y hoja

➢ Diagrama de caja y bigotes.

ESTADÍSTICA TEMA 3

Las medidas que caracterizan un grupo son aquellas que permiten describir o sintetizar sus

principales características, entre las cuales tenemos:

➢ Tendencia central

➢ La variabilidad

➢ La forma: asimetría y curtosis

Como hemos visto antes, cuando el grupo que se va a caracterizar es la población , la función

matemática que calculemos le denominamos parámetro. Mientras que, cuando el grupo que

se va a caracterizar es la muestra , la función matemática calculada recibe el nombre de

estadístico.

TENDENCIA CENTRAL:

Las medidas de tendencia central indican un valor representativo del grosor de los datos. La

medida de tendencia central resume todos los valores que tenemos en uno único. Por lo que

es una medida de síntesis de la posición que un grupo ocupa en el grado de posesión de una

variable. También se denomina medidas de posición grupal.

Las medidas más utilizadas son:

➢ La moda (Mo)

➢ La mediana (Mdn-md)

➢ La media aritmética (M o 𝑥̅ )

EJEMPLO:

Una clase de 15 personas ha sacado las siguientes notas en un examen: 4,7,5,6,5,4,5,5,5,6,5,4,4,5,

Ha simple vista podemos ver que el valor con mayor frecuencia es 5, por tanto, la

moda es: 5.

La moda es el valor de la variable que tiene mayor frecuencia, es decir, el valor que

más se repite.

Sus propiedades son las siguientes:

➢ Se puede calcular con datos nominales

➢ Las distribuciones pueden ser amodales, unimodales, bimodales o

multimodales en función de la cantidad de modas que haya.

➢ Es un estadístico muy inestable

➢ Si hay varios valores que se repiten igual de veces y son consecutivos, es decir,

(1,2,3…) la moda será la media de ellos.

➢ No utiliza todos los datos en su cálculo

Ejemplo: con los datos anteriores (ordenados):

Buscamos la media recortada al 20%: el 20% de 15 datos son 3 datos. (15 · 0,2: 3) entonces,

eliminamos 3 datos más pequeños y los 3 datos más altos, extremos. Entonces nos queda:

La media recortada al 20% es 5. Lo sabemos porque hemos aplicado la siguiente fórmula:

𝛴𝑥

𝑖

𝑛

No debemos olvidar que:

➢ La media recortada al 0% es igual a la media aritmética

➢ Es habitual calcularla recortada al 5%, evitando así valores atípicos

➢ Si la cantidad de datos a eliminar no es igual a un número entero se recomienda

utilizar una fracción de valor a través de una ponderación.

Una vez tenemos claros todos los tipos de medida de tendencia central que existe, hemos de

conocer sus criterios de uso :

Dependiendo de los datos que tenemos elegiremos una medida u otra.

Resistencia/Robustez: Decimos que un estadístico es robusto cuando no se ve influido por

cambios en los datos. La media es un estadístico poco robusto, puesto que considera todos los

datos para su cálculo. La mediana es un estadístico altamente resistente. Otro estadístico

robusto es por ejemplo la media recortada.

  1. Media :

➢ Es la norma general

➢ Tiene en cuenta todas las puntuaciones y por lo tanto es sensible

➢ Está en la base de las mejores pruebas de estadística inferencial

  1. Mediana :

➢ Si la variable es ordinal

➢ Si hay valores extremos porque no se ve afectada por las colas de la distribución, por

lo tanto, es robusta.

➢ Si la distribución es asimétrica

3. Moda

➢ Si la variable es nominal.

VARIABILIDAD:

La Variabilidad es la propiedad que nos informa del grado de heterogeneidad de un grupo.

Para representar adecuadamente la totalidad de un grupo:

➢ No es suficiente un único valor de tendencia central

➢ Necesitamos conocer cómo de diferentes son los miembros del grupo

➢ Nuestro objetivo es describir el grado de variación o dispersión de unos datos, es decir,

la similitud o homogeneidad que presentan

➢ Mayor dispersión es igual a mayores diferencias entre los datos.

➢ Es independiente de la tendencia central

Por otro lado, tenemos la amplitud total , rango o recorrido (AT) es la diferencia entre los

valores extremos. 𝐴𝑇 = 𝑋 𝑚𝑎𝑥 −𝑋 𝑚

𝑖

𝑛

No obstante, una de las desventajas que presenta es que no es sensible a todos los valores

(poco sensible al centro de la distribución y muy sensible a los extremos). Pero, como ventaja

tiene que se trata de un cálculo sencillo.

La varianza (VAR) es un estimador sesgado de la varianza poblacional. Es la media de las

diferencias cuadráticas respecto a la media aritmética.

La desviación típica (DT) es la raíz cuadrada de la varianza. Se representa de la siguiente

forma: 𝑆 𝑥

o σ

Propiedades de la varianza y desviación típica:

  1. Tanto VAR como DT son valores siempre positivos (oscilan desde 0 hasta infinito). Si no

hay variabilidad tanto la DT como VAR serán cero.

Otro concepto a tener claro es la cuasivarianza: es un estimador NO sesgado de la varianza

poblacional.

La cuasidesviación típica: es la raíz cuadrada de la cuasivarianza.

Son una variante de la DT y VAR que consiste en dividir por (n-1) en lugar de por n.

OTRAS MEDIDAS, AMPLITUD INTERCUARTÍLICA Y COEFICIENTE DE VARIANCIÓN :

La amplitud intercuartílica (AL o Q) es la distancia entre el Q1 y el Q34, se calcula la diferencia

entre el tercer cuartil y el primero.

➢ Es robusto porque no depende de las colas de la distribución, por lo cual se utiliza

dentro de la corriente del Análisis Exploratorio de Datos.

➢ Media de variabilidad adecuada cuando la media es la medida de tendencia central.

El coeficiente de variación (CV) Indica el porcentaje de dispersión respecto a la media. Eso es,

se trata de un indicador de variabilidad relativa, ya que la variabilidad absoluta (DT) la

relativiza o compara con la media del grupo.

Es el cociente entre la DT y la media en valor absoluto. Se trata del porcentaje que la DT

representa respecto a la media. Por ejemplo, un CV del 25% indica que la DT es una cuarta

parte de la media.

➢ Se tiene que poner en valor absoluto, por lo tanto, da igual que salga u número

negativo.

➢ Permite comparar y es útil para comparar la dispersión de una variable medida en

varios grupos con distintas escalas.

➢ Útil para comparar la variabilidad de distintas variables.

➢ Es sensible a las colas de distribución, puesto que se basa en la media y la DT que son

estadísticos sensibles.

La curtosis expresa el grado en que una distribución acumula casos en sus colas en

comparación con los casos acumulados en las colas de una distribución normal con la misma

varianza.

ESTADÍSTICA TEMA 4:

  • La principal función de las medidas de posición individual es la de estudiar la

posición de un sujeto respecto a su grupo.

  • Sirven para comparar puntuaciones obtenidas por sujetos de distintos grupos en

una misma variable.

  • Sirven para comparar puntuaciones obtenidas por un mismo sujeto en variables

distintas.

  • Los más utilizados son: Centiles o percentiles, rangos percentiles, cuartiles, deciles

y puntuaciones típicas.

Ejemplo: Un estudiante se ha examinado de Matemáticas y Lengua y ha obtenido un 6

en los dos exámenes. ¿En cuál de los dos su rendimiento ha sido mejor teniendo en

cuenta que el examen de Lengua ha sido muy fácil?

Los percentiles/centiles son 99 valores de la variable que la dividen en 100 secciones

iguales.

  • Los 99 valores que dividen la distribución en 100 partes iguales, es decir, con el

mismo porcentaje de datos (1%)

  • Las distancias entre ellos (en términos de puntuación) varían en función de la

forma de la distribución.

  • CP (centil P) = Puntuación que deja por debajo el P% de los datos
  • La variable tiene que estar como mínimo en escala ordinal. No se pueden calcular

en variables categóricas.

Los deciles son los centiles que dividen la variable en 10 secciones iguales

Decil 1= centil 10, decil 7= centil 70; …

Los cuartiles son los centiles que dividen la variable en 4 secciones iguales

Primer cuartil= centil 25; tercer cuartil= centil 75. Esto nos deja en claro que el segundo cuartil

es el centil 50 es decir, la mediana.

Ahora bien, el rango percentil de una puntuación x es el porcentaje de los datos con valores

iguales o inferiores a x. Tiene una función inversa a la del centil porque en el rango se parte la

puntuación por arriba del porcentaje.

CP → de P (porcentaje) a X (puntuación) CP significa centil

RCX → de X (puntuación) a P (porcentaje) RC Significa rango centil

Esto permiten la comparación de puntuaciones individuales sin necesidad de conocer la escala

de medida. 𝑅𝑝 𝑥

𝑓

𝑎

𝑛

Otro concepto que se utiliza mucho en estadística y por lo tanto es muy importante es la

puntuación típica. Las puntuaciones típicas indican el número de desviaciones típicas que una

observación se aleja de la media del grupo.

𝑖

𝑖

𝑥

Si por ejemplo z > 0, la observación está por arriba de la media

Si z = 0, la observación es igual a la media

Si z < 0, la observación está por debajo de la media.

Las principales característica y propiedades de la puntuación típica son las siguientes:

  • La media de las puntuaciones típicas de un conjunto de datos es 0.
  • La desviación típica y varianza de las puntuaciones típicas de un conjunto de datos

es 1.

  • Transformar una puntuación directa en puntuación típica no modifica la forma de

la distribución (transformación lineal).

Hacer una valoración individual solo con puntuaciones diferenciales es insuficiente, puesto que

influye la variabilidad del grupo.

Tiene dos funciones:

  1. Sirve para estudiar la posición de un sujeto respecto a su grupo. Pareciendo a la

función de los cuantiles.

  1. Sirve para comparar puntuaciones.
  2. Sirven también para detectar casos atípicos

Si Z >> o Z < - 3, se suele considerar que es un valor atípico porque se aleja mucho de la

media.

  1. Permite relacionar puntuaciones con porcentajes cuando conocemos el tipo de

distribución poblacional de la variable.

ESTADÍSTICA TEMA 5

En este tema vemos la asociación y para ello hemos de conocer lo que es un diagrama de

dispersión.

El diagrama de dispersión sirve para mostrar la distribución conjunta de dos variables. Estas

dos han de ser cuantitativas. Tanto el eje de abscisas (X) como el eje de ordenadas (Y)

representan los valores de las dos variables. Mientras que, los puntos simbolizan los distintos

valores de los sujetos.

Así como para variables cuantitativas tenemos el diagrama de dispersión, para variables

cualitativas o nominales utilizamos la tabla de contingencia. En esta tabla en la fila aparecen

las modalidades de una variable mientras que en la columna aparecen las modalidades de la

otra variable.

En cada casilla aparece la frecuencia conjunta de los distintos cruzamientos de modalidades.

Así mismo, esta tabla se puede utilizar para más de dos variables, pero resulta poco manejable.

Es importante también mencionar que las frecuencias marginales son las sumas de las

frecuencias conjuntas.

¿Qué es la covarianza?

La covarianza es un valor que indica el grado de variación conjunta entre dos variables.

𝑋𝑦

𝑖

𝑖

No obstante, antes de aplicar la covarianza es necesario tener en cuenta que :

  • Antes de su cálculo es necesario asegurarse de que existe una relación lineal
  • Es la media del producto de las puntuaciones diferenciales de cada sujeto en las

dos variables

  • Se trata de un valor resumen que nos dice CÓMO de relacionadas están las

variables

  • Si la relación es positiva o directa tendrá signo positivo y si tiene signo negativo la

relación será negativa o inversa

Pero, la covarianza presenta un problema y es que no es un índice acotado, es decir que es

infinito y no tiene en cuenta la variabilidad de las variables. La solución para este problema es

que utilizaremos el coeficiente de relación lineal de Pearson.

El coeficiente de correlación lineal de Pearson también mide el grado de covariación.

Proporción que se obtiene al dividir la covarianza entre las desviaciones típicas de cada una de

las dos variables. 𝑟

𝑥𝑦

𝑥

𝑦

➢ Derivado de la covarianza, pero con la diferencia de que tiene en cuenta la variabilidad

de los datos.

➢ Mide el grado de relación lineal

➢ Es un valor acotado entre - 1 y +

➢ Permite comparar correlaciones entre distintas variables

Es importante recordar siempre que la correlación no implica causalidad.

Por otro lado, la matriz de varianzas-covarianzas, ¿Qué es?

Esta es una matriz en la que se calculan todas las posibles covarianzas entre un conjunto de

variables.

La covarianza de una variable consigo misma es total y coincide es por ello que en la diagonal

de la matriz tenemos las varianzas, es decir, la relación entre la variable con si misma. Mientras

que, arriba y debajo de la diagonal estará la relación con las demás variables. Por otro lado, la

matriz es simétrica respecto a la diagonal.

Además de la matriz varianzas-covarianzas tenemos la matriz de correlaciones. Esta es una

matriz en la cual se calculan todas las posibles correlaciones lineales bivariados entre un

conjunto de variables. Al igual que en la matriz de varianzas-covarianzas a lo largo de la

diagonal de esta matriz encontraremos la relación que una variable tiene consigo misma, y

también es simétrica.

Por otro lado, el coeficiente de correlación de Pearson puede estar afectado por la influencia

de terceras variables.

El COEFICIENTE DE CORRELACIÓN PARCIAL ayuda a estudiar la relación entre dos variables

cuando se sabe que no hay una tercera influyendo en dicha relación.

Por lo tanto, la correlación parcial 𝑟 123

sería la correlación lineal entre la variable 1 (X) y 2 (y),

dejando como constante la variable 3 (z).

Pero, el coeficiente de correlación de Pearson solo se aplica para variables cuantitativas. Si se

trata de variables semicuantitativas , es decir, ordinales utilizaremos el coeficiente de

correlación de Spearman.

ESTADÍSTICA TEMA 6

Como bien se ha dicho antes la correlación no implica causalidad, pero predecir la variable a

partir de otra sí. Nuestro objetivo será obtener la fórmula matemática que exprese la relación

entre la variable X (VI) y la variable Y (VD).

  • Únicamente consideramos el caso de la relación lineal
  • La fórmula se representa como la línea que mejor resume los datos
  • Criterio de mínimos cuadrados

La función matemática de una línea recta es la siguiente: Y = A +BX

➢ X será la variable predictora

➢ Y será la variable criterio

➢ A es el valor de la ordenada en el origen

➢ B es la pendiente: unidades de incremento de Y por cada unidad de incremento de X.

En psicología es habitual tener información sobre algunas X e Y, por lo tanto, buscaremos los

valores correspondientes a, A y B.

Y, como haremos predicciones para Y (Y’) cometeremos errores, por lo tanto, la ecuación de la

recta para predecir la puntuación de un sujeto (Y’) será: Y’ = A + B + e

Características de la línea de regresión obtenida por medio del criterio de mínimos

cuadrados:

Error de estimación o residual (e):

diferencia entre el valor obtenido

en la variable Y, y el pronosticado

por el modelo (Y’)

Además, la suma de los errores

cuadráticos (errores de

estimación o residuales al

cuadrado) es mínima.

2

La relación lineal simple es un caso particular de la regresión lineal múltiple, donde solo

tenemos una VI. Normalmente, trabajamos con las puntuaciones b estandarizadas (típicas). En

lugar de indicar aumento de puntos en Y, indican aumento de desviaciones típicas en Y.

Las b estandarizadas las denotarán como Beta.

Β (pendiente de la recta) puede tener valores entre - 1 y +1, siendo cero la ausencia de relación

entre X e Y.

Α (ordenada en el origen/constante) siempre será cero.

Se interpreta de la siguiente manera: un cambio de una DT en X predice un cambio de β en Y.