Docsity
Docsity

Prepara tus exámenes
Prepara tus exámenes

Prepara tus exámenes y mejora tus resultados gracias a la gran cantidad de recursos disponibles en Docsity


Consigue puntos base para descargar
Consigue puntos base para descargar

Gana puntos ayudando a otros estudiantes o consíguelos activando un Plan Premium


Orientación Universidad
Orientación Universidad


Pruebas estadísticas, Resúmenes de Bioestadística

Resumen de pruebas estadísticas mas utilizadas

Tipo: Resúmenes

2020/2021

Subido el 22/02/2022

1 / 12

Toggle sidebar

Esta página no es visible en la vista previa

¡No te pierdas las partes importantes!

bg1
I
Materia: Bioestadística
ALUMNO: José Jorge Rivera Villazana
Trabajo: Pruebas estadísticas
Dra. Sandra Edith López Castañeda
Sección: 12
Fecha de entrega: 21 de enero de 2022
Facultad de Ciencias Médicas Y
Biológicas UMSNH
pf3
pf4
pf5
pf8
pf9
pfa

Vista previa parcial del texto

¡Descarga Pruebas estadísticas y más Resúmenes en PDF de Bioestadística solo en Docsity!

I

Materia: Bioestadística

ALUMNO: José Jorge Rivera Villazana

Trabajo: Pruebas estadísticas

Dra. Sandra Edith López Castañeda

Sección: 12

Fecha de entrega: 21 de enero de 202 2

Facultad de Ciencias Médicas Y Biológicas UMSNH

Datos continuos

Relación

→Correlación

Coeficiente de correlación de Spearman (ρ)

Nos permite conocer si hay correlación entre dos variables ordinales y cuantitativas cuando son muestras pequeñas, este se aplica en los siguientes casos:

  • Cuando las variables que se intentan asociar no tienen una distribución normal.
  • Cuando se intentan asociar dos variables ordinales.
  • Cuando se trata de muestras pequeñas, es decir cuando el tamaño de la muestra es menor o igual a 30 ; mayor o igual a 10. Su fórmula es la siguiente:

Donde:

D es la diferencia entre los correspondientes estadísticos de orden de x - y.

N es el número de parejas de datos.

Ventajas:

  • Al ser Spearman una técnica no paramétrica es libre de distribución probabilística.
  • Los supuestos son menos estrictos.
  • Es robusto a la presencia de outliers (es decir permite ciertos desvíos del patrón normal).
  • La manifestación de una relación causa-efecto es posible sólo a través de la comprensión de la relación natural que existe entre las variables y no debe manifestarse sólo por la existencia de una fuerte correlación.

Desventajas:

  • Indicándonos asociaciones negativas o positivas respectivamente, 0 cero, significa no correlación, pero no independencia.
  • La tau de Kendall es un coeficiente de correlación por rangos, inversiones entre dos ordenaciones de una distribución normal bi-variante.

Para llevar a cabo la correlación de Pearson es necesario cumplir lo siguiente:

  • La escala de medida debe ser una escala de intervalo o relación.
  • Las variables deben estar distribuida de forma aproximada.
  • La asociación debe ser lineal.
  • No debe haber valores atípicos en los datos.

Ventajas:

  • El valor es independiente de cualquier unidad que se utiliza para medir las variables.
  • Si la muestra es grande, es más probable la exactitud de la estimación.

Desventajas:

  • Es necesario las dos variables sean medidas a un nivel cuantitativo continuo.
  • La distribución de las variables deben ser semejantes a la curva normal. →Regresión

Regresión lineal

La regresión lineal es una técnica de modelado estadístico que se emplea para describir una variable de respuesta continua como una función de una o varias variables predictoras. Puede ayudar a comprender y predecir el comportamiento de sistemas complejos o a analizar datos experimentales, financieros y biológicos. Las técnicas de regresión lineal permiten crear un modelo lineal. Este modelo describe la relación entre una variable dependiente “y” (también conocida como la respuesta) como una función de una o varias variables independientes “Xi“ (denominadas predictores).

La ecuación general correspondiente a un modelo de regresión lineal es:

Donde β representa las estimaciones de parámetros lineales que se deben calcular y ϵϵ representa los términos de error.

Ventajas

  • Fácil de entender y explicar
  • Es rápido de modelar y es particularmente útil cuando la relación a modelar no es extremadamente compleja y no tiene mucha información.
  • Es menos propenso al sobreajuste.

Desventajas

  • No se puede modelar relaciones complejas.
  • No se pueden capturar relaciones no lineales sin transformar la entrada, por lo que tienes que trabajar duro para que se ajuste a funciones no lineales.
  • Puede sufrir con valores atípicos.

Son útiles

  • Dar un primer vistazo a un conjunto de datos.
  • Cuando se tiene datos numéricos con muchas características.
  • Realizar predicciones, aunque con cierto grado de error

Regresión Logística

Es un método de regresión que permite estimar la probabilidad de una variable cualitativa binaria en función de una variable cuantitativa. Una de las principales aplicaciones de la regresión logística es la de clasificación binaria, en el que las observaciones se clasifican en un grupo u otro dependiendo del valor que tome la variable empleada como predictor. Por ejemplo, clasificar a un individuo desconocido como hombre o mujer en función del tamaño de la mandíbula.

Datos: La variable dependiente debe ser dicotómica. Las variables independientes

pueden estar a nivel de intervalo o ser categóricas; si son categóricas, deben ser variables auxiliares o estar codificadas como indicadores.

Supuestos. La regresión logística no se basa en supuestos distribucionales en el

mismo sentido en que lo hace el análisis discriminante. Sin embargo, la solución puede ser más estable si los predictores tienen una distribución normal multivariante. Adicionalmente, al igual que con otras formas de regresión, la multicolinealidad entre los predictores puede llevar a estimaciones sesgadas y a errores estándar inflados. El procedimiento es más eficaz cuando la pertenencia a grupos es una variable categórica auténtica; si la pertenencia al grupo se basa en valores de una variable continua deberá considerar el utilizar la regresión lineal para aprovechar la información mucho más rica ofrecida por la propia variable continua.

Diferencia

→Dos grupos

Prueba de Wilcoxon Mann Whitney (WMW)

La prueba de Wilcoxon-Mann-Whitney (WMW) establece la diferencia de dispersión de datos de un grupo con respecto a otro, es usada como una alternativa para dos muestras independientes de la prueba t de Student

Características de la T de Student

  • Pertenece una familia de distribuciones de campana.
  • Es simétrica alrededor de una media de cero.
  • Es más aplanada que la distribución normal estándar.
  • Tiene mayo área en los extremos y menor área en el centro.
  • A medida que el tamaño de muestra aumenta, se aproxima a una distribución normal estándar. →Más de dos grupos

One way ANOVA

El análisis unidireccional de la varianza (ANOVA) se utiliza para determinar si existen diferencias estadísticamente significativas entre las medias de tres o más grupos independientes (no relacionados). El ANOVA unidireccional compara las medias entre los grupos que le interesan y determina si alguna de esas medias es estadísticamente significativamente diferente entre sí. Específicamente, prueba la hipótesis nula: donde μ = media del grupo y k = número de grupos. Sin embargo, si el ANOVA unidireccional devuelve un resultado estadísticamente significativo, aceptamos la hipótesis alternativa (HA),que es que hay al menos dos medias grupales que son estadísticamente significativamente diferentes entre sí.

¿Cuándo se utiliza?

Típicamente, sin embargo, el ANOVA unidireccional se utiliza para probar las diferencias entre al menos tres grupos, ya que el caso de dos grupos puede ser cubierto por una prueba t.

Los resultados de un ANOVA unidireccional pueden considerarse fiables

siempre que se cumplan los siguientes supuestos:

  • Los residuos de las variables de respuesta se distribuyen normalmente (o aproximadamente normalmente).
  • Las varianzas de las poblaciones son iguales.
  • Las respuestas para un grupo dado son variables aleatorias normales independientes e idénticamente distribuidas (no una muestra aleatoria simple (SRS)).

Prueba de Tukey

La prueba de Tukey, nombrado después Juan Tukey, es una prueba estadística utilizada general y conjuntamente con ANOVA, La prueba Tukey se usa en experimentos que implican un número elevado de comparaciones. Es de fácil cálculo puesto que se define un solo comparador, resultante del producto del error estándar de la media por el valor tabular en la tabla de Tukey usando como numerador el número de tratamientos y como denominador los grados de libertad del error Se conoce como Tukey-Kramer cuando las muestras no tienen el mismo número de datos

  • Dado que el análisis de varianza acuse un efecto significativo, la prueba de Tukey provee un nivel de significancia global de α cuando los tamaños de las muestras son iguales y de α a lo sumo a cuando no son iguales.
  • Se basa en la construcción de intervalos de confianza de las diferencias por pares. Si estos intervalos incluyen al 0, entonces no se rechaza la hipótesis nula

Prueba de Bonferroni

La prueba de Bonferroni permite comparar las medias de los t niveles de un factor después de haber rechazado la hipótesis nula (Ho) de igualdad de medias mediante la técnica ANOVA. Es un método que se utiliza para controlar el nivel de confianza simultáneo para un conjunto completo de intervalos de confianza. Es importante considerar el nivel de confianza simultáneo cuando se examinan múltiples intervalos de confianza porque las probabilidades de que al menos uno de los intervalos de confianza no contenga el parámetro de población es mayor para un conjunto de intervalos que para cualquier intervalo individual. Para contrarrestar esta tasa de error más elevada, el método de Bonferroni ajusta el nivel de confianza para cada intervalo individual, de manera que el nivel de confianza simultáneo resultante sea igual al valor que ha especificado. Ajusta el nivel de significación en relación al número de pruebas estadísticas realizadas simultáneamente sobre un conjunto de datos. Es un test de comparaciones múltiples. En este procedimiento se fija un nivel de significación α que se reparte entre cada una de las comparaciones consideradas y se utiliza la desigualdad de Bonferroni. El Test de Bonferroni se basa en la creación de un umbral por encima del cual la diferencia entre las dos medias será significativa y por debajo del cual esa diferencia no lo será de estadísticamente significativa. Suele ser bastante conservador y se utiliza más que todo cuando no son muchas las comparaciones a realizar y además, los grupos son homogéneos en varianzas. Una aproximación muy buena para su cálculo consiste en multiplicar el valor original de p, por el número de comparaciones posibles a realizar.

Condiciones para usar esta prueba

  • No es necesario que las muestras que se comparan provengan de una distribución normal.
  • Homocedasticidad: dado que la hipótesis nula asume que todos los grupos pertenecen a una misma población y que por lo tanto tienen las mismas medianas, es requisito necesario que todos los grupos tengan la misma varianza. Se puede comprobar con representaciones gráficas o con los test de Levenne o Barttlet.
  • Misma distribución para todos los grupos: la distribución de los grupos no tiene que ser normal pero ha de ser igual en todos (por ejemplo que todos muestren asimetría hacia la derecha).

Prueba de Dunn

La prueba del rango múltiple prueba las diferencias entre las medias empezando con la media más grande contra la segunda más grande, y así sucesivamente, comparando en cada caso con un valor crítico obtenido por tablas. La prueba de Dunn se puede usar para identificar qué medias específicas son significativas de las demás. La prueba de comparación múltiple de Dunn es una prueba no paramétrica post hoc (es decir, se ejecuta después de un ANOVA) (una prueba "sin distribución" que no asume que los datos provienen de una distribución en particular). →La hipótesis nula de la prueba es que no hay diferencia entre los grupos (los grupos pueden ser de igual o diferente tamaño). →La hipótesis alternativa para la prueba es que hay una diferencia entre los grupos.

  • Muy eficaz y popular debido a su poder de discriminación.
  • Si el nivel de protección es α, entonces las pruebas de las medias tienen un nivel de significación igual o mayor que α.

Datos categóricos

Prueba de Chi cuadrada (χ

La prueba de ji cuadrado es un método de prueba de hipótesis. Dos pruebas de ji cuadrado habituales implican comprobar si las frecuencias observadas de una o más categorías se ajustan a las esperadas.

Formula:

Para realizar este contraste se disponen los datos en una tabla de frecuencias. Para cada valor o intervalo de valores se indica la frecuencia absoluta observada o empírica (Oi). A continuación, y suponiendo que la hipótesis nula es cierta, se calculan para cada valor o intervalo de valores la frecuencia absoluta que cabría esperar o frecuencia esperada (Ei=n·pi , donde n es el tamaño de la muestra y pi la probabilidad del i-ésimo valor o intervalo de valores según la hipótesis nula). Este estadístico tiene una distribución Chi-cuadrado con k-1 grados de libertad si n es suficientemente grande, es decir, si todas las frecuencias esperadas son mayores que 5. En la práctica se tolera un máximo del 20% de frecuencias inferiores a 5. Si existe concordancia perfecta entre las frecuencias observadas y las esperadas el estadístico tomará un valor igual a 0; por el contrario, si existe una gran discrepancia entre estas frecuencias el estadístico tomará un valor grande y, en consecuencia, se rechazará la hipótesis nula. Así pues, la región crítica estará situada en el extremo superior de la distribución Chi-cuadrado con k-1 grados de libertad.

Prueba exacta de Fisher

La prueba de Fisher es el método exacto utilizado cuando se quiere estudiar si existe asociación entre dos variables cualitativas, es decir, si las proporciones de una variable son diferentes en función del valor de la otra variable. El valor p de la prueba exacta de Fisher es exacto para todos los tamaños de muestra, mientras que los resultados de la prueba de chi-cuadrada que examina las mismas hipótesis pueden ser inexactos cuando los conteos de celda son pequeños.

La prueba exacta de Fisher utiliza las siguientes hipótesis nulas y alternativas:

  • H 0 : (hipótesis nula) Las dos variables son independientes.
  • H 1 : (hipótesis alternativa) Las dos variables no son independientes. Supongamos que tenemos la siguiente tabla de 2 × 2: El valor p de una cola para la prueba exacta de Fisher se calcula como: