Docsity
Docsity

Prepara tus exámenes
Prepara tus exámenes

Prepara tus exámenes y mejora tus resultados gracias a la gran cantidad de recursos disponibles en Docsity


Consigue puntos base para descargar
Consigue puntos base para descargar

Gana puntos ayudando a otros estudiantes o consíguelos activando un Plan Premium


Orientación Universidad
Orientación Universidad


Estadística Descriptiva y Bioestadística: Conceptos Básicos y Muestreo, Resúmenes de Economía

bioestadistica, hipotesis de medias

Tipo: Resúmenes

2020/2021

Subido el 22/05/2023

barbyy12345
barbyy12345 🇪🇸

4 documentos

1 / 10

Toggle sidebar

Esta página no es visible en la vista previa

¡No te pierdas las partes importantes!

bg1
introducción a la inferencia estadística – bioestadística
¿para que nos sirve la bioestadística?
- Comparativo, investigación, predicción, análisis -> con este tipo de herramientas se llega a una conclusión
- Se utiliza para tratar de resolver una pregunta
- Se utiliza el método científico
- Tenemos varias hipótesis que tratamos de testear
- Analizar datos
La mejor hipótesis es:
- Que sea comprobable
- Que sea falseable
El proceso inductivo
De algo particular a algo general
La observación y el conocimiento previo (lectura, bibliografía) son importantes para hacerse una pregunta.
Se basa en que un investigador de una observación inicial genera una hipótesis, según esta se generara una predicción, se hace un experimento y si estos conforman
la hipótesis se puede decir que, si se encontró lo que se estaba buscando, si no es así vuelvo a modificar mi hipótesis, pero sigo amarrado a mi observación inicial.
- Es una forma de generar hipótesis sucesivas
- Es muy importante la observación
- El énfasis va en la verificación de la hipótesis
proceso hipotético deductivo
- El más usado
- Se inicia con newton
- Una observación inicial genera distintas hipótesis, generando diferentes predicciones.
- Se sustenta fuertemente en la experiencia previa y la investigación que realicen los investigadores
- Ha permitido el avance de la ciencia porque tiene pasos definidos en como ir avanzando en esa materia.
- Va de lo general a lo particular
- El énfasis se encuentra en la falsificación más que en la verificación de la hipótesis, todo esto nos permite ser críticos.
Inducción bayesiana
- Hipótesis nula (HO) no hay asociación entre variables porque es al azar, por lo tanto, la hipótesis no sirve.
- Ya tenemos información previa que viene de la observación para ajustar los datos nuevos, generando curvas con información, se ve si la curva varia con la
información ya obtenida.
- La hipótesis bayesiana es una hipótesis informada.
Estadística descriptiva – bioestadística
Parámetro -> es una cantidad numérica calculada sobre una población
- La altura media de los individuos en un país
- La idea de resumir la información que hay en la población en unos pocos números
Estadístico -> ídem (cambiar población por muestra)
- La altura media de lo que estamos en el aula
- Si un estadístico se usa para aproximar un parámetro también se le suele llamar estimador.
Resumen sobre estadístico
1. Estadístico de Posición: dividen un conjunto ordenado de datos en grupos con la misma cantidad de individuos-> cuantiles, percentiles, cuartiles y deciles.
Se define el cuantil de orden alfa como un valor de la variable por debajo del cual se encuentra una frecuencia acumulada.
Casos particulares son los percentiles, cuartiles, deciles y quintiles.
Percentil de orden K= cuantil de orden K/100 (dividen en 100 partes iguales)
pf3
pf4
pf5
pf8
pf9
pfa

Vista previa parcial del texto

¡Descarga Estadística Descriptiva y Bioestadística: Conceptos Básicos y Muestreo y más Resúmenes en PDF de Economía solo en Docsity!

introducción a la inferencia estadística – bioestadística ¿para que nos sirve la bioestadística?

  • Comparativo, investigación, predicción, análisis - > con este tipo de herramientas se llega a una conclusión
  • Se utiliza para tratar de resolver una pregunta
  • Se utiliza el método científico
  • Tenemos varias hipótesis que tratamos de testear
  • Analizar datos La mejor hipótesis es:
  • Que sea comprobable
  • Que sea falseable El proceso inductivo ▪ De algo particular a algo general ▪ La observación y el conocimiento previo (lectura, bibliografía) son importantes para hacerse una pregunta. ▪ Se basa en que un investigador de una observación inicial genera una hipótesis, según esta se generara una predicción, se hace un experimento y si estos conforman la hipótesis se puede decir que, si se encontró lo que se estaba buscando, si no es así vuelvo a modificar mi hipótesis, pero sigo amarrado a mi observación inicial.
  • Es una forma de generar hipótesis sucesivas
  • Es muy importante la observación
  • El énfasis va en la verificación de la hipótesis proceso hipotético deductivo
  • El más usado
  • Se inicia con newton
  • Una observación inicial genera distintas hipótesis, generando diferentes predicciones.
  • Se sustenta fuertemente en la experiencia previa y la investigación que realicen los investigadores
  • Ha permitido el avance de la ciencia porque tiene pasos definidos en como ir avanzando en esa materia.
  • Va de lo general a lo particular
  • El énfasis se encuentra en la falsificación más que en la verificación de la hipótesis, todo esto nos permite ser críticos. Inducción bayesiana
  • Hipótesis nula (HO) no hay asociación entre variables porque es al azar, por lo tanto, la hipótesis no sirve.
  • Ya tenemos información previa que viene de la observación para ajustar los datos nuevos, generando curvas con información, se ve si la curva varia con la información ya obtenida.
  • La hipótesis bayesiana es una hipótesis informada. Estadística descriptiva – bioestadística Parámetro - > es una cantidad numérica calculada sobre una población
  • La altura media de los individuos en un país
  • La idea de resumir la información que hay en la población en unos pocos números Estadístico - > ídem (cambiar población por muestra)
  • La altura media de lo que estamos en el aula
  • Si un estadístico se usa para aproximar un parámetro también se le suele llamar estimador. Resumen sobre estadístico
  1. Estadístico de Posición: dividen un conjunto ordenado de datos en grupos con la misma cantidad de individuos-> cuantiles, percentiles, cuartiles y deciles. ▪ Se define el cuantil de orden alfa como un valor de la variable por debajo del cual se encuentra una frecuencia acumulada. ▪ Casos particulares son los percentiles, cuartiles, deciles y quintiles. Percentil de orden K= cuantil de orden K/100 (dividen en 100 partes iguales)

▪ La mediana es el percentil 50 ▪ El percentil de orden 15 deja por debajo al 15% de las observaciones. Por encima queda el 85% ▪ Entre 2 percentiles consecutivos contienen el 1% de los datos. Cuartiles dividen a la muestra en 4 grupos con frecuencias similares (3 valores de la variable) ▪ Primer cuartil percentil 25 cuantil 0, ▪ Segundo cuartil percentil 50 cuantil 0,5 mediana ▪ Tercer cuartil percentil 75 cuantil 0,

  1. Estadístico de Centralización: indican valores con respecto a los que los datos parecen agruparse-> Media - > media aritmética (promedio) de los valores de una variable, suma de los valores dividido por el tamaño muestral.
  • Media de 2,2,3,7 es 3.
  • Conveniente cuando los datos se concentran simétricamente con respecto a ese valor, muy sensible a valores extremos
  • Centro de gravedad de los datos Mediana - > es un valor que divide las observaciones en 2 grupos con el mismo numero de individuos (percentil 50), si el numero de datos es par, se elige la media de los datos centrales
  • Mediana de 1,2,4,5,6,6,8 es 5
  • Mediana de 1,2,4,5,6,6,8,9 es (5+6) /2=5,
  • Es cuando los datos son asimétricos, no es sensible a valores extremos Moda - > es el/los valores donde la distribución de frecuencia alcanza un máximo
  • El dato que + veces se repite o tiene mayor frecuencia de aparición
  1. Estadístico de Dispersión: indican la mayor o menor, concentración de los datos con respecto a las medidas de centralización, miden el grado de dispersión (variabilidad) de los datos, independiente de su causa. ▪ Amplitud o rango
  • Diferencia entre observaciones extremas
  • 2,1,4,3,8,4 el rango es 8-1=
  • Muy sensible a los valores extremos ▪ Rango intercuartílico
  • Distancia entre primer y tercer cuartil.
  • Rango intercuartílico: P75-P
  • Parecido al rango, pero eliminando las observaciones + extremas inferiores y superiores.
  • No es tan sensible a valores extremos ▪ Varianza S
  • Mide el promedio de las desviaciones (al cuadrado), de las observaciones con respecto a la media
  • Sensible a valores extremos (alejados de la media)
  • Sus unidades son el cuadrado de las variables de interpretación difícil para un principiante. ▪ Desviación típica
  • Es la raíz cuadrada de la varianza tiene las mismas dimensionalidades (unidades) que la variable
  • Cierta distribución que veremos mas adelante (normal o gaussiana) quedara completamente determinada por la media y la desviación típica
  • A una distancia de una desviación típica de la media “hay mas de la mitad” de las observaciones
  • A una distancia de 2 desviaciones típica de la media tendremos casi todas las observaciones
  1. Forma: asimétrica, apuntamiento o curtosis Gráficos para variables cuantitativas Diagrama de barras
  • Alturas proporcionales a las frecuencias (abs o relativa)
  • Se aplican también a variables discretas

IC: donde: Za/2 es el valor critico para un determinado nivel de confianza

  • 90% de confianza Z=1.
  • 95% de confianza Z=1.96 - > representa cuanto de la AUC (todos los valores posibles) estoy considerando.
  • 99% de confianza Z=2.
  • Producto de una formula al aumentar el nivel de confianza, el intervalo se hará + ancho, por lo tanto, al aumentar la confianza disminuye la precisión de mi estimación.
  • No podemos determinar el valor exacto a partir de una muestra, pero se puede inferir un rango con cierta confianza. Distribución de muestreo No todas las variables de interés tienen una distribución normal, por ejemplo:
  • Probabilidades 0- 1
  • Resultado pruebas diagnósticas: positivo/negativo
  • Conteo de huevos parásito: números enteros positivos (solamente) Existen familias de distribuciones que describen otros tipos de variables: Beta binominal, poisson. Para realizar una inferencia apropiada debo conocer la forma /tipo de mi variable de interés. Veamos un ej: Intervalo de confianza de una proporcion ▪ Proporcion: el numerador esta contenido en el denominador ▪ Prop= a/a + b ▪ Solo puede tomar valores entre 0 y 1 Tipos de muestreo, diseño de estudios- bioestadística Para que el estadístico sea un estimador correcto del parámetro de interés
  • El estimador debe ser obtenido desde una muestra representativa ¿Qué es una muestra representativa?
  • Aquella que en las características que se observan (en la muestra) corresponden con la población de la cual se extrajo. ¿Como obtengo una muestra representativa?
  • A través de un correcto diseño de muestreo
  • Permite obtener resultados válidos y precisos Validez
  • Capacidad de un estudio para estimar un parámetro lo más cercano posible al verdadero valor
  • Un estudio es válido si sus resultados corresponden a la verdad
  • Por ello requiere de un método para realizar mediciones y estimaciones validas
  • Las cuales se ven afectadas por el error aleatorio y el error sistemático
  • Una correcta validez me permite la generalización de los resultados de la investigación hacia la población Precisión
  • Se refiere al grado de dispersión que tendrían mediciones repetidas del parámetro, alrededor de un valor determinado Muestreo, selección de participantes
  • La muestra que uno obtiene tiene que ser un subconjunto de la población blanco de la que yo quiero hablar.
  • Vamos a tener población blanco, fuente, elegible y población muestra. Definiciones Unidad de análisis - > unidad para la cual se desea obtener la información (ej lecheria) Población o universo - > es un conjunto de individuos, elementos u objetos con alguna característica en común (vacas en la lechería)

Unidad de muestreo - > unidad que se selecciona del marco del muestreo (cuartos mamarios, vaca con tuberculosis etc.)

  • precisión más pequeña pueden ser partes de un individuo. Un individuo, o grupos de individuos.
  • Cuarto mamario
  • Animal
  • Grupo de animales en un corral/potrero Marco de muestreo-> totalidad de las unidades de muestreo (listado de las lecherías). Fuente de errores (o sesgo) ¿Porque mi muestra no es representativa? Error aleatorio
  • Mediciones repetidas en una misma población varían de forma no predecible
  • Depende las variables bajo estudio
  • Disminución de la precisión Solución tamaño: tamaño de la muestra (aumentar) Error sistemático
  • Sesgo de selección
  • Sesgo de medición Error o sesgo
  • El estadístico que utilizamos para inferir la medición de la población puede estar “sesgado” (no representa a la población se infiere que fue por errores de diseño) Problema en diseño (sesgo de selección)
  • El nivel económico en la población de estudio es mayor en el objetivo
  • Los individuos que se eligen en la calle pueden ser de mayor edad Error de elementos de medición
  • Equipos mal calibrados Error del observador
  • Pasar mal las encuestas Errores sistemáticos
  • Ocurre cuando hay una tendencia de producir resultados que difieren de manera sistemática de los verdaderos valores
  • Un estudio con un error sistemático pequeño es considerado altamente valido Sesgo de selección - > hay una diferencia sistemática (entre los individuos que participen y no participen, sin embargo esta selección no representa a una población)
  • Individuos seleccionados
  • Los no seleccionados Fuentes: efecto sano/enfermo, voluntarios, participantes pagados, muestreo clínicas/hospitales, convivencia.
  • Solución - > aleatorización y estratificación Sesgo de información (errores mas comunes en el muestreo)
  • Resulta de una medición sistemática equivocada de la exposición o el evento
  • También conocido como sesgo de mala-clasificación

Factores que afectan al muestreo

  • Disposición espacial: yo puedo querer realizar una investigación de un animal de un respectivo lugar, pero quizás el animal no se encuentre ahí.
  • Disposición temporal: animales que quizás migren en diferentes estaciones del año.
  • Conducta del muestreador: no se ha entrenado bien, no ingresa bien los datos etc.
  • Técnica de muestreo
  • Respuesta conductual del animal Fuentes y métodos de obtención-recolección
  • Fuente de datos: primarias y secundarias Métodos de obtención de datos de fuentes primarias
  • Observación o medición
  • Entrevista (interrogación)
  • Cuestionario autoadministrado Recolección de datos de fuentes secundarios
  • Datos previamente publicados Introducción a la prueba de hipótesis - Bioestadística Prueba de hipótesis
  • es el proceso de formular y verificar una proposición o hipótesis acerca de una o mas poblaciones usando datos muestrales
  • Este proceso requiere de un procedimiento objetivo que permite aceptar o rechazar una hipótesis. Etapas de una prueba de hipótesis
  1. Planteamiento de hipótesis
  2. Selección del estadístico de la prueba; verificación de supuestos
  3. Establecimiento del nivel de significación
  4. Determinación de la región de rechazo
  5. Cálculo del estadístico y del valor p
  6. Decisión estadística Hipótesis de nulidad
  • los grupos comparados no difieren de características (parámetro) en estudio, la diferencia observada es consecuencia del error de muestreo (son iguales y la variabilidad no comienza a hacer diferencias).
  • Si aceptamos la hipotesis nula no habra diferencias.
  • Si rechazamos la hipotesis nula, se debe aceptar la alternativa.
  • La hipotesis nula se formula con el proposito expresode rechazarla. Hipótesis alternativa
  • Los grupos difieren en la característica en estudio por lo tanto la diferencia observada es efectiva (son distintas)
  • Hipótesis alternativa es la formulación operativa de la investigación del investigador
  • Ambas hipótesis deben enunciarse antes de la recolección de datos El tipo de hipótesis de investigación determina la forma de plantear la hipótesis alternativa.
  • Si H1 indica la dirección de la diferencia (H1:pi1>pi2 o bien H1:pi1<pi2) se tiene una prueba unilateral o de una cola
  • si no se indica la dirección de la diferencia (H1:pi1 diferente pi2) entonces es una prueba bilateral o de dos colas. Esta ultima es la forma habitual de expresar hipótesis alternativa. Selección del estadístico de la prueba
  • El estadístico de la prueba es la cantidad muestral que resulta de una expresión algebraica particular de cada hipótesis que se esta evaluando.
  • Cada estadístico tiene su propia distribución de muestreo
  • Verificación de supuestos distribución de los datos (normalidad en los datos) Establecimiento del nivel de significación
  • Para resolver la disyuntiva de hipótesis, la decisión que se toma no es de certeza sino de probabilidad; en consecuencia, está sometida a error.
  • Se rechaza hipótesis nula si el estadístico da un valor cuya probabilidad asociada de ocurrencia, bajo H0 es igual o menor a una pequeña probabilidad simbolizada por alfa denominado nivel de significación.
  • El nivel de significación alfa es definido por el investigador y es antes de realizar el estudio. Habitualmente un nivel de 5% (alfa=0,05) o de 1% (alfa=0.0.1).
  • El criterio para rechazar la hipótesis nula debe establecerse previo al examen de los datos. Determinación de la región de rechazo
  • Consiste en un conjunto de valores posibles tan extremos que cuando la hipótesis nula es verdadera la probabilidad es muy pequeña de que la muestra seleccionada produzca un valor que caiga en esa región.
  • La probabilidad asociada con cualquier valor en la región de rechazo es igual o menor que alfa. Cálculo del estadístico de la prueba y del valor p
  • A partir de los datos se calcula el estadístico de la prueba
  • Asociado a cada valor del estadístico de la prueba hay una probabilidad denominada valor p que describe la chance de obtener el efecto observado (o uno mas extremo) si la hipótesis nula es verdadera.
  • El valor p esta asociado a una probabilidad de los datos, y veremos si es > o < que alfa 0,05. Decisión estadística
  • Si el valor de p es pequeño (<alfa) es improbable que se hubiera obtenido una diferencia igual o mayor que la diferencia observada si es que la hipótesis nula fuera verdadera, por lo tanto, se concluye que se tiene evidencia suficiente para rechazar hipótesis nula. Se dice que el resultado es estadísticamente significativo.
  • Si el valor de p es grande (>alfa) es probable que se hubiera obtenido una diferencia como la observada si es que la hipótesis nula fuera verdadera, por lo tanto, se concluye que no se tiene evidencia suficiente para rechazar hipótesis nula
  • Se dice que el resultado no es estadísticamente significativo Región critica
  • Valores improbables
  • Es conocida antes de realizar experimentos: resultados experimentales que refutaran la hipótesis nula Nivel de significación
  • Numero pequeño 1% 5%
  • Fijado de antemano por el investigador
  • Es la probabilidad de rechazar la hipótesis nula cuando es cierta. Contrastes unilateral y bilateral - > la posición de la región critica depende de la hipótesis alternativa
  • Significación P Errores de la prueba de hipótesis
  • En una prueba de hipótesis pueden cometerse dos tipos de errores
  1. El rechazar hipótesis nula siendo esta verdadera
  • se llama error tipo I (definido por alfa)
  • La probabilidad de cometer el error de tipo I es alfa, es la probabilidad de rechazar en forma incorrecta la hipótesis nula.
  • Este tipo de error se controla estableciendo en la etapa de diseño el nivel de alfa que llevara al rechazo de la hipótesis nula, por ejemplo, se decide rechazar hipótesis nula si p<alfa.
  1. El no rechazar hipótesis nula cuando es falsa
  • se llama error tipo II (tamaño muestral)
  • La probabilidad de cometer el error de tipo II se designa por beta. Es la probabilidad de no rechazar la hipótesis nula cuando es falsa.
  • El erro beta se controla en la etapa de diseño, al considerar aquellos factores que afectan beta, como ser: alfa el tamaño de la muestra, la magnitud del efecto de interés y la variabilidad de los datos.

Prueba de hipótesis para medias: dos muestras Diferencia de medias (varianzas iguales):

  • Interesa averiguar si dos medias poblacionales, u1 y u2 son iguales o bien si la diferencia entre ambas es un cierto valor dado
  • Se supondrá poblaciones independientes y normalmente distribuidas.
  • Para llevar a cabo la prueba de hipótesis, se toman dos muestras una de cada población, de tamaño n1 y n2, se estiman los parámetros mediante sus estimadores x1 y x2 se analizará solo el caso en que las varianzas en cada población son iguales (homocedasticidad) y además desconocidas. Supuestos
  • Muestreo aleatorio
  • Independencia de las mediciones
  • Homocedasticidad (igual varianza dentro de los grupos) de las varianzas (prueba de levene) Distribución normal de la variable respuesta
  • Residuales deben seguir una distribución normal Si no se cumplen estos supuestos
  1. Transformar datos - > esto significa que realizamos un tratamiento a los numeros ya sea logaritmos, sacar raiz cuadrada, etc. En simples palabras forzamos los datos
  2. Análisis no paramétrico
  • La alternativa no paramétrica de la prueba de t para dos muestras es la prueba de la suma de rangos o prueba de mann Whitney (observaciones no tienen una distribución normal) y aquí utilizamos la mediana como estadistico para pruebas no parametricas.