









Prepara tus exámenes y mejora tus resultados gracias a la gran cantidad de recursos disponibles en Docsity
Gana puntos ayudando a otros estudiantes o consíguelos activando un Plan Premium
Prepara tus exámenes
Prepara tus exámenes y mejora tus resultados gracias a la gran cantidad de recursos disponibles en Docsity
Prepara tus exámenes con los documentos que comparten otros estudiantes como tú en Docsity
Encuentra los documentos específicos para los exámenes de tu universidad
Estudia con lecciones y exámenes resueltos basados en los programas académicos de las mejores universidades
Responde a preguntas de exámenes reales y pon a prueba tu preparación
Consigue puntos base para descargar
Gana puntos ayudando a otros estudiantes o consíguelos activando un Plan Premium
Comunidad
Pide ayuda a la comunidad y resuelve tus dudas de estudio
Ebooks gratuitos
Descarga nuestras guías gratuitas sobre técnicas de estudio, métodos para controlar la ansiedad y consejos para la tesis preparadas por los tutores de Docsity
Asignatura: Estadística y Metodología de la Investigación, Profesor: Beatriz Pateiro, Carrera: Enfermería, Universidad: USC
Tipo: Apuntes
1 / 15
Esta página no es visible en la vista previa
¡No te pierdas las partes importantes!










Estadística y metodología de la investigación Curso 2015- Pedro Faraldo, Beatriz Pateiro
La estadística descriptiva es un conjunto de técnicas numéricas y gráficas para describir y analizar un grupo de datos, sin extraer conclusiones (inferencias) sobre la población a la que pertenecen. En este tema se introducirán algunas técnicas descriptivas básicas, como la construcción de tablas de frecuencias, la elaboración de gráficas y las principales medidas descriptivas de centralización, dispersión y forma que permitirán realizar la descripción de datos.
Ejemplo 1: Con objeto de hacer un estudio sobre la salud de los habitantes de una ciudad con edades entre 18 y 60 años, se recogen en un centro médico datos sobre análisis realizados a 100 pacientes mayores de 18 años y menores de 60 que aparentemente no presentan problemas de salud graves. De los análisis realizados se recoge el sexo del paciente, el antígeno del grupo sanguíneo (A, B, AB o 0), el pH de la sangre y el ácido úrico, además de la edad. La distribución de los antígenos en la población Española es de 45 % para el 0, 42 % para el A, 10 % para el B y 3 % para el AB. Además, los valores normales del pH en sangre están entre 7.35 y 7.45 y los del ácido úrico están entre 2.4 y 7 mg/dL.
En cualquier análisis estadístico el objetivo último es extraer conclusiones sobre un colectivo de interés denominado población. En ocasiones, el tamaño de la población (formada por individuos) puede hacer inabordable el estudio individualizado de las características de cada uno de ellos. Si se quisiera realizar un estudio sobre el nivel de glucemia en los varones adultos en España, sería imposible realizar una toma de glucemia en cada uno de ellos. Para solucionar este problema, dichas mediciones se realizaran sobre una muestra.
Población: colectivo de individuos sobre los que se quiere extraer alguna conclusión.
Individuo: cada uno de los elementos de la población (unidad estadística).
Muestra: subconjunto (representativo) de la población, que se selecciona con el objetivo de extraer infor- mación.
En el Ejemplo 1, la población está formada por los habitantes de la ciudad que tienen entre 18 y 60 años. Cada uno de ellos es un individuo de la población. Los 100 pacientes sobre los que se recoge la información forman la muestra.
Las técnicas de estadística descriptiva permiten describir y analizar un grupo dado de datos, sin extraer conclu- siones (inferencias) sobre la población a la que pertenecen. Se tendrá que recurrir a la inferencia estadística, que es la parte de la Estadística que trata las condiciones bajo las cuales las inferencias extraídas a partir de una muestra son válidas, para extraer conclusiones sobre la población de interés. Para aplicar una técnica descriptiva, numérica o gráfica, será necesario analizar previamente el tipo de variable con la que se está trabajando.
Variable estadística: cada una de las características consideradas con el propósito de describir a cada individuo de la muestra.
Tipos de variables: distinguiremos dos tipos de variables. Las variables cualitativas o categóricas (aquellas que no se pueden expresar a través de una cantidad numérica) y las variables cuantitativas (se puede expresar a través de un número). A su vez, estas últimas pueden clasificarse en discretas y continuas, según el tipo de valores que tomen. En el Cuadro 1 se incluyen algunos ejemplos.
Tipo Clases Ejemplo
Cualitativa Nominal Sexo, raza, color de ojos,... Ordinal Grado de contaminación, calificación,...
Cuantitativa Discreta No^ de hermanos, no^ de materias, ... Continua Peso, altura, ...
Cuadro 1: Tipos de variables estadísticas.
Volviendo al Ejemplo 1, el sexo y el antígeno del grupo sanguíneo son variables estadísticas cualitativas (nominales). El pH en sangre y el ácido úrico son variables cuantitativas continuas y la edad es cuantitativa discreta. La edad como puede presentar muchos valores (desde 18 a 60, si se mide en años), por lo que para su tratamiento podrían utilizarse técnicas propias de las variables cuantitativas continuas.
Para un grupo de 21 pacientes de la muestra, se tienen los siguientes datos sobre el antígeno.
Paciente 1 2 3 4 5 6 7 8 9 10 11 Grupo AB 0 A B 0 0 B A B 0 B Paciente 12 13 14 15 16 17 18 19 20 21 Grupo A 0 0 A B B 0 0 0 AB
Para estos datos, podemos construir una tabla de frecuencias, calculando frecuencias absolutas y relativas, así como las respectivas acumuladas. ¿Cuál es la proporción de individuos con grupo A en la muestra? ¿Y con grupo A o B?
En el caso de variables cualitativas o cuantitativas discretas con pocos valores, es posible determinar las mo- dalidades de la variable. Sin embargo, en el caso de variables cuantitativas continuas (o cuantitativas discretas con muchos valores), se tendrán que construir modalidades artificiales de manera que se agrupen valores por intervalos. Estas nuevas modalidades se denominan intervalos de clase.
Intervalos de clase: para variables cuantitativas continuas, se agrupan los distintos valores obtenidos en la muestra en intervalos. Cada intervalo representará una modalidad en el caso de variables cuantitativas continuas. A partir de una muestra, los intervalos de clase se construyen de la siguiente forma:
ei − 1 + ei 2
n, donde n es el tamaño de la muestra observada. El número de intervalos suele estar entre 5 y 20. Para determinar la amplitud de los intervalos (en principio, todos de la misma amplitud), tenemos que ver antes cuál es el rango de variación de los datos (diferencia entre el máximo y el mínimo), y construir los intervalos de manera que cubran todo el rango.
La clasificación de variables que se ha expuesto en la sección anterior, distinguiendo entre variables cualitativas y cuantitativas (discretas y continuas) es de crucial importancia a la hora de construir representaciones gráficas. De modo esquemático, se introducen las principales técnicas de representación para variables cualitativas, variables cuantitativas discretas y cuantitativas continuas. En el caso de variables cuantitativas discretas, si tienen pocos valores, se puede hacer uso de las representaciones descritas para variables cualitativas (diagramas de barras y sectores). Si por el contrario toman muchos valores, entonces se pueden utilizar las representaciones para variables cuantitativas continuas.
Variables cualitativas. Para la representación de variables cualitativas se suelen utilizar el diagrama de barras o el diagrama de sectores. Para construir un diagrama de barras, en el eje horizontal se representan las categorías o modalidades de la variable que se quiere representar y se levantan barras de altura pro- porcional a la frecuencia de cada modalidad (absoluta o relativa). En el diagrama de sectores también se representan las distintas modalidades y su frecuencia, de manera que el círculo se reparte de forma proporcional a la frecuencia de cada modalidad. Algunos ejemplos de estas representaciones para datos de participación en redes sociales en un grupo de 180 jóvenes se muestran en la Figura 1.
Figura 1: Diagrama de barras y diagrama de sectores para datos de pertenencia a redes sociales.
Variables cuantitativas discretas. Además del diagrama de barras descrito para las variables cualitativas, que también se puede utilizar para variables cuantitativas discretas, para la representación de este tipo de variables se tiene el diagrama acumulativo de frecuencias. El diagrama acumulativo de frecuencias se construye representando, para cada modalidad de la variable ci, los puntos (ci; Ni) (o bien (ci; Fi)) y uniéndolos con segmentos horizontales y verticales, de forma que se obtiene una función escalonada. Si se utilizan las frecuencias relativas acumuladas, el valor máximo del diagrama acumulativo se alcanza en el 1, mientras que si se construye con las frecuencias absolutas acumuladas, el máximo será el número de datos de la muestra. Se muestran el diagrama de barras y el diagrama acumulativo de frecuencias para la variable "número de hijos de una familia" en la Figura 2.
Figura 2: Diagrama de barras y diagrama acumulativo de frecuencias para el número de hijos de una familia.
Variables cuantitativas continuas. En el caso de variables cuantitativas continuas, podemos construir el polígono (acumulativo) de frecuencias, de igual modo que el diagrama acumulativo de frecuencias ex- plicado para variables cuantitativas discretas, pero considerando las marcas de clase de cada intervalo ei en la representación. Sin embargo, son más usuales otras representaciones como el histograma y el diagrama de tallo y hojas.
El histograma equivale en cierto modo al diagrama de barras, pero en el caso continuo, de forma que las barras aparecen contiguas. En el eje horizontal se representan los intervalos de clase de la variable, y
Las medidas de posición o localización nos indican el valor o valores alrededor de los cuales se sitúan los datos observados. Distinguiremos medidas de localización de tendencia central (media, mediana y moda) y de tendencia no central (cuartiles, deciles y percentiles).
5.1.1 Medidas de posición de tendencia central.
Como medidas de posición de tendencia central se introducirán la media aritmética o media muestral, la mediana y la moda. Estas medidas nos proporcionan valores alrededor de los cuales se distribuyen los datos observados en la muestra.
Media aritmética. Se define como:
¯x =
x 1 + : : : + xn n
∑n i=1 xi n
La media aritmética (media muestral) presenta las siguientes propiedades, que son fáciles de deducir a partir de la definición.
m´ın { x 1 ; : : : ; xn } ≤ ¯x ≤ m´ax { x 1 ; : : : ; xn } :
1 n
∑^ n
i=
(xi − x¯) = 0:
¯x = arg m´ aın
n
∑^ n
i=
(xi − a)^2 :
El valor de la media no tiene porqué pertenecer al conjunto de posibles valores de la variable. Por ejemplo, puede resultar que el número medio de hermanos de una muestra no sea un número entero. Uno de los problemas que presenta la media es que no es una medida robusta, es decir, su valor se ve influenciada por datos anormalmente altos o bajos. Los datos que difieren numéricamente de las demás observaciones se denominan valores atípicos. Algunas modificaciones para corregir la falta de robustez son la media truncada y media recortada. En la media truncada, un porcentaje de los datos atípicos se elimina del cálculo y para obtener una media recortada, estos valores atípicos se substituyen por el punto de corte, es decir, el dato inmediatamente inferior a los que se eliminan, para datos altos, y el inmediatamente superior para los datos bajos.
Otra modificación es la media ponderada en la cual se asigna distintos pesos a las observaciones. En la media aritmética cada observación tiene una contribución de peso 1 /n al valor de x. En la media ponderada, cada observación tendrá una ponderación ωi, de tal modo que
∑n i=1 ωi^ = 1.
En el caso de que se disponga de datos agrupados en una tabla de frecuencias, la media aritmética se calcula como: ¯x =
∑^ k
i=
cifi =
∑k i=1 cini n ;
donde ci es la marca de clase y k denota el número de intervalos de clase de los que se dispone. Las propiedades anteriormente descritas también se aplican a este caso.
Mediana. Si suponemos que los datos de la muestra están ordenados de menor a mayor, la mediana es el valor hasta el cual se encuentran el 50 % de los casos. Por tanto, la mediana dejará la mitad de las observaciones por debajo de su valor y la otra mitad por encima. Así, si la muestra consta de un número impar de datos (n impar), la mediana será el dato central. Si el tamaño de la muestra n es par, entonces se tomará como mediana la media de los dos datos centrales. En el caso de tener la variable representada en una tabla de frecuencias, podemos definir el intervalo mediano, que será aquel cuya frecuencia relativa acumulada en el extremo inferior es menor que 1/2 y en el extremo superior mayor que 1/2. La mediana, a diferencia de la media, es una medida robusta ya que su valor se ve poco afectado por la presencia de datos atípicos. Si de una muestra se obtienen la media y la mediana y sus valores difieren sustancialmente, esto será indicativo de la presencia de datos atípicos.
Moda. Para variables discretas o cualitativas, la moda es el valor o valores que más se repiten. Esto implica que la moda no tiene porqué ser única. Para variables cuantitativas continuas, el intervalo modal es aquel con mayor frecuencia. La moda se denotará por Mo.
Si los datos se encuentran agrupados, se puede obtener el intervalo modal como aquel que tiene una mayor frecuencia.
5.1.2 Medidas de posición de tendencia no central
Como medidas de posición de tendencia no central, introduciremos los cuartiles, deciles y percentiles.
Cuartiles. Los cuartiles Q 1 , Q 2 y Q 3 dividen la muestra en cuatro partes iguales, de manera que por debajo de Q 1 tenemos el 25 % de los datos, entre Q 1 y Q 2 se encuentra otro 25 % y por encima de Q 3 otro 25 %. La idea de dividir la muestra en partes iguales se puede generalizar a la construcción de los deciles (d 1 ; : : : ; d 9 , dividen la muestra el 10 partes iguales) y los percentiles (p 1 ; : : : ; p 99 , dividen la muestra el 100 partes iguales). En general, se define el cuantil de orden p ( 0 < p < 1 ) como el valor que deja por debajo (a lo sumo) np observaciones (por tanto, n(p − 1) observaciones por encima). El cuantil p se denotará por qp.
5.1.3 Medidas de dispersión absolutas
Las medidas de posición o localización indican en torno a qué valores se sitúan los datos, pero para obtener una descripción más precisa de los mismos, es necesario conocer cuál es la dispersión que presentan. Las medidas de dispersión absolutas dependen de las unidades en las que se miden las observaciones, siendo las más conocidas la varianza muestral y la desviación típica muestral, que no es más que la raíz cuadrada de la varianza muestral.
Varianza (s^2 ) y desviación típica (s). La varianza, s^2 , se calcula como:
s^2 =
(x 1 − ¯x)^2 + : : : + (xn − ¯x)^2 n
n
∑^ n
i=
(xi − ¯x)^2 :
Para el cálculo del rango se utilizan sólo dos observaciones, la más grande y la más pequeña, por lo que se ve afectado por la presencia de datos atípicos. Aunque las aquí expuestas son las medidas de dispersión absolutas más usuales, también existen otras medidas de dispersión que en lugar de incluir un cuadrado para evaluar las diferencias entre los datos y las medidas de centralización (en el caso de la varianza, las diferencias entre los datos y la media) utilizan un valor absoluto. Así, se tienen la desviación absoluta con respecto a la media y la desviación absoluta con respecto a la mediana:
Dx =
n
∑^ n
i=
| xi − x | ; DMe =
n
∑^ n
i=
| xi − Me | :
Una medida de dispersión robusta (poco influenciada por la presencia de datos atípicos) es la MEDA que se calcula como: MEDA = Me {| xi − Me | ; i = 1; : : : ; n } :
5.1.4 Medidas de dispersión relativa
Las medidas de dispersión absolutas dependen de las unidades de los datos, por lo que no son adecuadas para comparar variables. Una de las medidas de dispersión relativa (no depende de las unidades de los datos) mas usual es el coeficiente de variación: C V = s x ¯
El coeficiente de variación permiten comparar variables aunque estas estén registradas en distintas unidades de medida. También es de utilidad para comparar variables que, aunque de la misma magnitud, están en escalas distintas. Por ejemplo, para comparar las longitudes del diámetro del tímpano (normalmente, entre 8 y 10 milímetros) y de la columna vertebral (en centímetros), podríamos transformar todas las observaciones a la misma escala pero seguramente la dispersión´(medida en desviación típica) que encontraríamos en las longitudes del diámetro del tímpano sería prácticamente nula.
5.1.5 Medidas de forma
Consideraremos dos medidas que proporcionan una idea de la forma de cómo se distribuyen los datos. Su cálculo no es tan sencillo como el de las medidas de posición y dispersión estudiadas y lo que nos interesa es su interpretación.
Coeficiente de asimetría. El coeficiente de asimetría de Fisher toma valor 0 cuando la distribución de los datos es simétrica con respecto a la media. Valores positivos de este coeficiente indicarán la presencia de asimetría positiva (más datos con valores superiores a la media), mientras que valores negativos son indicativos de una asimetría negativa (más datos con valores inferiores a la media). Se calcula como:
γF =
s^3
(x 1 − ¯x)^3 + : : : + (xn − ¯x)^3 n
s^3
n
∑^ n
i=
(xi − ¯x)^3 :
Para cuantificar la asimetría de unos datos, podemos utilizar los cuartiles. Si la distribución es simétrica, la distancia entre Q 3 y Q 2 (que contiene un 25 % de la muestra) y entre Q 2 y Q 1 (otro 25 %), debería ser la misma (es decir, Q 3 − Q 2 = Q 2 − Q 1 ). Así, si Q 3 − Q 2 > Q 2 − Q 1 , es indicativo de asimetría positiva. Por otro lado, si Q 3 − Q 2 < Q 2 − Q 1 , tendríamos indicios de asimetría negativa. Para que el resultado no dependa de la dimensión de los datos, podemos utilizar el siguiente índice de asimetría que toma valores en [ − 1 ; 1], basado en los cuartiles:
γQ = (Q^3 −^ Q^2 )^ −^ (Q^2 −^ Q^1 ) (Q 3 − Q 2 ) + (Q 2 − Q 1 )
Otro coeficiente de asimetría, que resulta útil en el caso de que los datos presenten una única moda. El coeficiente de asimetría de Pearson viene dado por:
γMo =
x − Mo s
Basado en la mediana, tenemos el siguiente índice:
γMe =
3(x − Me) s
Coeficiente de curtosis. El coeficiente de curtosis mide el grado de apuntamiento de la distribución. Su fórmula es: γC =
s^4
(x 1 − ¯x)^4 + : : : + (xn − ¯x)^4 n
s^4
n
∑^ n
i=
(xi − ¯x)^4 :
Si γC > 3 , se dice que la distribución de frecuencias es leptocúrtica. Si γC < 3 , la distribución de frecuencias es platicúrtica. También se puede modificar la expresión anterior y considerar γ ∗ C = γC − 3 , ya que 3 es el valor del coeficiente cuando los datos vienen de una distribución Normal (que es la de referencia). De este modo, tendremos distribuciones leptocúrticas si γ C ∗ > 0 y platicúrticas si γ ∗ C < 0.
Las representaciones gráficas que se han descrito en la sección anterior utilizan los datos observados para su construcción o la información que se obtiene en las tablas de frecuencias. A partir de las medidas características que se han descrito, se puede construir una nueva representación, el diagrama de caja. El diagrama de caja se construye a partir de las siguientes medidas:
LS = m´ın { m´ax { xi } ; Q 3 + 1:5(Q 3 − Q 1 ) } :
En el cálculo de los límites inferior y superior se utiliza el R IC = Q 3 − Q 1.
El diagrama de caja se utiliza para determinar los valores atípicos de la muestra, que son datos que difieren numéricamente de los demás. Formalmente, los datos atípicos son aquellos datos que quedan fuera del intervalo (LI; LS). Si en lugar de considerar los límites inferior y superior construimos el intervalo (LIe; LSe) donde LIe = Q 1 − 3 R IC y LSe = Q 3 + 3R IC , los datos que caen fuera de este intervalo se denominan extremos. Algunos paquetes estadísticos hacen la distinción entre atípicos y extremos, representándolos de distintas formas en las salidas gráficas. En la Figura 4 se puede observar la presencia de datos atípicos altos, representados con puntos. Sin embargo, un problema del diagrama de caja es que no permiten observar la presencia de multimodalidad.
El coeficiente de variación, como ya hemos visto, se utiliza para comparar la dispersión de variables. Si lo que queremos es comparar individuos de distintos grupos, debemos utilizar la tipificación de datos. A partir de una
covarianza. La covarianza entre dos variables X e Y , que es una medida que indica la variabilidad conjunta de X e Y. Se calcula como:
Sxy =
n
∑^ n
i=
(xi − x)(yi − y) =
n
∑^ n
i=
xiyi − xy:
A partir de las varianzas y la covarianza se obtiene la matriz de varianzas-covarianzas:
s^2 x Sxy Sxy s^2 y
Covarianza y correlación
El signo de la covarianza proporciona información sobre el tipo de relación que puede existir entre las variables. De este modo:
a) Si la relación entre las variables es directa, entonces Sxy > 0. b) Si la relación entre las variables es inversa, entonces Sxy < 0. c) Si no existe relación lineal entre las variables, entonces Sxy = 0.
Las parejas de datos datos (xi; yi) con i = 1; : : : ; n, de las dos variables (X ; Y ) (también llamada variable bidi- mensional), se pueden representar a partir de una nube de puntos o diagrama de dispersión. Esta representación gráfica se construye representando sobre un plano los valores de los puntos observados. En la Figura 5 podemos ver dos ejemplos de relaciones entre variables. La covarianza de los datos de la izquierda es positiva, mientras que la covarianza de los datos de la derecha es negativa. Así, diremos que la relación entre X e Y es directa cuando valores altos de X se corresponden con valores altos de Y. La relación se dice que es inversa si valores altos de X se corresponden con valores bajos de Y , o viceversa.
Figura 5: Ejemplo de diagramas de dispersión. Relaciones directa e inversa.
La covarianza está afectada por las unidades de medida de las variables, por lo que definiremos una medida característica para explicar la relación lineal entre variables que sea adimensional: el coeficiente de correlación lineal. A partir de una muestra de datos { (xi; yi) } ni=1, el coeficiente de correlación lineal se calcula como:
r =
Sxy sx sy
donde Sxy es la covarianza muestral y sx , sy son las respectivas desviaciones típicas muestrales.
El coeficiente de correlación lineal no tiene dimensiones y toma valores en [ − 1 ; 1]. Valores cercanos a 1 nos indicarían una relación lineal directa, mientras que valores cercanos a -1 darían una relación lineal inversa. En la práctica, si el coeficiente de correlación r = 0, esto indica que no existe relación lineal entre las variables, pero podría ocurrir que entre ellas hubiese otro tipo de relación no lineal. Observa que r sólo cuantifica relaciones lineales. Cuando existe una relación lineal entre dos variables, podemos tratar de buscar un modelo que describa una en función de otra. La regresión lineal simple consiste en aproximar los valores de una variable a partir de los de otra utilizando una relación de tipo lineal. La recta de regresión de Y sobre X tendrá la siguiente expresión:
y = a + bx;
donde a representa la ordenada en el origen o intercepto y b es la pendiente (indica la razón de cambio en Y cuando X varía en una unidad). Esta expresión nos dice que, cuando x = 0, entonces y = a. La variable X se denomina variable explicativa o independiente, mientras que la variable Y será la variable respuesta, o variable dependiente.
En la práctica, a partir de los datos { (xi; yi) } ni=1 podremos calcular los valores de a y b. El objetivo será obtener los valores a y b que nos proporcionen los residuos más pequeños. Los residuos son las diferencias entre los valores observados de la variable respuesta yi y los valores que proporciona el ajuste yˆi = a + bxi y vienen dados por: ei = yi − yˆi = yi − a − bxi; i = 1; : : : ; n:
En la Figura 6, los segmentos verticales son los residuos, que representan la diferencia entre el valor observado y el valor que daría la recta ajustada.
Figura 6: Residuos a minimizar en el Método de Mínimos Cuadrados. Los segmentos verticales representan los residuos ei.
El Método de Mínimos Cuadrados consiste en minimizar la suma de los cuadrados de los residuos, por lo que se buscan los valores a y b que minimizan:
∑^ n
i=
e^2 i =
∑^ n
i=
(yi − a − bxi)^2 :