Docsity
Docsity

Prepara tus exámenes
Prepara tus exámenes

Prepara tus exámenes y mejora tus resultados gracias a la gran cantidad de recursos disponibles en Docsity


Consigue puntos base para descargar
Consigue puntos base para descargar

Gana puntos ayudando a otros estudiantes o consíguelos activando un Plan Premium


Orientación Universidad
Orientación Universidad


Mates bioestadistica, Apuntes de Matemáticas Aplicadas

Asignatura: Matematica aplicada, Profesor: Daniel Solé, Carrera: Farmàcia, Universidad: UB

Tipo: Apuntes

2012/2013

Subido el 28/11/2013

apuntsbc
apuntsbc 🇪🇸

3.6

(135)

36 documentos

1 / 88

Toggle sidebar

Esta página no es visible en la vista previa

¡No te pierdas las partes importantes!

bg1
Curso de Estad´ıstica
Miguel Angel Canela
Primera versi´on: 2 de enero de 2003
Esta versi´on: 15 de febrero de 2006
Estas notas reflejan el contenido del programa
de la asignatura Bioestadística de la Facultad
de Farmacia de la UB en el curso 2007/08
Estas notas reflejan el contenido del programa de la
asignatura Bioestadística de la Facultad de Farmacia
de la UB en el curso 2008/09
pf3
pf4
pf5
pf8
pf9
pfa
pfd
pfe
pff
pf12
pf13
pf14
pf15
pf16
pf17
pf18
pf19
pf1a
pf1b
pf1c
pf1d
pf1e
pf1f
pf20
pf21
pf22
pf23
pf24
pf25
pf26
pf27
pf28
pf29
pf2a
pf2b
pf2c
pf2d
pf2e
pf2f
pf30
pf31
pf32
pf33
pf34
pf35
pf36
pf37
pf38
pf39
pf3a
pf3b
pf3c
pf3d
pf3e
pf3f
pf40
pf41
pf42
pf43
pf44
pf45
pf46
pf47
pf48
pf49
pf4a
pf4b
pf4c
pf4d
pf4e
pf4f
pf50
pf51
pf52
pf53
pf54
pf55
pf56
pf57
pf58

Vista previa parcial del texto

¡Descarga Mates bioestadistica y más Apuntes en PDF de Matemáticas Aplicadas solo en Docsity!

Curso de Estad´ıstica

Miguel Angel Canela

Primera versi´on: 2 de enero de 2003

Esta versi´on: 15 de febrero de 2006

Estas notas reflejan el contenido del programa

de la asignatura Bioestadística de la Facultad

de Farmacia de la UB en el curso 2007/

Estas notas reflejan el contenido del programa de la

asignatura Bioestadística de la Facultad de Farmacia

de la UB en el curso 2008/

Contenido

  1. Probabilidad

1.1. Variables y observaciones

El objetivo de este curso es presentar una colecci´on de m´etodos estad´ısticos, ilustr´andolos con

ejemplos reales que pueden ser de inter´es para los estudiantes de Farmacia y Ciencia y Tecnolog´ıa

de los Alimentos. En general, cada uno de estos m´etodos se puede aplicar a un conjunto de datos,

que corresponden a los valores de unas variables. La elecci´on del m´etodo se hace teniendo en

cuenta la estructura del conjunto de datos y las conclusiones que interese extraer de ´el, aunque

en algun´ caso haya varios m´etodos para la misma situaci´on.

Si bien en algunos casos los c´alculos se hacen a partir de una tabla resumen (eso es posible en

Excel, pero no en programas estad´ısticos como SPSS), el input inicial del an´alisis estad´ıstico es la

matriz de datos, en la que las columnas coresponden a las variables y las filas a las observaciones.

En los ensayos cl´ınicos, por ejemplo, cada observaci´on corresponde a uno de los participantes en

el ensayo. Lo mismo sucede en los experimentos con animales de laboratorio. En un estudio de

precisi´on de un m´etodo anal´ıtico, las observaciones corresponden a distintas determinaciones de

una magnitud en una misma muestra (o en muestras supuestamente id´enticas).

En las situaciones m´as sencillas habr´a una sola variable (X) y, en otras, dos variables (X e

Y ). En este ultimo´ caso, el prop´osito del an´alisis estad´ıstico es, casi siempre, aclarar la posible

influencia de X sobre Y , aunque a veces los papeles de X e Y sean intercambiables. En los

´ultimos cap´ıtulos consideraremos la influencia de un conjunto de variables, X 1 ,... , Xp, sobre

otra variable Y.

Si los papeles de X e Y est´an claros, se puede distinguir entre ellas mediante nombres que aluden

a sus respectivos papeles. Estos nombres cambian de uno a otro ´ambito de aplicaci´on. Algunos

de ellos son:

  • Para X: variable independiente, variable explicativa, factor (en el an´alisis de la varianza), factor de riesgo (en Epidemiolog´ıa) y predictor (en la regresi´on).
  • Para Y : variable dependiente, variable respuesta (en el an´alisis de la varianza), outcome (en Medicina en general) y variable predicha (en la regresi´on).

En estas notas, cada m´etodo se ilustra con su aplicaci´on a uno o varios ejemplos, en los que los

datos se presentan en tablas. En algun´ caso se aplica m´as de un m´etodo al mismo ejemplo.

1.2. Variables continuas

Distinguimos entre variables continuas y categ´oricas. Cuando los valores de una variable se

obtienen mediante instrumentos de medida, como balanzas, espectrofot´ometros, tensi´ometros,

etc., tenemos una variable continua. Para una variable continua, el conjunto de valores posibles

es un intervalo de la recta de los numeros´ reales, de forma que se puede suponer que, entre dos

valores cualesquiera de la variable, todos los valores intermedios son posibles. En la realidad,

esto nunca es del todo cierto, a causa de las limitaciones de los instrumentos de medida, aunque

es un supuesto que, en general, simplifica el an´alisis de los datos y favorece el uso de ciertos

modelos matem´aticos, como la distribuci´on normal.

Algunos ejemplos de variables continuas son:

  • La concentraci´on de colesterol total de una persona, dada en mg/dl.
  • El ´ındice de masa corporal (BMI) en kg/m^2.
  • El contenido cal´orico de un alimento en kcal.

!

!

!

!

! !

!

!

!

!

!

!

!

!

!

!

!

!

!

!

!

!

!

!!

!

!

!

!

!

!

!

!

!

!

!

!

!

!

!

!

!

!

16 18 20 22 24 26

65

70

75

80

85

BMI

Cintura

Figura 1.1. Cintura vs. BMI (Ejemplo 1.1)

  • El contenido de calcio de una marca de leche en mg/l.

Ejemplo 1.1. En una reciente edici´on de la Setmana de la ci`encia se han efectuado medidas

antropom´etricas de algunos visitantes. En la Tabla 1.1 se recogen los resultados del ´ındice de

masa corporal (BMI) y el per´ımetro de la cintura de un grupo de 43 chicos de 12 a 17 a˜nos.

TABLA 1.1. Medidas antropom´etricas (Ejemplo 1.1)

BMI (kg/m^2 ) Cintura (cm) BMI (kg/m^2 ) Cintura (cm) BMI (kg/m^2 ) Cintura (cm)

20.0 71 21.7 80 22.1 83 23.5 68 18.4 67 27.2 65 22.4 82 18.9 73 26.1 88 23.8 87 20.7 82 15.5 67 21.8 82 19.5 75 27.3 88

19.6 75 19.8 74 17.5 65 20.7 83 22.6 77 24.5 68 21.9 79 15.8 62 24.4 77 21.3 73 17.8 67 21.9 78 20.4 78 22.0 78 18.9 67

19.3 69 22.5 79 20.1 70 22.5 75 21.3 73 21.1 79 21.5 70 23.3 81 21.2 76 19.0 82 21.6 73 19.6 73 21.3 77

Consideramos estas dos variables como variables continuas, aunque los resultados s´olo se den

hasta la primera cifra decimal en el caso del ´ındice de masa corporal y hasta los cent´ımetros

en el de la cintura. Una cuesti´on interesante es la posible relaci´on entre ellas. Para hacer un

diagn´ostico r´apido, lo mejor es empezar por una representaci´on gr´afica, con X en las abscisas

e Y en las ordenadas, de modo que cada uno de los individuos de la muestra corresponde a un

punto. En este caso, los papeles de X e Y son intercambiables.

En la Figura 1.1, X es el ´ındice de masa corporal e Y el per´ımetro de la cintura. Salvo tres

puntos situados en la parte inferior derecha del gr´afico, para los que he usado un s´ımbolo distinto,

los otros se pueden agrupar en torno a una l´ınea recta, lo que sugiere que una f´ormula lineal

podr´ıa ser ´util como aproximaci´on de la relaci´on entre estas variables.

Fuente: M. Rafecas, comunicaci´on personal.

1.4. Concepto de probabilidad

Se precisa un cierto bagaje matem´atico para una definici´on formal de la probabilidad, de modo

que me limitamos aqu´ı a una definici´on intuitiva. La probabilidad de un cierto resultado es un

n´umero, comprendido entre 0 y 1, con el que se eval´ua la expectativa de obtener ese resultado.

Ejemplos de resultados cuya probabilidad interesa en este curso podr´ıan ser que un espa˜nol

mayor de sesenta a˜nos fuese diab´etico, o que la concentraci´on de colesterol total de un var´on

espa˜nol mayor de 40 anos˜ estuviese entre 150 y 180 mg/dl.

¿En qu´e sentido se dice que la probabilidad es una medida de la expectativa de un resultado?

Se entiende que la probabilidad es el valor l´ımite de la proporci´on de casos en que se da ese

resultado cuando el n´umero de observaciones tiende a infinito. En la pr´actica, se interpreta

como una expectativa de esa proporci´on, de modo que se espera que la proporci´on observada en

un experimento se aproxime m´as a la probabilidad cuanto mayor sea el n´umero de observaciones.

La probabilidad es un valor te´orico que, en la mayor´ıa de los casos, no se puede conocer con

exactitud, aunque la proporci´on en que se obtiene un resultado en un estudio experimental se

pueda usar como aproximaci´on de su probabilidad (v. ejemplos). En estas notas designamos por

p[A] la probabilidad de un resultado A. Si hay un unico´ resultado cuya probabilidad interese,

usamos la letra griega π, y cuando interesa comparar las probabilidades de A en distintas

condiciones, las distinguimos mediante sub´ındices (por ejemplo, π 1 y π 2 ).

Las relaciones entre los distintos resultados de una experiencia dan lugar a relaciones matem´ati-

cas entre sus respectivas probabilidades. Estas relaciones son las reglas del c´alculo de probabili-

dades. La m´as importante de ellas es la propiedad aditiva: si A es un resultado para el que hay

una serie de posibilidades o casos A 1 , A 2 ,... , Ak, excluyentes dos a dos, se cumple

p[A] = p[A 1 ] + p[A 2 ] + · · · + p[Ak].

Un caso particular interesante es aqu´el en que A y B son complementarios (es decir, B equivale

a “no A”). Entonces p[A] + p[B] = 1.

Ejemplo 1.2 (continuaci´on). En el Ejemplo 1.2, los porcentajes de la tabla pueden tomarse como

aproximaciones de las respectivas probabilidades. As´ı, por ejemplo, los porcentajes de la primera

fila aproximan las probabilidades de que un hombre de raza blanca, con edad entre 55 y 79 a˜nos,

tenga peso normal (25.5%), sobrepeso (51.6%) u obesidad (23.0%), respectivamente.

1.5. Distribuciones de probabilidad

En general, una distribuci´on de probabilidad es la asignaci´on de probabilidades a los resultados

de una variable. Hay que distinguir entre distribuciones discretas y continuas. Para una variable

categ´orica se usa una distribuci´on discreta, que asigna una probabilidad a cada uno de los

valores posibles. As´ı, si X es una variable categ´orica con valores x 1 ,... , xk, su distribuci´on de

probabilidad asigna a cada xi la probabilidad πi = p

[

X = xi

]

. Por la propiedad aditiva,

π 1 + · · · + πk = 1.

Para una variable continua, en cambio, no interesan las probabilidades de los valores individuales,

que siempre son cero (podr´ıamos dar un argumento riguroso para justificar esto, aunque ello

requerir´ıa un nivel matem´atico superior al de estas notas), sino las de intervalos. As´ı, para

cada par de valores x 1 y x 2 , con x 1 < x 2 , la distribuci´on de probabilidad de X asigna una

probabilidad p

[

x 1 < X < x 2

]

al intervalo de valores comprendidos entre x 1 y x 2.

Para las variables continuas y ordinales tiene sentido considerar probabilidades acumuladas.

Para un valor x de X, la probabilidad acumulada es p[X ≤ x]. Por la propiedad aditiva de la

probabilidad,

p

[

X ≤ x

]

= p

[

X < x

]

  • p

[

X = x

]

Colesterol HDL

Frecuencia

0.6 0.8 1.0 1.2 1.4 1.6 1.8 2.

0

5

10

15

Figura 1.2. Histograma (Ejemplo 1.3)

de donde se sigue que, cuando X es continua, es indiferente usar “≤” o “<” al definir la proba-

bilidad acumulada. En cambio, si X es discreta, puede ser p[X < x] #= p[X ≤ x].

En la mayor parte de las aplicaciones reales, las distribuciones de probabilidad son desconocidas,

aunque se pueden aproximar por tablas de frecuencia, como la del ejemplo que sigue. En las

tablas se puede dar la frecuencia (absoluta), que es el n´umero de veces que se da un resultado, o

ese n´umero dividido por el n´umero total de datos, que es la proporci´on o frecuencia relativa (v.

Tabla 1.2). A veces se expresa la proporci´on en forma de porcentaje. Para una variable continua

tambi´en se puede aproximar la distribuci´on de probabilidad por una tabla de frecuencia, pero en

la tabla s´olo se pueden incluir algunos intervalos. Para dar la distribuci´on completa, se necesita

un modelo matem´atico m´as complejo, la funci´on de densidad (v. Cap´ıtulo 3).

Los intervalos en los que se basan las tablas de frecuencia de las variables continuas pueden

tener la misma o distinta longitud. A veces se presenta la tabla de frecuencias en forma gr´afica,

con un diagrama de barras en el que la altura de una barra es proporcional a la frecuencia de

la clase correspondiente. Para una variable continua, las barras se colocan pegadas y ordenadas

seg´un los valores de la variable. El gr´afico as´ı obtenido se llama histograma (v. Figura 1.2).

Ejemplo 1.3. En la Tabla 1.3 se dan las concentraciones iniciales de colesterol HDL de 57

trabajadores de una empresa (32 hombres y 25 mujeres) donde se ha realizado un estudio sobre

la influencia de algunos componentes de la materia prima de los productos de boller´ıa sobre

varios biomarcadores asociados a enfermedades cardiovasculares (colesterol HDL, LDL, etc.).

TABLA 1.3. Colesterol HDL (Ejemplo 1.3)

Hombres 1.910 1.310 1.295 1.120 1.660 1.700 1.630 1.055 0.930 1. 1.015 0.840 1.680 1.155 1.300 1.815 1.400 1.135 1.245 1. 1.980 1.535 1.940 1.835 1.485 1.115 1.520 1.660 1.100 0. 1.455 1.

Mujeres 1.100 1.290 1.365 1.065 1.150 0.860 1.155 1.225 1.695 1. 0.910 1.360 0.965 1.660 1.625 0.875 1.225 1.055 1.085 1. 1.065 1.020 1.465 1.050 0.

La Tabla 1.4 es una tabla de frecuencia y la Figura 1.2 el correspondiente histograma. Observa

que en la Tabla 1.4 he mezclado hombres y mujeres, aunque cabe pensar que la distribuci´on

del colesterol HDL pueda ser distinta en los dos grupos de poblaci´on. M´as adelante volveremos

sobre este punto.

1.7. Probabilidad condicionada

A veces interesa evaluar mediante una probabilidad la expectativa de un resultado A en el

supuesto de que se d´e una cierta condici´on previamente especificada B. Esta probabilidad es

una probabilidad condicionada. Se puede definir la probabilidad de A condicionada a B como el

valor l´ımite de la proporci´on de experiencias en las que se obtiene A, dentro del conjunto de las

experiencias en las que se da B. Designamos aqu´ı por p

[

A|B

]

esta probabilidad condicionada.

Por ejemplo, en lugar de la probabilidad de que un reci´en nacido sea var´on, puede interesarnos

la probabilidad de que el hijo de una madre mayor de treinta a˜nos sea var´on. En este caso, A

corresponde a que el reci´en nacido sea var´on, y B a que la madre tenga m´as de treinta a˜nos.

En las ciencias de la salud, las probabilidades condicionadas aparecen de forma natural al pasar

de una poblaci´on a una subpoblaci´on, por ejemplo, al considerar s´olo personas de un sexo, de

un cierto segmento de edad, o de un cierto grupo ´etnico (v. Ejemplo 1.2). En la pr´actica, la

distinci´on entre la probabilidad de A y la probabilidad de A condicionada a otro resultado se hace

s´olo cuando interesa, ya que todas las probabilidades de los problemas reales son condicionadas.

La probabilidad condicionada es aditiva. Si A se descompone en las posibilidades A 1 ,... , Ak,

se cumple

p

[

A|B

]

= p

[

A 1 |B

]

  • · · · + p

[

Ak|B

]

Otra f´ormula interesante permite obtener la probabilidad de A promediando las probabilidades

en distintas condiciones. Supongamos que B 1 , B 2 ,... , Bn resultan de una partici´on del conjunto

de resultados posibles en varios casos (por ejemplo, hombres y mujeres). La probabilidad de A

se puede calcular con la f´ormula

p[A] = p

[

A|B 1

]

p[B 1 ] + · · · + p

[

A|Bn

]

p[Bn].

Observa que p[B 1 ] + · · · + p[Bn] = 1, de modo que p[A] es la media ponderada de las probabil-

idades de A en los distintos casos. Por ejemplo, si una poblaci´on tiene el 52% de hombres y el

48% de mujeres, siendo la probabilidad de contraer una cierta enfermedad π 1 en los hombres y

π 2 en las mujeres, la probabilidad para el conjunto de la poblaci´on es π = 0. 52 π 1 + 0. 48 π 2.

NOTA. Sean x 1 ,... , xn n´umeros cualesquiera y w 1 ,... , wn n´umeros positivos, que cumplan

w 1 + · · · + wn = 1. Entonces la media ponderada de x 1 ,... , xn, con “pesos” w 1 ,... , wn,

es w 1 x 1 + · · · + wnxn. Si todos los pesos son iguales (a 1 /n), resulta la media ordinaria. En

el ejemplo anterior, w 1 = 0. 52 y w 2 = 0 .48, de modo que en el promedio tienen m´as peso los

hombres que las mujeres.

1.8. Distribuciones condicionadas

Supongamos ahora dos variables X e Y y fijemos un valor de una de ellas, por ejemplo X = x.

Podemos entonces considerar la distribuci´on de probabilidad de Y condicionada a X = x. Si Y es

categ´orica, con valores y 1 ,... , ym, la distribuci´on condicionada viene dada por las probabilidades

p

[

Y = y 1 |X = x

]

,... , p

[

Y = ym|X = x

]

Si Y es continua, la distribuci´on condicionada viene dada por las probabilidades de los intervalos

asociados a los valores de Y , es decir, p

[

y 1 < Y < y 2 |X = x

]

Ejemplo 1.2 (continuaci´on). En la Tabla 1.2, cada de una de las filas da una aproximaci´on

de la distribuci´on del BMI condicionada al grupo ´etnico. Los resultados de la tabla parecen

indicar que la distribuci´on del BMI depende del grupo ´etnico. M´as adelante veremos pruebas

estad´ısticas espec´ıficas para este tipo de situaciones (la prueba chi cuadrado y la prueba de

sigificaci´on de la odds ratio).

Aqu´ı los papeles de X e Y est´an claros. Lo que no est´a del todo claro es si las diferencias en

los porcentajes de sobrepeso y obesidad se han de atribuir a diferencias ´etnicas, o a diferencias

en los h´abitos alimentarios (o a ambas cosas). Observa que, en este caso, no cabe promediar las

cuatro filas de la tabla para obtener la distribuci´on de probabilidad aproximada del BMI en el

conjunto de la poblaci´on, a menos que las proporciones de los grupos ´etnicos en la muestra sean

las mismas que en la poblaci´on.

1.9. Independencia estad´ıstica

Cuando la distribuci´on de Y condicionada a X = x es la misma, sea cual sea x, se dice que X e

Y son estad´ısticamente independientes. En la pr´actica, esto significa que conocer el valor de X

no cambia la expectativa para Y. Esta noci´on es central en este curso. Veremos m´as adelante

c´omo “medir” lo lejos que X e Y est´an de la independencia, en dos casos especiales:

  • Cuando ambas variables son binarias, con la odds ratio θ, que es un n´umero positivo. La independencia equivale a θ = 1.
  • Cuando son continuas, con la correlaci´on ρ, que cumple − 1 ≤ ρ ≤ 1. Los valores extremos ρ = ± 1 se dan cuando una variable es funci´on lineal de la otra. Por otro lado, cuando son independientes, ρ = 0. Aunque matem´aticamente es posible que se d´e ρ = 0 sin que X e Y no sean independientes, en la mayor´ıa de los problemas reales tal posibilidad puede descartarse. As´ı, se considera que ρ > 0 cuando hay una relaci´on positiva entre X e Y (es decir, si X aumenta, Y aumenta), ρ < 0 cuando hay una relaci´on negativa y ρ = 0 cuando no hay relaci´on.

NOTAS. 1. Tal como he formulado la definici´on, deber´ıa haber dicho “Y independiente de X”,

en lugar de “X e Y independientes”. No obstante, se puede demostrar matem´aticamente que,

si Y es independiente de X, entonces X es independiente de Y. De hecho, las definiciones de θ

y ρ son sim´etricas y no dependen de c´omo se asignen los papeles de X e Y.

  1. A pesar de que la noci´on de independencia estad´ıstica es sim´etrica, es frecuente interpretar

el resultado de una prueba que permite concluir que dos variables no son independientes como

una evidencia de que una variable “influye” sobre la otra. El paso de la no-independencia a una

relaci´on causa-efecto (asim´etrica) es extra-estad´ıstico, y no lo avalan los m´etodos presentados

en este curso.

  1. En el lenguaje coloquial, hay independencia cuando no hay ningun´ tipo de dependencia,

mientras que en Estad´ıstica, lo que est´a perfectamente definido (con f´ormulas matem´aticas) es

la independencia. La dependencia puede ser cualquier cosa que no sea independencia, desde una

f´ormula que d´e Y como funci´on de X, hasta una asociaci´on vaga que no se sepa a qu´e atribuir.

  1. La noci´on de independencia se extiende de forma natural a varias variables, X 1 ,... , Xp. Para

ello, se considera la distribuci´on de Y condicionada a

[

X 1 = x 1 ,... , Xp = xp

]

. La independencia

significa que la distribuci´on condicionada es independiente de los x 1 ,... xp.

  1. La mayor´ıa de los m´etodos estad´ısticos s´olo son v´alidos cuando las distintas observaciones

de que consta un experimento son independientes. En la pr´actica, eso significa que conocer los

valores ya obtenidos no cambia la expectativa para las observaciones venideras. En los ejercicios

de “urnas y bolas” de la escuela, la independencia de las sucesivas extracciones se asegura

reemplazando las bolas extra´ıdas, pero, en los experimentos reales, asegurar la independencia

de las observaciones es m´as complicado y constituye uno de los problemas centrales del dise˜no

de los experimentos. Esta cuesti´on aparecer´a varias veces en este curso.

Ejemplo 1.1 (continuaci´on). En el Ejemplo 1.1 parece claro, fij´andose en la Figura 1.1, que las

dos variables no son independientes, lo que no sorprender´a a nadie, puesto que el sobrepeso se

debe, en parte, a la acumulaci´on de grasa en el abdomen. Aqu´ı el coeficiente de correlaci´on ser´a

positivo.

mismas dimensiones que X, pero la varianza tiene las dimensiones de X^2. Para volver a la

escala original, la medida de la dispersi´on se presenta casi siempre usando la ra´ız cuadrada de

la varianza, que se llama desviaci´on t´ıpica (o standard).

Se puede expresar la desviaci´on t´ıpica en forma relativa, como porcentaje de un valor de referen-

cia, o de un promedio de resultados experimentales. Se llama entonces coeficiente de variaci´on

(CV). El uso del coeficiente de variaci´on para evaluar la imprecisi´on de un m´etodo de an´alisis

es com´un en el laboratorio.

En el an´alisis de la varianza usaremos sumas de cuadrados, abreviadamente SS (sum of squares).

Observa que la varianza es un cociente, cuyo numerador es una suma de cuadrados. En general,

en las sumas de cuadrados del an´alisis de la varianza, los sumandos son los cuadrados de las

desviaciones respecto a un valor central, que en la f´ormula de la varianza es la media. Sin

embargo, cuando los datos est´an repartidos en varios grupos cuyas medias queremos comparar,

se puede restar a cada dato la media de su grupo.

El denominador de la varianza es un n´umero natural, el n´umero de grados de libertad, abrevi-

adamente df (degrees of freedom). En esta f´ormula, df coincide con el n´umero de datos menos

1, aunque, en general, corresponde al n´umero de sumandos independientes. Observa que s´olo

n − 1 de las desviaciones x 1 − x¯ 1 ,... , xn − ¯xn son independientes, ya que suman cero, de modo

que cualquiera de ellas se puede obtener a partir de las restantes.

Si x 1 ,... , xn son valores de X, e Y = a + bX, con a y b constantes, se cumple

s^2 Y = b^2 s^2 X.

No obstante, en general, s^2 X+Y #= s^2 X + s^2 Y. La f´ormula exacta es

s^2 X+Y = s^2 X + s^2 Y + 2 rsX sY ,

donde r es el coeficiente de correlaci´on, del que hablaremos m´as tarde.

Ejemplo 1.3 (continuaci´on). En el Ejemplo 1.3, llamando Y al colesterol HDL, tenemos, para la

muestra completa,

n = 57 , y¯ = 1. 288 , s = 0. 311.

Para la submuestra de hombres,

n 1 = 32 , y¯ 1 = 1. 378 , s 1 = 0. 330 ,

y para la de mujeres,

n 2 = 25 , y¯ 2 = 1. 174 , s 2 = 0. 248.

Observa que, en todos los casos, la media es mayor que la mediana. La diferencia entre ellas es

indicativa de la asimetr´ıa de la distribuci´on.

1.11. C´alculo en Excel

Ir´e indicando, a lo largo de estas notas, c´omo pueden hacerse los c´alculos en una hoja de c´alculo

Excel. Alternativamente, puede usarse SPSS, mucho m´as potente, pero menos flexible. Como

SPSS no es, en general, accesible en casa o en el lugar de trabajo, he dado preferencia a Excel,

que es de uso (casi) universal.

En la hoja de c´alculo Excel se pueden hallar, adem´as de la media, la varianza y la desviaci´on

t´ıpica, multitud de f´ormulas estad´ısticas, que se manejan con facilidad con el asistente de fun-

ciones. La media es PROMEDIO, la varianza, VAR, y la desviaci´on t´ıpica, DESVEST. Las tres son

funciones de un argumento, y dentro del par´entesis se indica el bloque de la hoja de c´alculo

donde se han introducido los datos, en la forma habitual de Excel. Por ejemplo, PROMEDIO(A1:B6)

da la media de una serie de 12 valores que est´an en el rect´angulo que tiene el v´ertice superior

izquierdo en A1 y el v´ertice inferior derecho en B6.

  1. Distribuciones discretas

2.1. Distribuciones discretas

Las variables num´ericas discretas resultan al contar las veces que se da un resultado en n

experiencias, o al asignar valores num´ericos a las categor´ıas de una variable categ´orica. En

algunos casos, los valores de una variable num´erica discreta se asignan de forma natural (vgr.

X = n´umero de infartos en una poblaci´on en los ´ultimos diez anos),˜ pero, en otros, provienen

de una codificaci´on arbitraria (vgr. X = 1 si un individuo es fumador y X = 0 si no lo es).

Se defini´o en el Cap´ıtulo 1 la probabilidad como una proporci´on l´ımite, cuando el n´umero de

experiencias tiende a infinito. Podemos considerar, de forma an´aloga, el l´ımite de la media x¯,

que llamamos media de X y designamos por μ. Si hay ambiguedad¨ se pueden usar sub´ındices

(μ 1 , μX , etc.).

A veces se distingue entre ambas medias llamando media de la muestra a x¯ y media de la

poblaci´on a μ. As´ı, en el Ejemplo 1.3, la media de la muestra es ¯x = 1 .288, y la media de la

poblaci´on es desconocida, y se puede usar aqu´ella como una aproximaci´on de ´esta.

Para una variable discreta, la definici´on matem´atica de μ resulta de forma natural de lo anterior.

Supongamos que x 1 ,... , xk son los valores de X, con probabilidades π 1 ,... , πk. Sea n el n´umero

de observaciones y ni la frecuencia del resultado X = xi. De este modo, n 1 + · · · + nk = n.

La proporci´on con que observamos X = xi es pi = ni/n, y se cumple

x ¯ =

n 1 x 1 + · · · + nk xk

n

= p 1 x 1 + · · · + pk xk.

Cuando n → ∞, las proporciones pi convergen hacia las probabilidades πi, y el l´ımite de x¯ es

μ = π 1 x 1 + · · · + πk xk.

Observa que μ es una media ponderada de x 1 ,... , xk, en la que el peso de xi viene dado por

su probabilidad πi.

La varianza de X es la media de (X − μ)^2. En una distribuci´on discreta,

σ^2 = π 1

x 1 − μ

  • · · · + πk

xk − μ

Se puede demostrar matem´aticamente que σ^2 es el l´ımite de la varianza de la secci´on anterior

cuando n → ∞. Tambi´en aqu´ı se distingue entre varianza de la poblaci´on (σ^2 ) y varianza de la

muestra (s^2 ). En ambos casos se llama desviaci´on t´ıpica a la ra´ız cuadrada de la varianza.

Las propiedades de la media y la varianza de la muestra comentadas en el cap´ıtulo anterior se

extienden, al pasar al l´ımite, a la media y la varianza de la poblaci´on. Una propiedad adicional

es la siguiente: si X e Y son independientes, se cumple σ^2 X+Y = σ^2 X + σ Y^2.

2.2. Ejemplos sencillos

Antes de pasar a la binomial, que es la distribuci´on discreta con m´as aplicaciones, ilustramos

en esta secci´on estas definiciones con unos c´alculos sencillos. El ejemplo del dado es cl´asico. En

´el, X = resultado de la tirada de un dado regular. Como los seis resultados posibles tienen la

misma probabilidad, tenemos una distribuci´on uniforme. Los valores de X son

x 1 = 1 , x 2 = 2 , x 3 = 3 , x 4 = 4 , x 5 = 5 , x 6 = 6 ,

Por ejemplo, la probabilidad de obtener 3 caras lanzando una moneda 5 veces es

DISTR.BINOM(3;5;0.5;0)=0.3125,

que corresponde al c´alculo combinatorio

( 5

3

La probabilidad acumulada corresponde, en este caso, a obtener un n´umero de caras menor o

igual que tres. En Excel,

DISTR.BINOM(3;5;0.5;1)=0.8125,

o, si se prefiere,

( 5

0

2.4. Planes de muestreo

En general, el muestreo es la selecci´on de una parte o muestra dentro de un conjunto o poblaci´on.

La expresi´on inspecci´on por muestreo se refiere a la inspecci´on que se limita a una muestra

extra´ıda de un lote, a partir de cuyos resultados se decide la aceptaci´on o rechazo de la totalidad.

En el contexto de la inspecci´on por muestreo, la poblaci´on es el lote que se acepta o rechaza,

pero, a veces, interesa considerar la muestra como si hubiera sido extra´ıda de una poblaci´on

mucho mayor, el conjunto de la producci´on de un proveedor.

La inspecci´on por muestreo se lleva a cabo siguiendo planes de muestreo. Un plan de muestreo

consta de dos partes:

  • Instrucciones sobre c´omo extraer la muestra.
  • Criterio para aceptar o rechazar un lote seg´un los resultados obtenidos.

Un plan de muestreo por atributos indica el n´umero de unidades de cada lote que se tienen que

inspeccionar, que es el tamano˜ de la muestra, designado habitualmente por n, y el criterio para

aceptar o rechazar el lote, que habitualmente se concreta en el numero´ de aceptaci´on (Ac) y el de

rechazo (Re). Si el n´umero de unidades no conformes no supera Ac, se acepta el lote. Al alcanzar

Re, se rechaza. Los planes de muestreo m´as conocidos son los de la norma MIL-STD-105 (o su

equivalente ISO 2859–1).

Para entender qu´e significa, en la pr´actica, usar uno u otro plan, hay que dar una respuesta a la

pregunta: Si el lote contiene una proporci´on p de unidades no conformes, ¿cu´al es la probabilidad

de que sea aceptado? Una curva que d´e la probabilidad de aceptaci´on en funci´on de p (Figura

2.1) se llama, en el contexto del control de calidad, curva caracter´ıstica.

La f´ormula binomial pude ser usada para trazar curvas caracter´ısticas (v. ejemplos). Hay que

tener en cuenta, sin embargo, que s´olo es v´alida si el lote es muy grande, de forma que se pueda

suponer que las sucesivas extracciones no cambian el porcentaje de unidades no conformes y,

por lo tanto, que las extracciones son independientes. En caso contrario, hay que recurrir a una

f´ormula m´as complicada, la f´ormula hipergeom´etrica, que no se ve en este curso, pero que se

puede hallar tambi´en en Excel.

Ejemplo 2.1. Un plan de muestreo, extra´ıdo de la norma MIL-STD-105, da la regla siguiente

para decidir si se acepta o no un lote de un proveedor: se inspecciona una muestra de 125

unidades extra´ıda del lote, y se acepta ´este si el n´umero de unidades no conformes no supera 5.

No entra en

Bioestadística para

Farmacia

0.05 0.10 0.

Defectuosas (%)

Probabilidad de aceptación

Figura 2.1. Curva caracter´ıstica (Ejemplo 2.1)

Usando la f´ormula DISTR.BINOM(5;125;p;1) con distintos valores de p se obtienen los resultados

de la Tabla 2.1. Observa que la probabilidad de aceptaci´on es una probabilidad acumulada, ya

que aceptamos el lote cuando B ≤ 5. Se puede usar esta tabla, u otra an´aloga, para dibujar una

curva caracter´ıstica (v. Figura 2.1).

TABLA 2.1. Probabilidad de aceptaci´on (Ejemplo 2.1)

Defectuosas Probabilidad Defectuosas Probabilidad (%) aceptaci´on (%) aceptaci´on

1 0.9983 9 0. 2 0.9597 10 0. 3 0.8257 11 0. 4 0.6160 12 0.

5 0.4015 13 0. 6 0.2330 14 0. 7 0.1227 15 0. 8 0.0595 16 0.

2.5. Planes de muestreo simples y m´ultiples

El del Ejemplo 2.1 es un plan simple. En los planes simples, que son los m´as usados, s´olo se

inspecciona una muestra. El plan especifica el tama˜no de muestra y el criterio de aceptaci´on.

En los planes dobles, se inspecciona una muestra y, en funci´on del resultado, se acepta el lote, se

rechaza, o se inspecciona otra muestra. El plan especifica el tamano˜ y el criterio de aceptaci´on

y rechazo para cada muestra. El criterio de aceptaci´on para la segunda muestra se refiere a la

uni´on de ambas muestras.

En general, se dice que un plan de muestreo es m´as eficiente que otro cuando consigue objetivos

similares con menor esfuerzo de inspecci´on. Mediante c´alculos basados en argumentos de tipo

probabil´ıstico, se puede probar que los planes dobles son m´as eficientes que los simples.

En los planes m´ultiples se sigue un procedimiento similar, pero el n´umero de muestras adicionales

que se puede tomar despu´es de la primera es mayor que 1, t´ıpicamente 5 o 6. Despu´es de la

inspecci´on de cada una de las muestras sucesivas se plantea la misma disyuntiva: si se cumple el

No entra en Bioestadística

para Farmacia

Ejemplo 2.3. Unos estudiantes de la UB han hecho una prueba sobre la capacidad de diferenciar

el yogur BIO (B) del natural (N). En la prueba han participado 12 catadores, a los que se

ofrec´ıan tres vasos de yogur a temperatura ambiente, previamente agitados, para evitar que

distinguieran los yogures por su textura. De los tres yogures, uno es diferente de los otros dos,

y los catadores deben identificarlo.

En la Tabla 2.2 podemos ver la secuencia presentada a cada participante, y si acert´o o no.

Observa que, para los seis primeros participantes, se han usado todas las secuencias posibles de

tres letras que tengan dos N y una B, o una N y dos B. Para los otros seis se han repetido estas

secuencias, en distinto orden.

TABLA 2.2. Prueba triangular (Ejemplo 2.3)

Participante Secuencia Acierto Participante Secuencia Acierto

1 NNB S´I 7 BBN NO 2 BNN S´I 8 NNB S´I 3 BBN NO 9 BNN S´I 4 NBB NO 10 NBB S´I 5 NBN S´I 11 BNB S´I 6 BNB NO 12 NBN S´I

En la tabla se ve que 8 de los 12 participantes han acertado. La probabilidad de que uno de

ellos acierte por casualidad es 1/3. Con la f´ormula binomial podemos calcular la probabilidad

de obtener 8 o m´as aciertos. Como p

[

B ≥ 8

]

= 1 − p

[

B ≤ 7

]

, podemos usar la f´ormula de la

probabilidad acumulada,

1-DISTR.BINOM(7;12;1/3;1)=1-0.9812=0.0188.

Como esta probabilidad es peque˜na, se puede concluir que es posible distinguir un producto de

otro mediante los sentidos. M´as adelante precisaremos qu´e quiere decir “pequena”˜ al hablar

del nivel de significaci´on. De momento, toma nota de que, si no se especifica lo contrario, las

probabilidades peque˜nas son las menores de 0.05. Este es un convenio, tan arbitrario como se

quiera, pero universal.

Fuente: Departament de Nutrici´o i Bromatologia, UB.

  1. La distribuci´on normal

3.1. Distribuciones continuas

Una distribuci´on continua asigna una probabilidad a cada intervalo x 1 < X < x 2. Esto se

hace habitualmente mediante una funci´on, la funci´on de densidad de probabilidad de X, cuyas

integrales dan las probabilidades. La funci´on de densidad f se escoge de modo que su integral

sobre un intervalo cualquiera coincida con la probabilidad asignada a ese intervalo,

p

[

x 1 < X < x 2

]

∫ (^) x 2

x 1

f (x) dx.

La probabilidad acumulada p[X < x] corresponde as´ı a la integral de −∞ a x,

p

[

X < x

]

∫ (^) x

−∞

f (x) dx.

La gr´afica de f es la curva de densidad de probabilidad (v. Figura 3.1). La probabilidad de un

intervalo coincide con el ´area limitada por la curva de ecuaci´on y = f (x), el eje de abscisas y las

verticales x = a y x = b.

Una funci´on de densidad debe cumplir f (x) ≥ 0 para todo x, ya que si no podr´ıa dar probabili-

dades negativas. Sin embargo, recuerda que f (x) no es una probabilidad, y puede tomar valores

mayores que 1. Otra propiedad de la funci´on de densidad es

p

[

− ∞ < X < +∞

]

−∞

f (x) dx = 1.

La media y la varianza de una variable continua se define con f´ormulas parecidas a las de las

distribuciones discretas, sustituyendo sumas por integrales,

μ =

−∞

x f (x) dx, σ^2 =

−∞

(x − μ)^2 f (x) dx,

y la desviaci´on t´ıpica σ es la ra´ız cuadrada de la varianza. Valen aqu´ı las mismas propiedades

de la media y la varianza que para las distribuciones discretas. De ellas se deduce, en particular,

que

Z =

X − μ

σ

tiene media 0 y desviaci´on t´ıpica 1. El paso de X a Z se llama normalizaci´on (o tipificaci´on).

3.2. Distribuci´on normal

La distribuci´on normal, o gaussiana, tiene una funci´on de densidad de la forma

f (x) =

2 πσ

exp

(x − μ)^2

2 σ^2