
















































































Prepara tus exámenes y mejora tus resultados gracias a la gran cantidad de recursos disponibles en Docsity
Gana puntos ayudando a otros estudiantes o consíguelos activando un Plan Premium
Prepara tus exámenes
Prepara tus exámenes y mejora tus resultados gracias a la gran cantidad de recursos disponibles en Docsity
Prepara tus exámenes con los documentos que comparten otros estudiantes como tú en Docsity
Encuentra los documentos específicos para los exámenes de tu universidad
Estudia con lecciones y exámenes resueltos basados en los programas académicos de las mejores universidades
Responde a preguntas de exámenes reales y pon a prueba tu preparación
Consigue puntos base para descargar
Gana puntos ayudando a otros estudiantes o consíguelos activando un Plan Premium
Comunidad
Pide ayuda a la comunidad y resuelve tus dudas de estudio
Ebooks gratuitos
Descarga nuestras guías gratuitas sobre técnicas de estudio, métodos para controlar la ansiedad y consejos para la tesis preparadas por los tutores de Docsity
Asignatura: Matematica aplicada, Profesor: Daniel Solé, Carrera: Farmàcia, Universidad: UB
Tipo: Apuntes
1 / 88
Esta página no es visible en la vista previa
¡No te pierdas las partes importantes!

















































































Estas notas reflejan el contenido del programa
de la asignatura Bioestadística de la Facultad
de Farmacia de la UB en el curso 2007/
Estas notas reflejan el contenido del programa de la
asignatura Bioestadística de la Facultad de Farmacia
de la UB en el curso 2008/
El objetivo de este curso es presentar una colecci´on de m´etodos estad´ısticos, ilustr´andolos con
ejemplos reales que pueden ser de inter´es para los estudiantes de Farmacia y Ciencia y Tecnolog´ıa
de los Alimentos. En general, cada uno de estos m´etodos se puede aplicar a un conjunto de datos,
que corresponden a los valores de unas variables. La elecci´on del m´etodo se hace teniendo en
cuenta la estructura del conjunto de datos y las conclusiones que interese extraer de ´el, aunque
en algun´ caso haya varios m´etodos para la misma situaci´on.
Si bien en algunos casos los c´alculos se hacen a partir de una tabla resumen (eso es posible en
Excel, pero no en programas estad´ısticos como SPSS), el input inicial del an´alisis estad´ıstico es la
matriz de datos, en la que las columnas coresponden a las variables y las filas a las observaciones.
En los ensayos cl´ınicos, por ejemplo, cada observaci´on corresponde a uno de los participantes en
el ensayo. Lo mismo sucede en los experimentos con animales de laboratorio. En un estudio de
precisi´on de un m´etodo anal´ıtico, las observaciones corresponden a distintas determinaciones de
una magnitud en una misma muestra (o en muestras supuestamente id´enticas).
En las situaciones m´as sencillas habr´a una sola variable (X) y, en otras, dos variables (X e
Y ). En este ultimo´ caso, el prop´osito del an´alisis estad´ıstico es, casi siempre, aclarar la posible
influencia de X sobre Y , aunque a veces los papeles de X e Y sean intercambiables. En los
´ultimos cap´ıtulos consideraremos la influencia de un conjunto de variables, X 1 ,... , Xp, sobre
otra variable Y.
Si los papeles de X e Y est´an claros, se puede distinguir entre ellas mediante nombres que aluden
a sus respectivos papeles. Estos nombres cambian de uno a otro ´ambito de aplicaci´on. Algunos
de ellos son:
En estas notas, cada m´etodo se ilustra con su aplicaci´on a uno o varios ejemplos, en los que los
datos se presentan en tablas. En algun´ caso se aplica m´as de un m´etodo al mismo ejemplo.
Distinguimos entre variables continuas y categ´oricas. Cuando los valores de una variable se
obtienen mediante instrumentos de medida, como balanzas, espectrofot´ometros, tensi´ometros,
etc., tenemos una variable continua. Para una variable continua, el conjunto de valores posibles
es un intervalo de la recta de los numeros´ reales, de forma que se puede suponer que, entre dos
valores cualesquiera de la variable, todos los valores intermedios son posibles. En la realidad,
esto nunca es del todo cierto, a causa de las limitaciones de los instrumentos de medida, aunque
es un supuesto que, en general, simplifica el an´alisis de los datos y favorece el uso de ciertos
modelos matem´aticos, como la distribuci´on normal.
Algunos ejemplos de variables continuas son:
!
!
!
!
! !
!
!
!
!
!
!
!
!
!
!
!
!
!
!
!
!
!
!!
!
!
!
!
!
!
!
!
!
!
!
!
!
!
!
!
!
!
16 18 20 22 24 26
65
70
75
80
85
BMI
Cintura
Figura 1.1. Cintura vs. BMI (Ejemplo 1.1)
Ejemplo 1.1. En una reciente edici´on de la Setmana de la ci`encia se han efectuado medidas
antropom´etricas de algunos visitantes. En la Tabla 1.1 se recogen los resultados del ´ındice de
masa corporal (BMI) y el per´ımetro de la cintura de un grupo de 43 chicos de 12 a 17 a˜nos.
TABLA 1.1. Medidas antropom´etricas (Ejemplo 1.1)
BMI (kg/m^2 ) Cintura (cm) BMI (kg/m^2 ) Cintura (cm) BMI (kg/m^2 ) Cintura (cm)
20.0 71 21.7 80 22.1 83 23.5 68 18.4 67 27.2 65 22.4 82 18.9 73 26.1 88 23.8 87 20.7 82 15.5 67 21.8 82 19.5 75 27.3 88
19.6 75 19.8 74 17.5 65 20.7 83 22.6 77 24.5 68 21.9 79 15.8 62 24.4 77 21.3 73 17.8 67 21.9 78 20.4 78 22.0 78 18.9 67
19.3 69 22.5 79 20.1 70 22.5 75 21.3 73 21.1 79 21.5 70 23.3 81 21.2 76 19.0 82 21.6 73 19.6 73 21.3 77
Consideramos estas dos variables como variables continuas, aunque los resultados s´olo se den
hasta la primera cifra decimal en el caso del ´ındice de masa corporal y hasta los cent´ımetros
en el de la cintura. Una cuesti´on interesante es la posible relaci´on entre ellas. Para hacer un
diagn´ostico r´apido, lo mejor es empezar por una representaci´on gr´afica, con X en las abscisas
e Y en las ordenadas, de modo que cada uno de los individuos de la muestra corresponde a un
punto. En este caso, los papeles de X e Y son intercambiables.
En la Figura 1.1, X es el ´ındice de masa corporal e Y el per´ımetro de la cintura. Salvo tres
puntos situados en la parte inferior derecha del gr´afico, para los que he usado un s´ımbolo distinto,
los otros se pueden agrupar en torno a una l´ınea recta, lo que sugiere que una f´ormula lineal
podr´ıa ser ´util como aproximaci´on de la relaci´on entre estas variables.
Fuente: M. Rafecas, comunicaci´on personal.
Se precisa un cierto bagaje matem´atico para una definici´on formal de la probabilidad, de modo
que me limitamos aqu´ı a una definici´on intuitiva. La probabilidad de un cierto resultado es un
n´umero, comprendido entre 0 y 1, con el que se eval´ua la expectativa de obtener ese resultado.
Ejemplos de resultados cuya probabilidad interesa en este curso podr´ıan ser que un espa˜nol
mayor de sesenta a˜nos fuese diab´etico, o que la concentraci´on de colesterol total de un var´on
espa˜nol mayor de 40 anos˜ estuviese entre 150 y 180 mg/dl.
¿En qu´e sentido se dice que la probabilidad es una medida de la expectativa de un resultado?
Se entiende que la probabilidad es el valor l´ımite de la proporci´on de casos en que se da ese
resultado cuando el n´umero de observaciones tiende a infinito. En la pr´actica, se interpreta
como una expectativa de esa proporci´on, de modo que se espera que la proporci´on observada en
un experimento se aproxime m´as a la probabilidad cuanto mayor sea el n´umero de observaciones.
La probabilidad es un valor te´orico que, en la mayor´ıa de los casos, no se puede conocer con
exactitud, aunque la proporci´on en que se obtiene un resultado en un estudio experimental se
pueda usar como aproximaci´on de su probabilidad (v. ejemplos). En estas notas designamos por
p[A] la probabilidad de un resultado A. Si hay un unico´ resultado cuya probabilidad interese,
usamos la letra griega π, y cuando interesa comparar las probabilidades de A en distintas
condiciones, las distinguimos mediante sub´ındices (por ejemplo, π 1 y π 2 ).
Las relaciones entre los distintos resultados de una experiencia dan lugar a relaciones matem´ati-
cas entre sus respectivas probabilidades. Estas relaciones son las reglas del c´alculo de probabili-
dades. La m´as importante de ellas es la propiedad aditiva: si A es un resultado para el que hay
una serie de posibilidades o casos A 1 , A 2 ,... , Ak, excluyentes dos a dos, se cumple
p[A] = p[A 1 ] + p[A 2 ] + · · · + p[Ak].
Un caso particular interesante es aqu´el en que A y B son complementarios (es decir, B equivale
a “no A”). Entonces p[A] + p[B] = 1.
Ejemplo 1.2 (continuaci´on). En el Ejemplo 1.2, los porcentajes de la tabla pueden tomarse como
aproximaciones de las respectivas probabilidades. As´ı, por ejemplo, los porcentajes de la primera
fila aproximan las probabilidades de que un hombre de raza blanca, con edad entre 55 y 79 a˜nos,
tenga peso normal (25.5%), sobrepeso (51.6%) u obesidad (23.0%), respectivamente.
En general, una distribuci´on de probabilidad es la asignaci´on de probabilidades a los resultados
de una variable. Hay que distinguir entre distribuciones discretas y continuas. Para una variable
categ´orica se usa una distribuci´on discreta, que asigna una probabilidad a cada uno de los
valores posibles. As´ı, si X es una variable categ´orica con valores x 1 ,... , xk, su distribuci´on de
probabilidad asigna a cada xi la probabilidad πi = p
X = xi
. Por la propiedad aditiva,
π 1 + · · · + πk = 1.
Para una variable continua, en cambio, no interesan las probabilidades de los valores individuales,
que siempre son cero (podr´ıamos dar un argumento riguroso para justificar esto, aunque ello
requerir´ıa un nivel matem´atico superior al de estas notas), sino las de intervalos. As´ı, para
cada par de valores x 1 y x 2 , con x 1 < x 2 , la distribuci´on de probabilidad de X asigna una
probabilidad p
x 1 < X < x 2
al intervalo de valores comprendidos entre x 1 y x 2.
Para las variables continuas y ordinales tiene sentido considerar probabilidades acumuladas.
Para un valor x de X, la probabilidad acumulada es p[X ≤ x]. Por la propiedad aditiva de la
probabilidad,
p
X ≤ x
= p
X < x
X = x
Colesterol HDL
Frecuencia
0.6 0.8 1.0 1.2 1.4 1.6 1.8 2.
0
5
10
15
Figura 1.2. Histograma (Ejemplo 1.3)
de donde se sigue que, cuando X es continua, es indiferente usar “≤” o “<” al definir la proba-
bilidad acumulada. En cambio, si X es discreta, puede ser p[X < x] #= p[X ≤ x].
En la mayor parte de las aplicaciones reales, las distribuciones de probabilidad son desconocidas,
aunque se pueden aproximar por tablas de frecuencia, como la del ejemplo que sigue. En las
tablas se puede dar la frecuencia (absoluta), que es el n´umero de veces que se da un resultado, o
ese n´umero dividido por el n´umero total de datos, que es la proporci´on o frecuencia relativa (v.
Tabla 1.2). A veces se expresa la proporci´on en forma de porcentaje. Para una variable continua
tambi´en se puede aproximar la distribuci´on de probabilidad por una tabla de frecuencia, pero en
la tabla s´olo se pueden incluir algunos intervalos. Para dar la distribuci´on completa, se necesita
un modelo matem´atico m´as complejo, la funci´on de densidad (v. Cap´ıtulo 3).
Los intervalos en los que se basan las tablas de frecuencia de las variables continuas pueden
tener la misma o distinta longitud. A veces se presenta la tabla de frecuencias en forma gr´afica,
con un diagrama de barras en el que la altura de una barra es proporcional a la frecuencia de
la clase correspondiente. Para una variable continua, las barras se colocan pegadas y ordenadas
seg´un los valores de la variable. El gr´afico as´ı obtenido se llama histograma (v. Figura 1.2).
Ejemplo 1.3. En la Tabla 1.3 se dan las concentraciones iniciales de colesterol HDL de 57
trabajadores de una empresa (32 hombres y 25 mujeres) donde se ha realizado un estudio sobre
la influencia de algunos componentes de la materia prima de los productos de boller´ıa sobre
varios biomarcadores asociados a enfermedades cardiovasculares (colesterol HDL, LDL, etc.).
TABLA 1.3. Colesterol HDL (Ejemplo 1.3)
Hombres 1.910 1.310 1.295 1.120 1.660 1.700 1.630 1.055 0.930 1. 1.015 0.840 1.680 1.155 1.300 1.815 1.400 1.135 1.245 1. 1.980 1.535 1.940 1.835 1.485 1.115 1.520 1.660 1.100 0. 1.455 1.
Mujeres 1.100 1.290 1.365 1.065 1.150 0.860 1.155 1.225 1.695 1. 0.910 1.360 0.965 1.660 1.625 0.875 1.225 1.055 1.085 1. 1.065 1.020 1.465 1.050 0.
La Tabla 1.4 es una tabla de frecuencia y la Figura 1.2 el correspondiente histograma. Observa
que en la Tabla 1.4 he mezclado hombres y mujeres, aunque cabe pensar que la distribuci´on
del colesterol HDL pueda ser distinta en los dos grupos de poblaci´on. M´as adelante volveremos
sobre este punto.
A veces interesa evaluar mediante una probabilidad la expectativa de un resultado A en el
supuesto de que se d´e una cierta condici´on previamente especificada B. Esta probabilidad es
una probabilidad condicionada. Se puede definir la probabilidad de A condicionada a B como el
valor l´ımite de la proporci´on de experiencias en las que se obtiene A, dentro del conjunto de las
experiencias en las que se da B. Designamos aqu´ı por p
esta probabilidad condicionada.
Por ejemplo, en lugar de la probabilidad de que un reci´en nacido sea var´on, puede interesarnos
la probabilidad de que el hijo de una madre mayor de treinta a˜nos sea var´on. En este caso, A
corresponde a que el reci´en nacido sea var´on, y B a que la madre tenga m´as de treinta a˜nos.
En las ciencias de la salud, las probabilidades condicionadas aparecen de forma natural al pasar
de una poblaci´on a una subpoblaci´on, por ejemplo, al considerar s´olo personas de un sexo, de
un cierto segmento de edad, o de un cierto grupo ´etnico (v. Ejemplo 1.2). En la pr´actica, la
distinci´on entre la probabilidad de A y la probabilidad de A condicionada a otro resultado se hace
s´olo cuando interesa, ya que todas las probabilidades de los problemas reales son condicionadas.
La probabilidad condicionada es aditiva. Si A se descompone en las posibilidades A 1 ,... , Ak,
se cumple
p
= p
Ak|B
Otra f´ormula interesante permite obtener la probabilidad de A promediando las probabilidades
en distintas condiciones. Supongamos que B 1 , B 2 ,... , Bn resultan de una partici´on del conjunto
de resultados posibles en varios casos (por ejemplo, hombres y mujeres). La probabilidad de A
se puede calcular con la f´ormula
p[A] = p
p[B 1 ] + · · · + p
A|Bn
p[Bn].
Observa que p[B 1 ] + · · · + p[Bn] = 1, de modo que p[A] es la media ponderada de las probabil-
idades de A en los distintos casos. Por ejemplo, si una poblaci´on tiene el 52% de hombres y el
48% de mujeres, siendo la probabilidad de contraer una cierta enfermedad π 1 en los hombres y
π 2 en las mujeres, la probabilidad para el conjunto de la poblaci´on es π = 0. 52 π 1 + 0. 48 π 2.
NOTA. Sean x 1 ,... , xn n´umeros cualesquiera y w 1 ,... , wn n´umeros positivos, que cumplan
w 1 + · · · + wn = 1. Entonces la media ponderada de x 1 ,... , xn, con “pesos” w 1 ,... , wn,
es w 1 x 1 + · · · + wnxn. Si todos los pesos son iguales (a 1 /n), resulta la media ordinaria. En
el ejemplo anterior, w 1 = 0. 52 y w 2 = 0 .48, de modo que en el promedio tienen m´as peso los
hombres que las mujeres.
Supongamos ahora dos variables X e Y y fijemos un valor de una de ellas, por ejemplo X = x.
Podemos entonces considerar la distribuci´on de probabilidad de Y condicionada a X = x. Si Y es
categ´orica, con valores y 1 ,... , ym, la distribuci´on condicionada viene dada por las probabilidades
p
Y = y 1 |X = x
,... , p
Y = ym|X = x
Si Y es continua, la distribuci´on condicionada viene dada por las probabilidades de los intervalos
asociados a los valores de Y , es decir, p
y 1 < Y < y 2 |X = x
Ejemplo 1.2 (continuaci´on). En la Tabla 1.2, cada de una de las filas da una aproximaci´on
de la distribuci´on del BMI condicionada al grupo ´etnico. Los resultados de la tabla parecen
indicar que la distribuci´on del BMI depende del grupo ´etnico. M´as adelante veremos pruebas
estad´ısticas espec´ıficas para este tipo de situaciones (la prueba chi cuadrado y la prueba de
sigificaci´on de la odds ratio).
Aqu´ı los papeles de X e Y est´an claros. Lo que no est´a del todo claro es si las diferencias en
los porcentajes de sobrepeso y obesidad se han de atribuir a diferencias ´etnicas, o a diferencias
en los h´abitos alimentarios (o a ambas cosas). Observa que, en este caso, no cabe promediar las
cuatro filas de la tabla para obtener la distribuci´on de probabilidad aproximada del BMI en el
conjunto de la poblaci´on, a menos que las proporciones de los grupos ´etnicos en la muestra sean
las mismas que en la poblaci´on.
Cuando la distribuci´on de Y condicionada a X = x es la misma, sea cual sea x, se dice que X e
Y son estad´ısticamente independientes. En la pr´actica, esto significa que conocer el valor de X
no cambia la expectativa para Y. Esta noci´on es central en este curso. Veremos m´as adelante
c´omo “medir” lo lejos que X e Y est´an de la independencia, en dos casos especiales:
NOTAS. 1. Tal como he formulado la definici´on, deber´ıa haber dicho “Y independiente de X”,
en lugar de “X e Y independientes”. No obstante, se puede demostrar matem´aticamente que,
si Y es independiente de X, entonces X es independiente de Y. De hecho, las definiciones de θ
y ρ son sim´etricas y no dependen de c´omo se asignen los papeles de X e Y.
el resultado de una prueba que permite concluir que dos variables no son independientes como
una evidencia de que una variable “influye” sobre la otra. El paso de la no-independencia a una
relaci´on causa-efecto (asim´etrica) es extra-estad´ıstico, y no lo avalan los m´etodos presentados
en este curso.
mientras que en Estad´ıstica, lo que est´a perfectamente definido (con f´ormulas matem´aticas) es
la independencia. La dependencia puede ser cualquier cosa que no sea independencia, desde una
f´ormula que d´e Y como funci´on de X, hasta una asociaci´on vaga que no se sepa a qu´e atribuir.
ello, se considera la distribuci´on de Y condicionada a
X 1 = x 1 ,... , Xp = xp
. La independencia
significa que la distribuci´on condicionada es independiente de los x 1 ,... xp.
de que consta un experimento son independientes. En la pr´actica, eso significa que conocer los
valores ya obtenidos no cambia la expectativa para las observaciones venideras. En los ejercicios
de “urnas y bolas” de la escuela, la independencia de las sucesivas extracciones se asegura
reemplazando las bolas extra´ıdas, pero, en los experimentos reales, asegurar la independencia
de las observaciones es m´as complicado y constituye uno de los problemas centrales del dise˜no
de los experimentos. Esta cuesti´on aparecer´a varias veces en este curso.
Ejemplo 1.1 (continuaci´on). En el Ejemplo 1.1 parece claro, fij´andose en la Figura 1.1, que las
dos variables no son independientes, lo que no sorprender´a a nadie, puesto que el sobrepeso se
debe, en parte, a la acumulaci´on de grasa en el abdomen. Aqu´ı el coeficiente de correlaci´on ser´a
positivo.
mismas dimensiones que X, pero la varianza tiene las dimensiones de X^2. Para volver a la
escala original, la medida de la dispersi´on se presenta casi siempre usando la ra´ız cuadrada de
la varianza, que se llama desviaci´on t´ıpica (o standard).
Se puede expresar la desviaci´on t´ıpica en forma relativa, como porcentaje de un valor de referen-
cia, o de un promedio de resultados experimentales. Se llama entonces coeficiente de variaci´on
(CV). El uso del coeficiente de variaci´on para evaluar la imprecisi´on de un m´etodo de an´alisis
es com´un en el laboratorio.
En el an´alisis de la varianza usaremos sumas de cuadrados, abreviadamente SS (sum of squares).
Observa que la varianza es un cociente, cuyo numerador es una suma de cuadrados. En general,
en las sumas de cuadrados del an´alisis de la varianza, los sumandos son los cuadrados de las
desviaciones respecto a un valor central, que en la f´ormula de la varianza es la media. Sin
embargo, cuando los datos est´an repartidos en varios grupos cuyas medias queremos comparar,
se puede restar a cada dato la media de su grupo.
El denominador de la varianza es un n´umero natural, el n´umero de grados de libertad, abrevi-
adamente df (degrees of freedom). En esta f´ormula, df coincide con el n´umero de datos menos
1, aunque, en general, corresponde al n´umero de sumandos independientes. Observa que s´olo
n − 1 de las desviaciones x 1 − x¯ 1 ,... , xn − ¯xn son independientes, ya que suman cero, de modo
que cualquiera de ellas se puede obtener a partir de las restantes.
Si x 1 ,... , xn son valores de X, e Y = a + bX, con a y b constantes, se cumple
s^2 Y = b^2 s^2 X.
No obstante, en general, s^2 X+Y #= s^2 X + s^2 Y. La f´ormula exacta es
s^2 X+Y = s^2 X + s^2 Y + 2 rsX sY ,
donde r es el coeficiente de correlaci´on, del que hablaremos m´as tarde.
Ejemplo 1.3 (continuaci´on). En el Ejemplo 1.3, llamando Y al colesterol HDL, tenemos, para la
muestra completa,
n = 57 , y¯ = 1. 288 , s = 0. 311.
Para la submuestra de hombres,
n 1 = 32 , y¯ 1 = 1. 378 , s 1 = 0. 330 ,
y para la de mujeres,
n 2 = 25 , y¯ 2 = 1. 174 , s 2 = 0. 248.
Observa que, en todos los casos, la media es mayor que la mediana. La diferencia entre ellas es
indicativa de la asimetr´ıa de la distribuci´on.
Ir´e indicando, a lo largo de estas notas, c´omo pueden hacerse los c´alculos en una hoja de c´alculo
Excel. Alternativamente, puede usarse SPSS, mucho m´as potente, pero menos flexible. Como
SPSS no es, en general, accesible en casa o en el lugar de trabajo, he dado preferencia a Excel,
que es de uso (casi) universal.
En la hoja de c´alculo Excel se pueden hallar, adem´as de la media, la varianza y la desviaci´on
t´ıpica, multitud de f´ormulas estad´ısticas, que se manejan con facilidad con el asistente de fun-
ciones. La media es PROMEDIO, la varianza, VAR, y la desviaci´on t´ıpica, DESVEST. Las tres son
funciones de un argumento, y dentro del par´entesis se indica el bloque de la hoja de c´alculo
donde se han introducido los datos, en la forma habitual de Excel. Por ejemplo, PROMEDIO(A1:B6)
da la media de una serie de 12 valores que est´an en el rect´angulo que tiene el v´ertice superior
izquierdo en A1 y el v´ertice inferior derecho en B6.
Las variables num´ericas discretas resultan al contar las veces que se da un resultado en n
experiencias, o al asignar valores num´ericos a las categor´ıas de una variable categ´orica. En
algunos casos, los valores de una variable num´erica discreta se asignan de forma natural (vgr.
X = n´umero de infartos en una poblaci´on en los ´ultimos diez anos),˜ pero, en otros, provienen
de una codificaci´on arbitraria (vgr. X = 1 si un individuo es fumador y X = 0 si no lo es).
Se defini´o en el Cap´ıtulo 1 la probabilidad como una proporci´on l´ımite, cuando el n´umero de
experiencias tiende a infinito. Podemos considerar, de forma an´aloga, el l´ımite de la media x¯,
que llamamos media de X y designamos por μ. Si hay ambiguedad¨ se pueden usar sub´ındices
(μ 1 , μX , etc.).
A veces se distingue entre ambas medias llamando media de la muestra a x¯ y media de la
poblaci´on a μ. As´ı, en el Ejemplo 1.3, la media de la muestra es ¯x = 1 .288, y la media de la
poblaci´on es desconocida, y se puede usar aqu´ella como una aproximaci´on de ´esta.
Para una variable discreta, la definici´on matem´atica de μ resulta de forma natural de lo anterior.
Supongamos que x 1 ,... , xk son los valores de X, con probabilidades π 1 ,... , πk. Sea n el n´umero
de observaciones y ni la frecuencia del resultado X = xi. De este modo, n 1 + · · · + nk = n.
La proporci´on con que observamos X = xi es pi = ni/n, y se cumple
x ¯ =
n 1 x 1 + · · · + nk xk
n
= p 1 x 1 + · · · + pk xk.
Cuando n → ∞, las proporciones pi convergen hacia las probabilidades πi, y el l´ımite de x¯ es
μ = π 1 x 1 + · · · + πk xk.
Observa que μ es una media ponderada de x 1 ,... , xk, en la que el peso de xi viene dado por
su probabilidad πi.
La varianza de X es la media de (X − μ)^2. En una distribuci´on discreta,
σ^2 = π 1
x 1 − μ
xk − μ
Se puede demostrar matem´aticamente que σ^2 es el l´ımite de la varianza de la secci´on anterior
cuando n → ∞. Tambi´en aqu´ı se distingue entre varianza de la poblaci´on (σ^2 ) y varianza de la
muestra (s^2 ). En ambos casos se llama desviaci´on t´ıpica a la ra´ız cuadrada de la varianza.
Las propiedades de la media y la varianza de la muestra comentadas en el cap´ıtulo anterior se
extienden, al pasar al l´ımite, a la media y la varianza de la poblaci´on. Una propiedad adicional
es la siguiente: si X e Y son independientes, se cumple σ^2 X+Y = σ^2 X + σ Y^2.
Antes de pasar a la binomial, que es la distribuci´on discreta con m´as aplicaciones, ilustramos
en esta secci´on estas definiciones con unos c´alculos sencillos. El ejemplo del dado es cl´asico. En
´el, X = resultado de la tirada de un dado regular. Como los seis resultados posibles tienen la
misma probabilidad, tenemos una distribuci´on uniforme. Los valores de X son
x 1 = 1 , x 2 = 2 , x 3 = 3 , x 4 = 4 , x 5 = 5 , x 6 = 6 ,
Por ejemplo, la probabilidad de obtener 3 caras lanzando una moneda 5 veces es
que corresponde al c´alculo combinatorio
( 5
3
La probabilidad acumulada corresponde, en este caso, a obtener un n´umero de caras menor o
igual que tres. En Excel,
DISTR.BINOM(3;5;0.5;1)=0.8125,
o, si se prefiere,
( 5
0
En general, el muestreo es la selecci´on de una parte o muestra dentro de un conjunto o poblaci´on.
La expresi´on inspecci´on por muestreo se refiere a la inspecci´on que se limita a una muestra
extra´ıda de un lote, a partir de cuyos resultados se decide la aceptaci´on o rechazo de la totalidad.
En el contexto de la inspecci´on por muestreo, la poblaci´on es el lote que se acepta o rechaza,
pero, a veces, interesa considerar la muestra como si hubiera sido extra´ıda de una poblaci´on
mucho mayor, el conjunto de la producci´on de un proveedor.
La inspecci´on por muestreo se lleva a cabo siguiendo planes de muestreo. Un plan de muestreo
consta de dos partes:
Un plan de muestreo por atributos indica el n´umero de unidades de cada lote que se tienen que
inspeccionar, que es el tamano˜ de la muestra, designado habitualmente por n, y el criterio para
aceptar o rechazar el lote, que habitualmente se concreta en el numero´ de aceptaci´on (Ac) y el de
rechazo (Re). Si el n´umero de unidades no conformes no supera Ac, se acepta el lote. Al alcanzar
Re, se rechaza. Los planes de muestreo m´as conocidos son los de la norma MIL-STD-105 (o su
equivalente ISO 2859–1).
Para entender qu´e significa, en la pr´actica, usar uno u otro plan, hay que dar una respuesta a la
pregunta: Si el lote contiene una proporci´on p de unidades no conformes, ¿cu´al es la probabilidad
de que sea aceptado? Una curva que d´e la probabilidad de aceptaci´on en funci´on de p (Figura
2.1) se llama, en el contexto del control de calidad, curva caracter´ıstica.
La f´ormula binomial pude ser usada para trazar curvas caracter´ısticas (v. ejemplos). Hay que
tener en cuenta, sin embargo, que s´olo es v´alida si el lote es muy grande, de forma que se pueda
suponer que las sucesivas extracciones no cambian el porcentaje de unidades no conformes y,
por lo tanto, que las extracciones son independientes. En caso contrario, hay que recurrir a una
f´ormula m´as complicada, la f´ormula hipergeom´etrica, que no se ve en este curso, pero que se
puede hallar tambi´en en Excel.
Ejemplo 2.1. Un plan de muestreo, extra´ıdo de la norma MIL-STD-105, da la regla siguiente
para decidir si se acepta o no un lote de un proveedor: se inspecciona una muestra de 125
unidades extra´ıda del lote, y se acepta ´este si el n´umero de unidades no conformes no supera 5.
No entra en
Bioestadística para
Farmacia
0.05 0.10 0.
Defectuosas (%)
Probabilidad de aceptación
Figura 2.1. Curva caracter´ıstica (Ejemplo 2.1)
Usando la f´ormula DISTR.BINOM(5;125;p;1) con distintos valores de p se obtienen los resultados
de la Tabla 2.1. Observa que la probabilidad de aceptaci´on es una probabilidad acumulada, ya
que aceptamos el lote cuando B ≤ 5. Se puede usar esta tabla, u otra an´aloga, para dibujar una
curva caracter´ıstica (v. Figura 2.1).
TABLA 2.1. Probabilidad de aceptaci´on (Ejemplo 2.1)
Defectuosas Probabilidad Defectuosas Probabilidad (%) aceptaci´on (%) aceptaci´on
1 0.9983 9 0. 2 0.9597 10 0. 3 0.8257 11 0. 4 0.6160 12 0.
5 0.4015 13 0. 6 0.2330 14 0. 7 0.1227 15 0. 8 0.0595 16 0.
El del Ejemplo 2.1 es un plan simple. En los planes simples, que son los m´as usados, s´olo se
inspecciona una muestra. El plan especifica el tama˜no de muestra y el criterio de aceptaci´on.
En los planes dobles, se inspecciona una muestra y, en funci´on del resultado, se acepta el lote, se
rechaza, o se inspecciona otra muestra. El plan especifica el tamano˜ y el criterio de aceptaci´on
y rechazo para cada muestra. El criterio de aceptaci´on para la segunda muestra se refiere a la
uni´on de ambas muestras.
En general, se dice que un plan de muestreo es m´as eficiente que otro cuando consigue objetivos
similares con menor esfuerzo de inspecci´on. Mediante c´alculos basados en argumentos de tipo
probabil´ıstico, se puede probar que los planes dobles son m´as eficientes que los simples.
En los planes m´ultiples se sigue un procedimiento similar, pero el n´umero de muestras adicionales
que se puede tomar despu´es de la primera es mayor que 1, t´ıpicamente 5 o 6. Despu´es de la
inspecci´on de cada una de las muestras sucesivas se plantea la misma disyuntiva: si se cumple el
No entra en Bioestadística
para Farmacia
Ejemplo 2.3. Unos estudiantes de la UB han hecho una prueba sobre la capacidad de diferenciar
el yogur BIO (B) del natural (N). En la prueba han participado 12 catadores, a los que se
ofrec´ıan tres vasos de yogur a temperatura ambiente, previamente agitados, para evitar que
distinguieran los yogures por su textura. De los tres yogures, uno es diferente de los otros dos,
y los catadores deben identificarlo.
En la Tabla 2.2 podemos ver la secuencia presentada a cada participante, y si acert´o o no.
Observa que, para los seis primeros participantes, se han usado todas las secuencias posibles de
tres letras que tengan dos N y una B, o una N y dos B. Para los otros seis se han repetido estas
secuencias, en distinto orden.
TABLA 2.2. Prueba triangular (Ejemplo 2.3)
Participante Secuencia Acierto Participante Secuencia Acierto
1 NNB S´I 7 BBN NO 2 BNN S´I 8 NNB S´I 3 BBN NO 9 BNN S´I 4 NBB NO 10 NBB S´I 5 NBN S´I 11 BNB S´I 6 BNB NO 12 NBN S´I
En la tabla se ve que 8 de los 12 participantes han acertado. La probabilidad de que uno de
ellos acierte por casualidad es 1/3. Con la f´ormula binomial podemos calcular la probabilidad
de obtener 8 o m´as aciertos. Como p
= 1 − p
, podemos usar la f´ormula de la
probabilidad acumulada,
Como esta probabilidad es peque˜na, se puede concluir que es posible distinguir un producto de
otro mediante los sentidos. M´as adelante precisaremos qu´e quiere decir “pequena”˜ al hablar
del nivel de significaci´on. De momento, toma nota de que, si no se especifica lo contrario, las
probabilidades peque˜nas son las menores de 0.05. Este es un convenio, tan arbitrario como se
quiera, pero universal.
Fuente: Departament de Nutrici´o i Bromatologia, UB.
Una distribuci´on continua asigna una probabilidad a cada intervalo x 1 < X < x 2. Esto se
hace habitualmente mediante una funci´on, la funci´on de densidad de probabilidad de X, cuyas
integrales dan las probabilidades. La funci´on de densidad f se escoge de modo que su integral
sobre un intervalo cualquiera coincida con la probabilidad asignada a ese intervalo,
p
x 1 < X < x 2
∫ (^) x 2
x 1
f (x) dx.
La probabilidad acumulada p[X < x] corresponde as´ı a la integral de −∞ a x,
p
X < x
∫ (^) x
−∞
f (x) dx.
La gr´afica de f es la curva de densidad de probabilidad (v. Figura 3.1). La probabilidad de un
intervalo coincide con el ´area limitada por la curva de ecuaci´on y = f (x), el eje de abscisas y las
verticales x = a y x = b.
Una funci´on de densidad debe cumplir f (x) ≥ 0 para todo x, ya que si no podr´ıa dar probabili-
dades negativas. Sin embargo, recuerda que f (x) no es una probabilidad, y puede tomar valores
mayores que 1. Otra propiedad de la funci´on de densidad es
p
−∞
f (x) dx = 1.
La media y la varianza de una variable continua se define con f´ormulas parecidas a las de las
distribuciones discretas, sustituyendo sumas por integrales,
μ =
−∞
x f (x) dx, σ^2 =
−∞
(x − μ)^2 f (x) dx,
y la desviaci´on t´ıpica σ es la ra´ız cuadrada de la varianza. Valen aqu´ı las mismas propiedades
de la media y la varianza que para las distribuciones discretas. De ellas se deduce, en particular,
que
X − μ
σ
tiene media 0 y desviaci´on t´ıpica 1. El paso de X a Z se llama normalizaci´on (o tipificaci´on).
La distribuci´on normal, o gaussiana, tiene una funci´on de densidad de la forma
f (x) =
2 πσ
exp
(x − μ)^2
2 σ^2