variaveis aleatorias, Notas de estudo de zootecnia
lenice-mendonca-de-menezes-7
lenice-mendonca-de-menezes-7

variaveis aleatorias, Notas de estudo de zootecnia

43 páginas
50Números de download
1000+Número de visitas
Descrição
variaveis aleatorias
60 pontos
Pontos de download necessários para baixar
este documento
Baixar o documento
Pré-visualização3 páginas / 43
Esta é apenas uma pré-visualização
3 mostrados em 43 páginas
Esta é apenas uma pré-visualização
3 mostrados em 43 páginas
Esta é apenas uma pré-visualização
3 mostrados em 43 páginas
Esta é apenas uma pré-visualização
3 mostrados em 43 páginas

Caṕıtulo 4

Variáveis aleatórias

Neste caṕıtulo, introduzimos as variáveis aleatórias e suas distribuições de probabilidade.

Definição 4.1 Dado um experimento aleatório, descrito pelo espaço de pro- babilidades (Ω, E ,P), uma função numérica X : Ω → R será dita uma variável aleatória (do experimento).

Exemplo 4.2 No Exemplo 3.1, X = “número lançado” é uma variável alea- tória. Mais precisamente, X : Ω = {1, 2, . . . , 6} → R tal que X(ω) = ω é uma função numérica do experimento, e logo é uma variável aleatória.

Exemplo 4.3 No Exemplo 3.2, X = “número escolhido” é uma variável aleatória. Neste caso, X : Ω = [0, 1] → R tal que X(ω) = ω.

Exemplo 4.4 No Exemplo 3.5, X = “número de lançamentos” é uma va- riável aleatória. Neste caso, X : Ω → R tal que X(ω) = ω.

Exemplo 4.5 No Exemplo 3.7, X = “soma dos números lançados” é uma variável aleatória. Neste caso, X : Ω = {(i, j) : i, j = 1, 2, . . . , 6} → R tal que X((i, j)) = i+ j.

Exemplo 4.6 No Exemplo 3.6, X = “distância do ponto escolhido à ori- gem” é uma variável aleatória. Neste caso, X : Ω = C → R tal que X((x, y)) =

x2 + y2.

113

Exemplo 4.7 (Amostragem aleatória) De volta ao contexto do parágra- fo sobre amostragem aleatória em populações (começando na página 91), seja Π uma população e X : Π → R uma variável (numérica) definida em Π (neste contexto, para diferenciar de variável aleatória, falaremos em variável populacional). Agora, consideremos uma amostragem casual simples de ta- manho 1 nesta população. Como visto no parágrafo mencionado acima, o espaço amostral é Ω = Π. Podemos considerar então o valor da variável X no indiv́ıduo sorteado. Neste contexto, X : Ω → R é uma variável aleatória. No Exemplo 3.8, X = 1mulher é a variável (aleatória) indicadora de mulher.

Exemplo 4.8 (Amostragem casual simples com/sem reposição) No Exemplo 3.9, X = “número de mulheres na amostra” é uma variável aleató- ria. Podemos considerar o caso sem reposição também.

4.1 Distribuição de probabilidades de variá-

veis aleatórias

O que nos interessa nas variáveis aleatórias são suas distribuições de pro- babilidade, isto é, as probabilidades dos diversos eventos envolvendo tais variáveis. Como no caso das variáveis populacionais, temos o caso discreto e o caso cont́ınuo.

No Exemplo 4.2, os valores posśıveis de X perfazem o conjunto {1, . . . , 6}. Seguem exemplos de eventos envolvendo a v.a. X.

{X = 1} = {ω : X(ω) = 1} = {1}, {X = 2} = {2}, {X ≤ 2} = {ω : X(ω) ≤ 2} = {1, 2}, {X ≥ 3} = {3, 4, 5}

Então,

P({X = 1}) = 1 P(X = 1) = P({1}) = 1 6 = P(X = 2)

P(X ≤ 2) = P({1, 2}) = 1 3 , P(X ≥ 3) = P({3, 4, 5}) = 1

2 .

1Omitiremos daqui para frente as chaves dos eventos envolvendo variáveis aleatórias

dentro do sinal de probabilidade.

114

x 2 3 4 5 6 7 8 9 10 11 12 P(X = x) 1

36 2 36

3 36

4 36

5 36

6 36

5 36

4 36

3 36

2 36

1 36

Tabela 4.1

4.1.1 Variáveis aleatórias discretas

Quando o conjunto de valores posśıveis de uma v.a. X for finito ou infinito enumerável, como no exemplo acima, em que ele é finito, dizemos queX é dis- creta. Neste caso, sendo VX = {xi, i = 1, 2, . . .} o conjunto de valores, então se tivermos as probabilidades de todos os eventos {X = xi}, i = 1, 2, . . ., (que diremos unitários), então, pela aditividade da probabilidade (3.20), podemos obter as probabilidades de eventos compostos como {X ≤ w}, {X > z}, onde w, z são números arbitrários, e outros, como segue.

P(X ≤ w) = ∑

i:xi≤w

P(X = xi), P(X > z) = ∑

i:xi>z

P(X = xi)

A distribuição de probabilidades de X é pois determinada pelas probabi- lidades dos eventos unitários, ou em outras palavras pela função de probabi- lidade P(X = ·) : VX → [0, 1].

No Exemplo 4.2, a distribuição (de probabilidades) de X é pois dada por

P(X = i) = 1

6 , i = 1, . . . , 6. (4.1)

No Exemplo 4.4, temos VX = {1, 2, . . .}, os inteiros positivos, e, como já vimos no Exemplo 3.5, P(X = i) = P({i}) = 2−i, i ∈ VX .

No Exemplo 4.5, VX = {2, 3, . . . , 12}, e

{X = 2} = {(1, 1)} {X = 3} = {(1, 2), (2, 1)} {X = 4} = {(1, 3), (2, 2), (3, 1)} {X = 5} = {(1, 4), (2, 3), (3, 2), (4, 1)}

e assim por diante, de forma que, lembrando que se trata de um espaço equi- provável, podemos representar a função de probabilidade de X na Tabela 4.1.

115

4.1.2 Variáveis aleatórias cont́ınuas

No caso em que VX for um conjunto infinito não enumerável, em geral não é suficiente obter as probabilidades dos eventos unitários {X = x}, x ∈ VX (nos casos que veremos nestas notas, estas probabilidades se anulam todas). Vejam a discussão feita no parágrafo sobre espaços amostrais não enumeráveis (página 86).

Neste caso, para caracterizar a distribuição de probabilidades de X é su- ficiente termos as probabilidades dos eventos {X ∈ I}, onde I é um intervalo arbitrário da reta. Nos casos que veremos nestas notas, tais probabilidades serão dadas por funções de densidade de probabilidade fX . Isto é, existirá uma função fX : R → [0,∞) tal que

P(a < X < b) =

∫ b

a

fX(x) dx

para todo a, b ∈ R com a ≤ b. No Exemplo 4.3, P(a < X < b) = (b∧1)−(a∨0), onde ∨ indica o máximo

e ∧ indica o mı́nimo. Conclúımos que para f = 1[0,1], a função indicadora do intervalo [0, 1], isto é

1[0,1](x) =

{

1, se 0 ≤ x ≤ 1 0, , caso contrário,

temos P(a < X < b) = ∫ b

a f(x) dx, e então f é a função de densidade de

probabilidade de X. Na descrição da distribuição de uma v.a. cont́ınua, é suficiente conside-

rarmos intervalos I semiinfinitos (−∞, a]. No Exemplo 4.6, temos que

P(X ≤ a) =

1, se a ≥ 1, π a2

π = a2, se 0 ≤ a ≤ 1,

0, se a ≤ 0,

logo f(x) = 2x 1[0,1](x) é a função de densidade de probabilidade de X neste caso (verifique).

116

Observação 4.9 Como objetos matemáticos, as funções de probabilidade e funções de freqüência, de um lado, e as funções de densidade de probabili- dade e funções de densidade de freqüência, por outro, são idênticas, respecti- vamente, isto é, são todas funções não negativas satisfazendo (1.7) e (1.14), respectivamente. Uma situação em que estes objetos se identificam é a se- guinte.

Observação 4.10 Seja X : Π → R uma variável populacional definida na população Π, e façamos uma amostragem casual simples de tamanho 1 em Π. Como vimos no Exemplo 4.7, X observada no indiv́ıduo amostrado é uma variável aleatória. Qual é a distribuição de probabilidades de X?

Vamos supor que X seja uma variável populacional discreta, cuja distri- buição de freqüências é dada pela função de freqüência P (X = ·). Então para x ∈ VX,

P (X = x) = #{I ∈ Π : X(I) = x}

#Π . (4.2)

Por outro lado, a probabilidade do evento {X = x} é dada por

P(X = x) = #{X = x}

#Ω , (4.3)

pois se trata de espaço equiprovável. Mas como re/vimos no Exemplo 4.7, Ω = Π, e logo os lados direitos de (4.2) e (4.3) são iguais. Portanto,

P (X = x) = P(X = x)

para x ∈ VX , e temos a coincidência das funções de freqüência e de probabi- lidade de X, vista como variável populacional e aleatória, respectivamente.

Por um racioćınio análogo, valendo-nos neste caso de aproximações, con- cluimos que também no caso de uma variável populacional cont́ınua X, se fi- zermos amostragem casual simples de tamanho 1 na população em questão, e observarmos X no indiv́ıduo sorteado, então a distribuição de probabilidades de X, variável aleatória neste contexto, é dada por uma função de densidade de probabilidade, que é idêntica à função de densidade de freqüência de X vista como variável populacional.

Em conclusão, ao fazermos uma amostragem casual simples de tamanho 1 de variável populacional, obtemos uma variável aleatória, cuja distribuição de probabilidades é dada pela distribuição de freqüências da variável popu- lacional. Isto se manifesta, em particular, na coincidência comentada na Observação 4.9 acima.

117

x ∈ (−∞, 1) [1, 2) [2, 3) [3, 4) [4, 5) [5, 6) [6,+∞) FX(x) 0

1 6

2 6

3 6

4 6

5 6

1

Tabela 4.2

Observação 4.11 Em vista da Observação 4.9, é natural empregarmos as mesmas formas de descrição para as distribuições de probabilidades de va- riáveis aleatórias do que as utilizadas para as distribuições de freqüências de variáveis populacionais. Fazemos isto nas subseções seguintes.

4.1.3 Função de distribuição acumulada

Dada uma variável aleatória X, sua função de distribuição (acumulada) FX é a função FX : R → [0, 1] tal que para todo x ∈ R

FX(x) = P(X ≤ x).

(Compare com a definição no ińıcio da Subseção 1.3.) Como no caso das funções de distribuição de variáveis populacionais, a

função de distribuição é não decrescente, satisfazendo

lim x→−∞

FX(x) = 0, lim x→+∞

FX(x) = 1.

No caso de v.a.’s discretas, a função de distribuição é do tipo escada (cons- tante por partes, com saltos; veja a Observação 1.17). Para v.a.’s cont́ınuas, a função de distribuição é cont́ınua (veja a Observação 1.18).

No Exemplo 4.2, FX é representada na Tabela 4.2, e seu gráfico aparece na Figura 4.1.

No caso do Exemplo 4.3, vimos acima que f = 1[0,1] é a função de densi- dade de probabilidade de X, logo

FX(x) =

0, if x < 0; ∫ x

0 dy = x, if 0 ≤ x ≤ 1;

1, if x > 1, (4.4)

cujo gráfico aparece na Figura 4.2.

Observação 4.12 Como no caso das distribuições de freqüências para va- riáveis populacionais, a função de distribuição de uma variável aleatória de- termina sua distribuição de probabilidades. (Veja a Observação 1.19.)

118

1/6

2/6

3/6

4/6

5/6

1

1 2 3 4 5 6

Figura 4.1

1

1

Figura 4.2

119

4.1.4 Esperança

A esperança de uma variável aleatória é por definição a média de sua dis- tribuição de probabilidades (no mesmo sentido de média de distribuição de freqüências vista na Subseção 2.1.1). Isto é, se X for uma v.a. discreta, então

E(X) = ∑

x

xP(X = x), (4.5)

onde a soma é sobre o conjunto VX de valores de X, e P(X = ·) é a função de probabilidade de X; e se X for uma v.a. cont́ınua, então,

E(X) =

∫ ∞

−∞

x fX(x) dx, (4.6)

onde fX é a função de densidade de probabilidade de X. Outros nomes usados para designar a esperança são valor esperado e

média. No Exemplo 4.2, de (4.1), temos que

E(X) =

6 ∑

i=1

iP(X = i) = 1

6

6 ∑

i=1

i = 1

6

6× 7 2

= 21

6 = 3.5. (4.7)

No Exemplo 4.3, como já vimos fX = 1[0,1], e logo temos que

E(X) =

∫ ∞

−∞

x fX(x) dx =

∫ 1

0

x dx = 12 − 02

2 =

1

2 . (4.8)

Observação 4.13 Matematicamente, a esperança de uma variável aleatória é idêntica à média de uma variável populacional, representando o centro de massa da distribuição de probabilidade da variável aleatória. As propriedades matemáticas da esperança de uma v.a. são portanto as mesmas da média de uma variável populacional. A saber, dada uma função h : R → R, temos

E[h(X)] = ∑

x

h(x)P(X = x), (4.9)

se X for discreta, e

E[h(X)] =

∫ ∞

−∞

h(x) fX(x) dx, (4.10)

120

se X for cont́ınua. De onde segue a linearidade da esperança: dadas constantes numéricas

a, b, temos que E(a + bX) = a+ bE(X). (4.11)

(Veja a Proposição 2.7 e o Corolário 2.10. Formas mais gerais das duas propriedades acima, envolvendo mais de uma v.a., serão vistas adiante, na Seção 4.4.)

Observação 4.14 Adiante, na Seção 4.4 (veja a Observação 4.46), veremos uma interpretação estat́ıstica para a esperança de uma v.a., que em particular justifica o termo.

Terminamos a subseção com uma forma alternativa de expressar a espe- rança no caso de variáveis não negativas.

Proposição 4.15 Suponha que X seja uma v.a. inteira e não negativa. Então,

E(X) = ∞ ∑

i=1

P(X ≥ i), (4.12)

E(X2) = 2

∞ ∑

i=1

iP(X ≥ i)− E(X). (4.13)

Demonstração Da definição ((4.5), já que se trata de v.a. discreta),

E(X) = ∞ ∑

i=1

iP(X = i) = ∞ ∑

i=1

i ∑

j=1

P(X = i) = ∑

1≤j≤i<∞

P(X = i)

= ∞ ∑

j=1

∞ ∑

i=j

P(X = i) = ∞ ∑

j=1

P(X ≥ j), (4.14)

121

e (4.12) está provado. De (4.9)

E(X2) =

∞ ∑

i=1

i2 P(X = i) =

∞ ∑

i=1

i2 [P(X ≥ i)− P(X ≥ i+ 1)]

= ∞ ∑

i=1

i2 P(X ≥ i) − ∞ ∑

i=1

i2 P(X ≥ i+ 1)

=

∞ ∑

i=1

i2 P(X ≥ i) − ∞ ∑

i=2

(i− 1)2 P(X ≥ i)

= P(X ≥ 1) + ∞ ∑

i=2

[i2 − (i− 1)2]P(X ≥ i)

= ∞ ∑

i=1

(2i− 1)P(X ≥ i) = 2 ∞ ∑

i=1

iP(X ≥ i)− ∞ ∑

i=1

P(X ≥ i)

(4.12) = 2

∞ ∑

i=1

iP(X ≥ i)− E(X), (4.15)

e (4.13) está provado.

Observação 4.16 (4.12,4.13) são equivalentes a

E(X) =

∞ ∑

i=0

P(X > i), (4.16)

E(X2) = 2 ∞ ∑

i=0

iP(X > i) + E(X). (4.17)

A Proposição 4.15 tem a seguinte versão cont́ınua, cuja demonstração se baseia na integração por partes do Cálculo, e por isto será omitida.

Proposição 4.17 Suponha que X seja uma v.a. cont́ınua e não negativa. Então,

E(X) =

∫ ∞

0

P(X > x) dx, (4.18)

E(X2) = 2

∫ ∞

0

xP(X > x) dx. (4.19)

122

4.1.5 Variância

A variância de uma variável aleatória é por definição a variância de sua distribuição de probabilidades (no mesmo sentido de variância de distribuição de freqüências vista na Subseção 2.2.1). Isto é,

V(X) = E{[X − E(X)]2}. (4.20)

Se X for uma v.a. discreta, então

V(X) = ∑

x

[x− E(X)]2 P(X = x), (4.21)

onde a soma é sobre o conjunto VX de valores de X, e P(X = ·) é a função de probabilidade de X; e se X for uma v.a. cont́ınua, então,

V(X) =

∫ ∞

−∞

[x− E(X)]2 fX(x) dx, (4.22)

onde fX é a função de densidade de probabilidade de X. O desvio-padrão de X é a raiz quadrada da variância.

DP(X) = √

V(X). (4.23)

Variância e desvio padrão para variáveis aleatórias têm as mesmas propri- edades do que no caso de variáveis populacionais (já que se trata de objetos matemáticos idênticos). Temos a fórmula alternativa:

V(X) = E(X2)− [E(X)]2, (4.24)

e, para a, b constantes numéricas,

V(a + bX) = b2 V(X), DP(a+ bX) = |b|DP(X). (4.25)

(Veja (2.80), (2.93), (2.94).)

No Exemplo 4.2, de (4.1) e (4.9), temos que

E(X2) =

6 ∑

i=1

i2 P(X = i) = 1

6

6 ∑

i=1

i2 = 1

6

13× 6× 7 6

= 91

6 = 15.17. (4.26)

123

De (4.24) e (4.7), temos

V(X) = 15.17− (3.5)2 = 15.17− 12.25 = 2.92; DP(X) = √ 2.92 = 1.71.

(4.27) No Exemplo 4.3, temos que

E(X2) =

∫ 1

0

x2 dx = 1

3 (4.28)

De (4.24) e (4.8), temos

V(X) = 1

3 −

(

1

2

)2

= 1

12 = 0.08; DP(X) = 0.28. (4.29)

4.2 Modelos para variáveis aleatórias discre-

tas

Nesta seção apresentamos alguns modelos para variáveis aleatórias discre- tas. O foco é na distribuição de probabilidades e suas propriedades, como esperança e variância. Em alguns casos, ela será deduzida de descrição de experimento aleatório subjacente.

4.2.1 O modelo uniforme

Seja V um subconjunto finito da reta. Dizemos que a v.a. X tem distribuição uniforme em V (notação: X ∼ U(V)) se

P(X = x) = 1

#V , x ∈ V. (4.30)

Vamos calcular a esperança e variância de X ∼ U({1, 2, . . . , N}). Um caso particular de uma v.a. com esta distribuição é aquela do Exemplo 4.2, com N = 6.

E(X) = N ∑

i=1

i 1

N =

1

N

N ∑

i=1

i = 1

N

N(N + 1)

2 =

N + 1

2 , (4.31)

E(X2) = 1

N

N ∑

i=1

i2 = 1

N

(2N + 1)N(N + 1)

6 =

(2N + 1)(N + 1)

6 ,(4.32)

124

e logo, de (4.24),

V(X) = (2N + 1)(N + 1)

6 − (

N + 1

2

)2

= N + 1

12 [2(2N + 1)− 3(N + 1)]

= (N + 1)(N − 1)

12 =

N2 − 1 12

. (4.33)

4.2.2 O modelo de Bernoulli

Dado p ∈ [0, 1], dizemos que a v.a. X tem distribuição de Bernoulli com parâmetro p (notação: X ∼ Ber(p)) se VX = {0, 1} e

P(X = 1) = p, P(X = 0) = 1− p. (4.34)

Esta v.a. surge naturalmente em experimentos aleatórios da seguinte forma. Seja (Ω, E ,P) um espaço de probabilidades para um experimento aleatório, e A ∈ E um evento deste espaço. Seja X = 1A a v.a. indicadora de A, isto é,

X(ω) = 1A(ω) =

{

1, se ω ∈ A, 0, se ω ∈ Ac.

(4.35)

Então X ∼ Ber(p), onde p = P(A). Vamos calcular a esperança e variância de X ∼ Ber(p).

E(X) = 0× P(X = 0) + 1× P(X = 1) = 0× (1− p) + 1× p = p = 02 × P(X = 0) + 12 × P(X = 1) = E(X2) (4.36)

e logo, de (4.24), V(X) = p− p2 = p(1− p). (4.37)

4.2.3 O modelo binomial

Como no modelo anterior sejam (Ω, E ,P) um espaço de probabilidades para um experimento aleatório, e A ∈ E um seu evento. Seja p = P(A) e considere n ≥ 1 realizações independentes do experimento em questão, sob as mesmas condições, e seja X o número de realizações em que A ocorre.

125

Vamos calcular a distribuição de X. Em primeiro lugar, é claro que VX = {0, 1, . . . , n}.

Para k ∈ VX , o evento {X = k} consiste de todas as seqüências de n rea- lizações do experimento em que A ocorre exatamente k vezes, e logo Ac ocorre exatamente n− k vezes. Pela independência e igualdade de condições entre as realizações do experimento, cada uma das seqüências mencionadas acima têm a mesma probabilidade pk(1 − p)n−k. Por exemplo, uma tal seqüência pode ser representada por

A1 ∩ . . . ∩ Ak ∩Ack+1 . . . Acn (4.38)

onde Ai é o evento em que A ocorre na i-ésima realização do experimento, i = 1, . . . , n. Então a probabilidade desta seqüência vale

P(A1 ∩ . . . ∩ Ak ∩Ack+1 . . . Acn) = P(A1) . . .P(Ak)P(Ack+1) . . .P(Acn) = pk(1− p)n−k, (4.39)

onde a primeira igualdade segue da independência entre as realizações, e a segunda da igualdade de condições entre elas. Neste caso A ocorreu nas k primeiras realizações do experimento, e Ac ocorreu nas n − k realizações seguintes. Uma seqüência genérica pode ser representada como em (4.38), trocando as posições em que os (n−k) sinais de complementar (c) aparecem. Nenhuma tal troca modifica a probabilidade da seqüência, devido à fatoração devida à independência, e à igualdade de condições, que faz que P(Ai) = p para todo i.

O total de seqüências pode então ser identificado como o total de escolhas distintas de n − k posições em {1, . . . , n} para colocar os sinais de comple- mentar, ou equivalentemente, o total de escolhas distintas de k posições em {1, . . . , n} onde não colocar os sinais de complementar. Mas isto é o número de escolhas distintas de k elementos num conjunto de tamanho n, que como se sabe é a combinação de n, k a k; em śımbolos

(

n

k

)

= n!

k! (n− k)! .

Concluimos que

P(X = k) =

(

n

k

)

pk(1− p)n−k, k = 0, 1, . . . , n. (4.40)

126

Se uma v.a. X tiver distribuição de probabilidades dada por (4.40), dizemos que X tem distribuição binomial com os parâmetros n e p, e denotamos X ∼ Bin(n, p).

Observação 4.18 O experimento aleatório que consiste em observar, em cada realização do experimento aleatório original, se o evento A ocorre ou não é muitas vezes denominado ensaio de Bernoulli ou ensaio binomial, pois há apenas dois resultados posśıveis: A ocorre, e neste caso dizemos que houve su- cesso, ou Ac ocorre, e neste caso dizemos que houve fracasso. Nestes termos, se X é o número de sucessos em n ensaios de Bernoulli independentes, em que a probabilidade de sucesso em cada ensaio vale p, então X ∼ Bin(n, p).

Proposição 4.19 Se para dados n ≥ 1 e p ∈ [0, 1], X ∼ Bin(n, p), então

E(X) = np, (4.41)

V(X) = np(1− p). (4.42)

Veremos demonstrações de (4.41) e (4.42) adiante, na Seção 4.4.

Exemplo 4.20 Em 10 lançamentos de uma moeda honesta, qual é a proba- bilidade de observarmos

1. exatamente 5 caras?

2. entre 3 e 7 caras?

3. mais do que 7 caras?

Para responder a estas questões, vamos considerar a v.a. X = “número de caras nos 10 lançamentos da moeda”. Supondo que os lançamentos são in- dependentes, e como se trata sempre da mesma moeda, que é honesta, temos que X ∼ Bin(10, 1/2) (os lançamentos da moeda são ensaios de Bernoulli em que sucesso é sair cara, cuja probabilidade é sempre 1/2).

De (4.40),

P(X = 5) =

(

10

5

) (

1

2

)5 ( 1

2

)5

= 10!

5! 5!

(

1

2

)10

= 10× 9× 8× 7× 6

5× 4× 3× 2 1

1024 =

252

1024 = 0.246, (4.43)

127

que é a resposta à primeira pergunta. Para responder às demais perguntas, precisamos calcular P(X = k) para k ≥ 3. Vamos apresentar estes cálculos, alguns mais, outros menos explicitamente.

P(X = 3) =

(

10

3

) (

1

2

)3 ( 1

2

)7

= 10!

3! 7!

(

1

2

)10

= 10× 9× 8

3× 2 1

1024 =

120

1024 = 0.117, (4.44)

P(X = 4) =

(

10

4

) (

1

2

)4 ( 1

2

)6

= 10!

4! 6!

(

1

2

)10

= 10× 9× 8× 7

4× 3× 2 1

1024 =

210

1024 = 0.205, (4.45)

P(X = 6) =

(

10

6

) (

1

2

)6 ( 1

2

)4

= 0.205, (4.46)

P(X = 7) =

(

10

7

) (

1

2

)7 ( 1

2

)3

= 0.117, (4.47)

P(X = 8) =

(

10

8

) (

1

2

)8 ( 1

2

)2

= 0.044, (4.48)

P(X = 9) =

(

10

9

) (

1

2

)9 ( 1

2

)1

= 0.010, (4.49)

P(X = 10) =

(

10

10

) (

1

2

)10 ( 1

2

)0

= 0.001 (4.50)

Respondendo à segunda pergunta,

P(3 ≤ X ≤ 7) = P(X = 3) + P(X = 4) + P(X = 5) + P(X = 6) + P(X = 7)

= 0.117 + 0.205 + 0.246 + 0.205 + 0.117 = 0.880; (4.51)

e à terceira,

P(X ≥ 8) = P(X = 8) + P(X = 9) + P(X = 10) = 0.044 + 0.010 + 0.001 = 0.056. (4.52)

Observação 4.21 A última probabilidade acima (em (4.52)) é relevante em inferência estat́ıstica da seguinte forma. Suponha que não conheçamos a

128

probabilidade de cara da moeda, desconfiemos que ela não seja honesta, com um viés para cara, mas queiramos ser cautelosos em rejeitar a hipótese de honestidade. Vamos então procurar reunir evidências estat́ısticas contra a hipótese de honestidade, e medir sua significância.

Os 10 lançamentos da moeda são então um procedimento de reunião de evidências contrárias à hipótese de honestidade. Suponha que obtenhamos 8 caras: esta é a evidência contra a hipótese de honestidade. Qual sua signi- ficância?

A probabilidade em (4.52) é uma medida da significância desta evidência, no seguinte sentido. Se a moeda fosse honesta, qual seria a probabilidade de obtermos 8 caras ou resultado mais significante contra a hipótese de honesti- dade, na direção de nossa desconfiança de viés para cara? Isto se traduz em X ≥ 8. Como sob a hipótese de honestidade X ∼ Bin(10, 1/2), temos que a probabilidade desejada é a dada em (4.52). Esta probabilidade neste con- texto é chamada de p-valor associado ao resultado dos lançamentos. Quanto menor o p-valor, maior é a evidência contra a hipótese de honestidade.

A questão de decidir se a evidência medida por (4.52) é suficientemente forte para finalmente rejeitarmos a hipótese de honestidade é em prinćıpio subjetiva, mas em muitas situações práticas se adota preliminarmente um limiar, como 0.01, ou 0.05, ou 0.10. Se o p-valor estiver abaixo do limiar, então rejeitamos a hipótese de honestidade; se estiver acima, não a rejeita- mos.

Na situação acima, se adotássemos (preliminarmente) o limiar de 0.05, então, como o p-valor de 0.056 está acima do limiar, não rejeitaŕıamos a hipótese de honestidade.

Um resultado de 9 caras, por outro lado, leva a um p-valor de 0.011, e neste caso, com base no limiar adotado, rejeitaŕıamos a hipótese de honesti- dade.

Observação 4.22 Uma aplicação à amostragem é a seguinte. Suponha que estejamos interessados em conhecer a proporção p de indiv́ıduos de certa po- pulação com certa caracteŕıstica (por exemplo, uma caracteŕıstica f́ısica, ou social, ou de opinião). Se colhermos uma amostra casual simples de n in- div́ıduos desta população com reposição, então o número X de indiv́ıduos com a caracteŕıstica de interesse na amostra é uma v.a. relevante. Notemos que neste contexto, a observação de cada indiv́ıduo da amostra é um ensaio de Bernoulli (o indiv́ıduo exibe ou não a caracteŕıstica de interesse) indepen- dente dos demais (em particular por causa da reposição), e se identificarmos

129

sucesso com o indiv́ıduo exibir a caracteŕıstica de interesse, então a probabi- lidade de sucesso em cada ensaio é p (por causa da reposição). Conclúımos que X ∼ Bin(n, p).

Na situação do Exemplo 3.9, se a caracteŕıstica de interesse for sexo fe- minino, então X ∼ Bin(5, 0.55). Podemos por exemplo expressar os eventos A, B e C naquele exemplo em termos de X como segue, e usar a distribuição binomial para calcular suas probabilidades (trabalho que deixamos para o lei- tor).

A = {X = 0}, B = {X = 3}, C = {X ≥ 3}. (4.53)

4.2.4 O modelo hipergeométrico

Voltando à Observação 4.22, suponha que a amostragem seja feita sem re- posição. Neste caso perde-se a independência e a igualdade de condições entre os ensaios de Bernoulli, a e v.a. X = “número de sucessos nos n ensaios” deixa de ser binomial.

Vamos então calcular a distribuição deX neste caso. Suponha queM ≥ 2 seja o tamanho da população (estamos no contexto do parágrafo sobre amos- tragem sem reposição, na página 94, e usando aquele espaço de probabili- dades), e K seja o número de indiv́ıduos da população com a caracteŕıstica de interesse; n ≤ M é o tamanho da amostra. Então o conjunto de valores posśıveis de X são os números inteiros não negativos entre 0∨ (n−M +K) e n ∧K (em outras palavras, VX = [0 ∨ (n−M +K), n ∧K] ∩ Z).

Então, para k ∈ VX , o evento {X = k} consiste de amostras com k indiv́ıduos dentre os K da população com a caracteŕıstica de interesse, e n− k indiv́ıduos dentre os M −K da população sem tal caracteŕıstica.

O número de tais amostras é pois o número de escolhas de k indiv́ıduos dentre K multiplicado pelo número de escolhas de n − k indiv́ıduos dentre M −K. Conclúımos que

P(X = k) = #{X = k}

#Ω =

(

K k

)(

M−K n−k

)

(

M n

) , k ∈ [0 ∨ (n−M +K), n ∧K] ∩ Z.

(4.54) Dizemos então que X tem distribuição hipergeométrica, com a notação X ∼ HG(M,K;n).

130

Pode-se mostrar (mas não o faremos nestas notas) que

E(X) = np, (4.55)

V(X) = fnp(1− p), (4.56)

onde p = K/M e f = 1 − (n − 1)/(M − 1). Note que a média coincide com a da distribuição do caso com reposição (em que X é binomial), e que a variância difere da daquele caso pelo fator f (a fração amostral).

Na situação do Exemplo 3.10, se a caracteŕıstica de interesse for sexo femi- nino (como no caso discutido na Observação 4.22, então X ∼ HG(100, 55; 5). Os eventos A, B e C podem ser expressados em termos de X como em (4.53), e suas probabilidades obtidas de (4.54). Deixamos os detalhes para o leitor. No Exemplo 3.13, X ∼ HG(N,K;n).

4.2.5 O modelo geométrico

Suponha que uma moeda cuja probabilidade de cara é p ∈ (0, 1] seja lançada sucessivamente de maneira independente. Seja X o número de coroas até a primeira cara. EntãoX é uma v.a. com VX = {0, 1, 2, . . .}. Para k ≥ 1, temos que X = k se e somente se (sse) ocorre coroa nos k primeiros lançamentos e cara no k-ésimo lançamento. Logo P(X = k) = (1− p)kp. Como X = 0 sse sai cara no primeiro lançamento, e isto tem probabilidade p, temos que

P(X = k) = (1− p)kp, k ∈ VX . (4.57)

Neste caso, dizemos que X tem distribuição geométrica com parâmetro p, com a notação X ∼ G(p).

Proposição 4.23 Se X ∼ G(p), então

P(X > k) = (1− p)k+1, k ≥ 0, (4.58)

E(X) = 1− p p

, (4.59)

V(X) = 1− p p2

. (4.60)

Demonstração Para k ≥ 1, X > k sse ocorre coroa nos k + 1 primeiros lançamentos. (4.58) segue. De (4.16) e (4.58),

E(X) = ∞ ∑

k=0

(1− p)k+1 = 1− p 1− (1− p) =

1− p p

. (4.61)

131

De (4.17) e (4.58),

E(X2) =

∞ ∑

k=0

k (1− p)k+1 + 1− p p

. (4.62)

Mas

∞ ∑

k=0

k (1− p)k+1 = 1− p p

∞ ∑

k=1

k (1− p)kp = 1− p p

E(X) =

(

1− p p

)2

. (4.63)

Substituindo (4.63) em (4.62), vem

E(X2) = 2

(

1− p p

)2

+ 1− p p

. (4.64)

De (4.24), (4.59) e (4.64), segue (4.60). No Exemplo 3.5 acima, vimos o caso p = 1/2.

Observação 4.24 Na literatura a distribuição geométrica é muitas vezes identificada com a v.a. X ′ = número de lançamentos da moeda até sair a primeira cara. A relação com X acima é então X ′ = X + 1.

4.2.6 O modelo binomial negativo

No contexto da subseção acima, suponha que X seja o número de coroas até sair a n-ésima cara, onde n ≥ 1 é um parâmetro. Então VX = {0, 1, 2, . . .} e para k ≥ 1, X = k sse o (n + k)-ésimo lançamento resulta em cara, e nos n+k−1 lançamentos anteriores, ocorrem n−1 caras e k coroas em qualquer ordem. Logo

P(X = k) =

(

n + k − 1 k

)

pn(1− p)k, k ≥ 0. (4.65)

(Note que a fórmula funciona no caso k = 0 também.) Se uma v.a. X tiver distribuição de probabilidades dada por (4.65), di-

zemos que X tem distribuição binomial negativa com os parâmetros n e p, e denotamos X ∼ BN(n, p).

132

Proposição 4.25 Se para dados n ≥ 1 e p ∈ (0, 1], X ∼ BN(n, p), então

E(X) = n 1− p p

, (4.66)

V(X) = n 1− p p2

. (4.67)

Veremos demonstrações de (4.66) e (4.67) adiante, na Seção 4.4.

4.2.7 O modelo de Poisson

Suponha que estejamos interessados num evento raro de um experimento aleatório. Um evento raro é um evento de probabilidade pequena. Logo, ele provavelmente não será observado em uma realização do experimento. Será necessário repetir o experimento (de forma independente) um bom número de vezes para termos uma chance razoável de observar tal evento.

Para precisar um pouco mais a situação, vamos imaginar que A é o evento, e p = P(A) sua probabilidade. Vamos imaginar que p é bastante próximo de 0. Sendo X o número de ocorrências de A em n repetições independentes do experimento, X ∼ Bin(n, p), teŕıamos de ter n da ordem de 1/p para termos uma chance razoável de observar A pelo menos uma vez (para que o valor esperado E(X) = np fique da ordem de 1).

Vamos inverter o racioćınio e imaginar que p = λ/n, onde λ é um parâmetro positivo, e n é um número inteiro bastante grande (de forma que p seja bastante pequeno). Então E(X) = λ. Temos ainda de (4.40) que para k ≥ 0

P(X = k) =

(

n

k

) (

λ

n

)k (

1− λ n

)n−k

=

[

n!

(n− k)! 1

nk

]

λk

k!

(

1− λ n

)n(

1− λ n

)−k

. (4.68)

Como estamos pensando em n bastante grande, vamos tomar o limite da expressão à direita de (4.68) quando n → ∞. A expressão entre colchetes pode ser reescrita da seguinte forma.

(

1− 1 n

)(

1− 2 n

)

. . .

(

1− k − 1 n

)

133

Como k está fixo, o limite da expressão acima quando n → ∞ é o produto do limite de cada fator, que vale 1. Logo o limite da expressão também vale 1. Pelo mesmo motivo,

lim n→∞

(

1− λ n

)−k

= 1.

Resta avaliar o limite de (

1− λ n

)n

quando n → ∞. Este sabidamente vale e−λ. Conclúımos que o limite da expressão à direita de (4.68) quando n → ∞ vale

e−λ λk

k! . (4.69)

Sabe-se também que ∞ ∑

k=0

λk

k! = eλ, (4.70)

logo as expressões em (4.69), k = 0, 1, 2, . . . são a distribuição de probabili- dade de uma v.a. Y com VY = N.

P(Y = k) = e−λ λk

k! , k = 0, 1, 2, . . . (4.71)

e neste caso dizemos que Y tem distribuição de Poisson com parâmetro λ, e denotamos Y ∼ Po(λ).

Em virtude da discussão acima, dizemos que a distribuição de Poisson aproxima a distribuição binomial quando p é pequeno e n é grande (de forma que np não seja nem grande nem pequeno).

Exemplo 4.26 Suponha que os erros tipográficos na edição de um livro de 300 páginas sejam distribúıdos aleatoriamente com uma média de 1 página com erros a cada 100. Qual a probabilidade de acharmos no livro todo

1. nenhuma página com erros tipográficos?

2. pelo menos 2 páginas com erros tipográficos?

3. entre 1 e 3 páginas com erros tipográficos?

134

Para responder a estas questões, vamos considerar a variável Y = número de páginas com erros tipográficos no livro. Vamos supor que a probabilidade de erro numa página é 1/100 = 3/300. Neste caso podemos pelo menos de forma aproximada dizer que Y ∼ Po(3). Então, de (4.71)

1. P(Y = 0) = e−3 = 0.05

2. P(Y ≥ 2) = 1− P(Y = 0)− P(Y = 1) = 1− e−3 − 3e−3 = 0.80

3. P(1 ≤ Y ≤ 3) = P(Y = 1) + P(Y = 2) + P(Y = 3) = 3e−3 + 3

2

2 e−3 + 3

3

6 e−3 = 0.60.

Proposição 4.27 Suponha que Y ∼ Po(λ), então

E(Y ) = V(Y ) = λ. (4.72)

Demonstração Não faremos um argumento direto, mas usaremos a apro- ximação binomial discutida acima. Como a distribuição de Y é o limite da de X ∼ Bin(n, λ/n) quando n → ∞, é natural supormos que

E(Y ) = lim n→∞

E(X) = lim n→∞

n λ

n = λ, (4.73)

V(Y ) = lim n→∞

E(X) = lim n→∞

n λ

n

(

1− λ n

)

= λ. (4.74)

Esta suposição pode ser justificada, e temos (4.72).

4.3 Modelos para variáveis aleatórias cont́ı-

nuas

Nesta seção apresentamos alguns modelos para v.a.’s cont́ınuas. O principal deles, o modelo normal, já foi visto como modelo de distribuição de freqüen- cias para variáveis populacionais.

4.3.1 O modelo uniforme

Dado um intervalo finito [a, b] da reta, dizemos que uma v.a. X tem distri- buição uniforme em [a, b], com a notação X ∼ U([a, b]), se VX = [a, b] e a função densidade de probabilidade de X for

fX = 1

b− a 1[a,b]. (4.75)

135

1

1

Figura 4.3

O gráfico de fX no caso a = 0, b = 1 é apresentado na Figura 4.3. No Exemplo 4.3, temos X ∼ U([0, 1]).

Proposição 4.28 Suponha que X ∼ U([a, b]), então

E(X) = a+ b

2 , (4.76)

V(X) = (b− a)2

12 . (4.77)

Demonstração De (4.6) e (4.75) temos

E(X) =

∫ ∞

−∞

x 1

b− a 1[a,b](x) dx = 1

b− a

∫ b

a

x dx

= 1

b− a b2 − a2

2 =

a+ b

2 , (4.78)

e temos (4.76). De forma similar

E(X2) =

∫ ∞

−∞

x2 1

b− a 1[a,b](x) dx = 1

b− a

∫ b

a

x2 dx

= 1

b− a b3 − a3

3 =

a2 + ab+ b2

3 , (4.79)

136

0

0.1

0.2

0.3

0.4

0.5

0.6

0.7

0.8

0.9

1

0 0.5 1 1.5 2 2.5 3 3.5 4

Figura 4.4

e de (4.24)

V(X) = 4(a2 + ab+ b2)− 3(a+ b)2

12 =

(b− a)2 12

, (4.80)

e temos (4.77).

4.3.2 O modelo exponencial

Dado λ > 0, dizemos que uma v.a. X tem distribuição exponencial com parâmetro λ, com a notação X ∼ Exp(λ), se VX = (0,∞) e a função densi- dade de probabilidade de X for

fX(x) = λ e −λx 1(0,∞)(x). (4.81)

O gráfico de fX no caso λ = 1 é apresentado na Figura 4.4.

Proposição 4.29 Se X ∼ Exp(λ), então P(X > x) = e−λx, x > 0 (4.82)

E(X) = 1

λ , (4.83)

V(X) = 1

λ2 . (4.84)

137

Demonstração

P(X > x) =

∫ ∞

x

fX(y) dy =

∫ ∞

x

λ e−λx dx = λ

∫ ∞

x

e−λx dx, (4.85)

e (4.82) segue de (A.6) com a = x e b = ∞ (neste caso e−λ∞ = 0). De (4.18),

E(X) =

∫ ∞

0

e−λx dx (A.6) =

1

λ , (4.86)

e temos (4.83). De (4.19),

E(X2) = 2

∫ ∞

0

x e−λx dx = 2

λ

∫ ∞

0

xλ e−λx dx = 2

λ E(X) =

2

λ2 , (4.87)

e (4.84) segue de (4.24), (4.87) e (4.83).

A distribuição exponencial é muito usada como modelo para tempos de espera entre eventos, tempos de vida, e em situação semelhantes.

Exemplo 4.30 O tempo de vida de uma lâmpada é uma v.a. T com distri- buição exponencial de parâmetro 1/2. Qual é a probabilidade de a lâmpada durar

1. menos do que 2 unidades de tempo?

2. pelo menos 3 unidades detempo?

3. entre 1 e 3 unidades de tempo?

1. P(T < 2) = 1 2

∫ 2

0 e−x/2 dx = 1

2

∫ 2

0 e−x/2 dx

(A.6) = 1− e−1

2. P(T ≥ 3) = 1 2

∫∞

3 e−x/2 dx = 1

2

∫∞

3 e−x/2 dx

(A.6) = e−1.5

3. P(1 ≤ T ≤ 3) = 1 2

∫ 3

1 e−x/2 dx = 1

2

∫ 3

1 e−x/2 dx

(A.6) = e−0.5 − e−1.5

Observação 4.31 (Falta de memória da distribuição exponencial) Suponha que X ∼ Exp(λ) e que saibamos que X > x para algum x ≥ 0. Vamos calcular a probabilidade de que X > x+ y para algum y ≥ 0.

P(X > x+ y|X > x) = P({X > x+ y} ∩ {X > x}) P(X > x)

. (4.88)

138

Mas como y > 0, temos que {X > x+ y} ∩ {X > x} = {X > x+ y}, então

P(X > x+ y|X > x) = P(X > x+ y) P(X > x)

(4.82) =

e−λ(x+y)

e−λx = e−λ y

(4.82) = P(X > y).

(4.89) E temos que

P(X > x+ y|X > x) = P(X > y) para x, y ≥ 0. (4.90)

Logo, se X > x, o valor excedente de X além de x tem distribuição inde- pendente de x, e logo igual ao caso x = 0, em que o excedente é a própria X. Esta propriedade é por isto denominada falta de memória da distribuição exponencial.

Exemplo 4.32 Suponha que a lâmpada do Exemplo 4.30 acima esteja ati- vada numa sala fechada. Ao entrar na sala, você nota que ela está acesa. Qual a probabilidade de ela durar ainda por 2 unidades de tempo? Por en- quanto tempo você espera que ela ainda dure?

Pela falta de memória da distribuição exponencial, não importa por quan- to tempo t a lâmpada tenha estado acesa quando você entra na sala, o fato de ela estar acesa diz que X > t, e dado isto, pela falta de memória, o tempo adicional de funcionamento continua Exp(2). Então as respostas às perguntas acima são

P(X > t+ 2|X > t) (4.90)= P(X > 2) (4.82)= e−1, (4.91)

E(X − t|X > t) (4.18)= ∫ ∞

0

P(X − t > x|X > t) dx

=

∫ ∞

0

P(X > t+ x|X > t) dx

(4.90) =

∫ ∞

0

P(X > x) dx (4.18) = E(X) = 2. (4.92)

4.3.3 O modelo normal

Dados números µ ∈ R e σ > 0, uma v.a. cont́ınua X é dita ter distribuição normal com os parâmetros µ e σ2 se VX = R e fX for dada por (1.20), com a mesma notação do caso de X ser uma variável populacional com distribuição normal com parâmetros µ e σ2: X ∼ N(µ, σ2). (Veja a Subseção 1.2.1.)

139

Claramente, esta distribuição de probabilidades tem as mesmas proprie- dades matemáticas da distribuição de freqüências estudada na Subseção 1.2.1. Em particular

E(X) = µ, (4.93)

V(X) = σ2. (4.94)

(Veja (2.13) e (2.77).) A maneira de calcular probabilidades envolvendo variável normal, fazendo

padronização, e usando simetria e complementaridade, funciona exatamente como na Subseção 1.2.1.

A t́ıtulo de exemplo, suponha queX seja uma v.a. tal queX ∼ N(48, 625). Esta é a mesma distribuição daquela do Exemplo 1.8. As freqüências ali calculadas podem então ser vistas como probabilidades no presente caso.

Aproximação normal para a distribuição binomial Uma das propriedades importantes da distribuição normal (vista como

freqüência ou probabilidade) é que ela aproxima outras distribuições, tor- nando simples o cálculo de probabilidades ou freqüências (de forma aproxi- mada) em casos complicados. Vamos apresentar neste parágrafo o caso da aproximação normal para a distribuição binomial.

Seja X ∼ Bin(16, 0.5). Na Figura 4.5 representamos a distribuição de X com barras de bases centradas nos valores de VX e cujas alturas são as respectivas probabilidades. Note que as bases das barras têm comprimento 1, logo as probabilidades são também as áreas das barras. Podemos então pensar no gráfico de barras de X como histograma de X. A silhueta deste gráfico é reminiscente da curva normal. Vamos então ajustar uma curva normal neste gráfico. Mas qual curva? (Com quais parâmetros?) É natural tomar para a distribuição normal as mesmas média e variância da distribuição binomial. Vamos então considerar Y ∼ N(8, 4) (isto é com µ = E(X) = 16× 0.5 e σ2 = V(X) = 16× 0.5× 0.5). Na Figura 4.6 superpomos o gráfico de barras de X e o gráfico da densidade de Y para realçar a similaridade. Consideremos agora a seguinte probabilidade binomial.

P(8 ≤ X ≤ 12) (4.95)

Em termos do gráfico de barras de X, conforme argumentamos acima, esta probabilidade é a soma das áreas das barras centradas em 8, 9, . . ., 12; em outras palavras, a área no histograma de barras entre 7.5 e 12.5 (pois a base

140

0

0.05

0.1

0.15

0.2

0 2 4 6 8 10 12 14 16

Figura 4.5 Gráfico de barras de X

0

0.05

0.1

0.15

0.2

0 2 4 6 8 10 12 14 16

Figura 4.6 Gráfico de barras de X com densidade de Y superposta.

141

de cada barra começa em k − 0.5 e termina em k + 0.5, onde k é o ponto central da base). É claro da Figura 4.6 que a área sob o histograma normal de Y é uma boa aproximação para a probabilidade em questão. De fato, de (4.40), achamos

P(8 ≤ X ≤ 12) = 0.587555; (4.96) e da aproximação normal, temos

P(8 ≤ X ≤ 12) ≈ P(7.5 ≤ Y ≤ 12.5) = P(−0.25 ≤ Z ≤ 2.25) = A(2.25) + A(0.25)− 1 = 0.987776 + 0.598706− 1 = 0.586482. (4.97)

Em geral, para X ∼ Bin(n, p), a v.a. normal adequada para aproximar X é Y ∼ N(np, np(1− p)), isto é, a v.a. normal com média µ = E(X) = np e variância σ2 = V(X) = np(1− p). Neste caso, temos, para 0 ≤ i ≤ j ≤ n

P(i ≤ X ≤ j) ≈ P(i− 0.5 ≤ Y ≤ j + 0.5). (4.98)

A aproximação é tanto melhor quanto

1. mais central for p (isto é, mais próximo de 0.5);

2. maior for n;

3. um critério que combina os itens anteriores: quanto maior for np(1−p).

Algumas referências dão: np(1− p) ≥ 3 implica em boa aproximação.

Observação 4.33 Uma aproximação mais grosseira do que (4.98), mas bas- tante usada na prática é

P(i ≤ X ≤ j) ≈ P(i ≤ Y ≤ j). (4.99)

Note que em (4.99) descartamos metade da área de cada uma das barras centradas em i e j.

Observação 4.34 Uma afirmação mais precisa sobre a aproximação normal é a dada pelo enunciado do Teorema Central do Limite: seja Xn ∼ Bin(n, p), p ∈ (0, 1), e seja Zn a v.a. Xn padronizada:

Zn = Xn − E(Xn)

DP(Xn) =

Xn − np √

np(1− p) .

142

Então a distribuição de Zn converge para a distribuição normal padrão quan- do n → ∞, isto é, para todo a, b ∈ R com a < b:

lim n→∞

P(a < Zn < b) =

∫ b

a

1√ 2π

e−x 2/2 dx. (4.100)

Exemplo 4.35 Num referendo a ser realizado em dado local, 55% da po- pulação é pelo “Sim” e 45% pelo “Não”. Planeja-se uma pesquisa de opinião a respeito com base numa amostra casual simples com reposição de tamanho 100 da população. Qual a probabilidade de a maioria pelo “Sim” não aparecer na amostra?

Seja X o número de indiv́ıduos pelo “Sim” na amostra. Então X ∼ Bin(100, 0.55). Queremos determinar P(X ≤ 50). De (4.98), sendo Y ∼ N(55, 24.75), temos

P(X ≤ 50) ≈ P(Y ≤ 50.5) = P(Z ≤ −0.90) = 1− A(0.90) = 0.184. (4.101)

E se n = 400? Neste caso, queremos P(X ′ ≤ 200), onde X ′ ∼ Bin(400, 0.55). A v.a. normal adequada é Y ′ ∼ N(220, 99), e

P(X ′ ≤ 200) ≈ P(Y ′ ≤ 200.5) = P(Z ≤ −1.96) = 1− A(1.96) = 0.025. (4.102)

4.4 Várias variáveis aleatórias

Podemos estar interessados em mais de uma v.a. de dado experimento alea- tório. No Exemplo 3.6, as coordenadas X e Y do ponto escolhido são duas v.a.’s. No Exemplo 3.7, os números lançados nos dois lançamentos também são duas v.a.’s.

Dadas X1, X2, . . . , Xn, n ≥ 2, v.a.’s de um mesmo experimento aleatório, a informação que nos interessa sobre elas é aquela dada pela distribuição de probabilidades conjunta de X1, X2, . . . Vamos considerar apenas o caso discreto.

Suponha que (Ω, E ,P) seja um modelo probabiĺıstico para um dado ex- perimento aleatório e que X1, . . . , Xn sejam v.a.’s deste experimento, isto é, Xi : Ω → R, i = 1, . . . , n. Vamos supor ainda que cada v.a. seja discreta, isto é, o conjunto de valores de Xi, Vi, é discreto: finito ou infinito enumerável.

143

Neste caso, a distribuição de probabilidades conjunta de X1, . . . , Xn é dada pela função de probabilidades conjunta de X1, . . . , Xn a seguir.

P(X1 = x1, . . . , Xn = xn); xi ∈ Vi, i = 1, . . . , n. (4.103)

Exemplo 4.36 No Exemplo 3.7, seja X o número lançado no primeiro lançamento e Y aquele resultante do segundo lançamento.Então

P(X = i, Y = j) = 1

36 , i, j = 1, . . . , 6. (4.104)

Exemplo 4.37 No Exemplo 3.18, seja X o indicador de que a primeira bola é azul, isto é, X = 1A1, e Y o indicador de que a segunda bola é azul, isto é, Y = 1A2. Então a distribuição conjunta de (X, Y ) é dada por (veja a Figura 3.12)

P(X = 1, Y = 1) = P(A1 ∩A2) = P(A1)P(A2|A1) = 0.6× 0.56 = 0.34, (4.105)

P(X = 1, Y = 0) = P(A1 ∩Ac2) = P(A1)P(Ac2|A1) = 0.6× 0.44 = 0.26, (4.106)

P(X = 0, Y = 1) = P(Ac1 ∩A2) = P(Ac1)P(A2|Ac1) = 0.4× 0.67 = 0.27, (4.107)

P(X = 0, Y = 0) = P(Ac1 ∩Ac2) = P(Ac1)P(Ac2|Ac1) = 0.4× 0.33 = 0.13. (4.108)

Uma maneira de obter várias v.a.’s em amostragem é quando sorteamos um indiv́ıduo numa população e consideramos diversas variáveis populaci- onais medidas no indiv́ıduo sorteado. No Exemplo 1.1, se tomarmos uma amostra casual simples de tamanho 1 da população de funcionários da com- panhia, e considerarmos a idade e número de filhos do funcionário assim sorteado, temos então duas v.a.’s aleatórias do sorteio.

Uma outra forma é quando tomamos amostra de mais de um indiv́ıduo e medimos a mesma variável populacional nos diversos indiv́ıduos sortedos. No Exemplo 1.1, podeŕıamos tomar uma amostra casual simples de tamanho 2 da população. X seria o número de filhos do primeiro indiv́ıduo da amostra e Y o número de filhos do segundo indiv́ıduo.

A distribuição conjunta de probabilidades tem as mesmas propriedades matemáticas que a distribuição conjunta de freqüências. Em particular a

144

Proposição 1.20 é válida para distribuições conjuntas de probabilidades. A versão da Proposição 2.7 para v.a.’s é seguinte.

Sejam X1, . . . , Xn v.a.’s (discretas) de um mesmo espaço de probabilida- des (Ω, E ,P) e h : Rn → R. Então Y = h(X1, . . . , Xn) é uma v.a. de (Ω, E ,P) e

E(Y ) = E(h(X1, . . . , Xn)) = ∑

x1,...,xn

h(x1, . . . , xn)P(X1 = x1, . . . , Xn = xn).

(4.109) Podemos também obter a propriedade de “linearidade” da esperança (veja (2.35)): para constantes numéricas a0, a1, . . . , an arbitrárias,

E(a0 + a1X1 + . . .+ anXn) = a0 + a1E(X1) + . . .+ anE(Xn). (4.110)

Ambas as propriedades (4.109) e (4.110) são válidas em geral (as v.a’s não precisam ser discretas; a primeira propriedade tem uma forma um pouco di- ferente em geral.). Em particular, se X for uma v.a. cont́ınua com densidade fX , então

E(h(X)) =

∫ ∞

−∞

h(x) fX(x) dx. (4.111)

(veja (2.22) e (4.10)).

4.4.1 Condicionamento e independência

Dadas duas v.a.’s (discretas) X, Y num mesmo espaço de probabilidades, dado y ∈ VY , a distribuição condicional de probabilidades de X dado Y = y é a coleção de probabilidades condicionais

P(X = x|Y = y), x ∈ VX , (4.112)

lembrando que P(X = x|Y = y) = P(X=x,Y =y) P(Y =y)

. As distribuições condicionais de probabilidades são matematicamente i-

dênticas às distribuições condicionais de freqüências, e logo têm as mesmas propriedades matemáticas: veja as Observações 1.23 e 1.24.

A esperança condicional de X dado Y = y é a esperança da distribuição condicional de X dado Y = y:

E(X|Y = y) = ∑

x∈VX

xP(X = x|Y = y) (4.113)

145

(veja (2.38)), e sendo h : VY → R tal que h(y) = E(X|Y = y), então denotamos h(Y ) = E(X|Y ) e temos

E(h(Y )) = E(E(X|Y )) = E(X) (4.114)

(veja (2.39)).

Exemplo 4.38 Um experimento é realizado em dois estágios. O primeiro estágio consiste em observar uma variável de Poisson Y com parâmetro λ > 0. No segundo estágio, dado que Y = n no primeiro estágio, lança-se uma moeda com probabilidade de cara α ∈ [0, 1] n vezes. Seja X o número de caras observadas nos Y lançamentos.

Temos então que para n ≥ 0, X|Y = n ∼ Bin(n, α), isto é

P(X = k|Y = n) = (

n

k

)

αk (1− α)n−k, k = 0, . . . , n. (4.115)

(Se n = 0, então X ≡ 0.) Vamos calcular a distribuição (marginal) de X. Da propriedade corres-

pondente a (1.74) (veja Observação 1.24), temos que se k ≥ 0,

P(X = k)

= ∑

n≥0

P(X = k|Y = n)P(Y = n) = ∑

n≥k

(

n

k

)

αk (1− α)n−k e−λ λ n

n!

= (αλ)k

k! e−λ

n≥k

((1− α)λ)n−k (n− k)! =

(αλ)k

k! e−λ

n≥0

((1− α)λ)n n!

= (αλ)k

k! e−λ e(1−α)λ = e−αλ

(αλ)k

k! . (4.116)

Logo X ∼ Po(αλ). (4.117)

Dáı podemos concluir que E(X) = αλ, mas, se estivéssemos interessados apenas na esperança de X, pod́ıamos dispensar o cálculo em (4.116) e a conclusão em (4.117). Bastaria usar (4.114), como se segue.

Temos que para todo n ≥ 0, E(X|Y = n) = nα = αn. Logo, E(X|Y ) = αY . De (4.114)

E(X) = E(E(X|Y )) = E(αY ) = αE(Y ) = αλ. (4.118)

146

Independência De forma análoga ao caso de variáveis populacionais, dadas duas v.a.’s

X e Y discretas (no mesmo espaço de probabilidades), dizemos que X é independente de Y se a distribuição condicional de X dado Y = y é igual à distribuição marginal de X para todo y ∈ VY . Em outros palavras, se

P(X = x|Y = y) = P(X = x), para todo x ∈ VX , y ∈ VY . (4.119)

Esta condição é equivalente a

P(X = x, Y = y) = P(X = x)P(Y = y), para todo x ∈ VX , y ∈ VY , (4.120)

e de novo temos a condição simétrica de fatoração da probabilidade conjunta nas probabilidades marginais respectivas. Dizemos também, apoiados por esta simetria, que X e Y são independentes (entre si).

Exemplo 4.39 No Exemplo 4.36, X e Y são independentes pois, para todo i, j = 1, . . . , 6, temos

P(X = i, Y = j) = 1

36 =

1

6 × 1

6 = P(X = i)P(Y = j),

verificando (4.120).

No caso de mais de duas v.a.’s discretas X1, . . . , Xn, dizemos que são (coletivamente) independentes se

P(X1 = x1, . . . , Xn = xn) = P(X1 = x1) . . .P(Xn = xn), (4.121)

para todo xi ∈ VXi , i = 1, . . . , n. Uma maneira de obter v.a.’s independentes em amostragem é quando

tomamos uma amostra casual simples de tamanho 1 da população em que temos variáveis populacionais independentes. Estas variáveis medidas no indiv́ıduo sorteado são v.a.’s independentes.

Observação 4.40 Uma outra forma é quando tomamos uma amostra ca- sual simples com reposição de mais de um indiv́ıduo e medimos a mesma variável populacional nos diversos indiv́ıduos sortedos. Como argumentado na Observação 3.22, as v.a.’s resultantes são independentes (além disto, tem cada uma a mesma distribuição idêntica à distribuição (de freqüências) da variável populacional).

147

Proposição 4.41 Suponha que X1, . . . , Xn sejam v.a.’s independentes. En- tão

E(X1 × . . .×Xn) = E(X1)× . . .× E(Xn). (4.122)

Demonstração Vale em geral, mas argumentaremos apenas o caso discreto. De (4.109)

E(X1 . . .Xn) = ∑

x1,...,xn

x1 . . . xn P(X1 = x1, . . . , Xn = xn)

= ∑

x1,...,xn

x1 . . . xn P(X1 = x1) . . .P(Xn = xn)

= ∑

x1,...,xn

x1 P(X1 = x1) . . . xn P(Xn = xn)

= ∑

x1

x1 P(X1 = x1) . . . ∑

xn

xn P(Xn = xn)

=

(

x1

x1 P(X1 = x1)

)

. . .

(

xn

xn P(Xn = xn)

)

= E(X1) . . .E(Xn) (4.123)

4.4.2 Covariância

Dadas duas v.a.’s X, Y no mesmo espaço de probabilidades, a covariância entre X e Y é definida como

C(X, Y ) = E[(X − E(X))(Y − E(Y ))], (4.124)

isto é, é o valor esperado do produto das variáveis centradas. Expandindo o produto e usando a linearidade da esperança, obtemos

C(X, Y ) = E[XY ]− E(XE(Y ))− E(Y E(X)) + E(E(Y )E(X)) = E[XY ]− E(Y )E(X)− E(X)E(Y ) + E(Y )E(X) (4.125)

e concluimos que C(X, Y ) = E(XY )− E(X)E(Y ) (4.126)

(veja (2.113)).

148

No Exemplo 4.37, de (4.105-4.108), temos

E(XY ) = 0× 0P(X = 0, Y = 0) + 0× 1P(X = 0, Y = 1) + 1× 0P(X = 1, Y = 0) + 1× 1P(X = 1, Y = 1) = P(X = 1, Y = 1) = 0.34, (4.127)

e

E(X) = 0P(X = 0) + 1P(X = 1) = P(X = 1) = P(A1) (3.62) = 0.6

E(Y ) = 0P(Y = 0) + 1P(Y = 1) = P(Y = 1) = P(A2) (3.66) = 0.6.

De (3.62) vem C(X, Y ) = 0.34− (0.6)2 = −0.02. (4.128)

Proposição 4.42 Se X e Y forem independentes, temos

C(X, Y ) = 0. (4.129)

Demonstração Segue imediatamente da Proposição 4.41 e (3.62).

No Exemplo 4.39, vimos que X e Y são independentes. Logo,

C(X, Y ) = 0.

Observação 4.43 Dadas duas v.a.’s X e Y , uma forma de calcular E(XY ) é a seguinte.

E(XY ) = E[Y E(X|Y )]. (4.130) Demonstração Vamos considerar o caso discreto apenas. De (4.109),

E[Y E(X|Y )] = ∑

y∈VY

y E(X|Y = y)P(Y = y)

= ∑

y∈VY

y ∑

x∈VX

xP(X = x|Y = y)P(Y = y)

= ∑

x∈VX

y∈VY

x y P(X = x, Y = y)

= E(XY ), (4.131)

onde usamos a regra do produto na penúltima passagem.

149

4.4.3 Soma de variáveis aleatórias

Sejam X1, X2 . . . v.a.’s num mesmo espaço de probabilidades e, para n ≥ 1, seja

Sn = X1 + . . .+Xn =

n ∑

i=1

Xi. (4.132)

Somas de v.a.’s como esta entram, por exemplo, em amostragem, na es- timação de médias populacionais: seja Π uma população e X uma variável numérica áı definida; seja µ = M(X). Para estimar µ, colhemos uma amos- tra casual simples de tamanho n de Π, e medimos X em cada indiv́ıduo amostrado, obtendo desta forma as v.a.’s X1, . . . , Xn (que chamamos neste caso de amostra casual simples (de tamanho n) de X). Então

X̄n := Sn n

= 1

n

n ∑

i=1

Xi, (4.133)

a média amostral, seria um estimador para µ. Da linearidade da esperança, temos que

E(Sn) = E(X1) + . . .+ E(Xn) = n

i=1

E(Xi). (4.134)

Vimos acima (na Observação 4.40) que, na amostragem casual simples de tamanho n com reposição, as v.a.’s X1, . . . , Xn resultantes da medição de X nos indiv́ıduos da amostra têm todas distribuição marginal de probabi- lidades dadas pela distribuição de freqüências de X. Isto também é válido (mas não tão óbvio) para a amostragem casual simples de tamanho n sem reposição (mas neste caso, perde-se a independência entre as v.a.’s). Logo, se X1, . . . , Xn for uma amostra casual simples de X, temos da linearidade da esperança, de (4.134) e do que acabamos de dizer que

E(X̄n) = E

(

Sn n

)

= 1

n E(Sn) =

1

n

n ∑

i=1

E(Xi) = µ, (4.135)

onde a última igualdade se deve ao fato que E(Xi) = M(X) = µ para todo i. Podemos então afirmar que a média amostral é um estimador não-viesado para µ.

Vamos em seguida considerar a variância de Sn.

150

Proposição 4.44 Sejam X1, X2 . . . v.a.’s num mesmo espaço de probabili- dades e, para n ≥ 1, Sn = X1 + . . .+Xn. Então

V(Sn) =

n ∑

i=1

V(Xi) + 2

n ∑

i,j=1

i<j

C(Xi, Xj). (4.136)

Corolário 4.45 No contexto da Proposição 4.44, se X1, X2 . . . forem inde- pendentes (duas a duas), então

V(Sn) =

n ∑

i=1

V(Xi). (4.137)

Demonstração da Proposição 4.44

(Sn) 2 =

(

n ∑

i=1

Xi

)2

=

n ∑

i=1

X2i + 2

n ∑

i,j=1

i<j

Xi Xj, (4.138)

logo

E [

(Sn) 2 ]

= E

[

n ∑

i=1

X2i

]

+ E

 2

n ∑

i,j=1

i<j

Xi Xj

 =

n ∑

i=1

E (

X2i )

+ 2

n ∑

i,j=1

i<j

E(Xi Xj).

(4.139) Temos ainda que

(E(Sn)) 2 =

(

n ∑

i=1

E(Xi)

)2

=

n ∑

i=1

[E(Xi)] 2 + 2

n ∑

i,j=1

i<j

E(Xi)E(Xj). (4.140)

De (4.138), (4.139) e (4.24)

V(Sn) =

n ∑

i=1

{

E (

X2i )

− [E(Xi)]2 }

+ 2

n ∑

i,j=1

i<j

{E(Xi Xj)− E(Xi)E(Xj)}

=

n ∑

i=1

V(Xi) + 2

n ∑

i,j=1

i<j

C(Xi, Xj). (4.141)

151

Demonstração do Corolário 4.45 Imediata das Proposições 4.44 e 4.42.

Aplicações a distribuições de v.a.’s já vistas

Demonstração da Proposição 4.19 Se X ∼ Bin(n, p), então X pode ser escrita como

Sn = n

i=1

Yi, (4.142)

onde Y1, . . . , Yn são v.a.’s de Bernoulli com parâmetro p independentes. De fato, se tomarmos

Yi =

{

1, se o i-ésimo ensaio de Bernoulli resulta em sucesso,

0, se o i-ésimo ensaio de Bernoulli resulta em fracasso, (4.143)

então temos claramente a validade de (4.142). A independência alegada entre as v.a.’s Y1, . . . , Yn segue da independência entre os ensaios.

De (4.134) e (4.36),

E(X) = n

i=1

E(Yi) = n

i=1

p = np, (4.144)

e (4.41) está verificada. De (4.137) e (4.37),

V(X) =

n ∑

i=1

V(Yi) =

n ∑

i=1

p(1− p) = np(1− p), (4.145)

e (4.42) está verificada.

Demonstração da Proposição 4.25 Como no caso da binomial com as Bernoulli’s, uma v.a. com distribuição binomial negativa pode ser escrita como uma soma de v.a.’s geométricas de parâmetro p independentes. Isto é, se X ∼ BN(n, p), então

Sn =

n ∑

i=1

Yi, (4.146)

onde Yi ∼ G(p) para todo i = 1, . . . , n, e Y1, . . . , Yn são independentes. Então

E(X) = n

i=1

E(Yi) = n

i=1

1− p p

= n 1− p p

, (4.147)

V(X) =

n ∑

i=1

V(Yi) =

n ∑

i=1

1− p p2

= n 1− p p2

. (4.148)

152

Aplicações na avaliação da média amostral como estimador da média populacional

Seja X uma variável populacional numérica com média M(X) = µ e variância V (X) = σ2, e seja X1, . . . , Xn uma amostra casual simples com reposição de X. Em (4.135), achamos a esperança da média amostral X̄n, e conclúımos que se trata de estimador não-viesado para µ. De (4.25) e (4.137)

V(X̄n) = V

(

Sn n

)

= 1

n2 V(Sn) =

1

n2

n ∑

i=1

V(Xi) = nσ2

n2 =

σ2

n . (4.149)

Note que a variância de X̄n vai para 0 quando n → ∞. Como a variância de X̄n pode ser vista como o desvio quadrático médio da média amostral em relação à média populacional µ, conclúımos que esta distância entre o esti- mador e o parâmetro estimado decai indefinidamente conforme aumentamos o tamanho da amostra. Por esta propriedade, dizemos que a média amostral (neste contexto) é um estimador consistente para a média populacional.

Observação 4.46 A discussão que acabamos de fazer produz também a in- terpretação estat́ıstica da esperança que mencionamos na Observação 4.14. Note que média populacional µ é também a esperança comum de X1, . . . , Xn. Logo, do fato que a distância entre µ e a média de X1, . . . , Xn vai a zero quando n → ∞ 2, podemos dizer que a esperança de uma v.a. é o valor que esperamos observar, não necessariamente numa realização do experimento aleatório subjacente, mas como média das observações da variável em várias repetições independentes do experimento.

Teorema Central do Limite O resultado de aproximação normal para a distribuição binomial que

vimos na Subseção 4.3.3, mais especificamente o Teorema Central do Limite (apresentado na Observação 4.34) são versões do seguinte resultado mais geral.

Teorema 4.47 (Teorema Central do Limite) Sejam X1, X2 . . . v.a.’s independentes e de mesma distribuição marginal, com

2Distância dada pelo desvio quadrático médio, como vimos acima, mas o mesmo vale

para outras distâncias.

153

média comum µ e variância comum σ2 > 0. Para n ≥ 1, seja Sn = ∑n

i=1 Xi e X̄n = Sn/n. Seja

Zn = Sn − E(Sn)

DP(Sn) =

Sn − nµ σ √ n

(4.150)

= X̄n − E(X̄n)

DP(X̄n) =

X̄n − µ σ/

√ n . (4.151)

Então, vale a conclusão da Observação 4.34, qual seja, para todo a, b ∈ R com a < b, temos que

lim n→∞

P(a < Zn < b) =

∫ b

a

1√ 2π

e−x 2/2 dx. (4.152)

Note que no caso da Observação 4.34, a distribuição comum de X1, X2 . . . é Bernoulli com parâmetro p, como observamos em (4.142) e (4.143).

Exemplo 4.48 Suponha que a população de certa região em certa época te- nha altura média 170 com desvio-padrão 10. Depois de certo tempo, descon- fia-se que a altura média mudou, mas não o desvio padrão. Para estimar a altura média atual, planeja-se colher uma amostra casual simples de tama- nho 100 com reposição desta população. Qual a probabilidade de a média amostral não diferir da média populacional por mais do que 2?

Seja X a altura atual da população, e seja µ = M(X), a altura média atual. Sejam X1, . . . , X100 as alturas amostradas, e a média amostral. Então queremos achar

P(|X̄ − µ| ≤ 2). (4.153) Temos que o desvio-padrão comum das v.a.’s da amostra é 10. Como

|X̄ − µ| ≤ 2 sse |Z| ≤ 2 σ/

√ 100

= 2,

onde

Z = X̄ − µ σ/

√ 100

,

temos de (4.152) que

P(|X̄ − µ| ≤ 2) = P(|Z| ≤ 2) = P(−2 ≤ Z ≤ 2) ≈ P(−2 ≤ Z̃ ≤ 2),

onde Z̃ ∼N(0,1). Logo a probabilidade em questão vale aproximadamente

A(2)− A(−2) = 2A(2)− 1 = 2× 0.9773− 1 = 0.955.

154

Observação 4.49 A probabilidade em (4.153) neste contexto é chamada de coeficiente de confiança para como estimador de µ com margem de erro de 2. Podemos dizer então neste caso que temos um coeficiente de confiança de aproximadamente 95% para como estimador de µ com uma margem de erro de 2.

155

Até o momento nenhum comentário
Esta é apenas uma pré-visualização
3 mostrados em 43 páginas