


























































Estude fácil! Tem muito documento disponível na Docsity
Ganhe pontos ajudando outros esrudantes ou compre um plano Premium
Prepare-se para as provas
Estude fácil! Tem muito documento disponível na Docsity
Prepare-se para as provas com trabalhos de outros alunos como você, aqui na Docsity
Encontra documentos específicos para os exames da tua universidade
Prepare-se com as videoaulas e exercícios resolvidos criados a partir da grade da sua Universidade
Responda perguntas de provas passadas e avalie sua preparação.
Ganhe pontos para baixar
Ganhe pontos ajudando outros esrudantes ou compre um plano Premium
Apostila Anova e CEP
Tipologia: Notas de estudo
1 / 66
Esta página não é visível na pré-visualização
Não perca as partes importantes!



























































O objetivo é comparar se uma distribuição de freqüência é realmente a
distribuição esperada teoricamente (teste de aderência)
Sejam:
n - o nº de observações ei - a freqüência esperada na classe i oi - a freqüência observada na classe i k - o nº de classes O teste se baseia no grau de concordância entre ei e oi. A medida denominada quiquadrado é definida por:
=^ k − i
k i (^) i
i i
i i n e
o e
o e 1 1
χ
Os valores esperados são baseados na distribuição da população. Rejeitamos a hipótese de aderência se tal valor for maior que o valor do
quiquadrado crítico com (k-1) graus de liberdade com o nível de significância estipulado.
O teste quiquadrado só pode ser utilizado se todas as freqüências esperadas
forem maiores que 1 e se no máximo 20% das freqüências esperadas forem menores
que 5. Caso contrário deve-se agrupar as classes de forma a satisfazer tais condições.
Por exemplo, se a porcentagem de funcionários de um laboratório nos grupos de
idades de 18 a 20; 21 a 23; 24 a 26; 27 a 29 anos é de, respectivamente, 15%, 20%, 30%
e 35% e se o nº de ocorrências de ações fora do padrão de segurança ocorridos em um
ano nestas faixas etárias foram de 5, 10, 9 e 6, podemos afirmar que o número de ações
fora do padrão de segurança para os funcionários segue a distribuição das faixas etárias,
isto é, que a distribuição observada é de respectivamente 15%, 20%, 30% e 35% das
ações fora do padrão em cada faixa etária? Testar utilizando α = 0,05. 18 a 20 21 a 23 24 a 26 27 a 29 oi 5 10 9 6 ei 4,5 6,0 9,0 10, Temos, por exemplo: 4,5 é igual a 15% do total de número de ações fora do
padrão de segurança (30).
Como temos uma casela com valor esperado inferior a 5, temos que agrupar as
caselas.
18 a 23 24 a 26 27 a 29 oi 15 9 6 ei 10,5 9,0 10,
g.l. = 2
2 , 2
2 2 2 2 2 2 2 2
cr
ou
χ
χ χ
R.C. = {χ^2 / χ^2 ≥ 5,991} 3,857 ∉ R.C., logo ao nível de significância de 5% afirmo que o número de ações
fora do padrão de segurança para os funcionários é independente da idade.
Queremos testar se duas variáveis aleatórias são independentes. Neste caso
temos uma tabela de dupla entrada (as duas variáveis). Seja r o nº de níveis da primeira
variável e c o nº de níveis da segunda variável. Temos que g.1. = (r-1) (c-1) e
( ) n e
o e
o e ij
c ij j
r ij i
c ij ij j
r i
= = = =
2
1 1
2
1 1
χ^2
χ obs^2 = 0 , 971 + 2 , 604 + 1 , 289 + 3 , 457 + 0 , 264 + 0 , 707 + 1 , 077 + 2 , 889 + 0 , 002 + 0 , 005 = 13 , 266 ou
162 175 , 266 162 13 , 266 5 , 16
χ obs
Temos uma casela com valor esperado menor que 5, o que é menos de 20% do total de
caselas.
g.l. = 4 x 1 = 4 χ 5 2 %, 4 = 9, R.C. = { χ^2 / χ^2 ≥ (^) 9,488} 13,266 ∈ R.C., logo ao nível de significância de 5%, rejeitamos H 0 , isto é, ao nível de significância de 5% afirmamos que as variáveis aleatórias motivo da tentativa de suicídio e sexo do suicida não são independentes.
EXEMPLO ADICIONAL DE TESTE QUIQUADRADO
1)Foi retirada uma amostra de 125 bolos industrializados cujo peso marcado é de 250 grs. Deseja-se saber se o peso dos bolos tem uma distribuição aproximadamente normal.
Peso dos 125 bolos amostrados 276 274 284 272 276 278 278 278 278 280 288 270 280 270 292 255 266 264 266 272 266 266 266 266 282 247 280 280 270 272 272 280 264 264 284 282 268 272 261 275 264 270 269 258 260 266 256 249 260 260 259 250 266 258 257 268 270 274 269 260 260 272 258 262 283 254 272 274 268 265 269 274 269 286 268 258 272 272 280 265 280 272 268 270 265 264 270 278 264 270 260 266 258 270 269 270 261 255 263 271 291 296 293 287 300 289 265 283 276 289 295 308 289 287 275 267 292 256 275 270 262 268 276 274 260
Temos:
s grs
X grs 11 , 0076
Os dados foram agrupados em 7 classes: PESO Frequência 240 I 250 2 250 I 260 13 260 I 270 43 270 I 280 39 280 I 290 20 290 I 300 6 300 I 310 2 Total 125
Vamos calcular os valores esperados, supondo a distribuição normal:
Prosseguimos o cálculo e obtemos a seguinte tabela:
PESO z (^) inf zsup Probab. ei oi 240 I 250 - -1,93 0,02680 3,35 2, 250 I 260 -1,93 -1,02 0,12706 15,88 13, 260 I 270 -1,02 -0,11 0,30234 37,79 43, 270 I 280 -0,11 0,80 0,33194 41,49 39, 280 I 290 0,80 1,70 0,16729 20,91 20, 290 I 300 1,70 2,61 0,04004 5,01 6, 300 I 310 2,61 - 0,00453 0,57 2, Total 125,00 125,
Como temos uma classe com valor esperado inferior a 1, vamos agrupar as classes. Podemos continuar com um valor esperado inferior a 5 pois este representa menos de 20% do total de classes.
PESO ei oi oi^2 /ei 240 I 250 3,35 2,00 1, 250 I 260 15,88 13,00 10, 260 I 270 37,79 43,00 48, 270 I 280 41,49 39,00 36, 280 I 290 20,91 20,00 19, 290 I 310 5,58 8,00 11, Total 128,
g.l. = 5
o 12 = 33 e 12 = (110 x 50) /129 = 42, o 21 = 2 e 21 = (19 x 79) /129 = 11, o 22 = 77 e 22 = (110 x 79) /129 = 67, Satisfação Má Boa Total Tempo de Casa 17 33 50 7,36 42, 2 77 79 11,64 67, 19 110 129
Antigo Total
Novo
χ obs^2 = 12 , 607 + 2 , 178 + 7 , 979 + 1 , 378 = 24 , 143 ou
129 153 , 143 129 24 , 143 67 , 36
χ obs
g.l. = 1 x 1 = 1 χ (^52) %, 1 =3, R.C. = { χ^2 / χ^2 ≥3,841} 24,143 ∈ R.C. Logo, ao nível de significância de 5%,rejeitamos H 0 , isto é, ao nível de
significância de 5% afirmamos que não há independência entre as variáveis aleatórias
tempo de casa e satisfação com a empresa.(Os mais antigos estão mais satisfeitos).
O TESTE DE KOLMOGOROV-SMIRNOV
O teste de Kolmogorov-Smirnov de uma amostra é um outro teste de aderência. Deve-se calcular a freqüência acumulada esperada segundo H 0 com a freqüência
acumulada observada. Determina-se o ponto em que estas distribuições têm maior diferença (em módulo). Rejeita-se H 0 se este valor for superior a um valor D tabelado, o
qual depende do tamanho n da amostra e do nível de significância utilizado.
O teste de Kolmogorov-Smirnov não tem suposições quanto à magnitude dos
valores esperados para poder ser utilizado e é, em geral, mais poderoso que o teste
Quiquadrado, isto é, tem maior probabilidade de rejeitar que a verdadeira distribuição de
freqüências é a distribuição testada segundo H 0 quando esta hipótese for realmente falsa.
Exemplos: 1)No exemplo dos funcionários do laboratório, queremos saber se a distribuição
do número de ações fora do padrão de segurança por faixa etária é a mesma distribuição
dos funcionários nestes grupos de idades de 18 a 20; 21 a 23; 24 a 26; 27 a 29 anos, isto
é, respectivamente, 15%, 20%, 30% e 35%.
distr teórica oi distr observada distr acum teórica distr acum observada diferença 0,1500 5 0,1667 0,1500 0,1667 0, 0,2000 10 0,3333 0,3500 0,5000 0, 0,3000 9 0,3000 0,6500 0,8000 0, 0,3500 6 0,2000 1,0000 1,0000 0, 1,0000 30 1, Diferença máxima = 0, Para n = 30 e nível de significância de 5%, temos que D = 0, Como 0,15 < 0,24 , ao nível de significância de 5%, afirmo que as ações fora dos
padrões de segurança ocorreram segundo a distribuição de 15%, 20%, 30% e 35% nas
faixas etárias estabelecidas.
tem uma distribuição aproximadamente normal.
PESO z (^) inf z (^) sup distr teórica distr t acum oi distr observ distr o acum diferença 240 I 250 - -1,93 0,02680 0,02680 2,00 0,01600 0,01600 0, 250 I 260 -1,93 -1,02 0,12706 0,15386 13,00 0,10400 0,12000 0, 260 I 270 -1,02 -0,11 0,30234 0,45620 43,00 0,34400 0,46400 0, 270 I 280 -0,11 0,80 0,33194 0,78814 39,00 0,31200 0,77600 0, 280 I 290 0,80 1,70 0,16729 0,95543 20,00 0,16000 0,93600 0, 290 I 300 1,70 2,61 0,04004 0,99547 6,00 0,04800 0,98400 0, 300 I 310 2,61 - 0,00453 1,00000 2,00 0,01600 1,00000 0, Total 1,00000 125,00 1, Diferença máxima = 0, Para n=125 e nível de significância de 5%, temos que (^0) , 12164 125 = 1 ,^36 =^1 ,^36 = D n
Como 0,03386 < 0,12164 , ao nível de significância de 5%, afirmo que o peso dos
bolos tem uma distribuição aproximadamente normal.
Average: 271,24StDev: 11, N: 125
Kolmogorov-Smirnov Normality TestD+: 0,076 D-: 0,035 D : 0, Approximate P-Value: 0,
250 260 270 280 290 300 310
,
,
,
,
,
,
,
,
,
Probability
C
Normal Probability Plot
Para quantificar a variabilidade dentro do grupo j , usamos:
( X T ) X
ij (^) n j i
n ij
j i
n − = − = =
1
2
2
1 Para quantificar a variabilidade total dentro dos grupos utilizamos a soma de
quadrados dentro (SQD) definida por:
j n
k i
n ij j^ ij
j i
n j
k = − = = = = =
1 1
2 2
2
1 1
No exemplo em questão:
Observação: O SQD mede o caráter aleatório do experimento, isto é, o que não foi controlado
pelo pesquisador. Por isto o SQD é também chamado de soma de quadrados devido ao
erro experimental ou resíduo (SQR).
Para quantificar a variabilidade existente entre os grupos utilizamos a soma de quadrados
entre (SQE) definida por:
SQE n T G
n
j nk
k j j j
k = − =
2
(^2 )
1
No exemplo por nós utilizado, temos:
6140 , 2 6120 , 6 19 , 6 15
A SQE representa a variação devida aos tratamentos utilizados (1º turno, 2º turno
ou 3º turno).
Se usarmos os dados como um todo, sem a informação de que há diferentes
níveis do fator “tratamento”, como quantificaremos a variabilidade total?
A soma de quadrados total (SQT) é definida por:
i nk
n j
k ij (^) i ij
n j
k = − = = = = =
1 1
2 2 2 1 1
No exemplo temos que SQT = 38 , 4 15
Prova-se que:
SQT = SQD + SQE
No exemplo utilizado 38,4 =18,8 + 19,6. Queremos testar: H 0 : μ 1 = μ 2 = μ 3 = ... = μk Sob H 0 , o quadrado médio dentro (QMD) é uma estimativa de σ^2 , onde:
k n
Sob H 0 , o quadrado médio entre (QME) também é uma estimativa de σ^2 , onde:
QME SQE k
− 1 Pois^
k
n T^ G k
n j
k (^) j − =^ X
=
∧ ∧
1
σ σ
Logo, se H 0 é verdadeira, QMD e QME devem estar próximos, portanto a razão QME QMD
deve estar próxima de um.
Se H 0 não for verdadeira o valor de QMD não deve se alterar pois este é baseado
em cálculos de cada coluna separadamente. Neste caso, porém, o valor de QME deverá
crescer à medida que as médias amostrais se afastem uma das outras, logo QME QMD
excederá um quando H 0 não for verdadeira.
Denotamos F = QME QMD
No exemplo por nós utilizado 6 , 255 1 , 57
QME = 19 ,^6 QMD = e F = =.
Fonte de variação Soma de quadrados g.l. Quadrado médio F Entre turnos 19,60 2 9,80 6, Dentro dos turnos 18,80 12 1, Total 38,40 14 Fobs = 6 , 255 > F 5 %, 2 ; 12 = 3 , 89 logo, ao nível de significância de 5%, afirmamos que
há diferença entre a produção dos três turnos.
Contrastes
Um contraste é uma comparação envolvendo duas ou mais médias dos níveis do fator
em estudo.
Representamos por C e definimos j
k j
=
1
onde Cj’s são tais que
j
k C (^) j o =
1
Exemplos:
2 3 1 2 3
1 2 3 1 2 3 − → = = = −
μ μ
μ μ μ
Teste de Contraste
=
k j
C Cj Tj 1
C
∧ ~ N n
j
k (^0) j
2 1
H 0 : C = 0 Ha : C ≠ 0
Estimaremos σ^2 por QMD. Para os dados do exemplo inicial sobre a produção nos três turnos, queremos
testar ao nível de significância de 5% se:
H (^) o 1 : C =μ 1 −μ^2 +μ^3 ≤
e
H (^) o 2 : C =μ 2 −μ 3 = 0
Temos um problema a resolver. Quando um grande número de comparações são
feitas em seguida a um teste F significante, algumas das rejeições das hipóteses nulas
referentes aos contrastes podem ser devidas ao erro tipo I.
Por exemplo, se dois testes independentes são feitos, cada um com nível de
significância de 5%, qual a probabilidade das duas afirmações serem simultaneamente
verdadeiras?
P(V 1 e V 2 ) = P(V 1 ) P(V 2 ) = (1 - 0,05) (1 - 0,05) = 0,95 x 0,95 = 0,
Precisamos adotar um procedimento de comparações múltiplas, como por
exemplo, o método de Bonferroni. O método consiste em trabalhar com nível de
significância k
α (^) , para cada um dos testes, quando desejamos realizar k testes
simultâneos.
No exemplo faremos cada teste ao nível de significância de 2,5%. Temos: QMD = 1, n = 5
0 2
H 0 : μ 1 −μ^2 +μ^3 ≤
1
Ccr = 0 + t (^) 2,5%;12 sc
t (^) 2,5%;12 = 2,179 ( teste unilateral )
A análise de regressão e correlação tem por finalidade a construção de um
modelo que relacione as variáveis, bem como a análise de correlação entre elas.
Modelo estatístico de regressão linear simples: Y 1 = α + βXi + εi onde: α = termo constante β = coeficiente de regressão εi = erro aleatório
Suposições de modelo: a) Xi não é variável aleatória b) E(εi) = 0 , consequentemente E(Yi) = α + βXi c) E(εi^2 ) = σ^2 = constante, logo VAR (εi) = σ^2 d) Os erros são não correlacionados e) Os erros tem distribuição normal
Concluímos que εi ~ N(0, σ^2 ) Definimos: covariância de X, Y = σxy = E[ (X-E (X)) (Y-E(Y))]
COV (X, Y) = n X Y X Y i
n i i i i
n i i
n = =
Coeficiente de correlação ρ = σ (^) XY /( σ (^) X σY)
ρ
∧ (^) = = =
= = = =
r
n X Y X Y
n X X n Y Y
i i i
n i i
n i i
n
i i i
n i
n i i i
n i
n
1 1 1 2 1
2
1
2 1
2
1 − 1 ≤ ρ≤ 1 Observamos que se ρ = 0, não existe uma relação linear entre as variáveis X e Y. Estimamos os parâmetros α e β, utilizando o método dos mínimos quadrados.
Temos:
β
α
∧ (^) = =
= = ∧
b
n X Y X Y
n X X
a Y bX
i
n i i i i
n i i
n
i i
n i
n
1 1 2 1 1
2
1
= 1
Por exemplo, a tabela abaixo mostra os gastos (em milhões de dólares) com
pessoal contratado em determinada indústria em 7 anos consecutivos.
ANO 1990 1991 1992 1993 1994 1995 1996 PESSOAL 3023 3108 3213 3280 3382 3492 3661 GASTO 24,4 28,0 31,8 35,5 39,9 45,5 53,
Podemos estimar a reta dos mínimos quadrados: ANO Pessoal (X) Gasto (Y) X Y X^2 Y^2 1997 3023 24,4 73761,2 9138529 595, 1998 3108 28,0 87024,0 9659664 784, 1999 3213 31,8 102173,4 10323369 1011, 2000 3280 35,5 116440,0 10758400 1260, 2001 3382 39,9 134941,8 11437924 1592, 2002 3492 45,5 158886,0 12194064 2070, 2003 3661 53,5 195863,5 13402921 2862, Total 23159 258,6 869089,9 76914871 10175, b = 0, a = -114, Yi = -114,81 + 0,046 Xi Saída do EXCEL: Ferramentas / Análise de dados / Regressão Coeficientes Erro padrão Stat t valor-P 95% inferiores 95% superiores Interseção -114,812823 3,12584229 -36,7302 2,817E-07 -122,8480431 -106, Variável X 0,045869414 0,000943 48,64209 6,939E-08 0,043445364 0, Podemos avaliar os gastos totais na indústria (em milhões de dólares) num ano
em que o total de pessoal é de 3300 funcionários.
Y = -114,81 + 0,046 x 3300 = 36,56 milhões de dólares. Tal estimativa pode ser feita pelo valor de X estar dentro do intervalo usado para
construir a reta de regressão e supondo que não houve motivo para a mudança de
padrão do modelo.
Podemos demonstrar que:
a ~ N α
σ , ( )
2 2 1 2 1
n X X
i i
n
i i
n
=
=
aobs = - 114,81 ∈ R.C., logo ao nível de significância de 5% rejeitamos Ho, isto é,
ao nível de significância de 5%, afirmamos que α é maior que -125.
b) H 0 : β ≤ 0 Ha: β > 0 sb = 0, t5%,5 = 2,015 (teste unilateral) bcr = 0 + 2, 015 x 0,0009 = 0, R.C. = {b / b ≥ 0,0019} bobs = 0,046 ∈ R.C., logo ao nível de significância de 5% rejeitamos Ho, isto é, ao
nível de significância de 5%, afirmamos que β é maior que zero.
Teste de hipótese para o coeficiente de correlação ρ:
Se supormos que X e Y são variáveis aleatórias normais independentes, prova-se
que a distribuição de r só depende de n.
Se quisermos testar H 0 : ρ = 0, devemos usar a estatística:
2 1 ;^2
2 ~ 1
obs (^) r Fn F r n
No exemplo dos gastos com pessoal, temos: r = 0, Saída do EXCEL: Estatística de regressão R múltiplo 0, R-Quadrado 0, R-quadrado ajustado 0, Erro padrão 0, Observações 7 H 0 : ρ = 0 Ha : ρ ≠ 0 Fobs = 2366, F5%,1,5 = 6, Fobs > Fcr, logo ao nível de significância de 5% rejeitamos Ho, isto é, ao nível de
significância de 5% afirmo que existe uma relação linear entre as variáveis pessoal
contratado e gasto com pessoal.
Variável X 1 Plotagem de ajuste de linha
Aplicação : o efeito da curva de aprendizagem Quando novas técnicas de produção são utilizadas em uma indústria, isto é, quando
tratamos de processos não estabilizados, deve-se verificar se está caracterizado um
processo de aprendizagem.
Este processo caracteriza-se pela diminuição do tempo médio de produção à
medida que se repete a nova técnica, cessando, tal processo, em algum ponto de
evolução da curva, e como conseqüência pode-se notar uma diminuição no custo médio
de utilização da mão-de-obra, maquinário e instalações específicas.
Deve-se notar que se os efeitos da curva de aprendizagem forem mensurados em
custos, devem ser descontadas as inflações no período, sendo melhor a utilização de
unidades físicas tais como o tempo de duração da tarefa.
A fórmula mais usual para representar o fenômeno da curva de aprendizagem é
através de:
Z = aw-b, onde: Z = tempo médio de produção de um lote a = tempo de produção do primeiro lote w = número acumulado de lotes produzidos até o momento b = índice da curva de aprendizagem (0 < b < 1) Aplicando-se o logarítmo neperiano na expressão acima, temos: lnZ = lna - blnw, ou Y = A + BX, onde: Y = lnZ A = lna B = -b