Baixe Estatistica aplicada e outras Exercícios em PDF para Estatística Aplicada, somente na Docsity! UNIDADE 1 1) Analise as situações descritas abaixo e decida se a pesquisa deve ser feita por amostragem ou por censo, justificando sua resposta. a) Numa linha de produção de empacotamento de café, observar o peso especificado. b) Em uma sala de aula composta por 40 alunos, analisar suas idades. c) Observar se a água de uma lagoa está contaminada. d) Verificar a carga horária diária de trabalho dos funcionários da cozinha de um restaurante e) Num lote de cabos de aço, verificar a resistência dos mesmos à tração. a) Se houver possibilidade de agregar uma balança automática ao processo produtivo pode-se utilizar censo. Pois como não se trata de teste destrutivo, e peso dos pacotes é importante para a imagem da empresa (e para não haver desperdício) todos os pacotes podem ser medidos. b) Censo, porque a população é pequena, apenas 40 elementos. c) Amostragem. É no mínimo contraproducente retirar toda a água da lagoa para exame de sua contaminação. d) Censo, porque por necessidades políticas (e mesmo por exigência legal) todos deverão ter suas cargas horárias verificadas (evitando abusos, e/ou futuras ações judiciais). e) Amostragem, pois se trata de um teste destrutivo (aumenta-se a tração sobre o cabo até que ele se rompa, anotando então a força aplicada), e não pode ser feito com todo o lote. 2) Para as situações a seguir avalie a necessidade de utilizar dados primários ou se dados secundários serão suficientes para atingir os objetivos propostos. JUSTIFIQUE suas respostas. a) Uma empresa quer avaliar como está a renovação do seu pessoal, através da observação do seu tempo de serviço e experiência prévia. Tais dados estão disponíveis na gerência de RH. b) O MEC está pedindo que todas as universidades federais preparem um relatório sobre o tempo de conclusão do curso por seus alunos. O DAE dispõe de informações sobre o semestre de ingresso e o de saída, segmentado por curso. c) O coordenador do curso de administração da UFSC quer saber quais as razões que levaram os acadêmicos a escolherem o curso, em detrimento de outros na UFSC, ou em outras universidades. a) Dados secundários. O tempo de serviço e a experiência prévia dos funcionários estão disponíveis na gerência de RH, e não estamos procurando obter as opiniões deles, portanto podem ser usados dados secundários. b) Dados secundários. Para o caso da UFSC o DAE dispõe de uma série de informações sobre a vida dos acadêmicos, especialmente época de ingresso (por vestibular, transferência ou retorno) e tempo de conclusão de curso (em função da época do pedido de colação de grau). Não há necessidade de coletar novos dados. c) Dados primários. Busca-se obter os motivos que levaram os alunos a optarem pelo curso de administração, o que provavelmente não está registrado de modo confiável em lugar algum, exigindo a coleta dos dados. UNIDADE 2 1) Analise as situações descritas abaixo e decida se a pesquisa deve ser feita por amostragem ou por censo, justificando sua resposta. a) Numa linha de produção de empacotamento de café, observar o peso especificado. b) Em uma sala de aula composta por 40 alunos, analisar suas idades. c) Observar se a água de uma lagoa está contaminada. d) Num lote de cabos de aço, verificar a resistência dos mesmos à tração. a) Se houver possibilidade de agregar uma balança automática ao processo produtivo pode-se utilizar censo. Pois como não se trata de teste destrutivo, e peso dos pacotes é importante para a imagem da empresa (e para não haver desperdício) todos os pacotes podem ser medidos. b) Censo, porque a população é pequena, apenas 40 elementos. c) Amostragem. É no mínimo contraproducente retirar toda a água da lagoa para exame de sua contaminação. d) Amostragem, pois se trata de um teste destrutivo (aumenta-se a tração sobre o cabo até que ele se rompa, anotando então a força aplicada), e não pode ser feito com todo o lote. 2) Analise as situações abaixo e determine qual é o tipo de amostragem a ser usado em cada caso, e explique por quê. a) Parte da população é inacessível e trata-se de um estudo preliminar. b) Todos os elementos da população podem ser pesquisados, mas não há recursos para a sua listagem total. Sabe-se também que a população subdivide-se em subgrupos semelhantes (para os quais há uma listagem). c) Sabe-se que toda a população é acessível, e que é homogênea. A amostra deve ser obtida rapidamente. d) Uma empresa atua em três mercados distintos. Dispõe de uma listagem com os nomes e endereços de todos os clientes. Pretende pesquisar qual seria a eventual demanda de um novo produto. Precisa fazer isso rapidamente (não há tempo para censo). e) A reitoria da UFSC quer conhecer as diferenças básicas entre as idéias de professores, servidores e alunos sobre a instituição. Há listas com todos os professores, alunos e servidores. f) Um empreendedor tem interesse em montar um cyber-café. Pretende conduzir um estudo preliminar para conhecer os serviços que os prováveis usuários gostariam de ter no estabelecimento. Conhece algumas pessoas que usam cyber-café, e pode ser que estas conheçam outras. g) Pretende-se fazer uma pesquisa de opinião sobre a administração de um município. A população pode ser dividida em áreas geográficas, sendo que é possível imaginar homogeneidade dentro de cada área. Há uma listagem dos domicílios existentes em cada área (proveniente do cadastro do IPTU). h) Deseja-se avaliar a qualidade de um minério recentemente extraído de uma jazida descoberta pela Companhia Vale do Rio Doce. a) Amostragem não probabilística, a esmo. Como não há acesso a toda a população seria impossível aplicar uma amostragem probabilística, e como se trata de estudo preliminar a não probabilística é aceitável. b) Amostragem probabilística por conglomerados. Há acesso a toda a população (mas não há recursos para listar todos os elementos) e a população divide-se em grupos homogêneos (que podem ser listados). c) Amostragem probabilística sistemática. Há acesso a toda a população (pressupõe-se que haja listagem), que é homogênea. A amostragem sistemática, com o sorteio do ponto de partida e a retirada de elementos a intervalos regulares possibilita um processamento mais rápido do que a aleatória simples. d) Amostragem probabilística estratificada proporcional. Não há tempo para um censo. Há acesso a toda a população (há listagem), que pode ser considerada dividida em três estratos (mercados). Como se deseja conhecer a demanda por um novo produto é preciso obter informações precisas, o que pode ser obtido com uma amostra proporcional ao tamanho de cada estrato. e) Amostragem probabilística estratificada uniforme. Há acesso a toda a população (listagem), e supõe-se que há uma divisão em 3 estratos (embora dentro dos estratos suponha-se uma certa homogeneidade). Como há interesse em comparar os estratos (as opiniões dos seus integrantes) não há necessidade de obter uma amostra proporcional, bastando retirar a mesma quantidade de cada estrato. f) Amostragem não probabilística "bola de neve". É virtualmente impossível ter acesso a toda a população, em outras palavras, quais são os usuários potenciais de cyber-café. Como se trata de um estudo preliminar, uma amostragem não probabilística é aceitável, e a modalidade "bola de neve" poderia levar a um certo número de pessoas cujas opiniões seriam importantes para as etapas posteriores. 31 a 40 anos 127 51,00% Mais de 40 anos 63 25,30% Total 249 100% Se imaginarmos que pessoas jovens são aquelas com idades até 30 anos os clientes da TOYORD podem ser classificados como “velhos”: nada menos do que 76,30% têm 31 ou mais anos de idade. 2) Agora vamos agrupar os dados em classes. Novamente, não se esqueça de remover o dado perdido antes do agrupamento. Intervalo = 55 – 18 (máximo – mínimo) = 37 Número conveniente de classes = 8115250 , Talvez 15 sejam muitas classes, podemos arbitrariamente escolher 10 classes. Amplitude das classes = 37/10 = 3,7. Teremos um valor fracionário, o que pode dificultar a futura visualização da tabela, podemos, também arbitrariamente, escolher amplitude igual a 4. Limites das classes: vamos começar pelo mínimo (18). 18 |-- 22 22|-- 26 26|-- 30 30|-- 34 34|-- 38 38|-- 42 42|-- 46 46|-- 50 50|-- 54 54|-- 58 Vamos então obter a distribuição agrupada em classes para a variável Idade, usando a função CONT.SE, exatamente como descrito na seção 2.1 do arquivo “Como fazer análise exploratória de dados com o Microsoft Excel”. Tomando os cuidados na utilização da função CONT.SE chegaremos ao resultado: Classes Freqüências Percentuais Pontos médios 18|-- 22 5 2,00 20 22|-- 26 12 4,80 24 26|-- 30 29 11,60 28 30|-- 34 50 20,00 32 34|-- 38 48 19,20 36 38|-- 42 53 21,20 40 42|-- 46 29 11,60 44 46|-- 50 16 6,40 48 50|-- 54 6 2,40 52 54|-- 58 1 0,40 56 Total 249 100,00 - A classificação anteriormente usada, “jovens são aqueles de até 30 anos” torna-se difícil de ser usada aqui: os de 30 anos estarão na classe 30|-- 34 anos. Mesmo que consideremos jovens indivíduos com menos de 34 anos a conclusão será semelhante a do caso anterior: 61,20% dos clientes têm 34 anos ou mais, podendo ser classificados como “velhos”. Você pode observar os pontos médios na última coluna, indicando que as freqüências e percentuais seriam relativas a eles ao invés dos dados originais, após o agrupamento em classes. 3) É de grande interesse para a montadora analisar o relacionamento entre modelo do veículo e opinião dos clientes sobre seu design. A tabela a seguir mostra o relacionamento destas variáveis. Modelo Design Adiante dos outros Atualizados Ultrapassados Total Chiconaultla Freqüências 46 35 0 81 % da linha 56,79% 43,21% 0,00% 100,00% % da coluna 77,97% 22,01% 0,00% 32,53% % do total 18,47% 14,06% 0,00% 32,53% Deltaforce3 Freqüências 9 46 1 56 % da linha 16,07% 82,14% 1,79% 100,00% % da coluna 15,25% 28,93% 3,23% 22,49% % do total 3,61% 18,47% 0,40% 22,49% LuxuriousCar Freqüências 0 10 19 29 % da linha 0,00% 34,48% 65,52% 100,00% % da coluna 0,00% 6,29% 61,29% 11,65% % do total 0,00% 4,02% 7,63% 11,65% SpaceShuttle Freqüências 1 33 8 42 % da linha 2,38% 78,57% 19,05% 100,00% % da coluna 1,69% 20,75% 25,81% 16,87% % do total 0,40% 13,25% 3,21% 16,87% Valentiniana Freqüências 3 35 3 41 % da linha 7,32% 85,37% 7,32% 100,00% % da coluna 5,08% 22,01% 9,68% 16,47% % do total 1,20% 14,06% 1,20% 16,47% Total Freqüências 59 159 31 249 % da linha 23,69% 63,86% 12,45% 100,00% % da coluna 100,00% 100,00% 100,00% 100,00% % do total 23,69% 63,86% 12,45% 100,00% Fonte: adaptado pelo autor de Microsoft . Como está opinião sobre o design por modelo? Qual modelo se saiu melhor? Qual se saiu pior? JUSTIFIQUE! Torna-se imperativo fazer a análise através de algum percentual, pois os modelos têm freqüências (vendas) diferentes, o que poderia dificultar a análise com base nas freqüências. Mas qual percentual? Observe que a questão quer obter informações por modelo, cujos valores estão nas linhas, portanto, devemos usar os percentuais das linhas, para cada modelo e compará-los com o percentual da linha total. Observe que o total da tabela não é 250 porque há um dado perdido de modelo (uma pessoa não declarou o modelo comprado, e tal valor foi removido), o que explica as discrepâncias entre os percentuais da linha total acima e os da questão 2 da Unidade 3. Na análise individual da variável (questão 2 da Unidade 3) observou-se que a maioria dos clientes têm opiniões positivas sobre o design considerando-os atualizados (63,86%, ver acima) ou adiante dos outros concorrentes (23,69%). Esperaria-se que este comportamento ocorresse nos 5 modelos, mas não é o que acontecesse: - o modelo Chiconaultla é o que sai melhor, pois nenhum (0%) dos seus compradores considerou seu design ultrapassado, e 56,79% o consideraram adiante dos outros concorrentes (contra apenas 23,69% da opinião total). - o modelo DeltaForce3 também se sai bem, mas aqui o design é maciçamente (82,14%) considerado apenas atualizado (quase 20% acima da opinião total). - o modelo LuxuriousCar é, de longe, o veículo que se saiu pior, pois nenhum (0%) dos seus compradores considerou seu design adiante dos concorrentes, e 65,52% o consideraram ultrapassado (contra apenas 12,45% da opinião total). - o modelo SpaceShuttle não foi tão mal quanto o LuxuriousCar, mas não tão bem quanto DeltaForce3, 19,05% dos seus compradores consideraram seu design ultrapassado (contra 12,45% da opinião total), enquanto a grande maioria dos proprietários (78,57%) o achou apenas atualizado frente aos concorrentes. - o modelo Valentiniana teve comportamento semelhante ao DeltaForce3, mas na direção oposta, sendo que 85,37% dos seus compradores consideraram o design atualizado, mas o percentual dos que o acharam ultrapassado é maior (7,32% contra 1,79% do DeltaForce3). Obviamente HÁ relação entre as variáveis Modelo e opinião sobre o Design pois os percentuais das opiniões variam bastante dependendo do veículo. Pelas respostas acima conclui-se que o design do veículo Chiconaultla agrada muito seus proprietários, acarretando que não há necessidade de mudanças no curto prazo. Já o LuxuriousCar precisa de remodelação urgente, pois a opinião mais positiva a seu respeito é que o design é atualizado. Os outros modelos estão em situação intermediária, exigindo talvez modificações a médio prazo, na seguinte ordem de prioridade: SpaceShuttle, Valentiniana e DeltaForce3. Todos estes têm pelo menos 75% considerando seu design atualizado, mas isso pode mudar em breve exigindo uma ação pró-ativa da Toyord. 4) As variáveis quilometragem e idade são quantitativas. Suspeita-se que mais jovens percorram maiores quilometragens com seus veículos. Construa o gráfico apropriado para estudar o relacionamento entre as variáveis e verifique se a suspeita é confirmada. JUSTIFIQUE sua resposta. Aqui é necessário consultar o arquivo “Como fazer análise exploratória de dados com o Microsoft Excel”, disponível no ambiente virtual da disciplina, e realizar a análise propriamente dita no arquivo AmostraToyord.xls, também disponível no ambiente virtual. Conforme dito no enunciado as variáveis quilometragem e idade são quantitativas. Devemos, então, realizar os procedimentos descritos no item 2.3 do arquivo citado acima: construir um diagrama de dispersão das duas variáveis. Qual será a independente (posta no eixo X) e qual a dependente (posta no eixo Y)? Suspeita-se que mais jovens percorram maiores quilometragens: há uma evidência NÃO estatística que indica que a quilometragem PODERIA ser influenciada pela idade, menores idades maiores quilometragens. Tendo isso em mente podemos construir o diagrama o dispersão, exposto abaixo. Observe que há valores altos de quilometragem tanto para valores baixos de idade (os mais jovens) quanto para os mais altos (os mais velhos). Observe também, que os pontos parecem se distribuir Quilometragem por idade 200 300 400 500 600 700 800 0 10 20 30 40 50 60 70 80 90 100 110 120 130 140 150 160 170 180 190 200 210 220 230 240 250 260 Idade Q u il o m e tr a g e m Posição mediana = (n + 1)/2 = (249+1)/2 = 125 a . Esta posição pode ser encontrada através das freqüências acumuladas. Temos que acrescentar uma coluna com as freqüências acumuladas, o que é relativamente simples basta somar a freqüência de uma classe com as de todas as anteriores: Classes Freqüências fi Pontos médios xi Freq. Acumulada 18|-- 22 5 20 5 22|-- 26 12 24 17 26|-- 30 29 28 46 30|-- 34 50 32 96 34|-- 38 48 36 144 38|-- 42 53 40 197 42|-- 46 29 44 226 46|-- 50 16 48 242 50|-- 54 6 52 248 54|-- 58 1 56 249 Total 249 - - Até a classe 30|-- 34 (ponto médio 32) temos até a 96ª posição. A classe seguinte, 34|-- 38, compreende as posições 97ª a 144ª, onde se encontra a posição da mediana, a 125ª . Como o ponto médio desta classe (que vale 36) é seu representante, significa que os valores das posições 97ª a 144ª são iguais a 36, logo Md = 36 anos. - Quartis Precisamos obter as posições dos quartis. Posição do quartil inferior = (n + 1)/4 = (249 + 1)/4 = 62,5ª. Posição do quartil superior = [3×(n+1)]/4 = [3 × (249 + 1)]/4 = 187,5ª. Ambas as posições não existem, precisamos obter as médias dos valores que estão na 62ª e 63ª posições para calcular o quartil inferior, e dos valores que estão na 188ª e 189ª posições para chegar ao quartil superior. Observando as freqüências acumuladas podemos verificar que da 47ª à 96ª posição os valores estão na classe 30|-- 34, cujo ponto médio vale 32, incluindo as 62ª e 63ª posições, o que nos leva a concluir que o quartil inferior vale (32+32/2) = 32 anos. Da 145ª à 197ª posições os valores estão na classe 38|--42, cujo ponto médio vale 40, incluindo as 188ª e 189ª posições, o que nos leva a concluir que o quartil superior vale (40+40/2) = 40 anos. Vamos usar o Excel diretamente para podermos calcular rapidamente os valores das medidas no arquivo AmostraToyord.xls. A variável idade tem seus valores na coluna K, células K2 a K251. Este intervalo deverá ser usado como argumento das várias funções do Excel: MÉDIA(K2:K251) = 35,891 Pela tabela = 36,38 anos MED(K2:K251) = 36 Pela tabela = 36 anos MODO(K2:K251) = 39 Pela tabela = 40 anos QUARTIL(K2:K251;1) = 31 Pela tabela = 32 anos QUARTIL(K2:K251;3) = 41 Pela tabela = 40 anos. Observe que alguns valores são diferentes dos encontrados através da tabela agrupada em classes. Por quê? Porque as medidas calculadas através da tabela usam os pontos médios, que podem não ser os representantes mais fiéis das classes. As medidas calculadas diretamente dos dados originais (antes do agrupamento) são as exatas, e sempre devemos procurar usá-las, calculamos a partir da tabela agrupada em classes apenas se não tivermos acesso aos dados originais. b) Para calcular as medidas de dispersão, vamos usar os dados da tabela agrupada em classes - Intervalo: basta observar o limite superior da última classe e o limite inferior da primeira classe, respectivamente 58 e 18 anos; assim, o intervalo vale 58 – 18 = 40 anos, ou expresso pelos limites [18, 58] anos. - Desvio padrão: é preciso usar a fórmula do desvio padrão para o caso em que os dados estão em uma tabela de freqüências (veja Unidade 4, página 109). (amostra) 1n n fx fx s 2 k 1i iik 1i i 2 i Precisamos encontrar alguns somatórios e o valor de n. Pela tabela da letra a sabemos que n = 249. O resultado k i ii fx 1 já foi encontrado na letra a. Mas resta o resultado k i ii fx 1 2 . Podemos estender a tabela usada na letra a: Classes Freqüências fi Pontos médios xi fi × xi x 2 i fi × x 2 i 18|-- 22 5 20 100 400 2000 22|-- 26 12 24 288 576 6912 26|-- 30 29 28 812 784 22736 30|-- 34 50 32 1600 1024 51200 34|-- 38 48 36 1728 1296 62208 38|-- 42 53 40 2120 1600 84800 42|-- 46 29 44 1276 1936 56144 46|-- 50 16 48 768 2304 36864 50|-- 54 6 52 312 2704 16224 54|-- 58 1 56 56 3136 3136 Total 249 - 9060 - 342224 Agora basta substituir na equação: 1197 1249 249 9060 342224 1 1 2 2 10 1 10 1 2 2 1 1 2 , n n fx fx n n fx fx s i ii i ii k i iik i ii anos Então o desvio padrão foi de 7,119 anos. - Coeficiente de variação percentual: a expressão desta medida está na Unidade 4, página 110 do livro texto. c v s x . .% 100% Basta substituir os valores da média (calculada na letra a) e do desvio padrão para obter o coeficiente de variação percentual: %, , , % x s .%v.c 5719100 3836 1197 100 Então o desvio padrão representa 19,57% da média. Novamente, vamos usar o Excel diretamente para podermos calcular rapidamente os valores das medidas no arquivo AmostraToyord.xls. A variável idade tem seus valores na coluna K, células K2 a K251. Este intervalo deverá ser usado como argumento das várias funções do Excel: DESVPAD(K2:K251) = 7,118 anos Pela tabela = 7,119 anos MÍNIMO(K2:K251) = 18 anos Pela tabela = 18 anos MÁXIMO(K2:K251) = 55 anos Pela tabela = 58 anos INTERVALO = 37 [18, 55] anos Pela tabela = 40 [18, 58] anos CV% = 19,83% Pela tabela = 19,57% Observe que alguns valores são diferentes dos encontrados através da tabela agrupada em classes, embora as diferenças sejam pequenas neste caso. Da mesma forma que as medidas de posição as de dispersão calculadas através da tabela usam os pontos médios, que podem não ser os representantes mais fiéis das classes. As medidas calculadas diretamente dos dados originais (antes do agrupamento) são as exatas, e sempre devemos procurar usá-las, calculamos a partir da tabela agrupada em classes apenas se não tivermos acesso aos dados originais. c) No presente caso o cv% vale 19,57%, desvio padrão representa menos de 20% da média, podemos afirmar que os dados não estão fortemente concentrados, para que isso ocorresse o cv% deveria ser bem menor, algo em torno de 5%, o que não é o caso, mas também não apresentam a mesma dispersão relativa que a variável anos de remodelação (ver questão 3 desta Unidade) onde o cv% valia 57%. 2) Usando o Excel ou a distribuição de freqüências construída na questão 5 das atividades de aprendizagem da Unidade 3, responda os itens a seguir. a) Calcule a média, mediana, moda e quartis da quilometragem. b) Com base nos resultados da letra a, descreva a tendência central da variável quilometragem. c) Calcule o intervalo, desvio padrão e coeficiente de variação percentual da variável quilometragem d) Com base nos resultados dos itens a e c, você considera que os dados estão fortemente concentrados em torno da média? JUSTIFIQUE. a) A distribuição de freqüências da questão 5 da Unidade 3 é reproduzida abaixo: Classes Freqüências Percentuais Pontos médios 286|--333 4 1,60 309,5 333|--380 14 5,60 356,5 380|--427 29 11,60 403,5 427|--474 51 20,40 450,5 474|--521 53 21,20 497,5 521|--568 41 16,40 544,5 568|--615 32 12,80 591,5 615|--662 20 8,00 638,5 662|--709 2 0,80 685,5 709|--756 4 1,60 732,5 Total 250 100,00 - Os pontos médios, representantes das classes, passam a ser os “valores” da variável Quilometragem. Utilizando as fórmulas vistas na questão 1 desta Unidade podemos calcular as medidas: - Média Precisamos multiplicar a coluna de valores (pontos médios das classes de Quilometragem, nosso xi) pela das freqüências fi, somar os resultados, e dividi-los por 250, que é o número de elementos do conjunto, não há dado perdido, (n). Observe que há 10 classes, logo k = 10. No quadro abaixo podemos observar o resultado: Classes Freqüências fi Pontos médios xi fi × xi 286|--333 4 309,5 1238 333|--380 14 356,5 4991 380|--427 29 403,5 11701,5 427|--474 51 450,5 22975,5 474|--521 53 497,5 26367,5 521|--568 41 544,5 22324,5 568|--615 32 591,5 18928 615|--662 20 638,5 12770 Então o desvio padrão foi de 86,08 km. - Coeficiente de variação percentual: a expressão desta medida está na Unidade 4, página 110 do livro texto. c v s x . .% 100% Basta substituir os valores da média (calculada na letra a) e do desvio padrão para obter o coeficiente de variação percentual: %, , , % x s .%v.c 1317100 388502 0886 100 Então o desvio padrão representa 17,13% da média. Novamente, vamos usar o Excel diretamente para podermos calcular rapidamente os valores das medidas no arquivo AmostraToyord.xls. A variável idade tem seus valores na coluna I, células I2 a I251. Este intervalo deverá ser usado como argumento das várias funções do Excel: DESVPAD(I2:I251) = 84,13 km Pela tabela = 86,08 km MÍNIMO(I2:I251) = 286 km Pela tabela = 286 km MÁXIMO(I2:I251) = 754 km Pela tabela = 756 km INTERVALO = 468 [286, 754] km Pela tabela = 470 [286, 756] km CV% = 16,74% Pela tabela = 17,13% Observe que alguns valores são diferentes dos encontrados através da tabela agrupada em classes, embora as diferenças sejam pequenas neste caso. Da mesma forma que as medidas de posição as de dispersão calculadas através da tabela usam os pontos médios, que podem não ser os representantes mais fiéis das classes. As medidas calculadas diretamente dos dados originais (antes do agrupamento) são as exatas, e sempre devemos procurar usá-las, calculamos a partir da tabela agrupada em classes apenas se não tivermos acesso aos dados originais. d) No presente caso o cv% vale 17,13%, desvio padrão representa menos de 20% da média, podemos afirmar que os dados não estão fortemente concentrados, para que isso ocorresse o cv% deveria ser bem menor, algo em torno de 5%, o que não é o caso, mas também não apresentam a mesma dispersão relativa que a variável anos de remodelação (ver questão 3 desta Unidade) onde o cv% valia 57%. 3) Será que há relação entre a idade dos clientes e o modelo adquirido? Caso fosse identificada uma relação o marketing poderia ser diferenciado por faixa etária. a) Calcule as medidas de síntese de idade em função do modelo (através do Microsoft Excel ). b) Com base nos resultados do item há indício de relacionamento entre as duas variáveis? JUSTIFIQUE! Há um dado perdido de modelo, que portanto precisa ser excluído, assim a amostra passará a ter 249 elementos. a) Temos uma situação com duas variáveis: modelo (qualitativa nominal) e idade (quantitativa discreta, mas com grande número de valores). Podemos usar os procedimentos descritos na seção 2.3.2 do arquivo “Como fazer Análise Exploratória de Dados usando o Microsoft Excel”, disponível no ambiente virtual, para calcular as medidas de síntese de idade em função dos modelos. Lembre-se que é possível apenas obter as medidas mínimo, máximo, média e desvio padrão (e o coeficiente de variação percentual a partir destes), e o resultado será: Modelo Idade Chiconautla Mínimo 18 Máximo 43 Média 32,313 Desvio padrão 5,933 cv% 18,362% DeltaForce3 Mínimo 22 Máximo 51 Média 35,393 Desvio padrão 5,938 cv% 16,778% Valentiniana Mínimo 18 Máximo 55 Média 37,878 Desvio padrão 8,177 cv% 21,587% SpaceShuttle Mínimo 22 Máximo 48 Média 37,833 Desvio padrão 6,739 cv% 17,812% LuxuriousCar Mínimo 31 Máximo 52 Média 41,483 Desvio padrão 5,748 cv% 13,857% TOTAL Mínimo 18 Máximo 55 Média 35,935 Desvio padrão 7,099 cv% 19,754% b) Para avaliar se há relação entre as variáveis devemos observar os resultados das medidas. Se houver relação, as medidas devem se afastar substancialmente dos valores totais do conjunto. - a média total de idade (considerando os 249 clientes da amostra) vale 35,935 anos; as médias de idade para os modelos Chiconaultla, DeltaForce3, Valentiniana e SpaceShuttle são próximas deste valor (32,313, 35,393, 37,878 e 37,883 anos, respectivamente), não chegando aos 3 anos de diferença para mais ou para menos; apenas a média de idade dos proprietários LuxuriousCar é um pouco maior, vale 41,483 anos; não obstante, percebe-se um aumento progressivo da média de idade dependendo do modelo; - o mínimo do conjunto total vale 18 anos, e apenas no modelo LuxuriousCar o mínimo é substancialmente diferente (vale 31, 13 anos acima) - o máximo do conjunto total vale 55 anos, e é verificado nos clientes do modelo Valentiniana, sendo que os proprietários dos modelos DeltaForce3, SpaceShuttle e LuxuriousCar têm idades máximas semelhantes (51, 48 e 52 anos respectivamente); apenas a idade máxima dos clientes de Chiconaultla está um pouco abaixo, pois vale 43 anos; - no que tange à dispersão, avaliando os coeficientes de variação percentual (pois as médias de idade nos modelos são diferentes) podemos ver que o desvio padrão total da idade representa cerca 19,754% da média total; - somente a idade dos proprietários de LuxuriousCar apresenta diferença considerável da dispersão total, o cv% da idade deles vale 13,857% (6% abaixo do total); - para os modelos Chiconaultla, DeltaForce3, Valentiniana e SpaceShuttle os cv% não chegam a se afastar mais de 3% do valor do cv% total (-1,392%, -2,977%, 1,833% e - 1,943% respectivamente). As medidas de síntese de idade por modelo não se afastaram significativamente dos valores totais, com exceção do modelo LuxuriosCar, mas neste caso as diferenças (em todas as medidas) foram substanciais, além de observarmos que as médias de idade vão aumentando progressivamente do modelo Chiconaultla para o LuxuriousCar, o que nos permite concluir que HÁ uma relação entre as duas variáveis. Mas, comparado ao resultado da questão 4 a força do relacionamento não é tão grande, pois as diferenças UNIDADE 5 1) Lâmpadas que se apresentam em perfeitas condições são ensaiadas quanto ao tempo de vida. Um instrumento é acionado no instante em que a lâmpada é acesa, e desliga-se automaticamente quando a mesma apaga (queima), tendo-se assim anotado seu tempo de vida. a) Defina o espaço amostral para este experimento. b) Enumere os seguintes eventos: E1 = o tempo de vida oscila entre 1 semana e 1 mês. E2 = a lâmpada queima antes de 50 dias. E3 = o tempo de vida é superior a 500 horas. E1 E2 E1 E3 Vamos medir o tempo de duração da lâmpada. Ao ligarmos a lâmpada ela pode não funcionar, ou durar um tempo indeterminado. a) = {tempo, tempo 0). b) E1 = {168h tempo 720h} E2 = {tempo < 1200h} E3 = {tempo > 500h} E1 E2 = {168h tempo < 1200h} E1 E3 = {500h < tempo 720h} 2) Você costuma passar em determinado trecho de uma avenida onde existem 4 semáforos: A, B, C e D. Se você observar a ocorrência de sinal aberto/fechado descreva o espaço amostral para este experimento. A = aberto B = aberto C = aberto A = fechado B = fechado C = fechado Há 3 semáforos, o espaço amostral precisa incluir todas as combinações possíveis: CBACBACBACBA CBACBACBACBA 3) Quais dos seguintes pares de eventos são mutuamente exclusivos: Evento A Evento B a) Chover Não chover b) Obter conceito B em química Obter conceito C em química c) Dirigir um carro Andar a pé d) Dirigir um carro Falar e) Nadar Sentir frio f) Ganhar o jogo de futebol Perder o jogo de futebol g) Extrair uma dama do baralho Extrair uma carta vermelha do baralho h) Obter face cara ao lançar uma moeda Obter face coroa ao lançar uma moeda Adaptado de STEVENSON, W.J. Estatística Aplicada à Administração, São Paulo: Harper do Brasil, 1981, páginas 60-61. Dois eventos são mutuamente exclusivos quando não podem ocorrer simultaneamente. Os eventos das letras a, b, c, f e h são mutuamente exclusivos. 4) Seja o experimento aleatório lançamento de dois dados, e observação da soma das faces. a) Determine o Espaço Amostral associado ao experimento. b) Enumere os seguintes eventos: b.1 – Soma das faces menor ou igual a 5. b.2 – Soma das faces par. b.3 – Soma das faces ímpar. b.4 – Complementar do evento definido em b.1. b.5- Intersecção entre os eventos definidos em b.2 e b.4. b.6 – Soma das faces menor ou igual a 1. a) Esta distribuição pode realmente ser considerada uma distribuição de probabilidades? Por quê? b) Caso a resposta do item anterior seja positiva, calcule a média, variância e o desvio padrão do número X de mulheres contratadas. Adaptado de TRIOLA, M. Introdução à Estatística, Rio de Janeiro: LTC, 1999, página 97. a) Sim, a soma das respostas é igual a 1,0. b) Média = )x(px ii = (0 × 0,0625) + (1 × 0,25) + (2 × 0,375) + (3 × 0,25) + (4 × 0,0625) = 2,0 Variância = 22 )x(px)x(px iiii = 0,125 Desvio padrão = 35301250variância ,, 2) Ao avaliar riscos de crédito um banco investiga o número de cartões de crédito que a pessoa tem. Com X sendo o número de cartões de crédito que os adultos possuem. A tabela a seguir apresenta o que se considera ser uma distribuição de probabilidades de X: x 0 1 2 3 4 5 6 7 P(x) 0,26 0,16 0,12 0,09 0,07 0,09 0,07 0,14 a) Esta distribuição pode realmente ser considerada uma distribuição de probabilidades? Por quê? b) Caso a resposta do item anterior seja positiva, calcule a média, variância e o desvio padrão do número X de cartões de créditos. Adaptado de TRIOLA, M. Introdução à Estatística, Rio de Janeiro: LTC, 1999, página 97. a) Sim, a soma das probabilidades é igual a 1. b) Média = )x(px ii = 2,8 Variância = 22 )x(px)x(px iiii = 6,36 Desvio padrão = 522366variância ,, 3) Um empreiteiro faz as seguintes estimativas para a execução de uma obra: Prazo de execução 10 15 22 Probabilidade 0,3 0,2 0,5 a) Qual é o prazo esperado para a execução da obra, de acordo com essas estimativas? Interprete este resultado. b) Qual é o desvio padrão do prazo para a execução da obra? a) E(X) = )x(px ii = (10 × 0,3) + (15 × 0,2) + (22 × 0,5) =17 dias (centro de massa) b) V(X) = 22 )x(px)x(px iiii = (10 2 × 0,3) + (15 2 × 0,2) + (22 2 × 0,5) – 17 2 = 28 dias 2 . Desvio padrão = V(X) = 5,29 dias. 4) No berçário de uma maternidade há 8 recém-nascidos. Qual a probabilidade de que: a) todos sejam homens. b) pelo menos um seja mulher. c) exatamente 3 sejam homens. d) ao menos 3 sejam homens. e) Qual é a média do número de recém-nascidos homens? f) Qual é o valor mais provável da variável número de recém-nascidos homens? Podemos definir a variável aleatória X = número de recém-nascidos homens, que pode assumir os valores: 0, 1, 2, 3, 4, 5, 6, 7, 8. Como não há nenhuma informação prévia podemos considerar que a probabilidade de que o recém-nascido seja homem é 0,5, e de que seja mulher é o seu valor complementar, também 0,5. Podemos também considerar que os sexos dos recém-nascidos são independentes. a) P(X = 8) = P(8 homens) = P(1º H 2º H 3º H 4º H 5º H 6º H 7º H 8º H) = = 0,5 × 0,5 × 0,5 × 0,5 × 0,5 × 0,5 × 0,5 × 0,5 = 0,5 8 = 0,0039 b) P(pelo menos uma mulher) = P(X 7) = 1- P(X > 7) = 1- P(X = 8) = 1- 0,0039 = 0,9961 c) P(exatamente 3 homens). Então 3 serão homens e 5 serão mulheres: de quantas maneiras diferentes podemos ter uma seqüência de 8 recém-nascidos em que 3 são homens? Podemos resolver por combinações: C8,3. Este valor será multiplicado pelas probabilidades de que 3 sejam homens e 5 sejam mulheres: P(X = 3) = C8,3 × P(1º H 2º H 3º H 4º M 5º M 6º M 7º M 8º M) (esta é apenas uma das combinações possíveis, e lembre-se que os eventos são independentes): P(X = 3) = C8,3 × 0,5 3 × 0,5 5 = 0,21875. d) P(ao menos 3 homens) = P(X 3) = 1 – P(X < 3) = 1- P(X = 0) – P(X = 1) – P(X = 2). Para encontrar P(X = 1) e P(X = 2) precisamos usar um raciocínio semelhante ao visto na letra c: precisamos encontrar C8,1 e C8,2. Posteriormente, obter as probabilidades associadas às seqüências com 1 ou 2 homens. P(X = 1) = C8,1 × P(1º H 2º M 3º M 4º M 5º M 6º M 7º M 8º M) (esta é apenas uma das combinações possíveis, e lembre-se que os eventos são independentes): P(X = 1) = C8,1 × 0,5 1 × 0,5 7 P(X = 2) = C8,2 × P(1º H 2º H 3º M 4º M 5º M 6º M 7º M 8º M) (esta é apenas uma das combinações possíveis, e lembre-se que os eventos são independentes): P(X = 2) = C8,2 × 0,5 2 × 0,5 7 P(X = 0) = P(8 mulheres) = P(1º M 2º M 3º M 4º M 5º M 6º M 7º M 8º M) = 0,5 8 Então: P(X 3) = 1 - 0,5 8 - C8,1 × 0,5 1 × 0,5 7 - C8,2 × 0,5 2 × 0,5 7 = 0,855468 e) Para calcular a média (valor esperado) é preciso obter as probabilidades associadas a cada valor de X, e então usar a expressão do problema 31, letra a. Vamos obter que a média vale 4. f) O valor de X que apresentará a maior probabilidade será 4, que será o valor mais provável. Neste caso, valor mais provável e média coincidiram, mas isso NEM SEMPRE ocorre. 5) Classifique cada uma das variáveis aleatórias a seguir como discreta ou contínua. JUSTIFIQUE sua resposta. a) Alturas em metros dos alunos do curso de Economia da UFSC. b) Número de dias em que o IBOVESPA apresentou baixa em um ano. c) Número de automóveis que passam por um posto da Polícia Rodoviária em uma hora. d) Safra de grãos produzida no Brasil em um ano, medida em toneladas. e) Lucro de uma empresa em um mês. a) Contínua, medida em metros, pode assumir inúmeros valores. b) Discreta, varia de 0 a 230. c) Discreta, podemos ter 0, 1, 2, ... carros. d) Contínua, medida em toneladas, pode assumir inúmeros valores. e) Contínua, medido em unidades monetárias (com centavos) pode assumir inúmeros valores. 6) Uma empresa está trabalhando em 4 projetos independentes, A, B, C e D, com lucros esperados de $4000, $5000, $10000, $20000, e desvios padrões de $100, $200, $300 e $400 respectivamente. a) Determine o lucro esperado total destes quatro projetos e o desvio padrão total. b) Se os projetos NÃO fossem independentes você poderia resolver o item a? Justifique sua resposta. Adaptado de STEVENSON, W.J. Estatística Aplicada à Administração, São Paulo: Harper do Brasil, 1981, página 101. Se 2 variáveis aleatórias X e Y são independentes então: E(X + Y) = E(X) + E(Y) e V(X + Y) = V(X) + V(Y) a) Lucro esperado total = 4000 + 5000 + 10000 + 20000 = 39000 Desvio padrão total = 2222 400300200100total variância = 547,72 b) Não, porque para calcular a variância total é preciso haver independência entre as variáveis, para que possamos somar suas variâncias individuais. UNIDADE 7 1) Em um sistema de transmissão de dados existe uma probabilidade igual a 0,05 de um dado ser transmitido erroneamente. Ao se realizar um teste para analisar a confiabilidade do sistema foram transmitidos 20 dados. a) Qual é o modelo teórico mais adequado para este caso? Por quê? b) Qual é a probabilidade de que tenha havido erro na transmissão? c) Qual é a probabilidade de que tenha havido erro na transmissão de exatamente 2 dados? d) Qual é o número esperado de erros no teste realizado? a) Binomial: cada realização tem apenas 2 resultados possíveis, o número de realizações é conhecido, e a probabilidade de sucesso é suposta constante (pois não há nenhuma informação em contrário). n = 20 p = 0,05 b) P(X>0) = 1 – P(X = 0) = 1 – C20,0 × 0,05 0 × 0,95 20 = 0,6415 c) P(X = 2) = C20,2 × 0,05 2 × 0,95 18 = 0,1886 d) E(X) = n × p = 20 × 0,05 = 1 erro. 2) Suponha que você vai fazer uma prova de TGA com 10 questões do tipo verdadeiro-falso. Você nada sabe sobre o assunto e vai responder as questões por adivinhação. a) Qual é o modelo probabilístico mais adequado para calcular as probabilidades de acertar um número X de questões dentre as 10? Por quê? b) Qual é a probabilidade de acertar pelo menos 8 questões? Adaptado de DOWNING, D. e CLARK, J.. Estatística Aplicada, São Paulo: Saraiva, 2000, página 139. a) Binomial: ver motivos em 1 a). n = 10 p = 0,5 b) P(X 8) = P(X = 8) + P(X = 9) + P(X = 10) = C10,8 × 0,5 8 × 0,5 2 + C10,9 × 0,5 9 × 0,5 1 + C10,10 × 0,5 10 × 0,5 0 = 0,05648 3) Um revendedor de automóveis novos constatou que 80% dos carros vendidos são devolvidos ao departamento mecânico para corrigir defeitos de fabricação, nos primeiros 25 dias após a venda. De 11 carros vendidos há interesse em calcular as probabilidades de que o número de automóveis que retornam para reparo seja 0, 1, 2, etc. a) Qual é o modelo teórico mais adequado para este caso? Por quê? b) Qual é a probabilidade de que todos voltem dentro de 25 dias para reparo? c) Qual é a probabilidade de que nenhum volte?) d) Uma organização de consumidores pretende processar o revendedor, e a fábrica dos automóveis, se a probabilidade de que a maioria deles (dentre os 11 vendidos) retornar para reparo seja superior a 75%. O revendedor e fábrica devem se preocupar com o processo? e) Qual é o número esperado de automóveis que retornarão para reparos? Adaptado de STEVENSON, W.J. Estatística Aplicada à Administração, São Paulo: Harper do Brasil, 1981, página 108. a) Binomial: ver motivos em 1 a). n = 11 p = 0,8 b) P(X = 11) = C11,11 × 0,8 11 × 0,2 0 = 0,085899 c) P(X = 0) = C11,0 × 0,8 0 × 0,2 11 = 0,0000002 d) P(X 6) = P(X = 6) + P(X = 7) + P(X = 8) + P(X = 9) + P(X = 10) + P(X =11) = C11,6 × 0,8 6 × 0,2 5 + C11,7 × 0,8 7 × 0,2 4 + C11,8 × 0,8 8 × 0,2 3 + C11,9 × 0,8 9 × 0,2 2 + C11,10 × 0,8 10 × 0,2 1 + C11,11 × 0,8 11 × 0,2 0 = 0,98834 Como P(X 6) > 0,75, a associação deve processar o fabricante. e) E(X) = n × p = 11 × 0,8 = 8,8 carros. 4) Em uma fábrica 3% dos artigos produzidos são defeituosos. O fabricante pretende vender 4000 peças recebendo 2 propostas: bolhas = 0,005 + 0,15 = 0,155 defeitos/cm 3 . Como t = 10 cm 3 , então × t = 0,155 × 10 = 1,55 defeitos. P(peça defeituosa) = P(X ≥ 2) = 1 – P(X < 2) = 1 – P(X = 0) – P(X = 1) = !1 )55,1(e !0 )55,1(e 1 155,1055,1 =1 – 0,5411 = 0,4589 b) Binomial n = 3 p = 0,4589 P(X ≤ 1) = P(X = 0) + P(X = 1) = C3,0 ×0,4589 0 ×0,5411 3 + C3,1 ×0,4589 1 ×0,5411 2 = 0,5615 c) c.1 – P(Defeito) = 0,4589 => Lucro = -5 P(Sem defeito) = 0,5411 => Lucro = 10 – 5 = 5 E(Lucro) = (-5 × 0,4589) + (5 ×0,5411) = 0,411 c.2 – E(Lucro em 1500 peças) = 1500 × E(Lucro) = 1500 × 0,411 = 616,5 10) Trace uma curva normal e sombreie a área desejada, obtendo então as probabilidades a) P(Z > 1,0) b) P(Z < 1,0) c) P(Z > -0,34) d) P(0 < Z < 1,5) e) P(-2,88 < Z < 0) f) P(-0,56 < Z < -0,20) g) P(-0,49 < Z < 0,49) h) P(2,5 < Z < 2,8) i) P(Z < -0,2) j) P(Z > -0,2) k) P(-0,2 < Z < 0) l) P(-0,2 < Z < 0,4) a) No gráfico abaixo P(Z>1,0) b) No gráfico abaixo P(Z < 1,0) c) No gráfico abaixo P(Z>-0,34) 0,0 0,1 0,1 0,2 0,2 0,3 0,3 0,4 0,4 0,5 -4 -3 ,5 -3 -2 ,5 -2 -1 ,5 -1 -0 ,5 0 0 ,5 1 1 ,5 1 ,9 9 2 ,4 9 2 ,9 9 3 ,4 9 3 ,9 9 Z 0,0 0,1 0,1 0,2 0,2 0,3 0,3 0,4 0,4 0,5 -4 -3 ,5 -3 -2 ,5 -2 -1 ,5 -1 -0 ,5 0 0 ,5 1 1 ,5 1 ,9 9 2 ,4 9 2 ,9 9 3 ,4 9 3 ,9 9 Z A área sombreada corresponde a P(Z>1,0). Esta probabilidade pode ser obtida diretamente da tabela: P(Z> 1,0) = 0,1587 A área sombreada corresponde a P(Z<1,0). Esta probabilidade NÃO pode ser obtida diretamente da tabela. Mas pelas propriedades de probabilidade sabemos que: P(Z<1,0) = 1 – P(Z≥1,0). Esta última probabilidade pode ser obtida diretamente da tabela, e é igual à probabilidade encontrada no item a (P(Z>1,0)), pois Z é uma variável aleatória contínua. Então: P(Z< 1,0) = 1 – P(Z>1,0) = 1 - 0,1587 = 0,8413 d) No gráfico abaixo P(0 < Z < 1,5) e) No gráfico abaixo P(-2,88 < Z < 0) f) No gráfico abaixo P(-0,56<Z<-0,2) 0,0 0,1 0,1 0,2 0,2 0,3 0,3 0,4 0,4 0,5 -4 -3 ,5 -3 -2 ,5 -2 -1 ,5 -1 -0 ,5 0 0 ,5 1 1 ,5 1 ,9 9 2 ,4 9 2 ,9 9 3 ,4 9 3 ,9 9 Z 0,0 0,1 0,1 0,2 0,2 0,3 0,3 0,4 0,4 0,5 -4 -3 ,5 -3 -2 ,5 -2 -1 ,5 -1 -0 ,5 0 0, 5 1 1, 5 1, 99 2, 49 2, 99 3, 49 3, 99 Z 0,0 0,1 0,1 0,2 0,2 0,3 0,3 0,4 0,4 0,5 -4 -3 ,5 -3 -2 ,5 -2 -1 ,5 -1 -0 ,5 0 0 ,5 1 1 ,5 1 ,9 9 2 ,4 9 2 ,9 9 3 ,4 9 3 ,9 9 Z A área sombreada corresponde a P(Z>- 0,34). Esta probabilidade NÃO pode ser obtida diretamente da tabela, pois o Z é negativo. Mas pelas propriedades de probabilidade sabemos que: P(Z>-0,34) = 1 – P(Z<-0,34). E devido à simetria da distribuição normal padrão em relação à média zero: P(Z<-0,34) = P(Z>0,34), e esta última probabilidade pode ser obtida da tabela. Então: P(Z>-0,34) = 1 – P(Z>0,34) = 1 – 0,3669 = 0,6331 Para obter a probabilidade de Z estar entre 0 e 1,5 basta obter a probabilidade de Z ser maior do que zero e subtrair a probabilidade de Z ser maior do que 1,5: o resultado será exatamente a probabilidade do intervalo procurado. P(0 < Z < 1,5) = P(Z>0) – P(Z>1,5) = 0,5 – 0,0668 = 0,4332 Esta probabilidade foi facilmente obtida por que os valores de Z são ambos positivos. Podemos usar um raciocínio semelhante ao da letra d): P(-2,88<Z<0) = P(Z<0) – P(Z<-2,88). A probabilidade P(Z<0) é igual a P(Z>0), mas P(Z<-2,88) não pode ser obtida diretamente da tabela. Contudo, devido à simetria da distribuição normal padrão em relação à média zero: P(Z<-2,88) = P(Z>2,88). Então: P(-2,88<Z<0) = P(Z>0) – P(Z>2,88) = 0,5 – 0,0020 = 0,4980 O valor de Z -2,88 é “invisível” no gráfico ao lado devido à grande distância da média (2,88 desvios padrões). Podemos usar um raciocínio semelhante ao da letra e, tendo em mente que os dois valores que definem o intervalo são negativos, e que há simetria da distribuição normal padrão em relação à média zero: P(-0,56<Z<-0,2)= P(Z>0,2) – P(Z>0,56) = 0,4207 – 0,2877 = 0,133 g) No gráfico abaixo P(-0,49 < Z < 0,49) h) No gráfico abaixo P(2,5 <Z < 2,8) i) No gráfico abaixo P(Z<-0,2) 0,0 0,1 0,1 0,2 0,2 0,3 0,3 0,4 0,4 0,5 -4 -3 ,5 -3 -2 ,5 -2 -1 ,5 -1 -0 ,5 0 0, 5 1 1, 5 1, 99 2, 49 2, 99 3, 49 3, 99 Z 0,0 0,1 0,1 0,2 0,2 0,3 0,3 0,4 0,4 0,5 -4 -3 ,5 -3 -2 ,5 -2 -1 ,5 -1 -0 ,5 0 0 ,5 1 1 ,5 1 ,9 9 2 ,4 9 2 ,9 9 3 ,4 9 3 ,9 9 Z 0,0 0,1 0,1 0,2 0,2 0,3 0,3 0,4 0,4 0,5 -4 -3 ,5 -3 -2 ,5 -2 -1 ,5 -1 -0 ,5 0 0 ,5 1 1 ,5 1 ,9 9 2 ,4 9 2 ,9 9 3 ,4 9 3 ,9 9 Z Usemos um raciocínio semelhante ao das letras d e e, mas agora os valores que definem o intervalo têm sinais diferentes, mas são iguais em módulo, isto é estão à mesma distância da média (zero). Sendo assim, P(Z>0,49) = P(Z<-0,49), devido à simetria da distribuição normal padrão em relação à média. Recordando que a probabilidade de ocorrência de um evento é igual a 1 menos a probabilidade do seu complementar, então: P(-0,49<Z<0,49) = 1- 2 × P(Z>0,49) = 1 – 2 × 0,3121 = 0,3758 Usando um raciocínio semelhante ao da letra d, basta obter a probabilidade de Z ser maior do que 2,5 e subtrair a probabilidade de Z ser maior do que 2,8: o resultado será exatamente a probabilidade do intervalo procurado. P(2,5< Z < 2,8) = P(Z>2,5) – P(Z>2,8) = 0,0062 – 0,0026 = 0,0036 Esta probabilidade foi facilmente obtida por que os valores de Z são ambos positivos. O valor obtido é pequeno, pois o intervalo está a mais de 2 desvios padrões da média. A probabilidade procurada não pode ser obtida diretamente da tabela: esta define as probabilidades de Z ser MAIOR do que um certo valor. Entretanto, devido à simetria da distribuição normal padrão em relação à média zero: P(Z<-0,2) = P(Z>0,2) = 0,4207 d) No gráfico abaixo P(0<Z<Z1) = 0,4772 e) No gráfico abaixo P(-Z1<Z<Z1) = 0,95 f) No gráfico abaixo P(Z<Z1) = 0,0110 0,0 0,1 0,1 0,2 0,2 0,3 0,3 0,4 0,4 0,5 -4 -3 ,5 -3 -2 ,5 -2 -1 ,5 -1 -0 ,5 0 0 ,5 1 1 ,5 1 ,9 9 2 ,4 9 2 ,9 9 3 ,4 9 3 ,9 9 Z 0,0 0,1 0,1 0,2 0,2 0,3 0,3 0,4 0,4 0,5 -4 -3 ,5 -3 -2 ,5 -2 -1 ,5 -1 -0 ,5 0 0 ,5 1 1 ,5 1 ,9 9 2 ,4 9 2 ,9 9 3 ,4 9 3 ,9 9 Z 0,0 0,1 0,1 0,2 0,2 0,3 0,3 0,4 0,4 0,5 -4 -3 ,5 -3 -2 ,5 -2 -1 ,5 -1 -0 ,5 0 0 ,5 1 1 ,5 1 ,9 9 2 ,4 9 2 ,9 9 3 ,4 9 3 ,9 9 Z Procura-se o valor de Z1 tal que a probabilidade de Z estar entre 0 e ele seja igual a 0,4772. Percebe-se que Z1 será POSITIVO. P(0<Z<Z1) = 0,4772 = P(Z>0) – P(Z>Z1) P(Z>Z1) = 0,5 – 0,4772 = 0,0228. Observe que se trata do mesmo problema da letra b, então Z1 = 2. Procura-se o valor de Z1 tal que a probabilidade de Z estar entre –Z1 e +Z1 seja igual a 0,95. Como os dois valores estão à mesma distância de zero P(Z<-Z1) = P(Z>Z1) = (1-0,95)/2 = 0,025 P(Z>Z1) = 0,025. Procura-se o valor de Z1 tal que a probabilidade de Z ser MAIOR do que ele seja igual a 0,025. Desta forma podemos procurar esta probabilidade diretamente na tabela. Na coluna da extrema esquerda identificamos a linha 1,9. E na primeira linha encontramos a segunda decimal 0,06, resultando em Z1 = 1,96. Procura-se o valor de Z1 tal que a probabilidade de Z ser MENOR do que ele seja igual a 0,0110. Este valor não pode ser identificado diretamente na tabela, mas devido à simetria da distribuição normal à média zero: P(Z<Z1) = 0,0110 = P(Z>-Z1) Procura-se o valor de -Z1 tal que a probabilidade de Z ser MAIOR do que ele seja igual a 0,0110. Desta forma podemos procurar esta probabilidade diretamente na tabela. Na coluna da extrema esquerda identificamos a linha 2,2. E na primeira linha encontramos a segunda decimal 0,09, resultando em - Z1 = 2,29. Logo Z1 = -2,29 (observe a coerência com o gráfico, pois Z1 é menor do que zero). g) No gráfico abaixo P(Z<Z1) = 0,0505 h) P(Z<Z1) = 0,5. Como a distribuição normal padrão é simétrica em relação à sua média zero, então Z1 = 0, pois há 50% de chance dos valores serem menores do que zero. i) No gráfico abaixo P(-Z1<Z<Z1) = 0,6825 j) No gráfico abaixo P(-Z1<Z<Z1) = 0,9544 0,0 0,1 0,1 0,2 0,2 0,3 0,3 0,4 0,4 0,5 -4 -3 ,5 -3 -2 ,5 -2 -1 ,5 -1 -0 ,5 0 0 ,5 1 1 ,5 1 ,9 9 2 ,4 9 2 ,9 9 3 ,4 9 3 ,9 9 Z 0,0 0,1 0,1 0,2 0,2 0,3 0,3 0,4 0,4 0,5 -4 -3 ,5 -3 -2 ,5 -2 -1 ,5 -1 -0 ,5 0 0 ,5 1 1 ,5 1 ,9 9 2 ,4 9 2 ,9 9 3 ,4 9 3 ,9 9 Z 0,0 0,1 0,1 0,2 0,2 0,3 0,3 0,4 0,4 0,5 -4 -3 ,5 -3 -2 ,5 -2 -1 ,5 -1 -0 ,5 0 0 ,5 1 1 ,5 1 ,9 9 2 ,4 9 2 ,9 9 3 ,4 9 3 ,9 9 Z Procura-se o valor de Z1 tal que a probabilidade de Z ser MENOR do que ele seja igual a 0,0505. Este valor não pode ser identificado diretamente na tabela, mas devido à simetria da distribuição normal à média zero: P(Z<Z1) = 0,0505 = P(Z>-Z1) Procura-se o valor de -Z1 tal que a probabilidade de Z ser MAIOR do que ele seja igual a 0,0505. Desta forma podemos procurar esta probabilidade diretamente na tabela. Na coluna da extrema esquerda identificamos a linha 1,6. E na primeira linha encontramos a segunda decimal 0,04, resultando em -Z1 = 1,64. Logo Z1 = -1,64 (observe a coerência com o gráfico, pois Z1 é menor do que zero). Procura-se o valor de Z1 tal que a probabilidade de Z estar entre –Z1 e +Z1 seja igual a 0,6825. Como os dois valores estão à mesma distância de zero P(Z<-Z1) = P(Z>Z1) = (1-0,6825)/2 = 0,1587 P(Z>Z1) = 0,1587. Procura-se o valor de Z1 tal que a probabilidade de Z ser MAIOR do que ele seja igual a 0,1587. Desta forma podemos procurar esta probabilidade diretamente na tabela. Na coluna da extrema esquerda identificamos a linha 1,0. E na primeira linha encontramos a segunda decimal 0,00, resultando em Z1 = 1,00. Procura-se o valor de Z1 tal que a probabilidade de Z estar entre –Z1 e +Z1 seja igual a 0,9544. Como os dois valores estão à mesma distância de zero P(Z<-Z1) = P(Z>Z1) = (1-0,9544)/2 = 0,0228 P(Z>Z1) = 0,0228. Procura-se o valor de Z1 tal que a probabilidade de Z ser MAIOR do que ele seja igual a 0,0228. Desta forma podemos procurar esta probabilidade diretamente na tabela. Na coluna da extrema esquerda identificamos a linha 2,0. E na primeira linha encontramos a segunda decimal 0,00, resultando em Z1 = 2,00. 12) Suponha que o escore dos estudantes no vestibular seja uma variável aleatória com distribuição normal com média 550 e variância 900. Se a admissão em certo curso exige um escore mínimo de 575, qual é a probabilidade de um estudante ser admitido? E se o escore mínimo for 540? Adaptado de DOWNING, D. e CLARK, J.. Estatística Aplicada, São Paulo: Saraiva, 2000, página 172. Em ambos os casos é preciso encontrar os valores de Z correspondentes aos escores mínimos 575 e 540. Como 575 é maior do que 550, o valor de Z associado será positivo, e como 540 é menor do que 550, Z será negativo. Vamos apresentar os cálculos. Usando a equação Z = (x -)/ podemos encontrar os valores de Z correspondentes a 575 e 540: Z1 = (575-550)/30 = 0,83 Z2 = (540-550)/30 = - 0,33. Então P(X>575) = P(Z>0,83) e P(X>540) = P(Z>-0,33). Os gráficos respectivos são mostrados a seguir: P(Z>0,83) pode ser obtida diretamente da tabela: P(Z>0,83) = 0,2033. Como a distribuição normal padrão é simétrica em relação à média zero, e lembrando da propriedade da probabilidade do evento complementar: P(Z<-0,33)=1 - P(Z>0,33) = 1 – 0,3707 = 0,6293. 13) Você pode escolher entre 2 empregos. Em uma indústria seus ganhos mensais terão distribuição normal com média de $4000 e desvio padrão de $500. Como vendedor de uma firma seus ganhos mensais terão distribuição normal com média de $3200 e desvio padrão de $2600. a) Você ganha atualmente (salário fixo) $3500. Qual é a probabilidade de ganhar mais nos dois possíveis empregos? b) Com base no resultado do item a, qual dos dois empregos você escolheria? Adaptado de DOWNING, D. e CLARK, J.. Estatística Aplicada, São Paulo: Saraiva, 2000, página 172. Suponha a variável X como sendo os ganhos mensais. Apenas será interessante mudar de emprego se X>3500, que são os ganhos atuais. Então, para escolher a melhor opção (letra b), ou para calcular a probabilidade de ganhar mais em cada emprego, é preciso obter P(X>3500). a) No caso da indústria, = 4000 e = 500, P(X>3500) = P(Z>Z1): Z1= (3500 – 4000)/500 = - 1,0. Veja os gráficos a seguir: 0,0 0,1 0,1 0,2 0,2 0,3 0,3 0,4 0,4 0,5 4 3 0 4 4 5 4 6 0 4 7 5 4 9 0 5 0 5 5 2 0 5 3 5 5 5 0 5 6 5 5 8 0 5 9 5 6 1 0 6 2 5 6 4 0 6 5 5 6 7 0 X 0,0 0,1 0,1 0,2 0,2 0,3 0,3 0,4 0,4 0,5 -4 -3 ,5 -3 -2 ,5 -2 -1 ,5 -1 -0 ,5 0 0 ,5 1 1 ,5 1 ,9 9 2 ,4 9 2 ,9 9 3 ,4 9 3 ,9 9 Z 0,0 0,1 0,1 0,2 0,2 0,3 0,3 0,4 0,4 0,5 4 3 0 4 4 5 4 6 0 4 7 5 4 9 0 5 0 5 5 2 0 5 3 5 5 5 0 5 6 5 5 8 0 5 9 5 6 1 0 6 2 5 6 4 0 6 5 5 6 7 0 X 0,0 0,1 0,1 0,2 0,2 0,3 0,3 0,4 0,4 0,5 -4 -3 ,5 -3 -2 ,5 -2 -1 ,5 -1 -0 ,5 0 0 ,5 1 1 ,5 1 ,9 9 2 ,4 9 2 ,9 9 3 ,4 9 3 ,9 9 Z P(Z>Z4) = 0,1 P(Z>Z3) = 0,3 P(Z>Z2) = 0,7 P(Z>Z1) = 0,9 Procurando na tabela da distribuição normal padrão: Z4 1,28, x4 = 50 + 1,28 ×10 = 62,8 Z3 0,53, x3 = 50 + 0,53 ×10 = 55,3 P(Z>Z2) = 0,7 , P(Z>- Z2) = 1 – 0,7 = 0,3 - Z2 0,53 Z2 -0,53, x2 = 50 -0,53 ×10 = 44,7 P(Z>Z1) = 0,9, P(Z>- Z1) = 1 – 0,9 = 0,1 - Z1 1,28 Z1 -1,28, x1 = 50 -1,28 ×10 = 37,2 As notas então serão 37,2, 44,7, 55,3 e 62,8. 16) Para os casos abaixo encontre a probabilidade pela distribuição binomial e pela aproximação pela normal. Identifique se o resultado da aproximação foi bom ou não, e explique por quê. a) Com n = 14 e p = 0,50, determine P(X = 8). b) Com n = 10 e p =0,40, determine P(X = 7). c) Com n = 15 e p = 0,80, determine P(X 8). d) Com n = 14 e p = 0,60, determine P(X < 9). e) Com n = 20 e p = 0,20, determine P(X 2). f) Com n = 20 e p = 0,35, determine P(15 < X 18). a) Pela binomial: 1833,05,05,0C)8X(P 68 8,14 . Como n ×p e n×(1-p) são maiores do que 5 a aproximação pela normal é viável: = n×p = 7; = 1,87 Binomial: P(X = 8) => Normal: P(7,5<X<8,5) = P(Z1<Z<Z2) Z2=(8,5-7)/1,87 = 0,80 Z1=- Z2=-0,80 P(-0,80<Z<0,80) = 0,1833. Veja o gráfico abaixo: Observe como a curva normal passa quase “por cima” das probabilidades binomiais, o que explica os bons resultados. 0,0 0,1 0,1 0,2 0,2 0,3 0,3 0,4 0,4 0,5 1 0 ,0 0 1 5 ,0 0 2 0 ,0 0 2 5 ,0 0 3 0 ,0 0 3 5 ,0 0 4 0 ,0 0 4 5 ,0 0 5 0 ,0 0 5 5 ,0 0 6 0 ,0 0 6 5 ,0 0 6 9 ,9 0 7 4 ,9 0 7 9 ,9 0 8 4 ,9 0 8 9 ,9 0 X 0,0 0,1 0,1 0,2 0,2 0,3 0,3 0,4 0,4 0,5 -4 ,0 0 -3 ,5 0 -3 ,0 0 -2 ,5 0 -2 ,0 0 -1 ,5 0 -1 ,0 0 -0 ,5 0 0 ,0 0 0 ,5 0 1 ,0 0 1 ,5 0 1 ,9 9 2 ,4 9 2 ,9 9 3 ,4 9 3 ,9 9 Z 0,0000000 0,0500000 0,1000000 0,1500000 0,2000000 0,2500000 0 1 2 3 4 5 6 7 8 9 10 11 12 13 14 Binomial Normal Z1 Z2 Z3 Z4 X1 X2 X3 X4 b) Pela binomial: 0425060407 37 710 ,,,C)X(P , Como n ×p é menor do que 5 a aproximação pela normal não é boa, mas vamos realizá-la mesmo assim, a título de exemplo: = n×p =4; = 1,55 Binomial: P(X = 7) => Normal: P(7,5<X<8,5) = P(Z1<Z<Z2) Z2=(8,5-4)/1,55 =2,91; Z1= (7,5-4)/1,55 = P(2,26<Z<2,91) = 0,0413. A aproximação não foi tão ruim assim, pois n × p = 4, bem próximo de 5. Veja o gráfico abaixo: c) Pela binomial P(X8) = P(X = 8) + P(X=9) + P(X=10)+...+ P(X=15) = 0,9957. Como n ×(1-p) é menor do que 5 a aproximação pela normal não é boa, mas vamos realizá-la mesmo assim, a título de exemplo: = n×p =12; = 1,55 Binomial: P(X 8) => Normal: P(X>7,5) = P(Z>Z1) Z1=(7,5- 12)/1,55 =-2,91 P(Z>-2,91) = 1-P(Z>2,91) = 0,9982. A aproximação parece não ter sido tão ruim, mas n ×(1- p) = 3, o que leva a problemas em outros valores. Veja o gráfico abaixo: 0,0000000 0,0500000 0,1000000 0,1500000 0,2000000 0,2500000 0,3000000 0 1 2 3 4 5 6 7 8 9 10 Binomial Normal 0,0000000 0,0500000 0,1000000 0,1500000 0,2000000 0,2500000 0,3000000 0 1 2 3 4 5 6 7 8 9 10 11 12 13 14 15 Binomial Normal As probabilidades de 10, 11, 13, 14 e 15 apresentam diferenças, e o próprio “formato” da distribuição binomial não é exatamente simétrico. d) Pela binomial: P(X<9) = P(X=0) + P(X = 1) +...+ P(X = 8) = 0,5141. Como n ×p e n×(1-p) são maiores do que 5 a aproximação pela normal é viável: = n×p = 8,4; = 1,83 Binomial: P(X < 9) => Normal: P(X<8,5) = P(Z<Z1) Z1=(8,5-8,4)/1,83 = 0,05 P(Z<0,05) = 1-P(Z>0,05) = 1 – 0,4801 = 0,5191. A aproximação apresentou diferença apenas na 3ª casa decimal. Veja o gráfico a seguir: e) Pela binomial P(X 2) = P(X = 0) + P(X=1) + P(X=2) =0,2061. Como n ×p é menor do que 5 a aproximação pela normal não é boa, mas vamos realizá-la mesmo assim, a título de exemplo: = n×p =4; = 1,79 Binomial: P(X 2) => Normal: P(X<2,5) = P(Z<Z1) Z1=(2,5- 4)/1,79 =-0,84 P(Z<-0,84) = P(Z>0,84) = 0,2005. A aproximação parece não ter sido tão ruim, mas n × p = 4, o que leva a problemas em outros valores. Veja o gráfico abaixo: f) Pela binomial P(15 < X ≤ 18) = P(X = 16) + P(X = 17) + P(X = 18) = 0,0000499. Como n ×p e n×(1-p) são maiores do que 5 a aproximação pela normal é viável: = n×p = 7; = 2,13 Binomial: P(15 < X ≤ 18) => Normal: P(15,5 < X< 18,5) = P(Z1 < Z< Z2) Z1=(15,5-7)/2,13 = 3,99 Z2 = (18,5 – 7)/2,13 = 5,40 P(3,99 < Z < 5,40) = P(Z > 3,99) – P(Z > 5,40) = 0,00003304 – 0,00000003 = 0,00003301. Observe que houve diferença, provavelmente por se tratar de valores muito elevados de Z. Mesmo assim, veja o gráfico a seguir: 0,0000000 0,0500000 0,1000000 0,1500000 0,2000000 0,2500000 0 1 2 3 4 5 6 7 8 9 10 11 12 13 14 Binomial Normal 0,0000000 0,0500000 0,1000000 0,1500000 0,2000000 0,2500000 0 1 2 3 4 5 6 7 8 9 10 11 12 13 14 15 16 17 18 19 20 Binomial Normal As probabilidades de 0, 2, 3, 5, e 6 apresentam diferenças, e o próprio “formato” da distribuição binomial não é exatamente simétrico. As probabilidades de vários valores não coincidem exatamente, indicando que embora a condição mínima para aproximação tenha interesse em um valor da variável Z, da distribuição normal padrão (com média zero e desvio padrão igual a um), e obtemos a probabilidade através da tabela. Precisamos calcular Z: padrão desvio média - valor"" Z Conhecemos o desvio padrão, é o desvio padrão da média amostral (0,5 mm), mas desconhecemos a média (média populacional do diâmetro). Contudo, a diferença “valor” – média nós sabemos que deve ser igual a 0,5 mm. Sendo assim, obtemos facilmente o valor de Z: 01 50 50 , , , Z Queremos encontrar a seguinte probabilidade: P(-1,0 > Z > 1,0), a probabilidade de que Z seja menor do que -1 e maior do que 1 (correspondente a 0,5 mm de diferença). Veja a figura abaixo: c) Raciocínio semelhante ao da letra b. Sabemos que a distribuição amostral da média é normal, e conhecemos seu desvio padrão (0,5 mm, calculado na letra a). Desejamos calcular a probabilidade de que a média amostral difira da média populacional em mais do que 1,0 mm, para mais ou para menos. Para calcular probabilidades em uma distribuição normal (ver Unidade 7) geralmente transformamos o valor de interesse em um valor da variável Z, da distribuição normal padrão (com média zero e desvio padrão igual a um), e obtemos a probabilidade através da tabela. Precisamos calcular Z: padrão desvio média - valor"" Z Conhecemos o desvio padrão, é o desvio padrão da média amostral (0,5 mm), mas desconhecemos a média (média populacional do diâmetro). Contudo, a diferença “valor” – média nós sabemos que deve ser igual a 1,0 mm. Sendo assim, obtemos facilmente o valor de Z: 02 50 01 , , , Z Queremos encontrar a seguinte probabilidade: P(-2,0 > Z > 2,0), a probabilidade de que Z seja menor do que -2 e maior do que 2. Veja a figura abaixo: 0,0 0,1 0,1 0,2 0,2 0,3 0,3 0,4 0,4 0,5 -4 -3 ,5 -3 -2 ,5 -2 -1 ,5 -1 -0 ,5 0 0 ,5 1 1 ,5 1 ,9 9 2 ,4 9 2 ,9 9 3 ,4 9 3 ,9 9 Z 0,0 0,1 0,1 0,2 0,2 0,3 0,3 0,4 0,4 0,5 -4 -3 ,5 -3 -2 ,5 -2 -1 ,5 -1 -0 ,5 0 0 ,5 1 1 ,5 1 ,9 9 2 ,4 9 2 ,9 9 3 ,4 9 3 ,9 9 Z Repare que estamos interessados nos valores das caudas. Devido à simetria da distribuição normal padrão em relação a sua média zero P(Z>1) = P(Z<-1). Procurando na tabela da distribuição normal padrão: P(Z > 1) = 0,1587 = P(Z < -1). Então, a probabilidade procurada P(-1,0>Z>1,0) será igual a 2 × 0,1587 = 0,3174. Repare que estamos interessados nos valores das caudas. Devido à simetria da distribuição normal padrão em relação a sua média zero P(Z>2) = P(Z<-2). Procurando na tabela da distribuição normal padrão: P(Z > 2) = 0,0228 = P(Z < -2). Então, a probabilidade procurada P(-2,0>Z>2,0) será igual a 2 × 0,0228 = 0,0456. d) O raciocínio é semelhante ao dos casos anteriores, mas agora estamos interessados na probabilidade “interna”, de a diferença NÃO ultrapassar 0,98 mm. Sabemos que a distribuição amostral da média é normal, e conhecemos seu desvio padrão (0,5 mm, calculado na letra a). Desejamos calcular a probabilidade de que a média amostral não difira da média populacional em mais do que 0,98 mm, para mais ou para menos. Para calcular probabilidades em uma distribuição normal (ver Unidade 7) geralmente transformamos o valor de interesse em um valor da variável Z, da distribuição normal padrão (com média zero e desvio padrão igual a um), e obtemos a probabilidade através da tabela. Precisamos calcular Z: padrão desvio média - valor"" Z Conhecemos o desvio padrão, é o desvio padrão da média amostral (0,5 mm), mas desconhecemos a média (média populacional do diâmetro). Contudo, a diferença “valor” – média nós sabemos que deve ser igual a 0,98 mm. Sendo assim, obtemos facilmente o valor de Z: 961 50 980 , , , Z Queremos encontrar a seguinte probabilidade: P(-1,96 < Z < 1,96), a probabilidade de que Z seja entre -1,96 e 1,96 (probabilidade da pessoa acertar). Veja a figura abaixo: e) Raciocínio semelhante ao da letra d, mas agora queremos encontrar a probabilidade da pessoa errar. Sabemos que a distribuição amostral da média é normal, e conhecemos seu desvio padrão (0,5 mm, calculado na letra a). Desejamos calcular a probabilidade de que a média amostral difira da média populacional em mais do que 1,085 mm, para mais ou para menos. Para calcular probabilidades em uma distribuição normal (ver Unidade 7) geralmente transformamos o valor de interesse em um valor da variável Z, da distribuição normal padrão (com média zero e desvio padrão igual a um), e obtemos a probabilidade através da tabela. Precisamos calcular Z: padrão desvio média - valor"" Z Conhecemos o desvio padrão, é o desvio padrão da média amostral (0,5 mm), mas desconhecemos a média (média populacional do diâmetro). Contudo, a diferença “valor” – média nós sabemos que deve ser igual a 1,085 mm. Sendo assim, obtemos facilmente o valor de Z: 172 50 0851 , , , Z 0,0 0,1 0,1 0,2 0,2 0,3 0,3 0,4 0,4 0,5 -4 -3 ,5 -3 -2 ,5 -2 -1 ,5 -1 -0 ,5 0 0 ,5 1 1 ,5 1 ,9 9 2 ,4 9 2 ,9 9 3 ,4 9 3 ,9 9 Z Repare que estamos interessados nos valores entre -1,96 e 1,96. Podemos calcular as probabilidades das caudas e obter a probabilidade “interna”. Devido à simetria da distribuição normal padrão em relação a sua média zero P(Z>1,96) = P(Z<-1,96). Procurando na tabela da distribuição normal padrão: P(Z > 1,96) = 0,025 = P(Z < -1,96). Então, a probabilidade procurada P(-1,96<Z<1,96) será igual a 1- 2 × 0,025 = 0,95 (95%). Queremos encontrar a seguinte probabilidade: P(-2,17 > Z > 2,17), a probabilidade de que Z seja menor do que -2,17 e maior do que 2,17 (probabilidade da pessoa errar). Veja a figura abaixo: 2) Uma empresa fabricante de pastilhas para freios efetua um teste para controle de qualidade de seus produtos. Supondo que 1% das pastilhas fabricadas pelo processo atual apresenta desempenho deficiente quanto ao nível de desgaste, qual é a probabilidade, em uma amostra aleatória simples com 10.000 pastilhas, serem encontradas 85 ou menos pastilhas com problemas? Trata-se de um caso de proporção de pastilhas com problemas. A variável número de pastilhas com problemas segue uma distribuição binomial com probabilidade de sucesso (proporção populacional) igual a 0,01. Decide-se retirar uma amostra aleatória simples de 10000 pastilhas e pergunta-se qual é a probabilidade de encontrar 85 ou menos pastilhas defeituosas na amostra. Pela teoria (Unidade 7, página 206, e Unidade 8, página 234) sabemos que é possível aproximar uma distribuição binomial por uma normal, e que a distribuição da proporção amostral terá média igual à proporção populacional (0,01) e variância igual a × (1 - ) / n = 0,01 × 0,99/10000 = 0,00000099. Para obter o desvio padrão basta extrair a raiz quadrada da variância, e obtemos 0,000995. Aqui é necessário cuidado com a correção de continuidade, uma vez que estamos usando uma distribuição contínua para aproximar uma discreta. Pela teoria (Unidade 7, página 207) precisamos acrescentar um intervalo em torno do valor discreto: queremos encontrar a probabilidade de que haja 85 ou menos pastilhas defeituosas, se X fosse a variável aleatória número de pastilhas defeituosas na amostra, procuramos P(X ≤ 85). Então, ao fazer a aproximação devemos incluir o intervalo correspondente ao 85, que varia de 84,5 a 85,5 (Unidade 7, página 207): então P(X ≤ 85) na binomial corresponde a P(X < 85,5) na aproximação pela normal. Este número é que deverá ser usado para calcular a proporção amostral p. Se há 85,5 pastilhas defeituosas na amostra isso significa que p = 85,5/10000 = 0,00855, e queremos obter P(p < 0,00855). É possível aproximar pela normal pois n × = 10000 × 0,01 = 100 > 5 e n × (1 - ) = 10000 × 0,99 = 9900 > 5. A distribuição da proporção amostral p pode ser aproximada por uma normal com “média” = 0,01 e “desvio padrão” = 0,000995, e podemos calcular P(p < 0,00855). Para calcular probabilidades em uma distribuição normal (ver Unidade 7) geralmente transformamos o valor de interesse em um valor da variável Z, da distribuição normal padrão (com média zero e desvio padrão igual a um), e obtemos a probabilidade através da tabela. Precisamos calcular Z: padrão desvio média - valor"" Z Conhecemos o desvio padrão, é o desvio padrão da proporção amostral (0,000995), e a média (proporção populacional de defeituosas, 0,01). O “valor” é a proporção de interesse, 0,00855. Sendo assim, obtemos facilmente o valor de Z: 0,0 0,1 0,1 0,2 0,2 0,3 0,3 0,4 0,4 0,5 -4 -3 ,5 -3 -2 ,5 -2 -1 ,5 -1 -0 ,5 0 0 ,5 1 1 ,5 1 ,9 9 2 ,4 9 2 ,9 9 3 ,4 9 3 ,9 9 Z Repare que estamos interessados nos valores das caudas. Devido à simetria da distribuição normal padrão em relação a sua média zero P(Z>2,17) = P(Z<-2,17). Procurando na tabela da distribuição normal padrão: P(Z > 2,17) = 0,015 = P(Z < -2,17). Então, a probabilidade procurada P(-2,17>Z>2,17) será igual a 2 × 0,015= 0,03. Passa-se agora a determinação dos limites do intervalo, através da expressão abaixo (cujo resultado será somado e subtraído da média amostral) para determinar os limites do intervalo: segundos 65,4 40 1596,1 n sZ e crítico 0 segundos 35,19065,4195exL 0I segundos 65,19965,4195exL 0S Então o intervalo de 95% de confiança para a média populacional do tempo de atendimento é [190,35;199,65] segundos. Interpretação: há 95% de probabilidade de que a média populacional do tempo de atendimento esteja entre 190,35 e 199,65 segundos. b) Como a variância populacional é DESCONHECIDA, e o tamanho da amostra é maior do que 30 elementos, pode ser usada a variável de teste Z da distribuição normal padrão. Assim será empregada a seguinte expressão para calcular o tamanho mínimo de amostra para a estimação por intervalo da média populacional. 2 0 critico e sZ n O nível de significância é o mesmo do item a. Sendo assim, o valor crítico continuará sendo o mesmo: Zcrítico = 1,96. O desvio padrão amostral vale 15 segundos, e o valor de e0, a precisão, foi fixado em 1 minuto, ou seja 60 segundos. Basta então substituir os valores na expressão: 124,0 60 1596,1 e sZ n 22 0 crítico elementos Observe que o tamanho mínimo de amostra necessário para atender a 95% de confiança e precisão de 60 segundos deveria ser de 1 elemento. Como a amostra coletada possui 40 elementos ela é plenamente SUFICIENTE para a significância e precisão exigidas. 2) O tempo de montagem de determinados conectores utiliza um processo já há algum tempo, que dura em média 3,5 segundos. Está sendo analisada a possibilidade de troca deste processo para um outro que se afirma possuir um tempo de montagem menor. Para esta análise foram observados os tempos de montagem de conectores por um operário padrão utilizando o novo processo e foram anotados os seguintes valores (em segundos): 2,5 2,5 2,6 3,0 3,2 3,5 3,7 3,7 2,1 2,4 2,7 2,8 3,1 3,1 3,6 3,6 2,5 2,9 2,8 3,8 Considerando a situação exposta acima e utilizando um nível de confiança de 95% : a) Estime o tempo médio de montagem dos conectores utilizando o novo processo. b) Calcule o tamanho mínimo da amostra que seria necessária para estimar a média com 95% de confiança e precisão de 0,5 segundos. A variável sob análise (tempo de montagem) é QUANTITATIVA. Portanto serão feitas inferências sobre a MÉDIA. Para encontrar o valor crítico devemos procurar na tabela da distribuição normal padrão pela probabilidade 0,025 e 0,975 (0,95+ 0,025) O valor da probabilidade pode ser visto na figura ao lado: os valores críticos serão Z0,025 e Z0,975 os quais serão iguais em módulo. P(Z > Zcrítico)= 0,025. Então Zcrítico será igual a 1,96 (em módulo). a) O parâmetro de interesse é a média populacional do tempo de montagem do novo processo. Adotou-se um nível de confiança de 95%, então 1 - = 0,95 = 0,05 = 0,025. Estatísticas: média amostral = 3,005 segundos s = 0,5083 segundos n = 20 Definição da variável de teste: uma vez que a variância populacional da variável é DESCONHECIDA (o valor fornecido é o desvio padrão AMOSTRAL), e a amostra retirada apresenta 20 elementos (portanto menos de 30) a distribuição amostral da média será t de Student, e a variável de teste será tn-1. Encontrar o valor de tn-1,crítico : como o Intervalo de Confiança para a média é bilateral, teremos uma situação semelhante à da figura abaixo: Passa-se agora a determinação dos limites do intervalo, através da expressão abaixo (cujo resultado será somado e subtraído da média amostral) para determinar os limites do intervalo: segundos 238,0 20 5083,0093,2 n st e crítico,1n 0 segundos 767,2238,0005,3exL 0I segundos 243,3238,0005,3exL 0S Então o intervalo de 95% de confiança para a média populacional do tempo de montagem pelo novo processo é [2,767;3,243] segundos. Interpretação: há 95% de probabilidade de que a verdadeira média populacional do tempo de montagem pelo novo processo esteja entre 2,767 e 3,243 segundos. b) Como a variância populacional é DESCONHECIDA, e o tamanho da amostra é menor do que 30 elementos a distribuição amostral da média será t de Student, e a variável de teste será tn-1. Assim será usada a seguinte expressão para calcular o tamanho mínimo de amostra para a estimação por intervalo da média populacional. 2 0 critico,1n e st n O nível de significância é o mesmo do item a. Sendo assim, o valor crítico continuará sendo o mesmo: tn-1,crítico = 2,093. O desvio padrão amostral vale 0,5083 segundos, e o valor de e0, a precisão, foi fixado em 0,5 segundos. Basta então substituir os valores na expressão: 553,4 5,0 5083,0093,2 e st n 22 0 crítico,1n elementos Observe que o tamanho mínimo de amostra necessário para atender a 95% de confiança e precisão de 0,5 segundos deveria ser de 5 elementos. Como a amostra coletada possui 20 elementos ela é plenamente SUFICIENTE para a significância e precisão exigidas. Para encontrar o valor crítico devemos procurar na tabela da distribuição de Student, na linha correspondente a n-1 graus de liberdade, ou seja em 20 - 1 = 19 graus de liberdade. O valor da probabilidade pode ser visto na figura ao lado: P(t > tn-1,crítico) = 0,025 e P(t > tn-1,crítico) = 0,975 (os valores são iguais em módulo). E o valor de tn-1,crítico será igual a 2,093 (em módulo) 3) Sabe-se que uma população apresenta distribuição normal com variância igual a 1. Foi retirada uma amostra de 169 elementos desta população obtendo-se média igual a 2. Adotando um nível de confiança de 95%, determinar o intervalo de confiança para a média populacional. A variável sob análise é QUANTITATIVA. Portanto será feita inferência sobre a média. O parâmetro de interesse é a média populacional . Adotou-se um nível de confiança de 95%, então 1 - = 0,95 = 0,05 = 0,025. Estatísticas disponíveis são: média amostral = 2 n = 169 Definição da variável de teste: uma vez que a variância populacional da variável é CONHECIDA (foi fornecido o valor da variância POPULACIONAL, que vale 1), a variável de teste será Z da distribuição normal. Encontrar o valor de Zcrítico : como o Intervalo de Confiança para a média é bilateral, teremos uma situação semelhante à da figura abaixo: Passa-se agora a determinação dos limites do intervalo, através da expressão abaixo (cujo resultado será somado e subtraído da média amostral) para determinar os limites do intervalo: 151,0 169 196,1 n Z e crítico 0 849,1151,02exL 0I 151,2151,02exL 0S Então o intervalo de 95% de confiança para a média populacional é [1,849; 2,151]. Interpretação: há 95% de probabilidade de que a verdadeira média populacional esteja entre 1,849 e 2,151. 4) Retirou-se uma amostra de 4 elementos de uma população com distribuição normal, obtendo média 8,2 e desvio padrão 0,4. Determinar o intervalo de confiança para a média populacional, usando 1% de significância. A variável sob análise é QUANTITATIVA, então a inferência será feita sobre a média. O parâmetro de interesse é a média populacional . Adotou-se um nível de significância de 1%, então = 0,01 = 0,005 1 - = 0,99. As estatísticas disponíveis são: média amostral = 8,2 s = 0,4 n = 4 Definição da variável de teste: como a variância populacional é DESCONHECIDA, e a amostra é menor do que 30 elementos, não obstante a população ter distribuição normal, a distribuição amostral da média será t de Student, e a variável de teste será tn-1. Encontrar o valor de tn-1,crítico : como o Intervalo de Confiança para a média é bilateral, teremos uma situação semelhante à da figura abaixo: Para encontrar o valor crítico devemos procurar na tabela da distribuição normal padrão pela probabilidade 0,025 e 0,975 (0,95+ 0,025) O valor da probabilidade pode ser visto na figura ao lado: os valores críticos serão Z0,025 e Z0,975 os quais serão iguais em módulo. P(Z > Zcrítico)= 0,025. Então Zcrítico será igual a 1,96 (em módulo). Para encontrar o valor crítico devemos procurar na tabela da distribuição de Student, na linha correspondente a n-1 graus de liberdade, ou seja em 4 - 1 = 3 graus de liberdade. O valor da probabilidade pode ser visto na figura ao lado: os valores críticos serão t3;0,005 e t3;0,995 os quais serão iguais em módulo. P(t > tn-1,crítico) = 0,005 e P(t > tn-1,crítico) = 0,995 (os valores são iguais em módulo). E o valor de tn-1,crítico será igual a 5,841 (em módulo) a) O fabricante quer que você determine um intervalo de 95% para a proporção populacional de pessoas que consomem o produto. b) Um dos diretores do fabricante exige que o intervalo de confiança para a proporção populacional tenha 99% de confiança, com um erro máximo de 2,5%. A amostra retirada satisfaz estes critérios? Adaptado de BUSSAB, W.O., MORETTIN, P. A. Estatística Básica, 4a ed. São Paulo: Atual, 1987. A variável sob análise (consumo do produto) é QUALITATIVA, e só admite dois resultados: consome o produto ou não consome o produto. Então serão feitas inferências sobre a proporção populacional de pessoas que consomem ou não consomem o produto. a) O parâmetro de interesse é a proporção populacional de pessoas que consomem o produto. O problema exige uma confiança de 95%, então 1 - = 0,95 = 0,05 = 0,025 As estatísticas são: proporção amostral de pessoas que consomem o produto p = 100/300, o seu complementar 1- p = 200/300 e n = 300 elementos. Definição da variável de teste: precisamos verificar se é possível fazer a aproximação pela normal, então n x p = 300 x (100/300) = 100 > 5 e n x (1- p) = 300 x (200/300) = 200 > 5. Como ambos os produtos satisfazem as condições para a aproximação podemos usar a variável Z da distribuição normal padrão Encontrar o valor de Zcrítico : como o Intervalo de Confiança para a média é bilateral, teremos uma situação semelhante à da figura abaixo: Passa-se agora a determinação dos limites do intervalo, através da expressão abaixo (cujo resultado será somado e subtraído da proporção amostral de pessoas que consomem o produto) para determinar os limites do intervalo: 0533,0 300 )300/200()300/100( 96,1 n )p1(p Ze critico0 2800,00533,0)300/100(epL 0I 3867,00533,0)300/100(epL 0S Então, o intervalo de 95% de confiança para a proporção populacional de pessoas que consomem o produto é [28%;38,67%]. Interpretação: há 95% de probabilidade de que a verdadeira proporção populacional de pessoas que consomem o produto esteja entre 28% e 38,67%. b) De acordo com o item anterior é possível utilizar a aproximação pela distribuição normal. Assim, a expressão para o cálculo do tamanho mínimo de amostra para a proporção populacional será: )p1(p e Z n 2 0 critico Os valores de p e 1 - p já são conhecidos: p = 100/300 1 - p = 200/300 O nível de confiança exigido é de 99%: para encontrar o valor crítico devemos procurar na tabela da distribuição normal padrão pela probabilidade 0,005 e 0,995 (0,99+0,005); os valores críticos serão Z0,005 e Z0,995 os quais serão iguais em módulo. P(Z > Zcrítico) = 0,005. E o valor de Zcrítico Para encontrar o valor crítico devemos procurar na tabela da distribuição normal padrão pela probabilidade 0,025 e 0,975 (0,95+ 0,025) O valor da probabilidade pode ser visto na figura ao lado: os valores críticos serão Z0,025 e Z0,975 os quais serão iguais em módulo. P(Z > Zcrítico)= 0,025. Então Zcrítico será igual a 1,96 (em módulo). será igual a 2,575 (em módulo). A precisão foi fixada em 2,5% (0,025). Substituindo os valores na expressão acima: 235855,2357)300/200()300/100( 025,0 575,2 )p1(p e Z n 22 0 critico Observe que o tamanho mínimo de amostra necessário para atender a 99% de confiança e precisão de 2,5% deveria ser de 2358 elementos. Como a amostra coletada possui apenas 300 elementos ela é INSUFICIENTE para a confiança e precisão exigidas. Recomenda-se o retorno à população para a retirada aleatória de mais 2058 pessoas. 8) A Polícia Rodoviária Estadual fez recentemente uma pesquisa secreta sobre as velocidades desenvolvidas na SC 401 das 23h às 2h. No período de observação, 100 carros passaram por um aparelho de radar a uma velocidade média de 112 km/h, com desvio padrão de 22 km/h. Construa um intervalo de 95% de confiança para a média da população. Adaptado de STEVENSON, W.J. Estatística Aplicada à Administração, São Paulo: Harper do Brasil, 1981. A variável sob análise (velocidade dos automóveis em km/h) é QUANTITATIVA, então será feita uma inferência sobre a média. O parâmetro de interesse é a média populacional da velocidade dos carros. O problema exigiu confiança de 95%, então 1 - = 0,95 = 0,05 . Estatísticas disponíveis são: média amostral = 112 km/h s = 22 km/h n = 100 Definição da variável de teste: uma vez que a variância populacional da variável é DESCONHECIDA (o valor fornecido é o desvio padrão AMOSTRAL), mas a amostra retirada apresenta 100 elementos (portanto mais de 30) a variável de teste será Z da distribuição normal. Encontrar o valor de Zcrítico : como o Intervalo de Confiança para a média é bilateral, teremos uma situação semelhante à da figura abaixo: Passa-se agora a determinação dos limites do intervalo, através da expressão abaixo (cujo resultado será somado e subtraído da média amostral) para determinar os limites do intervalo: km/h 314 100 22961 0 , , n sZ e crítico km/h 69,10731,4112exL 0I km/h 31,11631,4112exL 0S Então o intervalo de 95% de confiança para a média populacional velocidade dos carros é [107,69;116,31] km/h. Interpretação: há 95% de probabilidade de que a verdadeira média populacional da velocidade dos carros esteja entre 107,69 e 116,31 km/h. 9) Uma máquina produz peças classificadas como boas ou defeituosas. Retirou-se uma amostra de 1000 peças da produção, verificando-se que 35 eram defeituosas. O controle de qualidade pára a linha de produção para rearranjo dos equipamentos envolvidos quando o percentual de defeituosos é superior a 3%. a) Determinar um intervalo de 95% de confiança para a proporção de peças defeituosas. Para encontrar o valor crítico devemos procurar na tabela da distribuição normal padrão pela probabilidade 0,025 e 0,975 (0,95+ 0,025) O valor da probabilidade pode ser visto na figura ao lado: os valores críticos serão Z0,025 e Z0,975 os quais serão iguais em módulo. P(Z > Zcrítico)= 0,025. Então Zcrítico será igual a 1,96 (em módulo). b) Se há interesse em obter um intervalo de 95% de confiança, com precisão de 1,5%, para a proporção de peças defeituosas, a amostra retirada é suficiente? A variável sob análise (classificação das peças) é QUALITATIVA, e só pode assumir dois valores: boa ou defeituosa. Portanto, serão feitas inferências sobre a proporção (percentual) de peças defeituosas ou boas. a) O parâmetro de interesse é a proporção populacional de peças defeituosas O problema exige uma confiança de 95%, então 1 - = 0,95 = 0,05 = 0,025 As estatísticas são: proporção amostral de peças defeituosas p = 35/1000, o seu complementar 1- p = 965/1000 e n = 1000 elementos. Definição da variável de teste: precisamos verificar se é possível fazer a aproximação pela normal, então n x p = 1000 x (35/1000) = 35 > 5 e n x (1- p) = 1000 x (965/1000) = 965 > 5. Como ambos os produtos satisfazem as condições para a aproximação podemos usar a variável Z da distribuição normal padrão. Encontrar o valor de Zcrítico : como o Intervalo de Confiança para a média é bilateral, teremos uma situação semelhante à da figura abaixo: Passa-se agora a determinação dos limites do intervalo, através da expressão abaixo (cujo resultado será somado e subtraído da proporção amostral de peças defeituosas) para determinar os limites do intervalo: 01139,0 1000 )1000/965()1000/35( 96,1 n )p1(p Ze critico0 02361,001139,0)1000/35(epL 0I 04639,001139,0)1000/35(epL 0S Então, o intervalo de 95% de confiança para a proporção populacional de peças defeituosas é [2,361%;4,639%]. Interpretação: há 95% de probabilidade de que a verdadeira proporção populacional de peças defeituosas esteja entre 2,361% e 4,639%. b) De acordo com o item anterior é possível utilizar a aproximação pela distribuição normal. Assim, a expressão para o cálculo do tamanho mínimo de amostra para a proporção populacional será: )p1(p e Z n 2 0 critico Os valores de p e 1 - p já são conhecidos: p = 35/1000 1 - p = 965/1000 O nível de confiança exigido é de 95%: para encontrar o valor crítico devemos procurar na tabela da distribuição normal padrão pela probabilidade 0,025 e 0,975 (0,95+0,025); os valores críticos serão Z0,025 e Z0,975 os quais serão iguais em módulo. P(Z > Zcrítico)= 0,025. Então Zcrítico será igual a 1,96 (em módulo). A precisão foi fixada em 1,5% (0,015). Substituindo os valores na expressão acima: Para encontrar o valor crítico devemos procurar na tabela da distribuição normal padrão pela probabilidade 0,025 e 0,975 (0,95+ 0,025) O valor da probabilidade pode ser visto na figura ao lado: os valores críticos serão Z0,025 e Z0,975 os quais serão iguais em módulo. P(Z > Zcrítico)= 0,025. Então Zcrítico será igual a 1,96 (em módulo). GASE [38,94%; 57,06%] PATÁPIO [23,73%; 40,27%] UNIMALI [40,53%; 57,47%] UNILUS [17,32%; 32,68%] Interpretação: há 99% de probabilidade de que as verdadeiras proporções populacionais de satisfeitos com os cursos de administração estejam de: 44,11% a 65,89% na SHUFSC, 38,94% a 57,06% na GASE, 23,73% a 40,27% na PATÁPIO, 40,53% a 57,47% na UNIMALI e 17,32% a 32,68% na UNILUS. b) De acordo com o item anterior é possível utilizar a aproximação pela distribuição normal. Assim, a expressão para o cálculo do tamanho mínimo de amostra para a proporção populacional será: )p1(p e Z n 2 0 critico Precisamos realizar o procedimento para cada uma das proporções. Além disso, como o tamanho da população é conhecido o tamanho de amostra calculado pela equação acima deve ser corrigido. O nível de confiança exigido é de 99%: para encontrar o valor crítico devemos procurar na tabela da distribuição normal padrão pela probabilidade 0,005 e 0,995 (0,99+0,005); os valores críticos serão Z0,005 e Z0,995 os quais serão iguais em módulo. P(Z > Zcrítico)= 0,005. Então Zcrítico será igual a 2,575 (em módulo). A precisão foi fixada em 2% (0,02). Os valores de p e 1 - p já são conhecidos para cada universidade. Substituindo todos os valores na expressão do tamanho de amostra vamos obter os resultados da tabela abaixo: SHUFSC 3421054450550 020 5752 1 22 0 0 ,,, , , )p(p e Z n critico GASE 1754140520480 020 5752 1 22 0 0 ,,, , , )p(p e Z n critico PATÁPIO 3843609680320 020 5752 1 22 0 0 ,,, , , )p(p e Z n critico UNIMALI 1524145510490 020 5752 1 22 0 0 ,,, , , )p(p e Z n critico UNILUS 1083110750250 020 5752 1 22 0 0 ,,, , , )p(p e Z n critico É óbvio que os tamanhos de amostra precisam ser corrigidos, uma vez que todos são maiores que a própria população. SHUFSC 732 4105,342890 3424105890 0 0 , nN nN n GASE 740 4140,175900 1754140900 0 0 , nN nN n PATÁPIO 1060 3609,3841500 38436091500 0 0 , nN nN n UNIMALI 931 4145,1521200 15241451200 0 0 , nN nN n UNILUS 1141 10811031800 10831101800 0 0 , , nN nN n Observe que os tamanhos mínimos de amostra necessários para atender a 99% de confiança e precisão de 2% são todos superiores aos das amostras coletadas, indicando que elas são INSUFICIENTES para os fins propostos. UNIDADE 10 1) O tempo médio de atendimento em uma agência lotérica está sendo analisado por técnicos. Uma amostra de 40 clientes foi sistematicamente monitorada em relação ao tempo que levavam para serem atendidos, obtendo-se as seguintes estatísticas: tempo médio de atendimento de 195 segundos e desvio padrão de 15 segundos. Considerando que o tempo de utilização segue uma distribuição normal: O dono da agência garante que o tempo médio de atendimento é de 3 minutos (se for maior ele se compromete a contratar mais um atendente). Com base nos dados da amostra a afirmação do dono é verdadeira, ou ele deve contratar um novo atendente? Use um nível de significância de 1%? Observe que é preciso tomar uma decisão: com base nos dados da amostra a afirmação do dono da agência é verdadeira ou ele deve contratar mais um atendente? Trata-se então de um teste de hipóteses. A amostra foi coletada para avaliar se o tempo médio de atendimento de 3 minutos (180 segundos) ainda é válido: não haverá problema algum se o tempo for igual ou menor do que 180 segundos, mas se for maior, o dono da agência precisaria contratar um novo atendente. Então faremos um teste unilateral à direita. Enunciar as hipóteses. Conforme visto acima o teste mais adequado para este caso é um Teste Unilateral à Direita: H0 : = 180 onde 0 = 180 segundos (valor de teste) H1 : > 180 Nível de significância. O problema declara que é necessário usar 1%. Então = 0,01 e 1 - = 0,99 Variável de teste. Uma vez que a variância populacional da variável é DESCONHECIDA (o valor fornecido é o desvio padrão AMOSTRAL), mas a amostra retirada apresenta 40 elementos (portanto mais de 30) a variável de teste será Z da distribuição normal. Definir a região de aceitação de H0. Observe que por ser um teste Unilateral à Direita o Nível de Significância está todo concentrado em um dos lados da distribuição, definindo a região de rejeição de H0. Para encontrar o valor crítico devemos procurar na tabela da distribuição normal, pela probabilidade acumulada 0,01. Repare que o Zcrítico aqui é maior do que zero: P(Z > Zcrítico) = 0,01. Então Zcrítico 2,33 Através dos valores da amostra avaliar o valor da variável. Neste ponto é preciso encontrar o valor da variável de teste: n/s x Z 0 O valor de teste 0 é igual a 180, a média amostral x vale 195, o tamanho de amostra n é igual a 40 e o desvio padrão amostral s é 15. Substituindo na equação acima: 32,6 40/15 180195 n/s x Z 0 Decidir pela aceitação ou rejeição de H0. Como se trata de um teste Unilateral à Direita: Rejeitar H0 se Z > Zcrítico Como Z = 6,32 > Zcrítico = 2,33 REJEITAR H0 a 1% de Significância (há 1% de chance de erro) Interpretar a decisão no contexto do problema. Há provas estatísticas suficientes de que o tempo médio de atendimento é maior do que 180 segundos. A afirmação do dono da agência não é verdadeira, um novo atendente deveria ser contratado. 2) O tempo de montagem de determinados conectores utiliza um processo já há algum tempo, que dura em média 3,5 segundos. Está sendo analisada a possibilidade de troca deste processo para um outro que se afirma possuir um tempo de montagem menor. Para esta análise foram observados os tempos de montagem de conectores por um operário padrão utilizando o novo processo e foram anotados os seguintes valores (em segundos):2,5 2,5 2,6 3,0 3,2 3,5 3,7 3,7 2,1 2,4 2,7 2,8 3,1 3,1 3,6 3,6 2,5 2,9 2,8 3,8 Considerando a situação exposta acima e utilizando um nível de confiança de 95% : A empresa deve mudar para o novo processo ou manter o atual? Observe que é preciso tomar uma decisão: com base nos dados da amostra deve-se mudar para o novo processo? Trata-se então de um teste de hipóteses. A amostra foi coletada para avaliar se o tempo médio de montagem do novo processo é de 3,5 segundos: se o tempo for igual ou maior não há razão para mudar, mas se for menor, a mudança será interessante pois haverá um ganho de produtividade. Então faremos um teste unilateral à esquerda. Enunciar as hipóteses. Conforme visto acima o teste mais adequado para este caso é um Teste Unilateral à esquerda: H0 : = 3,5 onde 0 = 3,5 segundos (valor de teste) H1 : < 3,5 Nível de significância. O problema declara que é necessário usar 5%, então = 0,05 e 1 - = 0,95 Variável de teste. Observe que é preciso tomar uma decisão: com base nos dados da amostra a afirmação do fabricante das máquinas é verdadeira? Trata-se então de um teste de hipóteses. A amostra foi coletada para avaliar se o tempo médio de conversão de 25 horas é válido: não haverá problema algum se o tempo for igual ou menor do que 25 horas, mas se for maior, a afirmação do fabricante não é correta. Então faremos um teste unilateral à direita. Enunciar as hipóteses. Conforme visto acima o teste mais adequado para este caso é um Teste Unilateral à Direita: H0 : = 25 onde 0 = 25 horas (valor de teste) H1 : > 25 Nível de significância. É necessário usar 1%. Então = 0,01 e 1 - = 0,99 Variável de teste. Uma vez que a variância populacional da variável é DESCONHECIDA (o valor fornecido é o desvio padrão AMOSTRAL), mas a amostra retirada apresenta 40 elementos (portanto mais de 30) a variável de teste será Z da distribuição normal. Definir a região de aceitação de H0. Através dos valores da amostra avaliar o valor da variável. Neste ponto é preciso encontrar o valor da variável de teste: n/s x Z 0 O valor de teste 0 é igual a 25, a média amostral x vale 24, o tamanho de amostra n é igual a 40 e o desvio padrão amostral s é 3. Substituindo na equação acima: 1082,2 40/3 2524 n/s x Z 0 Decidir pela aceitação ou rejeição de H0. Como se trata de um teste Unilateral à Direita: Rejeitar H0 se Z > Zcrítico Como Z = -2,1082 < Zcrítico = 2,33 ACEITAR H0 a 1% de Significância (há 1% de chance de erro) Interpretar a decisão no contexto do problema. NÃO há provas estatísticas suficientes de que o tempo médio de conversão das máquinas é maior do que 25 horas. A afirmação do fabricante é verdadeira. 5) Em uma pesquisa de mercado, acerca da preferência pelo produto X, 300 consumidores foram entrevistados, sendo que 100 declararam consumir o produto. No passado, o produto X era a marca líder de mercado, com cerca de 40% da preferência do consumidor. Com base nos dados, e usando uma significância de 1%, a marca ainda tem a liderança? Adaptado de BUSSAB, W.O., MORETTIN, P. A. Estatística Básica, 4 a ed. São Paulo: Atual, 1987. Observe que por ser um teste Unilateral à Direita o Nível de Significância está todo concentrado em um dos lados da distribuição, definindo a região de rejeição de H0. Para encontrar o valor crítico devemos procurar na tabela da distribuição normal, pela probabilidade acumulada 0,01. Repare que o Zcrítico aqui é maior do que zero: P(Z > Zcrítico) = 0,01. Então Zcrítico 2,33 Observe que é preciso tomar uma decisão: com base nos dados da amostra marca ainda é líder de mercado? Trata-se então de um teste de hipóteses. A amostra foi coletada para avaliar se a proporção de pessoas que consomem o produto é igual a 40% (0, 4): se a proporção for igual ou maior não haverá problemas, mas se for menor a marca não tem mais a liderança do mercado e algo precisa ser feito. Então faremos um teste unilateral à esquerda. Enunciar as hipóteses. Conforme visto acima o teste mais adequado para este caso é um Teste Unilateral à Esquerda: H0 : = 0, 4 (40%) onde 0 = 0, 4 (valor de teste) H1 : < 0, 4 (40%) Nível de significância. O problema exige uma significância de 1%, então = 0,01 e 1 - = 0,99. Variável de teste. Como se trata de um teste de proporção é necessário verificar o valor dos produtos: n x 0 = 300 x 0,4 = 120 e n x (1 - 0) = 300 x 0, 6 = 180. Como ambos os produtos são maiores do que 5, as condições para a aproximação são satisfeitas e podemos usar a variável Z da distribuição normal padrão. Definir a região de aceitação de H0. Através dos valores da amostra avaliar o valor da variável. Neste ponto é preciso encontrar o valor da variável de teste: n )1( p Z 00 0 O valor de teste 0 é igual a 0,4 (40%), a proporção amostral p vale 100/300, e o tamanho de amostra n é igual a 300. Substituindo na equação acima: 35,2 300 6,04,0 4,0)300/100( n )1( p Z 00 0 Decidir pela aceitação ou rejeição de H0. Como se trata de um teste Unilateral à esquerda: Rejeitar H0 se Z < Zcrítico Como Z = -2,35 < Zcrítico = -2,33 REJEITAR H0 a 1% de Significância (há 1% de chance de erro) Interpretar a decisão no contexto do problema. Há provas estatísticas suficientes para considerar que a marca não detém mais a liderança no mercado, que a proporção de pessoas que consomem o produto é menor do que 40%. Contudo, é um caso de fronteira! Observe que por ser um teste Unilateral à Esquerda o Nível de Significância está todo concentrado em um dos lados da distribuição, definindo a região de rejeição de H0. Para encontrar o valor crítico devemos procurar na tabela da distribuição normal, pela probabilidade acumulada 0,99. P(Z > Zcrítico)= 0,99. Deve-se procurar a probabilidade complementar 0,01 e mudar o sinal do valor encontrado, pois o Zcrítico aqui é menor do que zero. Então Zcrítico será igual a –2,33. 6) Uma companhia está procurando adquirir uma quantidade de calculadoras manuais que tenham vida média de 1,5 anos ou mais. Suponha que tais calculadoras tenham uma vida média com desvio padrão de 0,3 ano. a) Com base numa amostra de 25 calculadoras analisadas que apresentaram vida média de 1,3 anos, a companhia deve comprar as calculadoras? Use um nível de confiança de 95%. b) Resolva o item anterior considerando que a amostra analisada apresentou vida média de 1,6 anos. O que você pode concluir ? a) Observe que é preciso tomar uma decisão: com base nos dados da amostra a companhia deve comprar as calculadoras? Trata-se então de um teste de hipóteses. A amostra foi coletada para avaliar se o tempo médio de vida das calculadoras é de 1,5 anos: não haverá problema algum se o tempo for igual ou maior do que 1,5 anos, mas se for menor, a compra não deverá ser efetuada. Então faremos um teste unilateral à esquerda. Enunciar as hipóteses. Conforme visto acima o teste mais adequado para este caso é um Teste Unilateral à Esquerda: H0 : = 1,5 onde 0 = 1,5 anos (valor de teste) H1 : < 1,5 Nível de significância. O problema declara que é necessário usar 5%. Então = 0,05 e 1 - = 0,95 Variável de teste. O desvio padrão populacional é CONHECIDO ( = 0,3 anos), portanto a variância populacional também é CONHECIDA. Uma vez que a variância populacional da variável é CONHECIDA (não obstante a amostra retirada apresentar 25 elementos, portanto menos de 30) a variável de teste será Z da distribuição normal. Definir a região de aceitação de H0. Através dos valores da amostra avaliar o valor da variável. Observe que por ser um teste Unilateral à Esquerda o Nível de Significância está todo concentrado em um dos lados da distribuição, definindo a região de rejeição de H0. Para encontrar o valor crítico devemos procurar na tabela da distribuição normal, pela probabilidade acumulada 0,95. P(Z > Zcrítico)= 0,95. Deve-se procurar a probabilidade complementar 0,05 e mudar o sinal do valor encontrado, pois o Zcrítico aqui é menor do que zero. Então Zcrítico será igual a –1,645. Através dos valores da amostra avaliar o valor da variável. Neste ponto é preciso encontrar o valor da variável de teste: n )1( p Z 00 0 O valor de teste 0 é igual a 1/6, a proporção amostral p vale 123/600, e o tamanho de amostra n é igual a 600. Substituindo na equação acima: 519,2 600 )6/5()6/1( )6/1()600/123( n )1( p Z 00 0 Decidir pela aceitação ou rejeição de H0. Como se trata de um teste Bilateral: Rejeitar H0 se |Z| > |Zcrítico| Como |Z| = 2,519 > |Zcrítico| = 1,96 REJEITAR H0 a 5% de Significância (há 5% de chance de erro) Interpretar a decisão no contexto do problema. Há provas estatísticas suficientes de que a proporção populacional de faces 6 é diferente de 1/6, o que é razão para desconfiar que o dado é viciado. b) A única diferença do item anterior é o nível de significância, que passou a ser de 1%. Observe que é preciso tomar uma decisão: com base nos dados da amostra deve-se desconfiar que o dado está viciado? Trata-se então de um teste de hipóteses. A amostra foi coletada para avaliar se a proporção de faces 6 é 1/6: se a proporção for menor ou maior haverá problemas, pois o dado poderá estar viciado. Então faremos um teste bilateral. Enunciar as hipóteses. Conforme visto acima o teste mais adequado para este caso é um Teste Bilateral: H0 : = 1/6 onde 0 = 1/6 (valor de teste) H1 : 1/6 Nível de significância. O problema exige uma significância de 1%. Então = 0,01 /2 = 0,005 1 - = 0,99. Variável de teste. Como se trata de um teste de proporção é necessário verificar o valor dos produtos: n x 0 = 600 x (1/6) = 100 e n x (1 - 0) = 600 x (5/6)= 500. Como ambos os produtos são maiores do que 5, portanto satisfazem as condições para a aproximação pela normal, podemos usar a variável Z da distribuição normal padrão. Definir a região de aceitação de H0. Observe que por ser um teste Bilateral o Nível de Significância foi dividido em dois, metade para cada região de rejeição de H0. Para encontrar o valor crítico devemos procurar na tabela da distribuição normal padrão pela probabilidade 0,005 e 0,995 (0,99+ 0,005) O valor da probabilidade pode ser visto na figura ao lado: os valores críticos serão Z0,005 e Z0,995 os quais serão iguais em módulo. P(Z > Zcrítico)= 0,005. Então Zcrítico será igual a 2,575 (em módulo). Através dos valores da amostra avaliar o valor da variável. Neste ponto é preciso encontrar o valor da variável de teste: n )1( p Z 00 0 O valor de teste 0 é igual a 1/6, a proporção amostral p vale 123/600, e o tamanho de amostra n é igual a 600. Substituindo na equação acima: 519,2 600 )6/5()6/1( )6/1()600/123( n )1( p Z 00 0 Decidir pela aceitação ou rejeição de H0. Como se trata de um teste Bilateral: Rejeitar H0 se |Z| > |Zcrítico| Como |Z| = 2,519 < |Zcrítico| = 2,575 ACEITAR H0 a 1% de Significância (há 1% de chance de erro) Interpretar a decisão no contexto do problema. NÃO há provas estatísticas suficientes de que a proporção populacional faces 6 é diferente de 1/6, então ainda não há razão para desconfiar que o dado é viciado. Observe que a conclusão foi oposta a do item a, devido ao menor nível de significância adotado, que exige evidências estatísticas mais fortes para rejeitar a hipótese nula. 8) Uma amostra aleatória entre homens e mulheres foi analisada com o objetivo de pesquisar-se o comportamento de “fumar cigarros”. Verificou-se que de 27 homens, 15 eram fumantes, e que de 33 mulheres, 12 tinham o hábito de fumar. Teste a hipótese de que o sexo influencia o comportamento de fumar, a um nível de 5% de significância. Trata-se de um exercício de teste do Chi-Quadrado de independência: queremos saber se a variável comportamento quanto ao cigarro está associada à variável sexo (e vice-versa). Enunciar as Hipóteses: H0: as variáveis são independentes H1: as variáveis não são independentes Nível de significância: determinado pelo problema, = 0,05; 1 - = 0,95 Retirar as amostras aleatórias e montar a tabela de contingências (isso já foi feito): Hábitos Sexo Fumante Não fumante Total Masculino 15 12 27 Feminino 12 21 33 Total 27 33 60 Fonte: hipotética Calcular as freqüências esperadas: devemos calculá-las para todas as células da tabela (4 no presente problema). Os resultados estão na tabela abaixo: Eij Hábitos Sexo Fumante Não fumante Masculino 12,15 14,85 Feminino 14,85 18,15 Calculando a estatística 2 para cada célula: Agora podemos calcular as diferenças entre as freqüências e as demais operações. Os valores finais estão na tabela abaixo: (O-E) 2 /E Hábitos Sexo Fumante Não fumante Masculino 0,6685185 0,54697 Feminino 0,5469697 0,447521 Agora podemos somar os valores: 2 = 2,209979 Os graus de liberdade: (número de linhas -1)x(número de colunas - 1) = (2 -1)(2-1)= 1 Então 2 1 = 2,209979 O 2 crítico será: procurando na tabela da distribuição Chi-Quadrado (vide apostila), ou em um programa, para 1 grau de liberdade e 95% de confiança (5% de significância): 2 1,crítico = 3,84 Como 2 1 é menor do que 2 1,crítico ACEITAMOS H0 a 5% de significância. NÃO HÁ evidência estatística suficiente que indica que as variáveis sexo e comportamento de fumar são dependentes. 9) Dentre os alunos de uma sala alguns não freqüentavam as aulas, apenas comparecendo às provas. Na tabela abaixo estão apresentados seus resultados: aprovados Reprovados Total “freqüentadores” 22 8 30 “ausentes” 10 18 28 Total 32 26 58 Utilizando 1- = 99 %. Você pode concluir que a presença nas aulas está associada aos resultados finais dos alunos? Trata-se de um exercício de teste do Chi-Quadrado de independência: queremos saber se a variável freqüência às aulas está associada à variável aprovação (e vice-versa). Enunciar as Hipóteses: H0: as variáveis são independentes H1: as variáveis não são independentes Nível de significância: determinado pelo problema, = 0,01; 1 - = 0,99 Retirar as amostras aleatórias e montar a tabela de contingências (isso já foi feito): Aprovação Freqüência Aprovados Reprovados Total “freqüentadores” 22 8 30 “ausentes” 10 18 28 Total 32 26 58 Fonte: hipotética Calcular as freqüências esperadas: devemos calculá-las para todas as células da tabela (4 no presente problema). Os resultados estão na tabela abaixo: Aprovação Freqüência Aprovados Reprovados “freqüentadores” 16,55172414 13,44827586 “ausentes” 15,44827586 12,55172414 Calculando a estatística 2 para cada célula: Agora podemos calcular as diferenças entre as freqüências e as demais operações. Os valores finais estão na tabela abaixo: (O-E) 2 /E Aprovação Freqüência Aprovados Reprovados “freqüentadores” 1,793390805 2,207250221 “ausentes” 1,921490148 2,364910951