




























































































Estude fácil! Tem muito documento disponível na Docsity
Ganhe pontos ajudando outros esrudantes ou compre um plano Premium
Prepare-se para as provas
Estude fácil! Tem muito documento disponível na Docsity
Prepare-se para as provas com trabalhos de outros alunos como você, aqui na Docsity
Encontra documentos específicos para os exames da tua universidade
Prepare-se com as videoaulas e exercícios resolvidos criados a partir da grade da sua Universidade
Responda perguntas de provas passadas e avalie sua preparação.
Ganhe pontos para baixar
Ganhe pontos ajudando outros esrudantes ou compre um plano Premium
Livro sobre Probabilidade e Estatística Inferencial
Tipologia: Manuais, Projetos, Pesquisas
1 / 154
Esta página não é visível na pré-visualização
Não perca as partes importantes!





























































































Este material não pode ser copiado, reproduzido, reimpresso, utilizado em filmes ou gravações de vídeo ou armazenado em dispositivos eletrônicos sem a permissão escrita dos detentores dos direitos de co- pyright. O material não pode ser incorporado em programas de treinamento com exceção da supervisão de algum instrutor da EDTI Consultoria e Treinamento LTDA.
Autor:
Ademir J Petenate, Escola EDTI
Publicado por Escola EDTI®
Campinas, São Paulo
Impresso no Brasil
Para avaliar a performance do processo e a qualidade do que se está produzindo é necessário cole- tar dados sobre o processo ou produto. Os dados devem ser analisados e decisões devem ser feitas com respeito ao processo, e essas decisões devem ser tomadas na presença de variabilidade. A Estatística é a ferramenta adequada para se planejar a coleta de dados que sejam relevantes para o problema em estudo, bem como para analisá-las.
Se o sistema de medidas tem resolução suficiente, todas as medidas apresentam variabilidade. Existem muitas razões para a presença dessa variabilidade. Por exemplo, a variabilidade pode surgir porque as condições em que um produto é fabricado variam ao longo do tempo. Essa variabilidade pode se originar por variações na matéria prima, diferenças entre as máquinas, entre operadores, entre condições de operações (temperatura, umidade, pressão). Parte da variabilidade pode ser originária do próprio sistema de medição utilizado. Instrumentos de medição de baixa precisão ou entrevistadores mal treinados são alguns exemplos. Esta variabilidade é chamada de variabilidade devida ao processo de me- dição.
Para exemplificar a diferença entre a variabilidade devida ao processo de produção e a variabili- dade devido ao processo de medição considere o seguinte exemplo. Dez peças são produzidas e o diâme- tro de cada peça é medida. Supondo que não há erro de medição envolvido, as 10 medidas apresentam va- riabilidade que é devida ao processo de produção. Se agora uma peça é selecionada e medida dez vezes com uma régua escolar, as dez medidas quase certamente apresentarão variabilidade devido à baixa preci- são do instrumento de medida utilizado. Se agora medimos as dez peças com a régua escolar, as medidas apresentam variabilidade que reflete uma combinação entre variabilidade de processo e de instrumento. É necessário entender, quantificar e dominar essa variabilidade.
A aquisição dos dados
A análise estatística depende fundamentalmente de observações ou medidas. Nós nos referimos a essas observações ou medidas como dados.
A coleta de dados é o primeiro passo a ser executado quando se está analisando um processo. Mesmo nas situações mais simples, é necessário planejar a coleta de dados, observando que os mesmos sejam relevantes para o estudo a ser realizado.
Os dados coletados sobre um processo devem fornecer informações para a que a equipe de me- lhoria possa atuar no processo visando a sua melhoria. Para isso, é necessário que a equipe saiba porque eles precisam dos dados, que dados serão coletados, quando e como eles serão obtidos.
É importante que os dados adquiridos no estudo de um problema de interesse sejam corretamente coletados. Além disso, como atualmente esses dados serão, muito provavelmente, analisados através de um software apropriado, a estruturação correta dos mesmos é essencial. O passo final do processo de co- leta de dados é tornar os dados disponíveis para o software, levando-se em conta a estruturação requerida pelo programa utilizado.
Em alguns casos os dados são coletados simplesmente para descrever o processo. Em outras situ- ações, os dados são coletados para monitorar o processo. Por exemplo, se a empresa produz um produto que tem um peso liquido especificado, é necessário retirar amostras de tempos em tempos e testar se o processo está sob controle.
A próxima etapa é decidir que dados serão coletados. Qualquer processo gera uma quantidade grande de variáveis que podem ser medidas com o objetivo de controlar o processo. Algumas são críticas para o controle e outras são irrelevantes. Mesmo algumas variáveis críticas podem não estar disponíveis para análise a tempo de permitir interferência no processo.
A equipe de melhoria deve considerar também em que ponto do processo os dados devem ser co- letados. Por exemplo, se o produto é formado de várias partes, as medidas serão realizadas nas partes ou no produto final?
Variável - é uma característica observada em um elemento. Sexo é uma variável do conjunto de dados definido acima. Um conjunto de dados é univariado quando contém apenas uma variável, bivariado quando contém duas variáveis e multivariado quando contém três ou mais variáveis.
Caso ou registro - é o conjunto de resultados das variáveis quando aplicados em um elemento. No exemplo acima cada linha da tabela forma um registro.
Observação - é a informação sobre uma única variável em um elemento do conjunto de dados. Por exemplo, 32 é uma observação para a variável idade no elemento Alberto.
Fonte dos dados
Uma organização obtém seus dados de fontes internas ou de fontes externas. Qualquer organiza- ção está constantemente gerando dados que podem ou não estar sendo apropriados ou aproveitados. Esses dados formam um capital valioso quando apropriados corretamente e estruturados de tal forma que pos- sam ser facilmente trabalhados para se transformarem em informação.
Outros dados são obtidos pela organização através de publicações especializadas, bancos de da- dos de serviços, relatórios governamentais, etc.
Quando se usa qualquer fonte de dados, é necessário estar atento para as limitações e para a qua- lidade dos dados. Deve-se estar atento para a possibilidade de que ocorram erros na aquisição dos dados. Esses erros podem ser devidos aos instrumentos de medida utilizados, erros de transferência dos dados de um meio (papel) para outro (arquivo computacional), erros de preenchimento de questionários, dupla con- tagem, transformações de variáveis devido a erro no programa computacional, etc. É importante também obter uma boa descrição do significado e do conteúdo das variáveis a serem analisadas. Conclusões errô- neas podem ser tiradas quando não se atenta para esses detalhes.
Distribuições
Existe outro conceito importante que queremos introduzir logo no início dessa discussão. Esse conceito é o de distribuição. Para tanto considere o conjunto de dados que contém o peso líquido de leite evaporado em gramas de uma amostra retirada da produção.
Examinando o arquivo, nós encontramos 60 registros, sendo que os pesos variam de 265.1 a 281.8 gramas .A maioria dos pesos, entretanto, está entre 270 e 276 gramas. Uma melhor descrição dos pesos, do ponto de vista estatístico, e feita através da distribuição dos pesos. A distribuição é representada graficamente pela figura abaixo. Através do gráfico podemos observar o comportamento dos pesos e examinar características como: simetria da distribuição, região onde há maior concentração de valores, o centro da distribuição (média, mediana, etc.), a dispersão dos valores em torno de um valor central. Po- demos observar também que aproximadamente 10% dos latas tem peso líquido acima de 277.3. A distri- buição, como veremos em detalhes mais à frente, nos fornece uma grande quantidade de informações so- bre o conjunto de dados que estamos analisando. A figura a seguir apresenta a distribuição dos valores de peso líquido do conjunto de dados apresentado acima.
Tabela 1: Peso líquido Lata Peso Lata Peso Lata Peso Lata Peso 1 275.40 16 275.20 31 273.90 46 271. 2 275.30 17 279.10 32 266.80 47 266. 3 271.40 18 276.30 33 271.40 48 271. 4 270.30 19 271.80 34 270.50 49 276.5 0 5 275.70 20 278.50 35 276.10 50 272. 6 277.30 21 271.70 36 270.30 51 271. 7 268.00 22 281.80 37 272.50 52 271. 8 273.30 23 272.60 38 274.10 53 274. 9 277.10 24 268.80 39 271.20 54 274. 10 276.00 25 272.40 40 275.20 55 272. 11 275.70 26 275.20 41 271.30 56 272. 12 275.90 27 276.70 42 278.80 57 269. 13 271.60 28 276.00 43 273.80 58 274. 14 276.30 29 272.60 44 277.80 59 267. 15 266.50 30 273.40 45 274.70 60 265.
A sumarização e exposição dos aspectos importantes de um conjunto de dados é chamada de Es- tatística Descritiva. Sob esse nome reunimos um conjunto de técnicas que visam condensar os dados atra- vés de gráficos e tabelas, e do cálculo de alguns números que indicam a tendência central dos dados (va- lor médio), e medem a variabilidade dos mesmos.
As situações reais com que nos defrontamos são as mais diversas. Os métodos que serão apresen- tados aqui funcionam sob situações bastante gerais, e se aplicam tanto a situações em que os dados foram obtidos de uma amostra (fração) da população, bem como a situações em que todos os indivíduos da po- pulação são avaliados (censo), mas com certeza não funcionarão em todas as situações. Entretanto, alguns aspectos da análise merecem ser destacados. Cada conjunto de dados deveria ser examinado sob os se- guintes aspectos:
Os dados deveriam ser resumidos através de gráficos e tabelas, buscando principalmente:
Classificação de Variáveis
É comum representarmos o peso de uma criança por um número que expressa a quantidade em gramas. Por outro lado, o sexo de uma criança é, em geral representado por F ou M. Nada impede que uti- lizamos os códigos 1 e 2 para Masculino e Feminino respectivamente, mas nesse caso os numerais 1 e 2 representam símbolos.
Variáveis em um conjunto de dados podem ser classificadas de muitas formas distintas, depen- dendo do objetivo. A classificação pode ser feita em função da relação entre as variáveis (dependente ou independente) do tipo de observação gerada (numérica, não numérica), da técnica de análise empregada,
ou de qualquer outro objetivo. Apresentaremos algumas classificações que serão úteis no desenvolvimen- to do texto.
Em muitas técnicas estatísticas, as variáveis são classificadas como dependentes (ou resposta) e independentes (ou explanatórias). Por exemplo, se queremos estudar a relação entre o rendimento de um processo (Y) e a temperatura de operação (T) através de uma relação funcional Y=f (T), a variável Y é classificada como resposta ou dependente e a variável T é classificada como explanatória ou independen- te. A idéia é que o rendimento “depende” ou pode ser explicado pela variável T, a qual pode ser fixada de forma independente.
Uma variável é quantitativa quando o resultado da observação é numérica e qualitativa quando re- sulta em uma qualidade ou atributo.
Variáveis podem também ser classificadas com discretas ou contínuas, dependendo da escala uti- lizada.
Escala discreta Variáveis medidas numa escala discreta assumem valores que podem ser associados com os números naturais. Ou de outra forma, é possível ordenar todos os valores possíveis de ocorrerem. A idade de uma pessoa em número de anos completos, o número de pessoas que habitam uma residência são exemplos de variáveis discretas. O conjunto de valores possíveis pode ser finito ou infinito enumerável. Esse tipo de escala surge naturalmente quando realizamos contagens
Incluímos nesse tipo de variáveis aquelas em que a escala de medidas consiste de um conjunto de categorias, como por exemplo, a filiação partidária, o sexo de um recém-nascido, etc. Variáveis medidas numa escala discreta são chamadas às vezes de categóricas, dependendo do número de níveis e da técnica estatística empregada na sua análise.
A própria distinção entre variável discreta e variável contínua às vezes depende da técnica estatís- tica empregada na sua análise. Procuraremos deixar claro essa distinção quando for necessário.
Descrição de Dados por Gráficos e Tabelas
Uma etapa importante na análise estatística é a sumarização dos dados através da construção de tabelas e gráficos e do cálculo de quantidades que representem características importantes do conjunto de dados tais como distribuição, locação e dispersão.
Vamos considerar um exemplo. Os dados seguintes mostram o valor de venda de um determinado produto em 95 pontos de venda amostrados na cidade de São Paulo.
Tabela 2: Valor de venda 33.1 37.0 39.2 40.0 41.2 42.7 44.0 45.3 47.0 50. 33.5 37.2 39.2 40.0 41.2 43.0 44.0 45.3 47.0 50. 34.7 37.5 39.2 40.2 41.5 43.0 44.2 45.5 47.2 51. 35.0 38.0 39.5 40.5 41.5 43.0 44.2 45.5 47.5 5 1. 35.2 38.2 39.5 40.7 41.7 43.2 44.5 46.0 47.6 52. 35.5 38.5 39.5 40.7 42.1 43.2 44.5 46.0 47. 35.7 38.7 39.7 41.0 42.1 43.5 44.8 46.5 48. 36.1 38.7 39.7 41.0 42.2 43.5 44.9 46.5 48. 36.5 38.8 39.7 41.0 42.2 43.5 45.1 46.7 49. 37.0 38.9 40 .0 41.2 42.5 43.5 45.2 47.0 50.
Para ressaltar aspectos estruturais de um conjunto de dados, os mesmos são condensados numa tabela chamada de distribuição de frequência, que é essencialmente uma tabela como a apresentada abai- xo.
Tabela 3: Tabela de frequência Intervalo de classe
Ponto médio
Freq Freq acum Freq relat
Freq relat acum 33 - 36 34.5 7 7 7.37 7.
Para construir uma distribuição de frequência devemos efetuar os seguintes passos:
Número de classes
O número de intervalos de classe deve levar em conta o número de observações e a efetividade da tabela de frequência em mostrar a forma da distribuição. Se poucos intervalos forem utilizados, perde-se no detalhe e pode não ficar evidenciada a forma da distribuição. Com um número muito grande de inter- valos, as classes podem ter poucas observações em cada uma e novamente não ficar explicitada a distri- buição dos dados. Geralmente são utilizados de 7 a 15 intervalos de classe. Se o número de observações
Para um valor Y0 na ordenada, o gráfico apresenta a proporção de valores no conjunto de dados que são menores ou iguais a Y0.
O histograma é uma forma clássica de representar a distribuição dos resultados. Uma forma alter- nativa, e que é muito simples de ser feita, é o ramo-e- folhas, que é uma combinação de tabela e gráfico.
A melhor forma de explicar o que é um gráfico ramo-e-folha é através de um exemplo. A tabela abaixo apresenta os valores de aluguéis de um determinado tipo de imóvel (em mil).
Tabela 4: Valor do aluguel 1.39 1.40 1.60 1.41 1. 1.46 1.30 1.50 1.34 1. 1.56 1.35 1.52 1.51 1. 1.39 1.55 1.59 1.50 1. 1.61 1.32 1.46 1.30 1. 1.52 1.48 1.38 1.40 1. 1.39 1.33 1.46 1.43 1. 1.57 1.50 1.20 1.48 1. 1.65 1.51 1.42 1.60 1. 1.38 1.46 1.39 1.42 1. 1.70 1.55 1.46 1.52 1. 1.52 1.25 1.48 1.60 1. 1.51 1.35 1.40 1.46 1. 1.62 1.46 1.51 1.24 1. 1.56 1.30 1.40 1.55 1. 1.52 1.43 1.39 1.41 1. 1.40 1.35 1.48 1.42 1. 1.38 1.55 1.46 1.58 1. 1.41 1.29 1.41 1.42 1. 1.38 1.48 1.42 1.60 1.
O primeiro valor na tabela (1.39) será usado para ilustrar o princípio. O número 1.39 é separado em duas partes da seguinte forma:
Número : 1.39 Partição: 13|9 Ramo: 13 Folha: 9
Construímos então uma coluna com os ramos possíveis. No exemplo, os ramos são formados pe- los números 11, 12, 13, 14, 15, 16 e 17, já que as medidas variam de 11.9 a 17.0. Ao lado de cada ramo, formando as folhas, anotamos o último dígito da medida, cada uma corresponde ao seu ramo. Finalmen- te, podemos ordenar os números nas folhas.
Figura 2: Gráfico Ramo e Folha do valor do aluguel
O gráfico ramo-e-folhas apresenta algumas vantagens sobre o histograma:
ᠸ = 10 × log⡩⡨ ᡦ L = 10*log10 n