Docsity
Docsity

Prepare-se para as provas
Prepare-se para as provas

Estude fácil! Tem muito documento disponível na Docsity


Ganhe pontos para baixar
Ganhe pontos para baixar

Ganhe pontos ajudando outros esrudantes ou compre um plano Premium


Guias e Dicas
Guias e Dicas


Estatística: Probabilidade e Inferência, Manuais, Projetos, Pesquisas de Estatística

Livro sobre Probabilidade e Estatística Inferencial

Tipologia: Manuais, Projetos, Pesquisas

2015

Compartilhado em 30/10/2022

patrick-fernandes-ribeiro-da-fonsec
patrick-fernandes-ribeiro-da-fonsec 🇧🇷

5 documentos

1 / 154

Toggle sidebar

Esta página não é visível na pré-visualização

Não perca as partes importantes!

bg1
Estatística:
Probabilidade e
Inferência
Ademir José Petenate
pf3
pf4
pf5
pf8
pf9
pfa
pfd
pfe
pff
pf12
pf13
pf14
pf15
pf16
pf17
pf18
pf19
pf1a
pf1b
pf1c
pf1d
pf1e
pf1f
pf20
pf21
pf22
pf23
pf24
pf25
pf26
pf27
pf28
pf29
pf2a
pf2b
pf2c
pf2d
pf2e
pf2f
pf30
pf31
pf32
pf33
pf34
pf35
pf36
pf37
pf38
pf39
pf3a
pf3b
pf3c
pf3d
pf3e
pf3f
pf40
pf41
pf42
pf43
pf44
pf45
pf46
pf47
pf48
pf49
pf4a
pf4b
pf4c
pf4d
pf4e
pf4f
pf50
pf51
pf52
pf53
pf54
pf55
pf56
pf57
pf58
pf59
pf5a
pf5b
pf5c
pf5d
pf5e
pf5f
pf60
pf61
pf62
pf63
pf64

Pré-visualização parcial do texto

Baixe Estatística: Probabilidade e Inferência e outras Manuais, Projetos, Pesquisas em PDF para Estatística, somente na Docsity!

Estatística:

Probabilidade e

Inferência

Ademir José Petenate

Este material não pode ser copiado, reproduzido, reimpresso, utilizado em filmes ou gravações de vídeo ou armazenado em dispositivos eletrônicos sem a permissão escrita dos detentores dos direitos de co- pyright. O material não pode ser incorporado em programas de treinamento com exceção da supervisão de algum instrutor da EDTI Consultoria e Treinamento LTDA.

Autor:

Ademir J Petenate, Escola EDTI

Publicado por Escola EDTI®

Campinas, São Paulo

Impresso no Brasil

  • Capítulo 1. Estatística Descritiva
    • Variabilidade e Estatística
    • A aquisição dos dados
    • Fonte dos dados
    • Distribuições
    • Classificação de Variáveis
    • Descrição de Dados por Gráficos e Tabelas...............................................................................
    • Medidas de Centralidade
    • Medidas de Variabilidade
    • Box Plot......................................................................................................................................
    • Diagrama de Pareto
    • Série de Tempo
    • Gráfico de Dispersão e o Coeficiente de correlação
  • Capítulo 2. Introdução à Probabilidade
    • Introdução
    • Conceitos de Probabilidade
    • As leis da Probabilidade
    • Probabilidade Condicional e Independência
    • Distribuição de Probabilidades
    • Distribuição de Probabilidade Discreta
    • Média ou Valor esperado
    • Variância
  • Capítulo 3. Modelos Probabilísticos
    • Modelos Probabilísticos Discretos
    • Ensaios de Bernoulli: Sucesso - Falha
    • Distribuição Binomial
    • Distribuição Hipergeométrica
    • Distribuição Multinomial
    • A Distribuição Geométrica
    • Eventos raros e a Distribuição de Poisson
    • Distribuições de Variáveis Aleatórias Contínuas
    • A Distribuição Normal
    • A Distribuição t de Student
  • Capítulo 4. Estimação e distribuições amostrais....................................................................................
    • População e Amostra..................................................................................................................
    • Amostragem e censo
    • Estudos Observacionais ou Dados Históricos
    • Experimentos Controlados
    • População
    • Amostra
    • Erros amostrais e não amostrais
    • Amostragem Aleatória Simples
    • Procedimentos gráficos para verificar a condição de amostra aleatória simples
    • Parâmetros e Estatísticas
    • Distribuição Amostral
    • Estatística
    • Estimação da Média e do Desvio Padrão Populacional
    • Estudos Observacionais
  • Capítulo 5. Testes de Hipóteses
    • Introdução
    • Testes monocaudal e bicaudal
    • Curva Característica de Operação
    • Teste de hipóteses para a diferença entre duas médias
    • Amostras Pareadas
  • Processos biológicos: pressão arterial, número de espécies, tempo de vida, etc. Em todas as situações descritas acima o que obtemos são respostas, as quais podem assumir dife- rentes características: podem ser resultados numéricos (renda familiar, tempo de sobrevivência) ou sim- plesmente resultados qualitativos (opção partidária, local de nascimento, sobrevivência ou não de um animal, etc.).

Para avaliar a performance do processo e a qualidade do que se está produzindo é necessário cole- tar dados sobre o processo ou produto. Os dados devem ser analisados e decisões devem ser feitas com respeito ao processo, e essas decisões devem ser tomadas na presença de variabilidade. A Estatística é a ferramenta adequada para se planejar a coleta de dados que sejam relevantes para o problema em estudo, bem como para analisá-las.

Se o sistema de medidas tem resolução suficiente, todas as medidas apresentam variabilidade. Existem muitas razões para a presença dessa variabilidade. Por exemplo, a variabilidade pode surgir porque as condições em que um produto é fabricado variam ao longo do tempo. Essa variabilidade pode se originar por variações na matéria prima, diferenças entre as máquinas, entre operadores, entre condições de operações (temperatura, umidade, pressão). Parte da variabilidade pode ser originária do próprio sistema de medição utilizado. Instrumentos de medição de baixa precisão ou entrevistadores mal treinados são alguns exemplos. Esta variabilidade é chamada de variabilidade devida ao processo de me- dição.

Para exemplificar a diferença entre a variabilidade devida ao processo de produção e a variabili- dade devido ao processo de medição considere o seguinte exemplo. Dez peças são produzidas e o diâme- tro de cada peça é medida. Supondo que não há erro de medição envolvido, as 10 medidas apresentam va- riabilidade que é devida ao processo de produção. Se agora uma peça é selecionada e medida dez vezes com uma régua escolar, as dez medidas quase certamente apresentarão variabilidade devido à baixa preci- são do instrumento de medida utilizado. Se agora medimos as dez peças com a régua escolar, as medidas apresentam variabilidade que reflete uma combinação entre variabilidade de processo e de instrumento. É necessário entender, quantificar e dominar essa variabilidade.

A aquisição dos dados

A análise estatística depende fundamentalmente de observações ou medidas. Nós nos referimos a essas observações ou medidas como dados.

A coleta de dados é o primeiro passo a ser executado quando se está analisando um processo. Mesmo nas situações mais simples, é necessário planejar a coleta de dados, observando que os mesmos sejam relevantes para o estudo a ser realizado.

Os dados coletados sobre um processo devem fornecer informações para a que a equipe de me- lhoria possa atuar no processo visando a sua melhoria. Para isso, é necessário que a equipe saiba porque eles precisam dos dados, que dados serão coletados, quando e como eles serão obtidos.

É importante que os dados adquiridos no estudo de um problema de interesse sejam corretamente coletados. Além disso, como atualmente esses dados serão, muito provavelmente, analisados através de um software apropriado, a estruturação correta dos mesmos é essencial. O passo final do processo de co- leta de dados é tornar os dados disponíveis para o software, levando-se em conta a estruturação requerida pelo programa utilizado.

Em alguns casos os dados são coletados simplesmente para descrever o processo. Em outras situ- ações, os dados são coletados para monitorar o processo. Por exemplo, se a empresa produz um produto que tem um peso liquido especificado, é necessário retirar amostras de tempos em tempos e testar se o processo está sob controle.

A próxima etapa é decidir que dados serão coletados. Qualquer processo gera uma quantidade grande de variáveis que podem ser medidas com o objetivo de controlar o processo. Algumas são críticas para o controle e outras são irrelevantes. Mesmo algumas variáveis críticas podem não estar disponíveis para análise a tempo de permitir interferência no processo.

A equipe de melhoria deve considerar também em que ponto do processo os dados devem ser co- letados. Por exemplo, se o produto é formado de várias partes, as medidas serão realizadas nas partes ou no produto final?

Variável - é uma característica observada em um elemento. Sexo é uma variável do conjunto de dados definido acima. Um conjunto de dados é univariado quando contém apenas uma variável, bivariado quando contém duas variáveis e multivariado quando contém três ou mais variáveis.

Caso ou registro - é o conjunto de resultados das variáveis quando aplicados em um elemento. No exemplo acima cada linha da tabela forma um registro.

Observação - é a informação sobre uma única variável em um elemento do conjunto de dados. Por exemplo, 32 é uma observação para a variável idade no elemento Alberto.

Fonte dos dados

Uma organização obtém seus dados de fontes internas ou de fontes externas. Qualquer organiza- ção está constantemente gerando dados que podem ou não estar sendo apropriados ou aproveitados. Esses dados formam um capital valioso quando apropriados corretamente e estruturados de tal forma que pos- sam ser facilmente trabalhados para se transformarem em informação.

Outros dados são obtidos pela organização através de publicações especializadas, bancos de da- dos de serviços, relatórios governamentais, etc.

Quando se usa qualquer fonte de dados, é necessário estar atento para as limitações e para a qua- lidade dos dados. Deve-se estar atento para a possibilidade de que ocorram erros na aquisição dos dados. Esses erros podem ser devidos aos instrumentos de medida utilizados, erros de transferência dos dados de um meio (papel) para outro (arquivo computacional), erros de preenchimento de questionários, dupla con- tagem, transformações de variáveis devido a erro no programa computacional, etc. É importante também obter uma boa descrição do significado e do conteúdo das variáveis a serem analisadas. Conclusões errô- neas podem ser tiradas quando não se atenta para esses detalhes.

Distribuições

Existe outro conceito importante que queremos introduzir logo no início dessa discussão. Esse conceito é o de distribuição. Para tanto considere o conjunto de dados que contém o peso líquido de leite evaporado em gramas de uma amostra retirada da produção.

Examinando o arquivo, nós encontramos 60 registros, sendo que os pesos variam de 265.1 a 281.8 gramas .A maioria dos pesos, entretanto, está entre 270 e 276 gramas. Uma melhor descrição dos pesos, do ponto de vista estatístico, e feita através da distribuição dos pesos. A distribuição é representada graficamente pela figura abaixo. Através do gráfico podemos observar o comportamento dos pesos e examinar características como: simetria da distribuição, região onde há maior concentração de valores, o centro da distribuição (média, mediana, etc.), a dispersão dos valores em torno de um valor central. Po- demos observar também que aproximadamente 10% dos latas tem peso líquido acima de 277.3. A distri- buição, como veremos em detalhes mais à frente, nos fornece uma grande quantidade de informações so- bre o conjunto de dados que estamos analisando. A figura a seguir apresenta a distribuição dos valores de peso líquido do conjunto de dados apresentado acima.

Tabela 1: Peso líquido Lata Peso Lata Peso Lata Peso Lata Peso 1 275.40 16 275.20 31 273.90 46 271. 2 275.30 17 279.10 32 266.80 47 266. 3 271.40 18 276.30 33 271.40 48 271. 4 270.30 19 271.80 34 270.50 49 276.5 0 5 275.70 20 278.50 35 276.10 50 272. 6 277.30 21 271.70 36 270.30 51 271. 7 268.00 22 281.80 37 272.50 52 271. 8 273.30 23 272.60 38 274.10 53 274. 9 277.10 24 268.80 39 271.20 54 274. 10 276.00 25 272.40 40 275.20 55 272. 11 275.70 26 275.20 41 271.30 56 272. 12 275.90 27 276.70 42 278.80 57 269. 13 271.60 28 276.00 43 273.80 58 274. 14 276.30 29 272.60 44 277.80 59 267. 15 266.50 30 273.40 45 274.70 60 265.

A sumarização e exposição dos aspectos importantes de um conjunto de dados é chamada de Es- tatística Descritiva. Sob esse nome reunimos um conjunto de técnicas que visam condensar os dados atra- vés de gráficos e tabelas, e do cálculo de alguns números que indicam a tendência central dos dados (va- lor médio), e medem a variabilidade dos mesmos.

As situações reais com que nos defrontamos são as mais diversas. Os métodos que serão apresen- tados aqui funcionam sob situações bastante gerais, e se aplicam tanto a situações em que os dados foram obtidos de uma amostra (fração) da população, bem como a situações em que todos os indivíduos da po- pulação são avaliados (censo), mas com certeza não funcionarão em todas as situações. Entretanto, alguns aspectos da análise merecem ser destacados. Cada conjunto de dados deveria ser examinado sob os se- guintes aspectos:

Os dados deveriam ser resumidos através de gráficos e tabelas, buscando principalmente:

  1. Examinar a forma geral da distribuição dos dados a. A existência de observações atípicas que pareçam se destacar do conjunto dos dados.
  2. Cálculo de medidas numéricas que: a. indiquem a tendência central b. quantifiquem a variabilidade presente nos dados.

Classificação de Variáveis

É comum representarmos o peso de uma criança por um número que expressa a quantidade em gramas. Por outro lado, o sexo de uma criança é, em geral representado por F ou M. Nada impede que uti- lizamos os códigos 1 e 2 para Masculino e Feminino respectivamente, mas nesse caso os numerais 1 e 2 representam símbolos.

Variáveis em um conjunto de dados podem ser classificadas de muitas formas distintas, depen- dendo do objetivo. A classificação pode ser feita em função da relação entre as variáveis (dependente ou independente) do tipo de observação gerada (numérica, não numérica), da técnica de análise empregada,

ou de qualquer outro objetivo. Apresentaremos algumas classificações que serão úteis no desenvolvimen- to do texto.

Variáveis Dependentes e Independentes

Em muitas técnicas estatísticas, as variáveis são classificadas como dependentes (ou resposta) e independentes (ou explanatórias). Por exemplo, se queremos estudar a relação entre o rendimento de um processo (Y) e a temperatura de operação (T) através de uma relação funcional Y=f (T), a variável Y é classificada como resposta ou dependente e a variável T é classificada como explanatória ou independen- te. A idéia é que o rendimento “depende” ou pode ser explicado pela variável T, a qual pode ser fixada de forma independente.

Variáveis Quantitativas e Qualitativas

Uma variável é quantitativa quando o resultado da observação é numérica e qualitativa quando re- sulta em uma qualidade ou atributo.

Tipos de Escalas de Respostas

Variáveis podem também ser classificadas com discretas ou contínuas, dependendo da escala uti- lizada.

Escala discreta Variáveis medidas numa escala discreta assumem valores que podem ser associados com os números naturais. Ou de outra forma, é possível ordenar todos os valores possíveis de ocorrerem. A idade de uma pessoa em número de anos completos, o número de pessoas que habitam uma residência são exemplos de variáveis discretas. O conjunto de valores possíveis pode ser finito ou infinito enumerável. Esse tipo de escala surge naturalmente quando realizamos contagens

Incluímos nesse tipo de variáveis aquelas em que a escala de medidas consiste de um conjunto de categorias, como por exemplo, a filiação partidária, o sexo de um recém-nascido, etc. Variáveis medidas numa escala discreta são chamadas às vezes de categóricas, dependendo do número de níveis e da técnica estatística empregada na sua análise.

A própria distinção entre variável discreta e variável contínua às vezes depende da técnica estatís- tica empregada na sua análise. Procuraremos deixar claro essa distinção quando for necessário.

Descrição de Dados por Gráficos e Tabelas

Tabela de frequência

Uma etapa importante na análise estatística é a sumarização dos dados através da construção de tabelas e gráficos e do cálculo de quantidades que representem características importantes do conjunto de dados tais como distribuição, locação e dispersão.

Vamos considerar um exemplo. Os dados seguintes mostram o valor de venda de um determinado produto em 95 pontos de venda amostrados na cidade de São Paulo.

Tabela 2: Valor de venda 33.1 37.0 39.2 40.0 41.2 42.7 44.0 45.3 47.0 50. 33.5 37.2 39.2 40.0 41.2 43.0 44.0 45.3 47.0 50. 34.7 37.5 39.2 40.2 41.5 43.0 44.2 45.5 47.2 51. 35.0 38.0 39.5 40.5 41.5 43.0 44.2 45.5 47.5 5 1. 35.2 38.2 39.5 40.7 41.7 43.2 44.5 46.0 47.6 52. 35.5 38.5 39.5 40.7 42.1 43.2 44.5 46.0 47. 35.7 38.7 39.7 41.0 42.1 43.5 44.8 46.5 48. 36.1 38.7 39.7 41.0 42.2 43.5 44.9 46.5 48. 36.5 38.8 39.7 41.0 42.2 43.5 45.1 46.7 49. 37.0 38.9 40 .0 41.2 42.5 43.5 45.2 47.0 50.

Para ressaltar aspectos estruturais de um conjunto de dados, os mesmos são condensados numa tabela chamada de distribuição de frequência, que é essencialmente uma tabela como a apresentada abai- xo.

Tabela 3: Tabela de frequência Intervalo de classe

Ponto médio

Freq Freq acum Freq relat

Freq relat acum 33 - 36 34.5 7 7 7.37 7.

Para construir uma distribuição de frequência devemos efetuar os seguintes passos:

  1. Ordenar os valores do conjunto de dados
  2. Encontrar o valor mínimo( xmin) o valor máximo (xmax) do conjunto de dados
  3. Escolher um número de subintervalos, em geral de igual comprimento, que contém o mínimo e o máximo, de tal forma que eles não se superponham, ou seja, cada medida é classificada em ape- nas um dos subintervalos. Esses intervalos são chamados de intervalos de classe e os limites do intervalo de limites de classe.
  4. Contar o número de observações que caem em cada intervalo de classe. Esse número é chamado de frequência da classe ou simplesmente frequência.
  5. Determinar a frequência relativa do intervalo de classe dividindo a frequência pelo número total de observações. Frequência relativa = Frequência/Total de observações. A escolha do número de intervalos de classe e de sua amplitude merece algumas considerações.

Número de classes

O número de intervalos de classe deve levar em conta o número de observações e a efetividade da tabela de frequência em mostrar a forma da distribuição. Se poucos intervalos forem utilizados, perde-se no detalhe e pode não ficar evidenciada a forma da distribuição. Com um número muito grande de inter- valos, as classes podem ter poucas observações em cada uma e novamente não ficar explicitada a distri- buição dos dados. Geralmente são utilizados de 7 a 15 intervalos de classe. Se o número de observações

Para um valor Y0 na ordenada, o gráfico apresenta a proporção de valores no conjunto de dados que são menores ou iguais a Y0.

Gráfico Ramo-e-Folhas

O histograma é uma forma clássica de representar a distribuição dos resultados. Uma forma alter- nativa, e que é muito simples de ser feita, é o ramo-e- folhas, que é uma combinação de tabela e gráfico.

A melhor forma de explicar o que é um gráfico ramo-e-folha é através de um exemplo. A tabela abaixo apresenta os valores de aluguéis de um determinado tipo de imóvel (em mil).

Tabela 4: Valor do aluguel 1.39 1.40 1.60 1.41 1. 1.46 1.30 1.50 1.34 1. 1.56 1.35 1.52 1.51 1. 1.39 1.55 1.59 1.50 1. 1.61 1.32 1.46 1.30 1. 1.52 1.48 1.38 1.40 1. 1.39 1.33 1.46 1.43 1. 1.57 1.50 1.20 1.48 1. 1.65 1.51 1.42 1.60 1. 1.38 1.46 1.39 1.42 1. 1.70 1.55 1.46 1.52 1. 1.52 1.25 1.48 1.60 1. 1.51 1.35 1.40 1.46 1. 1.62 1.46 1.51 1.24 1. 1.56 1.30 1.40 1.55 1. 1.52 1.43 1.39 1.41 1. 1.40 1.35 1.48 1.42 1. 1.38 1.55 1.46 1.58 1. 1.41 1.29 1.41 1.42 1. 1.38 1.48 1.42 1.60 1.

O primeiro valor na tabela (1.39) será usado para ilustrar o princípio. O número 1.39 é separado em duas partes da seguinte forma:

Número : 1.39 Partição: 13|9 Ramo: 13 Folha: 9

Construímos então uma coluna com os ramos possíveis. No exemplo, os ramos são formados pe- los números 11, 12, 13, 14, 15, 16 e 17, já que as medidas variam de 11.9 a 17.0. Ao lado de cada ramo, formando as folhas, anotamos o último dígito da medida, cada uma corresponde ao seu ramo. Finalmen- te, podemos ordenar os números nas folhas.

Figura 2: Gráfico Ramo e Folha do valor do aluguel

O gráfico ramo-e-folhas apresenta algumas vantagens sobre o histograma:

  1. É mais fácil de ser construído manualmente.
  2. As medidas aparecem representadas, o que em algumas situações, é muito importante.
  3. As medidas são apresentadas de forma ordenada. Uma regra para determinar o número máximo de ramos (L) e que funciona adequadamente num número grande de casos é a seguinte:

ᠸ = 10 × log⡩⡨ ᡦ L = 10*log10 n