Baixe Estatística aplicada e outras Manuais, Projetos, Pesquisas em PDF para Matemática Aplicada, somente na Docsity! MEIN q; alfamacursos.com.br Alfama Cursos Antônio Garcez Fábio Garcez Diretores Geral Antônio Álvaro de Carvalho Diretor Acadêmico MATERIAL DIDÁTICO Produção Técnica e Acadêmi Patrícia Queiroz de Meneses Coordenadora Geral Patrícia Queiroz de Meneses Coordenadora Pedagógica Mário Celso Neves de Andrade Autoria Gabriella Caroline Teles Silva Sabina Regina Conceição Santos Revisão Textual Rafael Rezende de Farias Editoração Todos os direitos reservados e protegidos pela Lei 9.610 de 19/02/98. É proibida a reprodução total ou parcial, por quaisquer meios, sem autorização prévia, por escrito, da ALFAMA CURSOS. alfamacursos.com.br MFANV q. o AFIM :q;. o Apresentação do Professor MÁRIO CELSO NEVES DE ANDRADE é graduado em Engenharia Elétrica com habilitação em Eletrônica pela Universidade de Brasília (UFB) e, mestre em Engenharia de Petróleo pela University of Texas at Austin (Estados Unidos) com ênfase na área de Reservatórios. Leciona para cursos de graduação e pós-graduação na FANESE - Faculdade de Administração e Negócios de Sergipe - e cursos de especialização e pós-graduação da Universidade Federal de Sergipe (UFS). Tem experiência na implantação de modelos estatísticos de decisão e controle para o Ministério de Minas e Energia. E alfamacursos.com.br 3 ao +” Componente Curricular EMENTA Dados estatísticos e processo estatístico de decisão; Estatística descritiva: representação gráfica, grupamento de dados, medidas de posição e de variação; Probabilidades e suas propriedades; Noções de controle estatístico do processo; Estatística aplicada à área de Segurança no Trabalho. COMPETÊNCIAS - Usar processos de coletar dados, construir tabelas e gráficos, permitindo a descrição e entendimento dos fenômenos estudados. - Empregar com eficiência a Estatística, proporcionando instrumento para efetuar levantamentos e investigações. - Construir tabelas e gráficos, demonstrando de maneira clara os fenômenos ocorridos na área de investigação. HABILIDADES - Valorizar a importância da Estatística nos diversos momentos das atividades administrativas. - Demonstrar o grau de entendimento dos fenômenos estudados, através da aplicação de conceitos estatísticos. PÚBLICO-ALVO É destinado a estudantes nas áreas de Estatística, Matemática ou áreas afins e professores do Ensino Fundamental e Médio que trabalham de algum modo com a Estatística. Profissionais com diploma nas diversas áreas do conhecimento que desejam utilizar metodologias estatísticas em suas atividades profissionais. alfamacursos.com.br 6 ao FMM » Índice i Capítulo 1 - O Método Estatístico: Coleta, Organização e Representação de Dados ........ 8 1.1 - Exercícios Propostos .... “ Capítulo 2 - Representação Gráfica 2.1 - Gráficos de Linha ou Gráficos Sequenci 2.2 - Gráficos de Barras e Histogramas ........ 2.3 - Gráficos Setoriais ou de Pizza . 2.4 - Exercícios Propostos ......... Capítulo 3 - Distribuições de Frequências 3.1 - Fórmula de Sturges .............. 3.2 - Exercícios Propostos ...........iiis Capítulo 4 - Análise das Distribuições de Frequências 4.1 - Exercícios Propostos .... . Capítulo 5 - Medidas de Posição: Média 5.1 - Medidas de Centro ou de Centralidade 5.2 - Exercícios Propostos . Capítulo 6 - Medidas de Posição: Moda e Mediana . 6.2 - Exercícios Propostos ... Capítulo 7 - Medidas de Variação: Variância 7.1 - Exercícios Propostos ... Capítulo 8 - Medidas de Variação: Desvio Padrão 8.1 - A Regra Empírica ..........iii 8.2 - O Teorema de Chebychev .. 8.3 - Exercícios Propostos . Capítulo 9 - Probabilidades 9.1 - Conceito .............. n. 9.2 - Probabilidades de Eventos (Resultados) que Não São Igualmente Prováveis .... 52 9.3 - Probabilidades de Eventos (Resultados) de Ocorrência Certa e. de Eventos Impossíveis .... 9.4 - Exercícios Propostos . Capítulo 10 - Probabilidades ...... 10.1 - Principais Propriedades 10.2 - Regra da Adição ........ 10.3 - Regra da Multiplicação . 10.4 - Probabilidade de “Pelo Menos Um”. 10.5 - Exercícios Propostos .................. Capítulo 11 - Controle Estatístico de Processo: 11.1 - Exercícios Propostos ................... Capítulo 12 - Controle Estatístico de Processos: Capacidade e Eficiência . 12.1 - Exercícios Propostos ....... Respostas dos Exercícios Propostos Referências Bibliográficas ............. Is alfamacursos.com.br Estatística Aplicada ALFA F uma parte do todo ou uma parte do conjunto dos elementos da população. AMOSTRA Corresponde a uma parte representativa da população, que é selecionada para análise. A representatividade é obtida quando a amostra tem um tamanho adequado e suficiente e quando essa amostra é composta de forma aleatória, ou seja, sem nenhum tipo de “vício” em sua composição. Exemplo: vista de outra maneira, a “população brasileira” pode ser entendida como parte da população mundial. Outro exemplo seriam os eleitores escolhidos nas pesquisas de boca de urna: cerca de dois mil eleitores, escolhidos de forma aleatória e em diferentes regiões, são suficientes para garantir que o resultado daquela amostra possa ser extrapolado para toda a população. Para a seleção dos elementos de uma amostra, é necessário garantir sua aleatoriedade, ou seja, é preciso garantir que seus elementos não sejam escolhidos tendenciosamente, mas sim ao acaso. Para a escolha dos elementos de uma amostra de forma aleatória, um método bastante utilizado é a geração de números aleatórios. Esses números garantem que os elementos sejam escolhidos sem nenhum tipo de tendência forçada, ou seja, sem nenhum tipo de vício. Para exemplificar, se escolhermos os eleitores de uma amostra para pesquisa de boca-de-urna em uma região tradicionalmente reduto de um determinado candidato, estaremos com uma amostra viciada. Numa amostra desse tipo, há uma clara tendência no resultado da pesquisa, antes mesmo que ela seja feita. A “escolha isenta” só poderia ser feita com a utilização de algum mecanismo de garantia da aleatoriedade, ou seja, algum procedimento que garanta que os eleitores pesquisados são de diferentes regiões e são escolhidos ao acaso. Um desses mecanismos, muito utilizado, é a Tabela de Números Aleatórios. E [fe RMT Roma Antiga, os “jogos de . A expressão alea tornou- essou o rio Rubicon com acta est, ou: “A sorte está As tabelas de números aleatórios contêm os 10 algarismos básicos 0, 1, 2,...,8,9, dispostos de forma aleatória, ou seja, sorteados ao acaso, organizados em colunas e linhas. Com o advento da manipulação eletrônica de dados numéricos, é possível gerar uma tabela de números aleatórios a partir de softwares como o EXCEL , entre outros. É bastante simples a utilização do EXCEL para a geração de números aleatórios. Para ilustrar, suponhamos que uma empresa deseje selecionar, de forma aleatória, 5O de seus 900 funcionários para serem entrevistados quanto ao risco de acidentes em uma determinada atividade. Os 900 funcionários dessa empresa poderiam ser numerados sequencialmente pelo número de matrícula, listados em ordem alfabética, ou organizados por algum outro critério. Suponhamos que temos essa lista dos 900 funcionários, numerados de 001 a 900. Como a identificação de cada funcionário exige números de três algarismos, será necessário lermos os números aleatórios da tabela, de 3 em 3 algarismos. Para isso, basta escolhermos - como bem quisermos! - um ponto de origem na tabela (qualquer posição é válida) e a partir daí iniciarmos o processo de escolha ou “sorteio” dos funcionários que serão selecionados para a entrevista. Acesse uma planilha EXCEL (versão 2007, em português) e gere uma tabela de números E m 1 - EXCEL é uma planilha eletrônica que compõe o software Microsoft Office, da Microsoft. E alfamacursos.com.br 10 Estatística Aplicada ALFAMA eo '3- aleatórios, através do banner “Fórmulas/Matemática e Trigonometria”. Escolha a função “ALEATORIOENTRE”, coloque como “argumento inferior” o número 001, e como “argumento superior” o número 900. Pronto! O EXCEL gerará uma tabela de números aleatórios, algarismos dispostos aleatoriamente em linhas e colunas, com as quais você pode escolher os elementos de sua amostra, no caso os funcionários da empresa a serem entrevistados. Cada vez que você acessar a função no EXCEL, a tabela gerada será diferente, já que é aleatória, ou seja, deve ser sorteada completamente ao acaso, sem nenhum vício. Ao selecionar “OK” no EXCEL, o programa gera um número aleatório apenas e o coloca na primeira posição da planilha. Copie esse valor e “arraste” a fórmula para o tamanho desejado da tabela de números aleatórios que você precisa. Como exemplo, geramos a seguinte tabela no EXCEL 2007: Tabela 1.1 - Números aleatórios gerados no EXCEL 394 548 554 620 766 862 89 850 688 50 617 244 832 151 865 124 124 520 767 848 270 762 348 420 641 267 33 404 777 789 793 642 774 222 193 157 626 363 873 348 853 654 305 128 157 697 451 818 334 541 692 114 349 295 715 ss 806 761 218 324 475 660 721 ss6 710 633 277 545 91 11 548 628 377 500 322 64 110 513 160 258 41 646 93 650 329 797 169 31 598 194 469 166 710 663 290 826 339 412 813 580 O primeiro elemento da tabela acima foi gerado e foi copiado (CTRL C), sendo em seguida “arrastada” para o tamanho desejado da tabela, no caso uma tabela de 10 linhas por 10 colunas. Se quisermos, podemos começar com o primeiro elemento (12 linha, 13 coluna) e selecionar os 50 funcionários para a entrevista. Os números assinalados em negrito na tabela são os elementos selecionados para compor a amostra. Colocando os elementos selecionados em ordem crescente, teremos: Tabela 1.2 - Elementos selecionados da tabela de números aleatórios 33 50 89 114 124 128 151 157 193 222 244 267 270 305 334 348 349 363 394 404 420 451 520 541 548 554 617 620 626 641 642 654 688 692 697 762 766 767 774 777 789 793 sis 832 848 850 853 862 865 873 Os elementos selecionados são as pessoas cujos números de ordem (ou de registro) correspondem aos números mostrados nesta última tabela. Assim, dos 900 funcionários, conseguimos selecionar 50, ao acaso, utilizando essa importante ferramenta que é a tabela de números aleatórios. Vale notar que os elementos de números 124, 157 e 348 apareceram mais de uma vez na tabela gerada antes da seleção; foram colocados apenas uma vez na lista dos entrevistados, por se tratar das mesmas pessoas, que vão ser entrevistadas apenas uma vez. E alfamacursos.com.br 11 Estatística Aplicada zação, sumarização e interpretação dos ção de informações, que sirvam de base de prestação de serviço a outra pessoa. numéricas - presta-se a um sem número matemáticas, naturais, da área de saúde eas muito importantes da Estatística são cial. Muito embora não sejam estas as taque, essas duas são de longe as mais pres em todo o mundo. Cabe à Estatística relação a algum referencial quanto ao iabilidade. A Estatística Inferencial cabe s propriedades de toda uma população. oresentativas da população, utilizam-se eros aleatórios. A chamada “tabela de eletronicamente - é um instrumento útil mostra, porque garante a aleatoriedade 1.1 - EXERCÍCIOS PROPOSTOS 1 - Considere que a estatura das pessoas adultas é uma variável aleatória normal, cujos valores variam entre 140 e 210 cm. Utilize a planilha EXCEL para gerar uma tabela de números aleatórios para formar uma amostra contendo 30 indivíduos. 2 - Em um estudo recente, voluntários que dormiram pelo menos 8 horas na noite anterior ao teste eram três vezes mais capazes de responder corretamente às questões de Matemática do ENEM, em relação àqueles que tiveram menos horas de sono. a) Identifique a amostra utilizada no estudo. b) Identifique a população. alfamacursos.com.br 12 a º Estatística Aplicada ALFA mn - GREID :3- 59 1987 | Marlee Matlin 21 Paul Newman 62 60 1988 |Cher 41 Michael Douglas 43 61 1989 | Jodie Foster 26 Dustin Hoffman 51 62 1990 |Jessica Tandy so Daniel Day-Lewis 32 63 1991 | Katty Bates 42 Jeremy Irons 42 64 1992 | Jodie Foster 29 Anthony Hopkins 54 65 1993 | Emma Thompson 33 Al Pacino 52 66 1994 | Holly Hunter 35 Tom Hanks 37 67 1995 | Jessica Lange 45 Tom Hanks 38 68 1996 |Susan Sarandon 49 Nicolas Cage 32 69 1997 | Frances McDormand 39 Geoffrey Rush 45 70 1998 | Helen Hunt 34 Jack Nicholson 60 71 1999 | Gwyneth Paltrow 26 Roberto Benigni 46 72 2000 | Hilary Swank 25 Kevin Spacey 40 73 2001 |Julia Roberts 33 Russell Crowe 36 74 2002 | Halle Berry 35 Denzel Washington 47 75 2003 | Nicole Kidman 35 Adrien Brody 29 76 2004 | Charlize Theron 28 Sean Penn 43 77 2005 | Hilary Swank 30 Jamie Foxx 38 78 2006 |Reese Whiterspoon 30 Philip Seymour Hoffman |39 79 2007 | Helen Mirren 62 Forrest Whitaker 46 so 2008 | Marion Cotillard 33 Daniel Day-Lewis 50 81 2009 | Kate Winslet 34 Sean Penn 48 82 2010 |Sandra Bullock 46 Jeff Bridges 61 83 2011 | Natalie Portman 30 Colin Firth 51 84 2012 |Meryl Streep 62 Jean Dujardin 39 Fonte: Triola, Mário F. Introdução à Estatística, Cap. 2 - Ed. LTC, 2008. 104 edição. Tomando as idades das atrizes premiadas com o Oscar, podemos construir o seguinte gráfico sequencial: Figura 2.1 - Idade das atrizes premiadas com o Oscar de Melhor Atriz Tlude das Atrizes Gunhadoras do Oscar Percebe-se, pelo gráfico, que há uma tendência de que as idades das atrizes ganhadoras do Oscar estejam situadas entre 20 e 50 anos, em sua grande maioria. Pontos fora dessa faixa são esporádicos e aparecem raramente. Esses pontos “fora da tendência” são chamados, = em Estatística, de outliers, e significam pontos que ocorrem em um determinado evento, E alfamacursos.com.br 15 Estatística Aplicada AFIM q. mas estão fora de um range considerado normal ou regular. Uma análise mais cuidadosa da Figura 2.1, revela que idades inferiores a 20 anos ou superiores a 50 anos podem ser consideradas como outliers, ou seja, são pontos fora do “padrão comum”. Pode-se afirmar, portanto, que idades compreendidas entre 20 e 50 anos são consideradas “comuns” ou “normais” para atrizes premiadas com o Oscar. Mais à frente neste curso, veremos que medidas como a média, por exemplo, são fortemente influenciadas pela presença de pontos outliers. Quanto mais “fora do padrão” estiverem esses outliers, maior será sua influência na média. Uma análise visual das idades pela Tabela 2.1 pode ser reveladora para pessoas geniais, mas para a maioria das pessoas, a lista de idades da tabela não revela coisa alguma, a não ser que seja minuciosamente analisada. Felizmente, há métodos para o estudo de conjuntos de dados, que nos revelam características importantes desses dados, permitindo-nos entendê-los e descrevê-los de forma esclarecedora. Essas técnicas são objeto de estudo de uma área específica da Estatística Descritiva: a Estatística ou Análise Gráfica. Com um gráfico, é muito mais simples representar um conjunto de dados, pois permite a visualização rápida de “outliers” e, principalmente, da tendência dos dados. Se fizermos um gráfico semelhante ao da Figura 2.1 para a idade dos atores premiados, veremos que os outliers no caso dos atores são diferentes e que, principalmente, a “faixa de contenção” das idades dos atores é superior à faixa de idade das atrizes. Isso pode estar revelando que a Academia de Hollywood está premiando atrizes em idade mais jovem do que a dos atores, o que pode indicar uma certa tendência a premiar, no caso das atrizes, não só o talento, mas também a juventude e a beleza. Encorajamos os alunos a traçar o gráfico sequencial com as idades dos atores, no mesmo estilo da Figura 2.1. 2.2 - GRÁFICOS DE BARRAS E HISTOGRAMAS Os gráficos de barras ajudam na visualização do comportamento relativo dos dados, permitindo a comparação entre os valores e a distribuição desses dados em relação a uma variável que se deseja verificar. São os gráficos mais adequados para a descrição de dados estatísticos, em especial uma classe de gráficos desta natureza chamados de histogramas. Os histogramas mostram as frequências de observações para cada valor ou para o conjunto de valores da variável que se deseja descrever. Ao invés de nos concentrarmos na construção mecânica de um histograma, que muitos programas e planilhas eletrônicas podem fazer automaticamente, vamos nos concentrar na compreensão do que é um histograma e o que se pode conseguir através de sua análise. Histograma é um gráfico de barras, no qual a escala horizontal representa as classes de valores dos dados e a escala vertical representa as frequências (contagens) desses dados, ou seja, o número de vezes que cada valor ocorre. As alturas das barras correspondem aos valores das frequências, e as barras são desenhadas adjacentes umas às outras, sem separação. O histograma é, portanto, uma versão gráfica da distribuição de frequência dos dados, isto é, de que forma os dados acontecem e quantas vezes cada valor ocorrem em um determinado experimento. Para construirmos um histograma a partir de uma distribuição de frequência, devemos dar alguma atenção às escalas usadas nos eixos vertical e horizontal. alfamacursos.com.br 16 E alfamacursos.com.br 17 Estatística Aplicada ALFA q are Fo A frequência máxima (ou o número conveniente mais alto) deve sugerir um valor para o topo da escala vertical. O O (zero) deve estar na base da escala. A escala horizontal deve ser subdividida de modo a permitir que todas as classes se encaixem. Ambos os eixos devem estar claramente identificados, inclusive com as unidades de medida. A figura a seguir mostra o histograma da distribuição das idades das atrizes premiadas com o Oscar, de acordo com a Tabela 2.1. Figura 2.2 - Idade das atrizes premiadas com o Oscar de Melhor Atriz o Lelacie elmo hialhores Atrizos Fonte: Triola, Mário F. Introdução à Estatística, Cap. 2 - Ed. LTC, 2008. 102 edição. Os histogramas podem também ser utilizados para mostrar, graficamente, as distribuições de frequências relativas (percentuais); a única diferença para o histograma comum é a escala vertical, que varia de O a 100%, ao invés de variar entre o valor mínimo e máximo encontrados. A construção de histogramas não tem o objetivo de traçar um gráfico apenas, mas sim aprender alguma coisa sobre o conjunto de dados que ele representa. Outliers são mais facilmente visualizados quando se constrói o histograma, assim como a centralização dos dados em torno de um certo valor, ou seja, a sua dispersão. Pela Figura 2.2, por exemplo, podemos visualizar que a distribuição das idades das atrizes premiadas é mais concentrada à esquerda e não se distribuem simetricamente em torno de um valor central, o que significa que as atrizes que ganham o Oscar tendem a ser desproporcionalmente mais jovens, com poucas atrizes mais velhas ganhando o prêmio. Incentivamos os alunos a construírem o histograma das idades dos atores premiados com o Oscar, para verificar o comportamento dos dados. 2.3 - GRÁFICOS SETORIAIS OU DE PIZZA Os gráficos setoriais ajudam na visualização do comportamento relativo dos dados, permitindo a comparação entre os valores e a distribuição percentual desses dados, em relação ao total. São os gráficos mais adequados para a descrição da distribuição parcial dos dados, isto é, ajudam na visualização de quanto um determinado valor contribui em relação ao todo. Os gráficos de pizza mostram as porcentagens de observações para cada valor, Ao invés de nos concentrarmos na construção mecânica dos gráficos setoriais (qualquer planilha eletrônica ou software de apoio estatístico pode fazer isso!), vamos nos ater à interpretação dos dados descritos em um gráfico setorial. = nai . Em Estatística Aplicada forma concisa e rápida. é fundamental que sua são necessários alguns apenas com um tipo de os, mas as mais comuns | de gráfico de barras) e por apresentar os dados a a permitir análises que e essas decisões não se vos dos dados, mas sim que permitam o cálculo de seu posicionamento 2.4 - EXERCÍCIOS PROPOSTOS 1 - Trace o gráfico sequencial com as idades dos atores premiados com o Oscar, nos mesmos moldes da Figura 2.1. Qual é a faixa considerada “normal” de idade dos atores premiados? Há algum ponto outlier? 2 - Trace o histograma das idades dos atores premiados com o Oscar, nos mesmos moldes da Figura 2.2. Os dados se distribuem simetricamente em torno de um ponto ou são deslocados para um dos lados (direito / esquerdo)? O que isso significa? 3 - Trace o gráfico setorial com as percentagens das idades das atrizes e outro gráfico setorial com as percentagens das idades dos atores premiados com o Oscar, dividindo essas idades de 10 em 10 anos: comece com a classe de 20 a 30 anos, depois de 30 a 40 anos, e assim sucessivamente. O que você conclui com base nesses gráficos? 4 - Observe o histograma a seguir e responda ao que se pede. O histograma se refere ao peso (em libras) de timoneiros e remadores em uma corrida de barcos. Fonte: Triola, Mário F. Introdução à Estatística, Cap. 2 - Ed. LTC, 2008. 104 edição. a) Quantos membros da tripulação estão incluídos no histograma? b) Qual é o peso mínimo e o peso máximo, em libras? c) Interprete a grande lacuna existente entre a barra mais à esquerda e as demais. A que você atribui essa lacuna? E alfamacursos.com.br 20 É AFIM :g. arED º H Cap tulo 3 - Distribuições de Frequências 3 - DISTRIBUIÇÕES DE FREQUÊNCIAS As distribuições de frequências são tabelas que separam os dados fornecidos em classes, ou seja, em intervalos dentro dos quais uma determinada característica acontece um determinado número de vezes. E com base nas distribuições de frequência que são construídos os histogramas. A título de exemplo, vamos construir a tabela de distribuição de frequências das idades de 50 funcionários de uma empresa: Tabela 3.1 - Idade de 50 funcionários de uma empresa fictícia 18 20 20 21 22 24 25 25 26 27 29 29 30 30 31 31 32 33 34 35 36 36 37 37 37 37 38 38 38 40 41 43 44 44 45 45 45 46 47 48 49 50 51 53 54 54 56 58 62 65 Fonte: Martins, Gilberto A. e Domingues, O. Estatística Geral e Aplicada, Cap. 2 - Ed. Atlas, 2011. 42 ed. O primeiro passo é, sem dúvida, construir o rol, ou seja, colocar os dados em ordem crescente. Neste caso, os dados já foram fornecidos dessa maneira, isto é, o rol já nos foi fornecido. Em seguida, é preciso determinar a amplitude dos dados (R): R = Maior medida - Menor medida Ou, matematicamente: R = Xn - X1 Xn é a maior medida do rol; no caso das idades dos funcionários, é 65 anos. X1 é a menor medida do rol: neste caso, 18 anos. Logo, a amplitude dos dados é: R=65-18=47 O segundo passo é agrupar os dados por classes. Para isso, é preciso escolher o número de classes (K), bem como o tamanho do intervalo das classes (h). Em Estatística, é possível usar tamanhos iguais ou diferentes de intervalos de classes, mas para facilitar, geralmente se escolhem intervalos de tamanhos iguais. Existem vários critérios para a escolha do número de classes. Os mais utilizados são a Fórmula de Sturges e a Regra Empírica. A fórmula de Sturges é mais utilizada do que a regra empírica, exatamente por não se tratar de uma fórmula obtida experimentalmente, através de correlações. 3.1 - FÓRMULA DE STURGES K=1+(3,32.logn) Para o cálculo do número K de classes em que os dados serão agrupados, é necessário saber a quantidade de dados (elementos) presentes no rol. No nosso exemplo, são n = 50, pois são 50 funcionários ao todo. m A regra empírica pode ser sumarizada pela tabela a seguir: E alfamacursos.com.br 21 1a MT Rato E alfamacursos.com.br 22 Estatística Aplicada ALFAMA Tabela 3.2 - Regra empírica para a construção de uma distribuição de frequências Número de elementos que se deseja representar Número de classes Menor do que 25 5ou 6 Entre 25 e 50 De7ai4 Maior do que 50 De 15a 20 Fonte: Martins, Gilberto A. e Domingues, O. Estatística Geral e Aplicada, Cap. 2 - Ed. Atlas, 2011. 42 ed. [fe RMT quantidade de classes a chamada fórmula de a expressão matemática. a através de correlações No exemplo que estamos trabalhando: K=1+(3,32.10950) = 1 + (3,32. 1,6990) = 6,6407 = 7 classes O terceiro passo na determinação da distribuição de frequências é determinar o tamanho h dos intervalos (vamos utilizar intervalos iguais), das 7 classes: R h=— K 47 =— =7 No nosso exemplo: 7 Quanto aos limites das classes, vamos adotar a notação: a |--- b , indicando que incluiremos na classe os valores iguais ou maiores do que a e menores do que b. Em Matemática, lê-se: “intervalo a-b, fechado à esquerda (inclui o valor a) e aberto à direita (não inclui o valor b). Agora, de posse do número de classes e do tamanho de cada intervalo, determinamos a frequência absoluta de elementos em cada classe, ou seja, quantos valores aparecem em cada classe. Para calcular a frequência relativa (ou percentual) basta calcular: f% = É n « 100 Também podem ser determinadas as frequências acumuladas, tanto as frequências acumuladas absolutas, quanto as frequências acumuladas relativas ou percentuais. Para o cálculo da tabela completa da distribuição de frequências, faz-se necessário, ainda, o cálculo dos pontos médios de cada intervalo de classe, que é determinado pela média aritmética entre os limites inferior e superior de cada classe. no AFA: aus * Je H Cap tulo 4 ” Análise das Distribuições de Frequências 4 - ANÁLISE DAS DISTRIBUIÇÕES DE FREQUÊNCIAS As distribuições de frequências são importantes instrumentos, através dos quais podem ser inferidas uma série de parâmetros e medidas a respeito do conjunto de dados que está sob análise. Este capítulo é dedicado exclusivamente à aplicação das distribuições de frequências, por ser esta ferramenta de extrema importância para a análise estatística. MT Rato os, individualmente ou por tes, ou contagens. Voltemos à tabela 2.1 (capítulo 2), das idades de atrizes e atores premiados com o Oscar de melhor atriz ou, melhor ator, respectivamente. Podemos classificar as idades por classes, por exemplo: Tabela 4.1 - Idade das atrizes ganhadoras do Oscar, por classe. Idade das Atrizes Frequência Até 30 anos 31 31 - 40 32 41 - 50 13 51 - 60 2 61-70 4 71 - 80 2 TOTAL 84 Fonte: Triola, Mário F. Introdução à Estatística, Cap. 2 - Ed. LTC, 2008. 104 edição. A frequência de uma classe em particular é o número de atrizes que têm idade compreendida entre o limite inferior e o limite superior daquela classe. Por exemplo, a primeira classe da Tabela 4.1 tem frequência igual a 31, porque foram encontradas 31 atrizes ganhadoras do Oscar com idades até 30 anos, incluindo aí esses 30 anos (Tabela 2.1). As distribuições de frequência são construídas pelas seguintes razões: (1) grandes conjuntos de dados podem ser resumidos e simplificados desta maneira, facilitando a sua análise; (2) pode-se obter uma melhor compreensão sobre a natureza dos dados, quando eles são agrupados convenientemente; (3) as distribuições de frequência facilitam a construção de gráficos importantes como os histogramas. 1a ET sto les das atrizes, podem ser m com a determinação da se, frequências absolutas e Utilizando a fórmula de Sturges para determinar o número de classes do conjunto de E atrizes, teremos: E alfamacursos.com.br 25 Estatística Aplicada K=1+(3,32.logn) = 1+(3,32.l0g84) =7,38 = 7 classes Como se pode verificar, temos 6 classes na tabela 4.1. Poderíamos ter começado as classes com o intervalo de “11 a 20”, depois de “21 a 30” e assim sucessivamente, o que daria um total de 7 classes, como sugere a fórmula de Sturges. Entretanto, ao verificarmos os dados, constatamos que só existe uma atriz (Lisa Minelli) que ganhou o Oscar com uma idade inferior a 20 anos (17 anos). Para não criar uma classe a mais apenas por conta de um dado, optamos por incluir essa atriz na classe “Até 30 anos”. Entretanto, se for desejado um maior rigor na classificação das idades, é correto também considerarmos as 7 classes, incluindo as classes “De 11 a 20" e “De 21 a 30”. Esse tipo de “arranjo” é comum em Estatística; muitas vezes se faz a opção por fundir duas classes em uma só, por conta da escassez e da não representatividade dos dados que seriam incluídos nas classes mais desdobradas. No exemplo das atrizes, a idade de 17 anos (Lisa Minelli, em 1973) não é comum para atrizes ganhadoras do Oscar, nem idades inferiores a 20 anos. Sendo assim, não há qualquer problema que as classes “De 11 a 20” e “De 21 a 30” sejam reunidas em uma só. Na construção da distribuição de frequências, é bom atentar para o fato de não deixar que uma classe se sobreponha a outra, de modo que cada valor do conjunto original só pertença a uma classe. No exemplo das idades das atrizes, se as classes fossem construídas de tal modo que os limites se repetissem (ex.: “De 30 a 40”, “De 40 a 50”, etc.), uma atriz com a idade exata de 40 anos, seria incluída em qual das classes, “De 30 a 40” ou “De 40 a 50”? Para evitar esse tipo de duplicidade é que se recomenda que os limites das classes não sejam superpostos. Recomenda-se que se incluam as frequências de todas as classes, mesmo que alguma classe intermediária tenha frequência zero. Além disso, para simplificar, vale a pena tentar usar a mesma amplitude para todas as classes, muito embora algumas vezes seja conveniente usar intervalos abertos, como a classe “Até 30” no conjunto das atrizes. A título de exercício, vale a pena elaborar a distribuição de frequências para as idades dos atores premiados com o Oscar (tabela 2.1), definindo as classes pela fórmula de Sturges. No cálculo das frequências relativas, vale lembrar a fórmula: Frequência relativa = Frequência da Classe / Soma de todas as frequências Se fizermos um exercício de cálculo, podemos mostrar as frequências relativas correspondentes a cada classe de idade das atrizes, expressas em porcentagens. A classe “Até 30” tem frequência absoluta de 31, e, portanto terá frequência relativa de (31/84). (100) = 36,9%. Semelhantemente, a frequência relativa da segunda classe é 32/84 = 38,1%, e assim por diante. Se construída com precisão, a soma das frequências relativas deve totalizar 100%, mas em virtude de arredondamentos matemáticos, é comum que a soma não “feche” exatamente em 100,00%, mas sim com alguma diferença de casas decimais. Tabela 4.2 - Frequências relativas das classes das idades das atrizes ganhadoras do Oscar Idade das Atrizes Frequência Relativa, % 36,9 38,1 15,5 2,4 4,8 2,4 alfamacursos.com.br 26 Estatística Aplicada ALFA '3- Fonte: Triola, Mário F. Introdução à Estatística, Cap. 2 - Ed. LTC, 2008. 104 edição. Para o cálculo das frequências acumuladas (absolutas e relativas), toma-se a frequência de uma determinada classe e somam-se as frequências de todas as classes anteriores a ela. A tabela a seguir mostra a distribuição de frequências acumuladas baseada nas tabelas 4.1 e 4.2 acima. Usando as frequências originais da tabela 4.1 de 31,32, 13,2,4e2, somamos 31+32 para obter a segunda frequência acumulada, que é igual a 63. Somamos então 63+13 = 76, que é a frequência acumulada da terceira classe, e assim por diante. Nota-se que, na tabela 4.3, os valores das idades das atrizes são substituídos por “até tal valor”, descrevendo os novos intervalos. Tabela 4.3 - Frequências acumuladas das classes das idades das atrizes ganhadoras do Oscar M Freq. Real Acumulada Freq. Relativa Acumulada, %o Até 30 31 37,55 Até 40 63 76,10 Até 50 76 91,76 Até 60 78 94,17 Até 70 81 97,78 Até 80 83 100,19 TOTAL - - Fonte: Triola, Mário F. Introdução à Estatística, Cap. 2 - Ed. LTC, 2008. 104 edição. Uma vez calculadas as frequências acumuladas (absolutas e relativas), estará completa a tabela de distribuição de frequências. A partir daí, da mesma forma que se podem tirar conclusões importantes sobre os dados com um gráfico de ogiva, por exemplo, isso também poderá ser feito com uma tabela de distribuição de frequências. A análise minuciosa de uma tabela de distribuição de frequências pode trazer valiosas informações, permitindo muitas vezes a extrapolação dos resultados dessa análise, com a segurança desejada, para outras atividades ou até outras áreas da ciência e do mundo empresarial. alfamacursos.com.br 27 m Em Estatística Aplicada ANFAMM a. Você sabia? de valores é a medida de o de valores do conjunto. valores e n é o número Quando se trata de média de uma amostra, normalmente se escreve essa média como (pronuncia-se “x-barra”); quando se trata de uma população, a média é representada pela letra grega yu (pronuncia-se “mi”). Em qualquer caso, tanto para amostras quanto para populações, vale a equação acima, para o cálculo da média. Vamos dar um exemplo ilustrativo. Sabe-se que o chumbo tem alguns efeitos nocivos à saúde humana. A seguir, estão listadas as quantidades de chumbo (em ug/m3) no ar, registradas no local onde existiam as Torres Gêmeas do World Trade Center, em Nova Iorque, logo após o ataque terrorista de 11 de setembro de 2001. A Agência de Proteção Ambiental dos EUA estabelece que a quantidade máxima permitida de chumbo no ar é de 1,5 ug/m3. Calcule a média da quantidade de chumbo presente no ar e verifique se ela atende às especificações da Agência Ambiental norte-americana. Tabela 5.1 - Partículas de chumbo no ar Chumbo, ug/m3 [540 [1,10 0,42 [0,73 [048 T[i1o Fonte: Triola, Mário F. Introdução à Estatística, Cap. 2 - Ed. LTC, 2008. 102 edição. Aplicando a fórmula da média, temos: Média = (E x) / n = (5,40+1,10+0,42+0,73+0,48+1,10) / 6 = 1,538 ug/m3 O nível médio de chumbo no ar no local das Torres Gêmeas era, portanto, de 1,538 ug/m3 logo após o ataque terrorista, acima do valor permitido pela Agência de Proteção Ambiental norte-americana. É importante notar que o valor 5,40 ug/m3 é um outlier, pois estão muito acima dos demais valores medidos. Este valor (5,40 ug/m3) foi medido um dia depois do desmoronamento das torres do World Trade Center. Nesse dia, havia ainda no ar elevados níveis de poeira e fumaça, além de uma quantidade enorme de veículos que se dirigiam ao local. Esses fatores, por si só, fornecem uma explicação razoável para a medida de 5,40 ug/m3 de chumbo no ar. Se retirarmos o valor de 5,40 ug/m3 da lista das medidas, teremos a nova média calculada: Nova Média (sem o outlier) = (1,10+0,42+0,73+0,48+1,10) /5 = 3,83 ug/m3 Este valor está abaixo do limite permitido pela agência de controle americana. Logo, podemos concluir que a presença de apenas um outlier afetou consideravelmente a média, levando-a a limites intoleráveis. Io Fica a dica! nm to é, o valor mais baixo média. Além dos valores édia, o que limita o uso r “bem comportado” para na relação afeta a média, E alfamacursos.com.br 30 Estatística Aplicada Quando trabalhamos com distribuições de frequências, não sabemos os valores exatos que estão em uma determinada classe. Para calcular as medidas de centro de uma distribuição de frequência, consideramos que, em cada classe, todos os valores são iguais ao ponto médio da classe. Por exemplo, se tivermos uma classe “De 21 a 30”, com uma frequência de 28, admitimos que todos os 28 valores desta classe são iguais a 25,5 (ponto médio da classe). Com o valor de 25,5 repetido 28 vezes, temos um total de 714 (25,5 x 28 = 714). Podemos então somar todos esses produtos de cada classe para encontrar o total de todos os valores amostrais. Em seguida, dividimos esse resultado (a soma dos produtos) pelo número de dados amostrais, que é igual à soma das frequências de cada classe. Utilizamos, então, a fórmula matemática a seguir para o cálculo da média quando os dados estão em uma distribuição de frequências. Primeiro devemos multiplicar cada frequência pelo ponto médio da classe, para depois somar os produtos. Elf. 2) Ef mm Considere, por exemplo, a tabela 4.1 (capítulo 4), com as idades das atrizes ganhadoras do Oscar mostradas em uma distribuição de frequências. Para calcular a média de idade das atrizes, basta multiplicar o ponto médio de cada classe pela frequência respectiva, e depois somar todos esses produtos, dividindo o resultado pela soma das frequências, que é o número total de atrizes. Vale lembrar que o resultado da média encontrada dessa maneira pode diferir da média calculada pela soma simples de todas as idades, dividida por 84. Quando fazemos o cálculo da média utilizando os pontos médios de cada classe, estamos assumindo, por exemplo, que as 31 atrizes que estão na classe “Até 30” têm idade de 15 anos (ponto médio da classe “Até 30”), o que não corresponde exatamente aos dados. Entretanto, o erro cometido quando se calcula a média pela distribuição de frequências não chega a ser significativo, na maioria dos casos práticos. Existem outros tipos de médias, também utilizadas em Estatística, mas sua utilização, para fins práticos e para efeito de nosso curso, nem de longe se aproxima do uso da média aritmética. Esses outros tipos de médias incluem a média harmônica, muito usada quando as grandezas envolvidas são inversamente proporcionais, como é o caso de velocidade e tempo; a média geométrica, bastante usada em Economia, para a determinação de taxas de variação ou crescimento não linear (grandezas que variam em progressão geométrica, por exemplo); a média quadrática, também denominada raiz da média quadrática, utilizada principalmente em aplicações da Física e etc. alfamacursos.com.br 31 Estatística Aplicada ALFAMA a As medidas de centro ou de centralidade servem para descrever os dados em relação a determinados parâmetros de comparação, que mostram como os dados estão distribuídos em relação uns aos outros. Um importante parâmetro de centralidade é a média aritmética, comumente chamado de “média”, apenas. A média nos dá uma ideia de como os dados estão arranjados em relação ao valor central, ou seja, é uma medida do valor que representa os dados em conjunto, e é calculada pela expressão: =. Er ge é* n se a média for simples, ou pela expressão: se a média for ponderada, ou se for calculada através de uma distribuição de frequências. A média é fortemente influenciada pelos valores extremos do conjunto (valor mais baixo e valor mais alto) e também pela presença de “outliers” (pontos discrepantes). Por causa disso, o uso da média exige cuidado na interpretação; é preciso verificar, por exemplo, de que forma os dados se distribuem e se existem muitos “outliers”, antes de se tirar conclusões sobre os dados. Apenas a média não dá, de maneira geral, uma boa informação a respeito da distribuição dos dados. 1 - Utilize a tabela 2.1 (capítulo 2) e calcule a média simples das idades das atrizes ganhadoras do Oscar. 2 - Utilize a tabela 4.1 (capítulo 4) e calcule a média das idades das atrizes ganhadoras do Oscar, usando as classes da tabela. De quanto essa média difere da média calculada no item anterior? Redija uma justificativa técnica do por que dessas diferenças. 3 - Repita os exercícios acima com as idades dos atores: calcule a média simples pela tabela 2.1 e construa uma distribuição de frequências com as mesmas classes das idades das atrizes (como na tabela 4.1). Calcule em seguida a média das idades dos atores ganhadores do Oscar pela distribuição de frequências construída. De quanto às médias diferem? Por quê? 32 Estatística Aplicada média: Média = (5,40+1,10+0,42+0,73+0,48+1,10) / 6 = 1,538 ug/m3 A razão para esta discrepância é o efeito que o outlier 5,40 ug/m3 tem sobre a média. Alterando-se este valor, a média se altera, mas a mediana permanece a mesma. O que se pode concluir é que metade dos valores da lista está acima de 0,915 ug/m3 e metade está abaixo. Note também que, se ordenarmos os valores em ordem decrescente, a mediana não se altera. É preciso notar, também, que o valor da mediana nem sempre está contido na lista; o valor 0,915 ug/m3 não faz parte da lista original. Vamos incluir agora um outro valor à nossa lista, por exemplo a medida 0,66 ug/m3, registrada em outro dia. A nova mediana dos dados será: Tabela 6.5 - Partículas de chumbo no ar, com inclusão de novo valor a lista. Chumbo, ug/m3 540 1,10 0,42 0,73 0,48 1,10 0,66 Fonte: Triola, Mário F. Introdução à Estatística, Cap. 2 - Ed. LTC, 2008. 104 edição. Conforme foi visto, primeiro é necessário ordenar os valores, e o faremos novamente em ordem crescente: Chumbo, ug/m3 0,42 0,48 0,66 0,73 1,10 1,10 5,40 Fonte: Triola, Mário F. Introdução à Estatística, Cap. 2 - Ed. LTC, 2008. 104 edição. Como o número de valores agora é ímpar (igual a 7), a mediana será exatamente o “valor do meio” da lista ordenada, ou seja: Hg/m3 . O número 0,73 separa a lista em duas partes: existem exatamente 3 valores na lista que são menores do que 0,73 ug/m3 e exatamente 3 valores que são maiores do que ele. Por isso, ele é considerado o “elemento do meio”, ou seja, a mediana da lista. Além da média e da mediana, existem outras medidas de centro, igualmente importante na descrição de um conjunto de dados, como, por exemplo, a moda. Na linguagem comum, falar que uma cor ou um tipo de roupa “está na moda”, é a mesma coisa que falar que tal cor ou tal tipo de roupa aparece mais frequentemente, ou seja, tem mais gente usando aquela cor ou aquela roupa. Traduzindo em termos técnicos, é o mesmo que dizer que a frequência da cor ou daquele tipo de roupa é maior do que a frequência das outras cores ou dos outros tipos de roupa. Isto define o que vem a ser a moda de um conjunto numérico: Você sabia? corre mais frequentemente, a valores, o valor de maior A moda é normalmente representada pelo símbolo Mo. Quando acontece de dois valores ocorrerem com a mesma maior frequência, cada um deles é uma moda, e o conjunto de dados é chamado de bimodal. Quando mais de dois valores ocorrem com a mesma maior frequência, cada um deles é uma moda, e o conjunto de dados é multimodal. Se nenhum valor se repete mais do que os outros, ou seja, quando não há um valor de maior frequência, o conjunto de dados é dito amodal (sem moda). Exemplificando, vamos calcular a moda dos seguintes conjuntos de dados: E alfamacursos.com.br 35 m Em Estatística Aplicada ALFA q e das medidas do nível de chumbo presentes no ar (tabela 6.3); e das idades das atrizes ganhadoras do Oscar (tabela 2.1); e das idades dos atores ganhadores do Oscar (tabela 2.1). No primeiro caso, a tabela 6.3 indica que o valor 1,10 ug/m3 é o único que se repete mais do que os demais na lista. Logo, 1,10 ug/m3 é a moda deste conjunto. No segundo caso, se arranjarmos as idades das atrizes em ordem crescente, para melhor visualização, podemos verificar facilmente que a idade de 35 anos é a que mais se repete (7 vezes). Logo, a moda das idades das atrizes é de 35 anos. É preciso ressaltar, entretanto, que não é obrigatório o arranjo em ordem crescente (ou decrescente) para se determinar a moda de um conjunto numérico. Fizemos isto com as idades das atrizes apenas para facilitar a contagem das idades que mais se repetem. No caso das idades dos atores, a mesma coisa foi feita: primeiro arranjamos essas idades em ordem crescente, para melhor visualização. Facilmente verificamos que temos duas idades que mais se repetem na lista, que são as idades de 41 e de 42 anos. Ambas as idades se repetem 6 vezes na relação, o que significa que a moda das idades dos atores é dupla. Temos, portanto, duas modas para o conjunto das idades dos atores; esse conjunto é, portanto, chamado de bimodal. Apesar de muito utilizada na descrição dos dados de um conjunto, a moda é a menos usada em cálculos numéricos. Entretanto, é a mais usada quando os dados são de natureza nominal (não numérica), como, por exemplo, uma lista de nomes, rótulos ou categorias de produtos. Para saber qual é a “marca da moda”, por exemplo, basta verificar qual é a marca que mais aparece na mídia, em eventos e etc. Fica a dica pode revelar informações situar os dados em relação também indicar os dados s dados se distribuem no O cálculo da média, da mediana e da moda, no entanto, podem revelar mais coisas, além do posicionamento relativo dos dados em um conjunto. Uma das mais valiosas informações que essas medidas podem nos dar é a respeito da simetria do conjunto de dados. A figura a seguir ilustra essa propriedade das medidas de centro. A igualdade ou a diferença entre as medidas de centro (média, mediana e moda) revela a forma da distribuição dos dados, mostrando sua maior simetria ou assimetria. Figura 6.1 - Simetria e Assimetria R Moda = Média = Medl (bj Simésrica (Assimetria Zeroj: A média, mediana e moda são igu vamente A média e à mediana à clireita da moda E alfamacursos.com.br 36 ao " Estatística Aplicada ALFA q Fonte: Triola, Mário F. Introdução à Estatística, Cap. 2 - Ed. LTC, 2008. 104 edição. Você sabia? a (gráfico de frequências, para o outro, e é simétrica ma imagem espelhada de Dados assimétricos à esquerda têm um histograma com uma cauda maior à esquerda, e a média e a mediana ficam à esquerda da moda. Lembre-se: a moda é sempre o ponto mais alto da curva de distribuição, ou seja, o ponto de maior frequência. Embora não seja regra, geralmente os dados assimétricos à esquerda têm a média menor do que a mediana. Dados assimétricos à direita têm uma cauda maior à direita, e a média e a mediana ficam à direita da moda. Novamente, embora nem sempre isso seja verdadeiro, os dados assimétricos à direita têm, em geral, a média maior do que a mediana. Na prática, muitas distribuições de dados são simétricas ou “quase simétricas”. Distribuições assimétricas à direita são mais comuns do que as assimétricas à esquerda porque, em geral, é mais fácil obter valores excepcionalmente altos do que excepcionalmente baixos ou pequenos. Se os dados forem de renda anual, por exemplo, é impossível obter valores abaixo de zero, mas há algumas rendas excepcionalmente altas, de milhões de reais anuais, que destoam do restante dos dados, mas existem. A distribuição de renda anual, portanto, tende a ser assimétrica à direita. alfamacursos.com.br 37 Estatística Aplicada Cliente (Filas Controlados pelo Gerente) huma variação a partir da média Média mpo de Espera fmin) ca de Espera) Tampo ata Enp rande váriáção à Chente (Filas Múltiplas de Espera) Fonte: Triola, Mário F. Introdução à Estatística, Cap. 2 - Ed. LTC, 2008. 104 edição. Se considerarmos apenas a média, não notaremos qualquer diferença entre as três amostras, porque todas têm uma média min. No entanto, deve ser notado que as amostras são muito diferentes nas quantidades em que os tempos variam. No primeiro banco, todos os tempos de espera são de 6 minutos, de modo que não variam. Os tempos de espera dos clientes em filas múltiplas (3º banco) variam muito mais do que os daqueles em fila única. As chamadas medidas de variação são úteis, portanto, para calcular como os dados variam, quanto variam, e nos ajudam a compreender tal variação, substituindo sempre que possível o julgamento meramente subjetivo. A variância é a primeira dessas medidas a ser estudada neste curso. Você sabia? 1 a dos desvios encontrados O. A variância tem a grande vantagem de nos dar uma visão rápida de como os dados se agrupam em torno da média, se os afastamentos desses dados em relação à média são altos ou baixos. Isso nos dá uma ótima visão da variabilidade dos dados e nos ajuda bastante na hora de decidirmos a respeito de dados, quanto à sua dispersão. Uma desvantagem do cálculo da variância é que ela não tem as mesmas unidades de medida dos dados originais. Por exemplo, se os dados originais dos tempos de espera nas filas dos bancos estão em minutos, as unidades da variância serão minutos ao quadrado (min2), que não tem sentido prático, neste caso. Como a variância é calculada com o quadrado das diferenças em relação à média, os dados ficam todos elevados ao quadrado, o que exige um certo cuidado na hora de interpretar o significado prático da variância. Para exemplificar, calculemos as variâncias dos dados dos tempos de espera listados na tabela 71. Como já foi dito anteriormente, a variância do primeiro caso é zero, pois os dados não variam em relação à média dos tempos de espera: todos os tempos são de 6,0 minutos. No segundo caso, a variância é: 2. Elo BD? qi= Tt. n-—i (4-6P+U-+(-s) 6 a a =>>—]D—————————————— = —- = 3 minutos 3-1 Note que a média dos tempos na fila é de 6,0 minutos, e todas as diferenças dos tempos do = segundo banco em relação à média estão elevadas ao quadrado e somadas no numerador alfamacursos.com.br 40 Estatística Aplicada da fração que calcula a variância. No terceiro banco, os tempos de espera são diferentes dos tempos do primeiro e do segundo bancos. A variância, então, será: Ex-m Q-+G-+(4 6)" 98 = = 49 minutos” n—l 3-1 st = A unidade de medida minutos2 não tem sentido prático, mas como ela é a mesma unidade nos 3 casos, isso nos permite comparar como os dados variam nas três situações. Fica evidente que no primeiro caso não há variação em relação à média; no segundo caso a variação é intermediária em relação à média, enquanto que no terceiro caso a variação dos dados é bem elevada. Vale ressaltar que o cálculo da variância só é possível se conhecermos a média dos dados, pois a variância é uma medida de variação em relação à média. Alguns autores apresentam, ainda, outra fórmula matemática para o cálculo da variância. Esta fórmula é conhecida como fórmula prática de cálculo da variância, porque simplifica os cálculos intermediários. + [Dx - E] Esta expressão tem a vantagem de não exigir que se calculem as diferenças de cada valor em relação à média e se eleve ao quadrado. Como exemplo, vamos calcular as variâncias do problema dos bancos, utilizando a fórmula prática. No primeiro caso, temos: Em Ga 1 ar san Vote se [5 x: - all ese. ae E a (18)] à 324 sims [05+36+39- a: |-5lto -—- si= 1 [108- 108]=0 No segundo caso, teremos: EM z Es " (4+7+7) Eder [7 =* - Sn .,; a |* +7+47)- ES z [es +49 449) — tum | = : [114 - E [114- 108) = alfamacursos.com.br 41 a º Estatística Aplicada MFANA q. mn aro * Fe Semelhantemente, no último caso (3º banco), teremos: =. + [Do - Eu. ER E or +32 + 143)- fera, = e 1 (18)] 1 324 si=-|(149 196) - | = 5 [206 - fas avo) 3 z[ 3 s?=- [206- 108] =P = 49 Como foi dito anteriormente, a vantagem de se utilizar a fórmula prática é que ela não exige o cálculo das diferenças quadráticas de cada termo em relação à média, o que simplifica e agiliza o cálculo da variância. E alfamacursos.com.br 42 Estatística Aplicada ALFA q are Fo do que os outros, posto que é um outlier. Logo, o desvio padrão do novo conjunto com o outlier incluído tende a ser maior do que o do conjunto sem o outlier. e As unidades de medida do desvio padrão s são as mesmas unidades dos dados originais. E [fe RMT nl dados originais. Por causa dos pelo cálculo do desvio E uitas empresas utilizam a lise de dispersão de seus s em conjunto. Para calcular o desvio padrão, utilizando as equações mostradas, proceda da seguinte maneira: Passo 1: Calcule a média X. o Passo 2: Subtraia a média de cada valor individual, para obter os desvios (x - X ). Passo 3: Eleve os desvios obtidos ao quadrado, resultando em números do tipo (x - x )2. Passo 4: Some todos os quadrados obtidos no Passo 3. Esteé o valor deX(x- X )2. Passo 5: Divida o total do Passo 4 por (n - 1), onde n é o número total de elementos. Passo 6: Ache a raiz quadrada do resultado do Passo 5. Para exemplificar, vamos calcular o desvio padrão de cada um dos conjuntos dos tempos de espera dos bancos, mostrados no capítulo 7. Podemos utilizar qualquer uma das expressões matemáticas fornecidas; vamos realizar nossos cálculos, neste exemplo, com a primeira equação. 1º Passo: Cálculo da média aritmética. Como visto no capítulo 7, a média dos tempos de espera, em qualquer um dos bancos é de 6,0 minutos. 2º Passo: Subtraia a média de cada valor individual, para obter os desvios (x - X ). No primeiro caso, como todos os tempos são iguais à média, os desvios são todos iguais a zero, pois (6,0 - 6,0) = 0. No segundo banco, os desvios são: (4-6); (7-6) e (7-6), ou: (-2); (1) e (1). No terceiro banco, os desvios são: (1-6); (3-6) e (14-6), ou: (-5); (-3) e (8). 3º Passo: Eleve os desvios obtidos ao quadrado, resultando em números do tipo (x - X 2. No primeiro banco, todos os desvios elevados ao quadrado são iguais a zero. No segundo, os quadrados dos desvios são: (-2)2 = 4; (1)2= 1le(1)2=1. Finalmente, no terceiro banco, os desvios são: (-5)2 = 25; (-3)2 = 9e (8)2 = 64. 4º Passo: Some todos os quadrados obtidos no Passo 3. Este é o valor de X(x - X )2. No primeiro banco, essa soma será nula (igual a zero), uma vez que todos os desvios elevados ao quadrado são nulos. No segundo banco, a soma dos desvios elevados ao quadrado é: 4+1+1 = 6 No terceiro banco, a soma dos quadrados dos desvios é: 25+9+64 = 98 5º Passo: Divida o total do Passo 4 por (n - 1), onde n é o número total de elementos. Primeiro banco: 0/(3-1) = 0 E No segundo banco, o resultado será: 6/(3-1)=6/2=3 E alfamacursos.com.br 45 Estatística Aplicada ALFA Consequentemente, no terceiro banco, o resultado será: 98/(3 - 1) =98/2=49 Note que esses eram os valores das variâncias, obtidas no capítulo 7! Como o desvio padrão é definido pela raiz quadrada da variância, falta-nos apenas o Passo 6 para completar o processo de cálculo desses desvios. Vale salientar que, se tivermos as variâncias já calculadas, podemos achar os desvios padrão apenas extraindo a raiz quadrada de cada variância, sem a necessidade de passarmos por todos os passos (de 1 a 5). Optamos por calcular passo a passo apenas por questões didáticas, e para mostrar que, se não tivermos as variâncias calculadas, a maneira mais fácil é mesmo seguir os passos até encontrar os desvios padrão relativos a cada conjunto de dados. Passo 6: Ache a raiz quadrada do resultado do Passo 5. No primeiro caso, o desvio é zero, uma vez que a variância é também zero. No segundo caso, S = raiz(3) = 3. A unidade de medida é “minuto”, como no conjunto original. No terceiro caso, S = raiz(49) = 49 = 7. Também aqui a unidade de medida é “minuto”, e não “minuto ao quadrado”, como no cálculo da variância. O entendimento do significado do desvio padrão nos processos produtivos trouxe muitos avanços nos estudos sobre a qualidade de produtos e processos. Todos os processos produtivos apresentam variabilidade e essa variabilidade é medida pelo desvio padrão, que é mais simples de ser interpretado, porque possui as unidades de medida equivalentes (compatíveis) com as unidades de medida dos dados originais. Quanto menor for o desvio padrão de um processo produtivo, menor será a variabilidade apresentada no produto final e, portanto, maior qualidade terá o produto. As “faixas de tolerância” para determinadas características de produtos são determinadas a partir do estudo do desvio padrão desses produtos, juntamente com os seus respectivos processos produtivos. A chamada Teoria dos Seis Sigmas (seis desvios padrão), na área de Qualidade e Produtividade, busca reduzir ainda mais a variabilidade dos processos produtivos, ou seja, busca reduzir a possibilidade do processo apresentar defeito. Existem algumas regras, em Estatística, para a interpretação do desvio padrão. Uma delas é a chamada Regra Empírica, e a outra é a Regra ou Teorema de Chebychev. 8.1 - A REGRA EMPÍRICA e Para qualquer distribuição amostral ou populacional com média e desvio padrão Ss: eOintervalo( X -S)até( X +S)contém entre 60% e80%detodas as observações, ou seja, entre 60% e 80% de todos os dados estão dentro desse intervalo. Essa porcentagem se aproxima de 70% para distribuições aproximadamente simétricas, chegando a 90% para distribuições fortemente assimétricas. e Ointervalo ( X - 2S) até ( X + 25) contém aproximadamente 95% de todas as observações para distribuições simétricas e aproximadamente 100% das observações (de todos os dados) para distribuições com assimetria elevada. e Ointervalo ( X - 35) até ( X + 35) contém entre 100% de todos os dados observados, para distribuições simétricas. 8.2 - O TEOREMA DE CHEBYCHEV e Para qualquer distribuição amostral ou populacional com média X e desvio padrão S. o Ja e O intervalo ( X - 2S) até ( X + 25) contém, no mínimo, 75% de todas as observações, ou seja, no mínimo 75% dos dados observados devem estar situados nesse intervalo. alfamacursos.com.br 46 Estatística Aplicada e Ointervalo ( X - 3S)até ( X + 35) contém, no mínimo, 89% de todos os dados observados. O aluno pode estar se perguntando qual dessas regras deverá utilizar, quando for interpretar um resultado de desvio padrão de um conjunto de dados. Qualquer uma delas é válida, e cabe ao analisador refletir sobre a coerência dos resultados encontrados com uma e com outra regra. Se uma regra aponta que a distribuição tem boa simetria e a outra regra também o faz, é sinal que os dados realmente devem estar distribuídos de forma simétrica em relação à sua média. Entretanto, se uma regra aponta para simetria e a outra aponta para assimetria, convém aprofundar a análise, investigando melhor os dados em sua origem, à procura de discrepâncias que possam interferir na decisão. alfamacursos.com.br 47 Estatística Aplicada Outro exemplo: usando f para representar um bebê do sexo feminino e m para um bebê do sexo masculino, podemos verificar os seguintes eventos: Tabela 9.1 - Probabilidades, eventos e espaços amostrais. Experiência Evento Espaço Amostral 1 nascimento 1 mulher (evento simples) tm) 3 nascimentos 2 mulheres e 1 homem (ffm, fmf e mff são todos eventos simples resultantes de 2 mulheres e 1 homem) 4fff, ffm, fmf, fmm, mff, mfm, mmf, mmm> Fonte: Triola, Mário F. Introdução à Estatística, Cap. 2 - d. LTC, 2008. I0f edição. Com um nascimento apenas, o resultado de nascer 1 mulher é um evento simples e o espaço amostral é 4f, m3, pois as únicas possibilidades são de nascer ou uma menina ou um menino. Com 3 nascimentos, o espaço amostral consiste nos 8 eventos simples, listados na tabela: <fff, ffm, fmf, fmm, mff, mfm, mmf, mmm). Com 3 nascimentos, há 8 resultados que são eventos simples, ou seja, são 8 as possibilidades de ocorrer os nascimentos; este é o espaço amostral deste experimento. Vale a pena insistir na notação utilizada para representar as probabilidades. Para a probabilidade em si, utiliza-se a letra “P”; para os eventos, utilizam-se as letras A, B, C, etc. Assim, a notação P(A) representa a probabilidade de ocorrência do evento A. Para o cálculo das probabilidades, diversas definições são possíveis, mas as mais comuns são a medida clássica, da Escola Objetivista, e a medida contextualizada, da Escola Subjetivista. Na definição clássica de probabilidade, da Escola Objetivista, supõe-se que um determinado experimento tenha n diferentes eventos simples (n diferentes possibilidades de acontecer) e que cada evento tenha igual chance de ocorrer. Se o evento A pode ocorrer em m dessas n maneiras, então P(A) é: P(A) = m = número de resultados favoráceis n números de resultados passíveis Esta expressão pode também ser escrita na forma: P(A) = (nº vezes que A pode ocorrer) / (nº de resultados possíveis) Você sabia? as “objetivamente”, através eu da forma desejada (nº possibilidades de ocorrência êm que ter igual chance de A Escola Subjetivista considera a probabilidade como a medida de uma crença pessoal de que um determinado evento tenha ocorrido, ocorrerá ou esteja ocorrendo. Adeptos desta Escola utilizam técnicas de previsão e de análise de probabilidades, em aplicações onde a Escola Objetivista não consegue dimensionar as probabilidades envolvidas. O uso de técnicas subjetivas de cálculo de probabilidades tem sido cada vez mais frequente entre pesquisadores e tomadores de decisão. alfamacursos.com.br 50 = nai . Em Estatística Aplicada Você sabia? das de maneira “subjetiva”, e, considerando o histórico onteceu no passado e em e evento específico é capaz Quando alguém declara que a probabilidade de sucesso de um determinado produto é de 80%, ele está utilizando sua probabilidade subjetiva, em face de um acontecimento por ele já conhecido, em que ele já teve uma experiência passada. Muitas vezes, o cálculo de probabilidades subjetivas envolve o conhecimento prévio de variáveis que influenciam na ocorrência ou não de um evento, supõem o conhecimento de circunstâncias ou contextos em que o experimento acontece. Este é o caso do cálculo das previsões do tempo, que envolvem não só o cálculo em si, mas um conjunto muito complexo de variáveis como velocidade do vento, umidade do ar, quantidade de nuvens em formação, deslocamento de frentes frias e massas de ar quente na atmosfera, ventos de altitude, temperatura, etc. A figura a seguir ilustra três situações, em que as abordagens objetivista e subjetivista podem ser utilizadas para o cálculo das probabilidades. Figura 9.1 - Abordagens para o cálculo de probabilidades q = la) qb) te) Fonte: Triola, Mário F. Introdução à Estatística, Cap. 2 - Ed. LTC, 2008. 102 edição. Ao tentarmos determinar a probabilidade de que uma tachinha caia com a ponta voltada para cima, devemos repetir o experimento de jogar a tachinha muitas vezes e depois calcular o quociente entre o nº de vezes que a tachinha caiu de ponta para cima e o nº de vezes que a tachinha foi jogada. Outra maneira seria jogar uma porção de tachinhas de uma vez só, e contar, depois, o nº de tachinhas que caíram com a ponta voltada para cima. O resultado dessa conta de dividir seria a probabilidade de que uma tachinha caia de ponta para cima. P (tachinhas com ponta para cima) = nº nº total de tachinhas lançadas Vale lembrar que cair com a ponta voltada para cima ou não, tem igual chance de acontecer, e uma vez caindo de ponta para cima, não está com a ponta “deitada” e vice-versa (eventos são mutuamente exclusivos: se ocorre um não ocorre o outro). E No caso do lançamento do dado, cada uma das 6 faces tem igual chance de ocorrência. Além E alfamacursos.com.br 51 Estatística Aplicada disso, se sair a face 2, por exemplo, voltada para cima, é porque não saiu nenhuma das outras faces: um resultado elimina a possibilidade do outro, em cada jogada. O lançamento de uma dado obedece, portanto, à regra objetivista. A probabilidade de sair uma das faces na jogada de um dado é, portanto: P (face 2 voltada para cima) = nº nº total de face do dado P (face 2 voltada para cima) = 1 6 A última ilustração da figura mostra algo relacionado à possibilidade de chover, para que eu pegue a sombrinha ou não. Para estimar a probabilidade de chuva em uma determinada hora do dia, ou em um determinado dia do mês, devem ser usados conhecimentos meteorológicos, deve-se ter em mãos as chuvas ocorridas naquele dia ou naquela hora ao longo dos meses ou dos anos anteriores, além do conhecimento sobre a situação das nuvens, da velocidade do vento, da umidade, da temperatura ambiente, para que se possa fazer uma previsão mais apurada. Este é um evento tipicamente de cálculo subjetivo. Vale ressaltar, ainda, que o cálculo das probabilidades pela regra objetivista não nos leva a um valor exato, mas sim a uma estimativa, a uma aproximação. À medida que a quantidade de vezes em que o experimento é repetido aumenta, aumenta também a precisão dos cálculos: quanto mais vezes uma moeda é lançada, mais a probabilidade de sair “cara”, por exemplo, se aproxima do valor teórico, que é 0,5 ou 50%. Esta propriedade estatística das probabilidades é conhecida como Lei dos Grandes Números. ra [fe RMT a probabilidade dada pela da probabilidade real ou ada apenas uma vez, e sair o, pois o número de vezes oeda também é uma vez. À babilidade de sair “cara” se A Lei dos Grandes Números reflete uma noção simples confirmada pelo senso comum: uma estimativa de probabilidade baseada em apenas umas poucas tentativas pode parecer errada, mas, com um número grande de tentativas, a estimativa tende a ser mais precisa. Por exemplo, suponha que queremos estimar a probabilidade de que uma pessoa alise a cabeça ao mesmo tempo em que coça a barriga. Se observarmos apenas 5 pessoas, a estimativa pode nos levar a um erro grosseiro de estimativa da probabilidade de que uma pessoa faça os dois movimentos simultaneamente (normalmente igual a zero!). Mas se observarmos 5.000 pessoas, em diferentes locais, escolhidas aleatoriamente, a estimativa será bem mais próxima do valor populacional. Da mesma forma, se entrevistarmos apenas 10 eleitores numa pesquisa de boca de urna para saber a probabilidade de que um determinado candidato seja eleito, nossa estimativa pode nos levar a decisões muito distantes da realidade. Entretanto, se entrevistarmos 2.500 eleitores nessa mesma pesquisa, o erro tende a ser mínimo. É por isso que as pesquisas eleitorais dos institutos de pesquisa utilizam sempre milhares de entrevistados, escolhidos aleatoriamente (ao acaso), pois caso contrário as estimativas eleitorais estariam completamente fora da realidade. 9.2 - PROBABILIDADES DE EVENTOS (RESULTADOS) QUE NÃO SÃO IGUALMENTE PROVÁVEIS E alfamacursos.com.br 52 1 Recordando | Estatística Aplicada eito utilizado pela Estatística, que servem O conceito de probabilidade segue duas | ma subjetivista. Na abordagem clássica, o entre o número de eventos favoráveis e ção direta e objetivamente demonstrável. a experiência de quem calcula e variáveis ados em conta, exigindo uma análise mais e está sendo estudado, para a classificação ilidades é a “Lei dos Grandes Números”, número de possibilidades para um evento dado, por exemplo), aumenta também a Dciadas a este evento. Assim, se lançarmos a face 3, por exemplo, calculada a partir da almente saiu nos 10 lançamentos, dividido ez), dificilmente será igual a 1/6, que é a aumentamos a quantidade de vezes que da fica cada vez mais próxima da real, ou s Números, em ação em um determinado oncreta. 9.4 - EXERCÍCIOS PROPOSTOS 1 - Um canal de TV anunciou, na véspera da data da posse do prefeito, que a probabilidade de chuva no dia seguinte, o dia da posse, seria de 50%, uma vez que ou choveria ou não choveria. Esta afirmativa está correta? Justifique. 2 - Um estudo realizado na Dinamarca com 420.095 usuários de telefones celulares revelou que 135 desenvolveram câncer no cérebro ou em alguma parte do sistema nervoso central. Calcule a probabilidade de um usuário de celular, escolhido aleatoriamente na Dinamarca, desenvolva esse tipo de câncer. Segundo o governo dinamarquês, outro estudo, conduzido a nível mundial, estima que a probabilidade de um usuário de celular desenvolver câncer no cérebro é de 0,034%. Como o resultado obtido na Dinamarca se compara ao resultado mundial? alfamacursos.com.br E) H Cap tulo 10 - probabilidades 10 - PROBABILIDADES 10.1 - PRINCIPAIS PROPRIEDADES Da mesma forma que os números em Aritmética, as probabilidades também podem ser operadas entre si, através de somas, subtrações, multiplicações ou divisões. As operações com probabilidades dependem do tipo de operação que queremos fazer com os conjuntos de dados a que elas se referem. Assim, se quisermos somar um conjunto a outro, devemos recorrer à Teoria dos Conjuntos: é a operação de união que faz a “soma” de um conjunto a outro, isto é, é a união que promove a junção dos elementos de um conjunto a outro. Por outro lado, se quisermos subtrair um conjunto de outro, devemos lembrar que é a operação de interseção de conjuntos que deve ser verificada. As operações com probabilidades requerem, portanto, a noção de união e interseção entre conjuntos. É a operação entre os conjuntos numéricos que se deseja efetuar que vai definir que tipo de operação (soma, multiplicação e etc.) será feita com as probabilidades. 10.2 - REGRA DA ADIÇÃO Quando queremos calcular a probabilidade de que ocorra ou um evento A ou um evento B, devemos começar determinando o número total de vezes que o evento A pode ocorrer e o número total de vezes que o evento B pode ocorrer. A palavra-chave aqui é ou, que tem o mesmo significado que possui na Teoria dos Conjuntos, ou seja, tem um significado de ou inclusivo. Isso quer dizer: ou um ocorre, ou outro ocorre, ou ambos ocorrem. Para a aplicação da Regra da Adição, precisamos do conceito de evento composto, que pode ser definido como qualquer evento que combina dois ou mais eventos simples. A notação matemática para a Regra da Adição é: P(A ou B) = P(evento A ocorrer ou evento B ocorrer) P(A ou B) não significa que A e B tenham que ocorrer simultaneamente, nem nessa sequência. P(A ou B) tem um significado matemático completamente diferente de P(A e B), como veremos mais adiante. Exemplificando, examinemos a tabela a seguir, que mostra os resultados de testes feitos com o uso de substâncias tóxicas por atletas. Tabela 10.1 - Uso de substâncias tóxicas por atletas. O sujeito realmente usou tóxico? SIM NÃO Resultado do Teste é Positivo | 119 24 (indica a presença de tóxico | (positivo verdadeiro) (positivo falso) no sangue) Resultado do Teste é|3 154 Negativo (negativo falso) (negativo verdadeiro) (indica a ausência de tóxico no sangue) Fonte: Adaptação de Triola, Mário F. Introdução à Estatística, Cap. 2 - Ed. LTC, 2008. 102 edição. Suponhamos que uma pessoa seja selecionada aleatoriamente entre os atletas que foram E testados; qual será a probabilidade de ser selecionado um sujeito que teve teste positivo E alfamacursos.com.br 56 Estatística Aplicada ou usava tóxico? Vamos examinar cuidadosamente esse exemplo para entender bem a característica fundamental do cálculo da probabilidade de um evento A ou de um evento B: o uso da palavra “ou” sugere a adição, e esta adição deve ser feita sem contagens duplas, ou seja, sem contar duas vezes elementos de qualquer um dos eventos. Ou seja, quando calculamos a probabilidade de ocorrência de um evento A ou de ocorrência de um evento B, devemos achar o número total de maneiras (ou vezes) que o evento A pode ocorrer e o número total de maneiras (ou vezes) que o evento B pode ocorrer, mas devemos calcular o total geral de modo que nenhum resultado seja contado mais de uma vez. E [n(e RE Reto nl nto A ou um evento B, e essa probabilidade à probabilidade de que os =z. Por exemplo, quando o conjunto B; quando se tos de B que pertencem Uma maneira de formalizar matematicamente a Regra da Adição consiste em somar o número de maneiras segundo as quais o evento A pode ocorrer, com o número de maneiras segundo as quais o evento B pode ocorrer e, se houver superposição, compensar esta superposição subtraindo o número de resultados contados duas vezes. Regra Formal da Adição P(A ou B) = P(A) + P(B) - P(A e B) Na expressão acima, P(A e B) representa a probabilidade dos elementos de A e B ocorrerem ao mesmo tempo. Se os eventos A e B forem mutuamente exclusivos, isto é, se os conjuntos A e B forem “disjuntos”, então P(A ou B) = P(A) + P(B), pois A e B não têm elementos que pertencem aos dois conjuntos. 1 Você sabia! comuns, isto é, se A é se que A é disjunto de conjuntos A e B não se As figuras a seguir mostram os respectivos Diagramas de Venn (da Teoria dos Conjuntos) para eventos disjuntos e não disjuntos. A figura da esquerda mostra o diagrama para eventos disjuntos e a figura da direita mostra o diagrama para eventos não disjuntos. Figura 10.1 - Eventos disjuntos e não disjuntos E alfamacursos.com.br 57 m Em Estatística Aplicada Fonte: Triola, Mário F. Introdução à Estatística, Cap. 2 - Ed. LTC, 2008. 104 edição. Intuitivamente, podemos assim definir a Regra da Multiplicação: ao calcular a probabilidade de ocorrência do evento A em uma prova do experimento e do evento B na prova seguinte, multiplique a probabilidade de A pela probabilidade de B; isso só é válido para eventos que sejam independentes, que são o objeto do nosso curso. Até agora, vimos que a Regra da Multiplicação pode ser facilmente utilizada para dois eventos; é relativamente fácil demonstrar, também, que a Regra da Multiplicação vale quando se tem vários eventos. Em geral, a probabilidade de qualquer sequência de eventos independentes é simplesmente o produto das probabilidades correspondentes. Por exemplo, a probabilidade de se obter 3 caras em 3 lances de uma moeda é: p . Ah. = 1/8 ou 0,125. A obtenção de 1 “cara” em qualquer lance da moeda é independente, pois o fato de ter obtido uma “cara” no 1º lance não influencia na obtenção de “cara” novamente na 22 jogada, e assim sucessivamente. Um outro ponto a ser destacado é a retirada de pequenas amostras de grandes populações. Nestes casos, é possível que um mesmo item até seja selecionado mais de uma vez, mas é importante frisar que, sendo as amostras pequenas e as populações grandes, então se o tamanho das amostras não for maior do que 5% da população, então as seleções feitas podem ser tratadas como independentes, mesmo que tecnicamente isso não seja totalmente correto. Este é o caso, por exemplo, das pesquisas eleitorais, em que pouco mais de 2.000 pessoas são entrevistadas, de uma população de milhões; mesmo que uma mesma pessoa seja entrevistada mais de uma vez, os pesquisadores consideram independência de eventos, nesse caso. Finalmente, podemos resumir da seguinte forma os fundamentos das regras da adição e da multiplicação de probabilidades: [fe RMT adição, ou a “união” dos o cuidado de somar de tal dica a multiplicação, ou a ndo o cuidado de verificar, 10.4 - PROBABILIDADE DE “PELO MENOS UM” E alfamacursos.com.br 60 Estatística Aplicada A Regra da Multiplicação e a Regra do Complementar podem ser utilizadas para calcular a probabilidade de que, entre várias provas de um experimento, pelo menos uma forneça o resultado desejado. Em tais casos, é fundamental que o significado da linguagem empregada seja claramente compreendido: e Pelo menos um é equivalente a “um ou mais”, e O complementar de se obter pelo menos um resultado em particular é não se obter nenhum resultado desse tipo. Suponhamos, por exemplo, que um casal planeje ter 3 filhos, e quer saber a probabilidade de ter pelo menos uma menina. Vejamos: e Pelo menos uma menina entre 3 crianças é a mesma coisa de“1 ou mais meninas”. e O complementar de “pelo menos uma menina” é “nenhuma menina”, que é a mesma coisa de “todos os filhos são meninos”, Matematicamente, poderíamos escrever uma espécie de “roteiro” para calcular a probabilidade de “pelo menos um”, utilizando o conceito de complementar e utilizando a Regra da Multiplicação: Passo 1: Vamos considerar A = pelo menos 1 das 3 crianças é menina. Passo 2: Identifique o evento que é o complementar de A. Neste caso, o complementar de A é: todas as crianças são meninos. Logo: P(Ã P(Ã P(todas as 3 crianças são meninos) P(menino, menino, menino) Passo 3: Calcule a probabilidade do complementar. P(A )= P(menino, menino, menino) =Wh.yh.V=1/8 Passo 4: Ache P(A) = 1 -P(Ã)=1-1/8=7/8 Conclusão: Há, portanto, uma probabilidade de 7/8 de que um casal com 3 filhos tenha pelo menos uma menina. alfamacursos.com.br 61 m Em Estatística Aplicada ANFAMM m - SED 3: Recordando opriedades não só das las se referem. obabilidade de eventos, ntos. obabilidade de eventos, na Teoria dos Conjuntos. ar”, é possível calcular junto, simultaneamente s que podem subsidiar 10.5 - EXERCÍCIOS PROPOSTOS 1-As mulheres têm um taxa de 0,25% de cegueira da cor verde/vermelha (doença chamada de “daltonismo”). Se uma mulher for escolhida aleatoriamente, qual é a probabilidade de que ela não seja daltônica? 2 - Examine os dados da tabela, a seguir que são de mortes de pedestres causadas por acidentes envolvendo veículos motorizados, e calcule o que se pede, supondo que a seleção dos dados é feita de forma aleatória. Calcule: (a) a probabilidade de o pedestre estar intoxicado ou o motorista estar intoxicado; (b) a probabilidade de o motorista não estar intoxicado. Pedestre intoxicado? SIM NÃO Motorista SIM 59 79 intoxicado? NÃO 582661 E alfamacursos.com.br 62 Estatística Aplicada para tentar determinar o que está acontecendo e o que está causando essa “tendência negativa”, antes que o processo saia fora dos limites aceitáveis. Um processo cujo gráfico de controle indique uma condição fora de controle, ou seja, um ou mais pontos fora dos limites de controle, ou uma série que demonstre uma tendência, é considerado fora de controle. Um processo fora de controle contém tanto causas de variações comuns (normais) quanto causas de variações especiais, que devem ser estudadas e corrigidas. Uma vez que causas de variação especiais não fazem parte do planejamento do processo, um processo fora de controle é imprevisível e, portanto, pode acarretar consequências adversas e caras. Quando se determina que um processo está fora de controle, as causas especiais devem ser identificadas; devem ser determinadas o que está produzindo a situação de perda de controle. Se as causas especiais forem prejudiciais para a qualidade do produto ou do serviço, devem ser implementados os planos para eliminar as fontes de variação. Quando uma causa especial faz crescer o nível de qualidade, o processo deve ser modificado de modo que a causa de variação especial seja incorporada ao próprio processo. Assim, uma causa maléfica deve ser eliminada, mas uma causa benéfica deve ser incorporada ao processo, constituindo-se numa melhoria. Um processo cujo gráfico de controle não indique nenhuma condição fora de controle é conhecido como um processo sob controle. Um processo sob controle contém somente causas comuns de variação. Como essas fontes de variação são, na maioria das vezes, conhecidas, são inerentes ao próprio processo, um processo sob controle é previsível. Processos sob controle são também conhecidos como processos em estado de controle estatístico, Quando um processo está sob controle, deve-se determinar se a quantidade de causas de variação comuns no processo é suficientemente pequeno para manter o processo estável, mantendo assim a mesma qualidade dos produtos e serviços. Vários exemplos de gráficos de controle podem ser dados, mas o que é importante aqui é lembrar que as ferramentas da Estatística não servem apenas aos cálculos estatísticos, dentro da própria ciência dos números. A Estatística Gráfica e a Estatística Descritiva são importantíssimas na formatação de ferramentas decisórias, pois, utilizadas para controlar a qualidade e a capacidade dos processos, acabam por determinar o grau de melhoria e o grau de qualidade de produtos e serviços, em todas as áreas da Produção. E alfamacursos.com.br 65 m Em Estatística Aplicada ANFAMM - GEO Recordando instrumento de aferição uer natureza. Empresas a a análise dos dados e os, o que lhes permite das, dentro das quais os a Estatística Descritiva, abilidade, permitem o stabelecendo, para cada é aceita. objetivos do CEP, pois, utenção do padrão de itivo. 11.1 - EXERCÍCIOS PROPOSTOS 1 - Observe o gráfico de controle a seguir, onde são mostradas as “contas vermelhas”, isto é, contas de clientes especiais, que necessitam de monitoramento constante, por se tratarem de grandes consumidores dos produtos da empresa. No eixo x, estão mostrados os responsáveis pelas contas, em cada período. Assim, Alyson foi o responsável pelas contas durante um certo tempo, seguido David, depois por Peter, e assim por diante. Existe alguma evidência de causas especiais de variação neste processo ou as contas vermelhas estão sob controle? E Ss E e o RN JON AE | V ; 010 Proporção da Contas Vermelhas a 8 “Alsom Feior Aipson | Foisr | Agson | Polos | ] a PE: David Shar David! Sharyo Ê Fonte: Levine, David M. et alii. Estatística - Teoria e Aplicações, Cap. 18 - Ed. LTC, 2008. 5a edição. 2 - Veja o gráfico de controle a seguir e determine se, neste caso, existem causas “não fortuitas”, ou seja, causas especiais que estejam levando o processo a sair fora de sua faixa normal de funcionamento. E alfamacursos.com.br 66 o = ni . a Estatística Aplicada Gráico ppora Ataduras Nio-Contormos o 5 10 15 E] as a ms Fonte: Levine, David M. et alii. Estatística - Teoria e Aplicações, Cap. 18 - Ed. LTC, 2008. 5a edição. E alfamacursos.com.br 67 Estatística Aplicada E processo: e Existem variações naturais em todos os processos, ou seja, as variações fazem parte de qualquer processo, e são naturalmente inerentes a ele. e Não existe processo que esteja sempre sob controle estatístico! Variações existem e elas são as responsáveis pela instabilidade dos processos, por mais controlados que estejam. * Nenhuma produção ou “saída” de um processo segue exatamente a distribuição normal, fornecendo histogramas perfeitamente ajustáveis ao campo teórico. E preciso bom senso antes de condenar um processo, apenas porque ele não se ajusta à curva teórica. Por isso, antes de começar um estudo sobre a “normalidade” de um processo, ou antes, de iniciar o diagnóstico da capacidade de um processo, certifique-se de: e Determinar o número de peças de máquinas ou etapas do processo realmente essenciais para a condução do estudo. Peças ou etapas demais atrapalham o processo e induzem as falhas; peças ou etapas de menos não dão uma boa visão da distribuição pelo histograma. e Comprovar que todos os materiais que serão utilizados estejam aprovados e testados de acordo com as especificações, para não introduzir variações por conta de defeitos desses materiais. e Comprovar que os medidores e equipamentos utilizados nas medições estejam devidamente calibrados, com suas tolerâncias rigorosamente dentro das especificações. e Fazer as medições em condições normais de funcionamento do processo (ou da máquina), em um ciclo ininterrupto de produção, com o processo (ou a máquina) ajustado para a capacidade nominal. e Quando houver vários equipamentos, tratar cada um como uma “estação independente, para a avaliação de sua capacidade. Depois que coletar os dados, estruture-os de forma a permitir o seu tratamento. Isso pode ser feito através de tabelas e gráficos, como foi visto no capítulo 2. e Recorra à elaboração de gráficos sequenciais, histogramas e retas de tendência. e Recorra também ao cálculo de probabilidades, para definir qual é a chance de ocorrerem problemas não usuais, ou qual é a chance de o processo permanecer sob controle estatístico (sem a ocorrência de problemas que não sejam os de causas naturais). e Estabeleça depois os limites de especificação, marcando-os nos gráficos para melhor visualização da capacidade do processo. e Agrupe os dados em histogramas e verifique a “normalidade” da distribuição de frequências. e Calcule a distribuição de frequências: frequências simples de ocorrências dos eventos do processo (naturais ou não), frequências acumuladas, frequências percentuais, e faça isso utilizando uma distribuição de classes adequada, de preferência calculada pela fórmula de Sturges (capítulo 3). e Calcule os intervalos de classe, de tal forma que abranjam todo o intervalo que está sendo estudado, sem deixar de fora os pontos considerados outliers. Neste caso, os outliers são de grande interesse, pois são eles os pontos “discrepantes” do processo, que deverão ser estudados com mais detalhe. Se a média não está devidamente centrada na distribuição de frequências, se o desvio padrão é muito grande, causando dispersão além do controlável, em qualquer caso deve- se cuidar para que os dados sejam devidamente tratados e as ações sejam objetivas e claras a ponto de corrigir as anormalidades rapidamente, trazendo o processo para a situação de sob controle estatístico. E alfamacursos.com.br 70 E3 Verifica-se que o processo está controlado estatisticamente, mas mesmo assim ocorreu E alfamacursos.com.br 7 Estatística Aplicada ALFA 9 o aus * Je Um processo está sob controle estatístico quando a variação presente nele é devida apenas a causas aleatórias (ao acaso ou naturais) e as causas especiais tiverem sido removidas. Atendendo a essas recomendações, é possível a ocorrência de quatro situações: Tabela 12.2 - Situações de processos CASO SITUAÇÃO 1 O processo não está sob controle estatístico e verifica-se a produção de itens defeituosos. 2 O processo está sob controle estatístico e verifica-se, mesmo assim, a produção de itens defeituosos. 3 O processo não está sob controle estatístico, mas não se verifica a produção de itens defeituosos. 4 O processo está sob controle estatístico e não se verifica a produção de itens defeituosos. Fonte: http://www. dge.ubi.pt/gqualidade/g-qual/cp/Capacidade.pdf, consultado em 29/03/2012. No caso 1, o gráfico do processo seria esquematicamente: Figura 12.2 - Caso 1: processo não controlado, produção com defeito Su Se UCL LCL Fonte: http://www.dge.ubi.pt/gqualidade/g-qual/cp/Capacidade.pdf, consultado em 29/03/2012. Verifica-se que o processo não está controlado porque ocorrem variações acima do limite superior e abaixo do limite inferior, ocasionando a produção de itens defeituosos. As ações a serem tomadas, neste caso, seria melhorar o processo, rever as especificações e considerar a possibilidade de inspeção por etapa. No caso 2, o gráfico seria: Figura 12.3 - Caso 2: Processo controlado, mas com produção de defeituosos Sv S u AN Fonte: http://www.dge.ubi.pt/gqualidade/g-qual/cp/Capacidade.pdf, consultado em 29/03/2012 CL LCL Estatística Aplicada a produção de itens defeituosos, em quantidade ou frequência não suficiente para tirar o processo do controle estatístico. As ações a tomar, neste caso, seria melhorar a capacidade do processo (ampliar os limites de controle e as especificações), rever as especificações (e limites de tolerância) e considerar a hipótese de inspeção por etapa, enquanto se modificam as especificações do processo. Normalmente, é necessário diminuir a dispersão do processo (melhor controle), mas em alguns casos o processo pode apresentar uma dispersão aceitável e estar apenas “descentrado” (média descentrada). O gráfico do caso 3 seria: Figura 12.4 - Caso 3: processo não controlado, mas sem produção de defeituosos. Su Se UCL LCL Fonte: http://www.dge.ubi. pt/gqualidade/g-qual/cp/Capacidade.pdf, consultado em 29/03/2012. Pode ser visto que o processo está fora de controle, mas não se verifica a produção de peças (itens) defeituosas. O “descontrole” não é suficiente (ainda!) para acarretar a produção de itens desviantes. Neste caso, as ações a serem tomadas se resumem a melhorar a eficiência do processo, através da remoção das causas de variação não natural e estabelecimento do controle estatístico, antes que apareçam variações sistemáticas, capazes de tirar o processo de seu estado controlado. No caso 4, podemos imaginar um gráfico do tipo: Figura 12.5 - Caso 4: processo controlado, sem produção com defeitos Su 5 UCL Vaya LCL Fonte: http://www.dge.ubi. pt/gqualidade/g-qual/cp/Capacidade.pdf, consultado em 29/03/2012. A ação, neste caso, é quase óbvia, uma vez que estamos na situação ideal, desejada. Aqui o processo apresenta capabilidade adequada e os limites de controle estão de acordo com as especificações. O grau de adequabilidade é medido pelos índices Cp e Cpk. A ação, neste caso, é manter o processo como está, cuidando para que ele não saia de seu regime de controle estatístico. Os processos são o instrumento de produção mais importante em qualquer sociedade. Sem o seu controle, ocorrem variações desnecessárias e prejudiciais, acarretando perdas de produção, desperdício, paradas. A Estatística, através de todo o seu método, ou seja, através de tudo que estudamos neste curso, é capaz de fornecer informações que permitem ao analista tomar decisões importantes sobre a estabilidade dos processos. É assim que se faz o controle da produção, e é assim que se aplica a Estatística, uma das mais avançadas ferramentas atuais de produtividade. alfamacursos.com.br 72 m Em Estatística Aplicada = 3 - A tabela com a distribuição percentuais das idades é a seguinte: [ATRIZES |% ATORES | Até Manos [3] 36,00 |3 3,57 | Alm Aitanos | 32 as O [26 33,33 4laS0anos ||3 15,48 [32 38.10 SlaG0anos |2 238 [16 19,05 61 70 anos [4 ai já 4,76 TlaB0anos |? 2,38 I Ly | SOMA [84 100,00 | 84 104,00 Idade das Atrizes Idade dos Atores Até 30 anos Até DO amos 031240 anos BI aMans m4la SO anos málaSdanos 551280 anos ESlathanos Sia 70 anos EGla Manos mia BO anos ma BO anos A maior faixa de idade (maior percentagem) para as atrizes é de 31 a 40 anos, quase “em- patando” com a faixa de “até 30 anos”. Para os atores, a maior faixa é a de 41 a 50 anos, seguida da faixa de 31 a 40 anos. Mais uma vez, isso demonstra que há uma tendência de que as atrizes sejam premiadas com idades mais jovens do que os atores. 4- a) 18 membros (soma das frequências). b) Peso mínimo = 100 Ib. Peso máximo = 220 Ib. c) O peso mais leve, que é de 100 libras (frequência = 2 pessoas) se refere ao peso dos ti- moneiros, enquanto que o restante se refere ao peso dos remadores. Os timoneiros, como não remam, devem ser mais leves do que os remadores, porque é uma espécie de “peso morto” no barco. CAPÍTULO 3 1 - A distribuição de frequências é a seguinte tabela de valores e percentuais: NOTAS FREQ. FREQ. a FREQ. AUUM. | FREQ. AC. Sa Ilado 4 aa 4 EM 4a Sa ? Ha H no Sado 4 180 20 au flata H 220 E] 620 Tao to 20 4 so Ea OA 6 120 47 so Glatão |3 “0 so 100,0 SIMA so too - - E alfamacursos.com.br 75 no E Estatística Aplicada 2 - a) Distribuição de frequências MARCA Frequilicas | Frequência da | Freq, Freq Acueniilada Acumulada “e | Antârctica E Tt T. , [ CociCola H 34 3 27 4 32 “00 co 37 EEE Sebincarol ã E 10,0 [ TOTAL E I noto b) Classe de maior frequência: notas entre 6,1 a 7,0 (frequência = 11). c) Notas maiores ou iguais a 7,0: (10+6+3) = 19 alunos. CAPÍTULO 4 1 - O peso de chumbo ficou entre as faces 3 e 4 do dado, pois essas duas faces têm a fre- quência bem maior do que as demais. Além disso, o dado cheio de chumbo ficou comple- tamente desproporcional quanto à sua regularidade, afetando todas as frequências. 2- a) Amplitude = 190 - 151 = 39. b)k=1+3,32.log 100 =1+(3,32).(2) = 7,64 = 8 classes. Tamanho de cada intervalo = amplitude/nº de classes = 39/8 = 5. o) Pontos ALTURAS |F; Fi Fu Fs. Médias 151 a 155 4 aum 4 40 155 ealso Ja am 8 8a 158 [l6latos (Il 11,0 19 190 Toã of a 70 [33 EEN) 5 320 16% Ela 75 I7 7a to Go 173 176 a 180 17 174 B6 Eb 178 181 a 185 9 o 95 as, 183 lagaloo |5 su tom Hon, LER SOMA om Toa E = CAPÍTULO 5 1 - Média de idade das atrizes = 3.029/84 = 36 anos. 2 - Média de idade das atrizes = 2.690/84 = 32 anos. A média calculada pelas classes (tabela 4.1) difere de aproximadamente 4 anos em rela- ção à média simples (chamada de “média verdadeira”). Isso se deve porque, ao fazer o cálculo utilizando as classes, multiplicamos a frequência de cada classe pelo ponto médio; = isso equivale a dizer, por exemplo, que todas as 32 atrizes com idades entre 41 e 50 anos alfamacursos.com.br 76 E alfamacursos.com.br 77 Estatística Aplicada ALFA 9 o are Fo têm idades iguais ao ponto médio da classe, que é de 45 anos, o que gera uma distorção. 3 - Média de idade dos atores (média simples) = 3.718/84 = 44 anos. Média de idade dos atores (com a distribuição de frequências) = 3.680/84 = 44 anos Neste caso, as médias de idade não diferem. Isso se deve porque a distribuição das idades dos atores é mais simétrica, ou seja, as idades se distribuem melhor em torno da média. Como a distribuição é bem simétrica, não faz muita diferença o cálculo utilizando a média simples ou através da distribuição de frequências. CAPÍTULO 6 1 - Mediana, porque a média é influenciada por valores extremos, no caso, o salário do professor. 2 - A média não é uma boa estimativa porque os dados envolvem valores bem discrepantes em relação ao padrão (60 segundos): vão desde 49 até 75 segundos; a média é influen- ciada por valores discrepantes (outliers). Média = 58,25 Mediana = (53+58)/2 = 55,5 Moda = 49 (valor que se repete mais vezes) 3 - Comparação entre os dois conjuntos: COSIUNTO | Média Mada [ Mediana Direção ao Leste 213 20 c 24 (bimodal) | E Direção no Oeste 29,5 200 24 (barmondal) | 25 Embora a moda seja praticamente a mesma nas duas direções da viagem, nota-se que em direção ao Leste (direção Inglaterra) a tendência é que se encontrem pessoas mais jovens, enquanto que na direção ao Oeste (direção EUA) as idades são maiores. Isso pode indicar, por exemplo, que a viagem clandestina em direção aos EUA pode ser de pessoas em busca de trabalho. 4 - Média = (soma dos 10 valores)/10 75,0 = (698 + X)/ 10 (X é o 10º valor da lista) 750 = 698 + X Xx=52 CAPÍTULO 7 1 - Fórmula geral: S? = 38,8/4 = 9,7 Fórmula prática: S? = 9,7 Resultados exatamente iguais! 2-S?=4,51 (mil reais)? CAPÍTULO 8 1-S=raiz(S2) = 3,11 Pela Regra Empírica: Média-15=4,2-3,11=1,09 Média+1S=42+3,/11=7,31 % de pontos entre (Média - 1S) e (Média + 1S) = 3/5 = 60% Média - 25 = 4,2 - (2).(3,11) = -2,02 MPN :Q. alfamacursos.com.br alfamacursos.com.br 81 FAN 8. rep