Baixe ESTATISTICA APLICADA II e outras Exercícios em PDF para Estatística Aplicada, somente na Docsity! 53 Re vi sã o: A nd ré ia G om es - D ia gr am aç ão : L éo - 0 1/ 08 /2 01 2 ESTATÍSTICA APLICADA Unidade II 5 DISTRIBUIÇÃO DE FREQUÊNCIAS Ao longo de nosso estudo, observamos que, para extrair dos dados estatísticos de que dispomos a correta análise e interpretação, o primeiro passo deverá ser a correta organização e sumarização desses dados; caso contrário, esses números não farão qualquer sentido. Além disso, dependendo do tamanho do nosso conjunto de dados, podemos organizá-los em um rol de dados simples, ou seja, por ordem de grandeza (crescente ou decrescente), ou em rol (novamente ordenando o conjunto de dados) e, posteriormente, tabelando sua distribuição de frequências. A distribuição de frequências é o modo de tratamento de dados utilizado quando é grande a quantidade de dados brutos, e passamos a agrupar os dados estatísticos em subconjuntos com características semelhantes – as classes ou categorias. A distribuição de frequência é a organização de dados em classes ou intervalos, para determinar o número de observações ou a percentagem de observações de cada classe, chamada de frequência de classes. Para apresentar esses dados, podemos utilizar gráficos e tabelas, bem como as medidas de posição e variabilidade para interpretá-los, mas não sem organizá-los previamente em uma distribuição, sem a qual ficaria impossível o cálculo de algumas das medidas necessárias, como média, variância etc. Tabela 6 Idade de 100 estudantes formandos do curso de Gestão de uma Universidade em dez/2006 Idade Número de estudantes (fi) 20 a 22 5 22 a 24 12 24 a 26 11 26 a 28 16 28 a 30 20 30 a 32 14 32 a 34 8 34 a 36 8 36 a 38 4 38 a 40 2 Total = 100 54 Unidade II Re vi sã o: A nd ré ia G om es - D ia gr am aç ão : L éo - 0 1/ 08 /2 01 2 A tabela anterior é uma distribuição de frequências das idades dos estudantes que estão se formando no curso de Gestão de determinada universidade fictícia. A primeira classe corresponderia ao grupo de formandos em Gestão no ano de 2006 e que têm entre 20 e 22 anos, e é indicada pelo símbolo 20 |— 22. A frequência dessa classe corresponde a 8, porque existem 8 estudantes cuja idade faz parte dessa classe. Representação dos intervalos reais: Intervalo fechado nas duas extremidades a b Que será [a,b], ou ainda {x ∈ ℝ | a ≤ x ≤ b}. Intervalo aberto nas duas extremidades a b Que será ]a,b[, ou ainda {x ∈ ℝ | a < x < b}. Intervalo fechado à esquerda e aberto à direita a b Que será [a,b[, ou ainda [a,b) = {x ∈ ℝ | a ≤ x < b}. Intervalo aberto à esquerda e fechado à direita a b Que será (a,b], ou ainda ]a,b] = {x ∈ ℝ | a < x ≤ b}. Saiba mais Para mais informações a respeito da Teoria dos Conjuntos, ler o material “Elementos de Lógica Matemática e Teoria dos Conjuntos”. Disponível em: <http://www.ciul.ul.pt/~amfern/am1/documents/logTeoConj.pdf>. Acesso em: 24 jul. 2012. 5.1 A construção de uma distribuição de frequências para dados contínuos Para se construir determinada distribuição de frequências, é preciso, em primeiro lugar, definir o tipo de variável em questão, para depois definir os passos que devem ser seguidos para a construção dessa 57 Re vi sã o: A nd ré ia G om es - D ia gr am aç ão : L éo - 0 1/ 08 /2 01 2 ESTATÍSTICA APLICADA Seguindo o exemplo em que estamos trabalhando, já fizemos o cálculo da amplitude total e do número de classes; podemos, então, passar para o cálculo da amplitude de classes do exemplo. Temos: A A N A classes total classes classes = = =20 10 2 A amplitude das classes da distribuição de frequências que estamos procurando construir em nosso exemplo será igual a dois. Isso representa o intervalo ou o tamanho de cada classe no qual iremos dispor nossos dados. É importante ressaltar que uma distribuição de frequência não obrigatoriamente apresenta uma única amplitude de classes, posto que mantenha a composição estrutural da distribuição. Temos agora o número de classes, a amplitude de classes, e podemos então calcular o intervalo de classes. O intervalo de classes é composto por um limite inferior (número menor) e por um limite superior (número maior). Os limites inferiores e superiores podem ou não estar incluídos no intervalo de classes, existindo uma simbologia própria dentro da estatística para se expressar isso. Então, vejamos exemplos a partir da tabela 6: A) 20 |—| 22: diz-se que é um intervalo fechado à esquerda e à direita, pois tanto o 20 quanto o 22 participam do intervalo; B) 22 —| 24: diz-se que esse é um intervalo aberto à esquerda e fechado à direita, já que o limite inferior, 22, não participa do intervalo, ao passo que o limite superior participa; C) 20 |— 22: caso o exemplo se apresentasse assim, teríamos um intervalo de classe fechado à esquerda e aberto à direita, já que o limite inferior participa do intervalo, mas o limite superior não; D) 20 — 22: aqui, teríamos um intervalo de classe aberto à esquerda e à direita, em que nem o limite inferior nem o limite superior participam do intervalo. Após o cálculo do número e da amplitude de classes, devemos definir o limite inferior e o limite superior de cada classe, começando com o menor valor. Em nosso exemplo, podemos calcular as classes da seguinte forma: Para a primeira classe: • limite inferior: 20; • limite superior: 20 + amplitude de classe = 20 + 2 = 22. Para a segunda classe: • limite inferior: limite superior da classe anterior = 22; • limite superior: limite inferior da segunda classe + amplitude de classes = 22 + 2 = 24. 58 Unidade II Re vi sã o: A nd ré ia G om es - D ia gr am aç ão : L éo - 0 1/ 08 /2 01 2 E assim sucessivamente até a classe de número 10, em nosso exemplo, que terá como limite inferior 38 e como limite superior 40. É importante frisar que determinado valor não pode pertencer a mais de uma classe, mas, por outro lado, para cada valor deve haver uma classe, não permitindo a existência de lacunas na fixação dessas mesmas classes. Uma vez definido o número e a amplitude total de classes, a partir delas podemos estabelecer a amplitude de classes e também definir os limites superior e inferior de cada classe. Resta agora confrontar nossas classes com as observações de que dispomos na tabela 7. Mediante contagem, devemos construir nossa distribuição de frequência fixando cada observação numa classe determinada. Quando indicamos o número de observações existentes em dado intervalo, temos a chamada frequência absoluta simples (fi). A frequência absoluta é o número de vezes que o dado aparece naquele determinado conjunto de números, ou seja, em uma amostra ou população da pesquisa a ser estudada. É importante destacar que nenhuma classe poderá apresentar frequência absoluta igual a zero. Assim, uma primeira construção que podemos fazer para nos levar à tabela 6 é estabelecer os intervalos de frequência em cada classe, só que agora colocando a notação estatística em cada intervalo de classe. Então, temos: Tabela 8 Distribuição de frequência das idades Classes Frequência absoluta simples 20 |- 22 5 22 |- 24 12 24 |- 26 11 26 |- 28 16 28 |- 30 20 30 |- 32 14 32 |- 34 8 34 |- 36 8 36 |- 38 4 38 |- 40 2 ∑ 100 É importante ressaltar que, na construção da distribuição de frequências anterior, devemos respeitar os valores estabelecidos para cada intervalo de classe, ou seja, para o primeiro intervalo de classe, há o valor do limite inferior e do limite superior, que serão indicados pelo intervalo fechado à esquerda e pelo intervalo aberto à direita, ou seja, tem que colocar a quantidade de frequência compreendida entre 20 (limite inferior) e menor que 22 (limite superior); existem cinco valores compreendidos no primeiro intervalo de classe. 59 Re vi sã o: A nd ré ia G om es - D ia gr am aç ão : L éo - 0 1/ 08 /2 01 2 ESTATÍSTICA APLICADA No segundo intervalo de classe, que tem 22 como limite inferior e 24 como limite superior, será colocada a quantidade de frequência compreendida entre 22 e menor que 24; existem doze valores, e assim se vai determinando a quantidade de frequência para cada classe, até chegar à última classe, conforme a tabela 8. A seguir, devemos calcular as frequências absolutas simples acumuladas (fi, A). Frequência absoluta simples acumulada indica o número de observações acumuladas até o limite superior de uma classe. Por exemplo, na terceira classe, teríamos 28 alunos com idade entre 20 e 26 anos formando-se em Gestão. Vejamos como ficaria a nova tabela, incluindo a nova notação da frequência acumulada: Tabela 9 Classes Frequência absoluta simples (fi) Frequência absoluta simples acumulada (fi, A) 20 |- 22 5 5 22 |- 24 12 17 24 |- 26 11 28 26 |- 28 16 44 28 |- 30 20 64 30 |- 32 14 78 32 |- 34 8 86 34 |- 36 8 94 36 |- 38 4 98 38 |- 40 2 100 ∑∑ 100 Outro dado importante que podemos extrair da construção de uma distribuição de frequências é a frequência relativa simples (fi, R), que nos mostra a participação relativa do número de observações em uma dada classe, e deverá ser calculada da seguinte forma: f R f fi i i , = ∑ , geralmente expresso em percentual. A soma das frequências relativas de todas as classes será igual a 1, se expressa em forma fracionária, ou a 100%, se expressa em percentual. No caso da distribuição de frequências que estamos construindo, temos agora a seguinte tabela: 62 Unidade II Re vi sã o: A nd ré ia G om es - D ia gr am aç ão : L éo - 0 1/ 08 /2 01 2 Exemplo: salários de funcionários de determinada empresa: Tabela 12 Intervalos Salários fi (fi Ac.) 15750 -- 29000 22375 238 238 29000 -- 42250 35625 144 382 42250 -- 55500 48875 35 417 55500 -- 68750 62125 29 446 68750 -- 82000 75375 16 462 82000 -- 92250 88625 6 468 92250 -- 108500 101875 4 472 108500 -- 121750 115125 1 473 121750 -- 135000 128375 0 473 A) Histograma 22.375 35.625 48.875 62.125 75.375 Salários 88.625 101.875 115.125 128.375 f i 240 220 200 180 160 140 120 100 80 60 40 20 0 238 144 35 29 16 6 4 1 0 Figura 19 Observação A área de um histograma é proporcional à soma das frequências. 63 Re vi sã o: A nd ré ia G om es - D ia gr am aç ão : L éo - 0 1/ 08 /2 01 2 ESTATÍSTICA APLICADA B) Polígono de frequência 22.375 35.625 48.875 62.125 75.375 Salários 88.625 101.875 115.125 128.375 240 220 200 180 160 140 120 100 80 60 40 20 0 238 144 35 29 16 6 4 1 00 f i Figura 20 Lembrete Estatística descritiva é o nome dado ao conjunto de técnicas analíticas utilizadas para resumir o conjunto de todos os dados coletados numa dada investigação a relativamente poucos números e gráficos. A estatística descritiva envolve basicamente: Distribuição de frequência: é o conjunto das frequências relativas observadas para um dado fenômeno estudado, sendo sua representação gráfica o histograma (diagrama em que o eixo horizontal representa faixas de valores da variável aleatória e o eixo vertical representa a frequência relativa). Por uma consequência da Lei dos Grandes Números, quanto maior o tamanho da amostra, mais a distribuição de frequência tende para a distribuição de probabilidade. Fr eq uê nc ia re la tiv a (% ) Faixas da variável aleatória A B C E F 50 40 30 20 10 0 Figura 21 – Histograma Medidas da tendência central: são indicadores que permitem que se tenha uma primeira ideia, um resumo de como se distribuem os dados de um experimento, informando o valor (ou faixa de valores) da variável aleatória que ocorre mais tipicamente. Ao todo, são três os parâmetros: 64 Unidade II Re vi sã o: A nd ré ia G om es - D ia gr am aç ão : L éo - 0 1/ 08 /2 01 2 • média: é a soma de todos os resultados dividida pelo número total de casos, podendo ser considerada como um resumo da distribuição como um todo; • moda: é o evento ou a categoria de eventos que ocorreu com maior frequência, indicando o valor ou a categoria mais provável; • mediana: é o valor da variável aleatória a partir do qual metade dos casos se encontra acima dele e metade, abaixo. Fr eq uê nc ia re la tiv a (% ) Faixas da variável aleatória A B C E F 50 40 30 20 10 0 Tendência central Figura 22 – Histograma Medidas de dispersão: são medidas da variação de um conjunto de dados em torno da média, ou seja, da maior ou menor variabilidade dos resultados obtidos. Elas permitem identificar até que ponto os resultados se concentram ou não ao redor da tendência central de um conjunto de observações. Incluem a amplitude, o desvio médio, a variância, o desvio padrão, o erro padrão e o coeficiente de variação, cada um expressando diferentes formas de quantificar a tendência que os resultados de um experimento aleatório têm de se concentrarem ou não em determinados valores (quanto maior a dispersão, menor a concentração e vice-versa). Fr eq uê nc ia re la tiv a (% ) Faixas da variável aleatória A B C E F 50 40 30 20 10 0 Dispersão Figura 23 – Histograma A ideia básica é a de se estabelecer uma descrição dos dados relativos a cada uma das variáveis, dados esses levantados por meio de uma amostra. Façamos alguns exemplos para tornar as definições e suas aplicações técnicas mais claras: Exemplo 1 A empresa JCC fez levantamento entre 30 funcionários para descobrir o número de filhos dos seus funcionários. Foram encontrados os seguintes valores: 67 Re vi sã o: A nd ré ia G om es - D ia gr am aç ão : L éo - 0 1/ 08 /2 01 2 ESTATÍSTICA APLICADA Amplitude total (dá uma ideia do campo de variação dos dados) A = LS - LI = (2,34) - (1,08) = 1,26 Fazendo uma análise dos resultados da quantidade de creatinina encontrada na urina dos 84 pacientes, verificou-se que ocorreu uma variação de 1,26 no seu campo (de 1,08 a 2,34). Estabelecer o número de classes (c): c = 1+3,3.log n c = 1+3,3.log(84) c ≅ 7,35 c = 7 Estabelecer o intervalo de classe (i): i = A/c = (1,26)/7 = 0,18 Construção da tabela: Tabela 14 Classes fi Pm fr f % F% ↓ F% ↑ F ↓ F ↑ 1,08 |— 1,26 5 1,17 0,059 5,9 5,9 100 5 84 1,26 |— 1,44 13 1,35 0,155 15,5 21,4 94,1 18 79 1,44 |— 1,62 32 1,53 0,381 38,1 59,5 78,6 50 66 1,62 |— 1,80 18 1,71 0,214 21,4 80,9 40,5 68 34 1,80 |— 1,98 11 1,89 0,131 13,1 94,0 19,1 79 16 1,98 |— 2,16 2 2,07 0,024 2,4 96,4 6,0 81 5 2,16 |—| 2,34 3 2,25 0,036 3,6 100 3,6 84 3 Total 84 - 1 100 - - - - Observações: 1. A representação de cada classe deve ser feita pelo ponto médio (Pm), o qual se obtém pela fórmula: Pm = (Lt +Ls ) / 2 Obs. Como teste, solicita-se ao aluno que calcule cada um dos Pm na tabela, faça uma espécie de conferência. 2. fi: representa o número de elementos de cada classe. Ou, em outras palavras, é a quantidade de vezes que cada classe apareceu na análise; 68 Unidade II Re vi sã o: A nd ré ia G om es - D ia gr am aç ão : L éo - 0 1/ 08 /2 01 2 fr: mede a representatividade relativa de cada valor encontrado em fi, ou o quanto cada valor significa em relação à unidade; f%: representa o peso percentual de cada item em relação ao todo. 3. 1,08 |— 1,26 na leitura de intervalo, significa que é um intervalo fechado à esquerda (pertencem à classe valores iguais ao extremo inferior – ou seja, inclui 1,08 no intervalo) e aberto à direita (não pertencem à classe valores iguais ao extremo superior – o limite superior não faz parte do intervalo, é abaixo dele). 4. Não necessariamente o último número será o limite superior da última classe, mas obrigatoriamente as classes devem conter todos os elementos. Algumas considerações ou conclusões a) Considerando os valores anteriores, quantos pacientes apontaram resultados no intervalo entre [1,44; 1,62[? R.: (Frequência absoluta simples) 32 pacientes. b) Para ampliar a análise, aponte a quantidade de pacientes com creatinina inferior ao intervalo [1,80; 1,98[ Observe a tabela: (Frequência absoluta acumulada) Tabela 15 Classes fi Pm fr f % F% ↓ F% ↑ F ↓ F ↑ 1,08 |— 1,26 5 1,17 0,059 5,9 5,9 100 5 84 1,26 |— 1,44 13 1,35 0,155 15,5 21,4 94,1 18 79 1,44 |— 1,62 32 1,53 0,381 38,1 59,5 78,6 50 66 1,62 |— 1,80 18 1,71 0,214 21,4 80,9 40,5 68 34 1,80 |— 1,98 11 1,89 0,131 13,1 94,0 19,1 79 16 1,98 |— 2,16 2 2,07 0,024 2,4 96,4 6,0 81 5 2,16 |—| 2,34 3 2,25 0,036 3,6 100 3,6 84 3 Total 84 - 1 100 - - - - R.: 68 pacientes. Atenção: para dados agrupados ou distribuição de frequências. Elementos principais: a) Classe: é cada um dos intervalos em que os dados são agrupados. 69 Re vi sã o: A nd ré ia G om es - D ia gr am aç ão : L éo - 0 1/ 08 /2 01 2 ESTATÍSTICA APLICADA b) Limites de classes: são os valores extremos de cada classe. li = limite inferior de uma classe; Li = limite superior de uma classe. c) Amplitude: é a diferença entre o maior valor e o menor valor de certo conjunto de dados. Pode ser referida ao total de dados ou a uma das classes em particular. • Amplitude total (At ): é calculada pela seguinte expressão: At = Max. (rol) – Min. (rol). • Amplitude das classes (h): é a relação entre a amplitude total e o número de classes, conforme mostra a expressão a seguir: Max (rol)-Min(rol) h = ------------------------------------------- n em que n é o número de intervalos de classe. d) Ponto médio de classe (xi): é calculado pela seguinte expressão: Li + lixi = ----------------- 2 e) Frequência absoluta (fi): frequência absoluta de uma classe de ordem i é o número de dados que pertencem a essa classe. f) Frequência relativa (fri): frequência relativa de uma classe de ordem i é o quociente da frequência absoluta dessa classe (fi) pelo total, ou seja, fifri = --------------- Total Observação A soma de todas as frequências absolutas é igual ao total. g) Frequência acumulada (fi): frequência acumulada de uma classe de ordem i é a soma das frequências até a classe de ordem i. h) Frequência relativa acumulada (fri): frequência relativa acumulada de uma classe de ordem i é a soma das frequências relativas até a classe de ordem i. 72 Unidade II Re vi sã o: A nd ré ia G om es - D ia gr am aç ão : L éo - 0 1/ 08 /2 01 2 Calculando a média aritmética para o exemplo, em que n = 100, temos, então: x fX n x i i= = + + + + + + ∑ ( . ) ( . ) ( . ) ( . ) ( . ) ( . ) (5 21 12 23 11 25 16 27 20 29 14 31 8 33 8 35 4 37 2 39 100 105 276 275 432 580 434 26 . ) ( . ) ( . ) .+ + + ( ) = + + + + + +x 4 280 148 78 100 2872 100 28 72 + + + = =x , A idade média dos estudantes de Gestão da universidade AB que se formaram no ano de 2016 seria de 28,72 anos, de acordo com a distribuição de frequência aqui construída. 6.1.2 A mediana Como vimos também no item 2, a mediana é o elemento que ocupa a posição central num determinado conjunto de dados ordenados. Em uma distribuição de frequências de uma variável contínua, devem-se seguir alguns passos para calcular a mediana. Da mesma forma que, nos dados organizados em um rol, precisamos primeiro identificar a posição da mediana. O primeiro passo é calcular a ordem n 2 , e parte-se para a frequência acumulada para identificar a classe que contém a mediana. Feito isso, utiliza-se a seguinte fórmula para o cálculo da mediana: x n f h FMD MD ~ ( ). = + − ∑ 2 , onde MD : Limite inferior da classe da mediana; n : tamanho da amostra; Σƒ: Soma das frequências acumuladas anteriores à da mediana; h : Amplitude da classe da mediana; FMD: Frequência da classe da mediana. Para a distribuição de frequência, temos de seguir os passos citados anteriormente para calcular a mediana. Pelo exemplo anterior, primeiro, calculamos n 2 100 2 50= = , conforme indicado na tabela a seguir: 73 Re vi sã o: A nd ré ia G om es - D ia gr am aç ão : L éo - 0 1/ 08 /2 01 2 ESTATÍSTICA APLICADA Tabela 19 Classes fi fi, A fi, R Xi fi, Xi 20 |- 22 5 5 0,05 21 105 22 |- 24 12 17 0,12 23 276 24 |- 26 11 28 0,11 25 275 26 |- 28 16 44 0,16 27 432 28 |- 30 20 64 0,20 29 580 30 |- 32 14 78 0,14 31 434 32 |- 34 8 86 0,08 33 264 34 |- 36 8 94 0,08 35 280 36 |- 38 4 98 0,04 37 148 38 |- 40 2 100 0,02 39 78 ∑ 100 1 2872 a) Identificar a classe da mediana a partir da frequência acumulada, procurando descobrir onde a observação de número 50 está alocada. Em nosso exemplo, ela estará na quinta classe, que possui limite inferior de 28 e limite superior de 30. b) Calcular a mediana por meio de: x n f h FMD MD ~ ( ). = + − ∑ 2 , onde MD = 28; n = 100; f∑ = 44; FMD = 20; h = 2 x x x ~ ~ ~ , , = + −( ) × = + = 28 50 44 2 20 28 0 6 28 6 A mediana de nossa distribuição de frequência será 28,6 anos, ou seja, 50% dos alunos que se formaram em Gestão nessa universidade têm, no máximo, 28,6 anos. 6.1.3 A moda Para calcular a moda, é preciso identificar o intervalo de classes de maior frequência, pois é nele que ela se encontra. Depois disso, aplica-se a chamada fórmula de Czuber, descrita a seguir, para o cálculo da moda, que nos dirá qual a observação mais frequente daquela distribuição. O cálculo da moda será: 74 Unidade II Re vi sã o: A nd ré ia G om es - D ia gr am aç ão : L éo - 0 1/ 08 /2 01 2 M L D D D hod = + + 1 1 1 2 ( ). , onde Mod: Valor da moda; L1: Limite inferior da classe modal; D1:Diferença entre a frequência da classe modal e a frequência da classe anterior; D2:Diferença entre a frequência da classe modal e a frequência da classe posterior; h: Amplitude de classe. Calculemos, então, a moda para a nossa distribuição de frequência das idades dos alunos de Gestão da universidade AB que se formaram em 2016. A classe modal será a quarta classe, pois é aquela que apresenta a maior frequência. Temos, então: M M od od = + −( ) −( ) + −( ) = + + = 28 20 16 20 16 20 14 2 28 4 4 6 2 2 . . 8 4 5 28 8+ = , A moda seria, portanto, de 28,8 anos, o que significa que a maior quantidade de alunos formando-se no curso de Gestão dessa universidade fictícia teria 28,8 anos. 6.2 As medidas de dispersão numa distribuição de frequência 6.2.1 O desvio médio Recapitulando o item 4, o desvio médio indica a diferença entre cada observação e a média aritmética de determinado conjunto de dados. No caso de uma distribuição de frequência, essa diferença será calculada da seguinte forma: Dmédio = X x f n i i−∑ . , onde Dmédio: Desvio médio absoluto; Xi: Ponto médio de cada classe; x : Média da distribuição de frequência; fi : Frequência absoluta; n: Total de observações. Em nosso exemplo, temos, então: 77 Re vi sã o: A nd ré ia G om es - D ia gr am aç ão : L éo - 0 1/ 08 /2 01 2 ESTATÍSTICA APLICADA Já o desvio padrão amostral será dado como segue: s s= 2 No exemplo acima, o nosso desvio padrão seria então: s = =19 315 4 395, , Lembrando que: em estatística, um histograma é uma representação gráfica da distribuição de frequências de um conjunto de medições, normalmente um gráfico de barras verticais. O histograma é um gráfico composto por retângulos justapostos em que a base de cada um deles corresponde ao intervalo de classe, e a sua altura, à respectiva frequência. Quando o número de dados aumenta indefinidamente e o intervalo de classe tende a zero, a distribuição de frequência passa para uma distribuição de densidade de probabilidades. A construção de histogramas tem caráter preliminar em qualquer estudo e é um importante indicador da distribuição de dados. Tanto podem indicar se uma distribuição aproxima-se de uma função normal como de uma mistura de populações, quando se apresentam bimodais. Informações técnicas sobre como elaborar um histograma, bem como sua interpretação, são encontradas em literaturas clássicas de estatística. Exemplo 1 Uma análise em 34 famílias que tenham quatro filhos, considerando a variável a quantidade de filhos do sexo masculino, temos a seguinte distribuição: Tabela 22 Nº de meninos (xi) fi xi-x (xi-x) 2 (xi-x) 2.fi 0 2 (0 - 2,3) = - 2,3 (- 2,3)2 = 5,29 2(5,29) = 10,58 1 6 (1 - 2,3) = - 1,3 (- 1,3)2 = 1,69 6(1,69) = 10,14 2 10 (2 - 2,3) = - 0,3 (- 0,3)2 = 0,09 10(0,09) = 0,9 3 12 (3 - 2,3) = 0,7 (0,7)2 = 0,49 12(0,49) = 5,88 4 4 (4 - 2,3) = 1,7 (1,7)2 = 2,89 4(2,89) = 11,56 fi∑ = 34 x x fi i−( ) ⋅ =∑ 2 39 06, Para reflexão: Pede-se para calcular a amplitude, o desvio padrão (S), a variância (S2) e o coeficiente de variação (cv). 78 Unidade II Re vi sã o: A nd ré ia G om es - D ia gr am aç ão : L éo - 0 1/ 08 /2 01 2 Solução Amplitude: R= 4 – 0 = 4 meninos Ou seja, podemos dizer que a maior variação encontrada nesse conjunto de dados seria de quatro meninos. Obs. Sabemos que a média para esse conjunto de dados é x = 2,3 filhos. Mas como chegamos a essa média? Quantos filhos homens estão presentes na distribuição? 1 x 6 + 2 x 10 + 3 x 12 + 4 x 4----------------------------------------------------------------- = 2,3 34 Desvio padrão: s f x x n f x x f x x f x x n i i i n n n= −( ) − = −( ) + −( ) + + −( ) − == ∑ 2 1 1 1 2 2 2 2 2 1 1 ... 2 0 2 3 6 1 2 3 10 2 2 3 12 3 2 3 4 4 2 3 34 1 2 2 2 2 2−( ) + −( ) + −( ) + −( ) + −( ) + − = , , , , , 2 2 3 6 13 10 0 3 12 0 7 4 17 33 2 2 2 2 2−( ) + −( ) + −( ) + ( ) + ( ) + =, , , , , 2 5 29 6 169 10 0 09 12 0 49 4 2 89 33 , , , , ,( ) + ( ) + ( ) + ( ) + ( ) = 10 58 10 14 0 9 5 88 1156 33 39 06 33 , , , , , ,+ + + + = = = ≅ ≅11836 1 088 1, , filho Como interpretar essa situação? Podemos dizer que o número médio de filhos homens por família de quatro filhos é de 2,3, com uma margem de erro de aproximadamente um filho. Significando que a maior parte das famílias com quatro filhos apresentam: 79 Re vi sã o: A nd ré ia G om es - D ia gr am aç ão : L éo - 0 1/ 08 /2 01 2 ESTATÍSTICA APLICADA 2,3 oscilando 1 para mais ou 1 para menos. Ou seja: pode ir de 1,3 a 3,3, que pode ser traduzido da seguinte maneira: As famílias com quatro filhos apresentam aproximadamente entre 1 e 3 filhos homens. Variância: S2 = (S)2 = (1,088)2 ≅ 1,1837 (filhos homens)2 Coeficiente de variação: cv S x = = ≅1 088 2 3 0 4730 , , , O que isso significa? Significa que existe uma variabilidade nos dados de 47,30% em relação à média, podendo ser considerada uma alta variabilidade. Exemplo 2 A JCC – fábrica de peças e rolamentos – apresenta a seguinte distribuição de frequência referente aos salários dos seus funcionários: Tabela 23 Custos R$ Classes de fr. Pm (Xi) fi (xi - x) (xi - x) 2 fi(xi - x) 2 450 |— 550 500 8 (500-754,68) = - 254,68 (-254,68)2 = 64861,90 8(64861,90) = 518895,2 550 |— 650 600 10 (600-754,68) = - 154,68 (-154,68)2 = 23925,90 10(23925,90) = 239259,0 650 |— 750 700 11 (700-754,68) = - 54,68 (-54,68)2 = 2989,90 11(2989,90) = 32888,9 750 |— 850 800 16 (800-754,68) = 45,32 (45,32)2 = 2053,90 16(2053,90) = 32862,4 850 |— 950 900 13 (900-754,68) = 145,32 (145,32)2 = 21117,90 13(21117,90) = 274532,7 950 |— 1050 1000 5 (1000-754,68) = 245,32 (245,32)2 = 60181,90 5(60181,90) = 300909,5 1050 |— 1150 1100 1 (1100-754,68) = 345,32 (345,32)2 = 119245,90 1(119245,90) = 119245,9 Total 64 f x xi i −( )∑ 2 =1518593,6 82 Unidade II Re vi sã o: A nd ré ia G om es - D ia gr am aç ão : L éo - 0 1/ 08 /2 01 2 Tal como ocorre com a teoria da mecânica, que atribui definições precisas a termos de uso diário, como “trabalho” e “força”, também a teoria das probabilidades tenta quantificar a noção de provável. A probabilidade é uma técnica estatística utilizada para expressar a chance de ocorrência de determinado evento. O evento é o resultado que se espera de determinado experimento. Ele pode ser cara (no caso do lançamento de uma moeda), um número compreendido de 1 a 6 (no caso do lançamento de um dado), chuva (no caso da observação do tempo) etc. A probabilidade de ocorrer determinado evento será sempre um número entre 0 e 1, indicando aproximadamente a chance de ocorrência desse mesmo evento. Quanto mais próxima de 1, maior é a probabilidade de ocorrer esse evento; quanto mais próxima de zero, menor a chance de o evento ocorrer. Quando a probabilidade de determinado evento é zero, diz-se que esse é um evento impossível. Sendo assim, temos: 0 ≤ P (A) ≤ 1 7.1 Teorias dos conjuntos, espaço amostral e eventos Um conjunto é definido como um grupo de objetos ou itens que apresentam características comuns. São exemplos de conjuntos os habitantes de São Paulo, os estudantes de Gestão da UNIP, o número de consoantes do alfabeto, o número de vogais do alfabeto etc. Saiba mais A teoria de conjuntos pode ser estudada em detalhes em livros básicos de matemática, como em MENEZES, P. B. Matemática discreta para computação e informática. Porto Alegre: Instituto de Informática da UFRGS: Sagra Luzzato, 2004. (Série Livros Didáticos – nº 16). Podemos descrever os elementos de um conjunto de três formas: enumerando cada um deles entre chaves, indicando suas características comuns, também entre chaves. Conjunto A = {a, e, i, o, u} ou Conjunto A = {conjunto das vogais do alfabeto}; Conjunto B = {todos os números inteiros maiores que 23}. Em um conjunto finito, podemos identificar todos os seus subconjuntos. O número de subconjuntos de um conjunto finito será obtido por meio da seguinte fórmula: Nsubconjuntos = 2 n, em que n = número de elementos do conjunto. Por exemplo, num conjunto como o dado a seguir, calcule a quantidade de subconjuntos e faça a sua apresentação: A = {2, 4, 6, 8} 83 Re vi sã o: A nd ré ia G om es - D ia gr am aç ão : L éo - 0 1/ 08 /2 01 2 ESTATÍSTICA APLICADA A quantidade de subconjuntos de A será: Nsubconjuntos = 2 n = 24 = 16 Os subconjuntos do conjunto A serão, portanto: A = {{ }, {2}, {4}, {6}, {8}, {2,4}, {2,6}, {2,8}, {4,6}, {4,8}, {6,8}, {2,4,6}, {2,6,8}, {2,4,8}, {4,6,8}, {2,4,6,8}} Observação Um conjunto vazio pode ser representado por { } ou ∅. Um conjunto é chamado de vazio quando não possuir nenhum elemento. Por exemplo, o conjunto dos números naturais antecessores ao 0 (zero) é considerado vazio, pois nos números naturais não existe antecessor de zero. Ora, se trazemos esses conceitos para a probabilidade, podemos definir então o que seria espaço amostral e evento. Na teoria das probabilidades, temos o chamado experimento, uma experiência que poderá ser repetida sob as mesmas condições indefinidamente. Para cada experimento, existe um conjunto S formado por todos os possíveis resultados desse experimento. Esse conjunto é denominado de espaço amostral. Por exemplo, ao lançar um dado e observar o número da face que fica para cima, teríamos o seguinte conjunto de resultados possíveis desse experimento e, portanto, o seguinte espaço amostral: S = Ω = {1, 2, 3, 4, 5, 6}, em que Ω é o espaço amostral. O espaço amostral poderá ser representado pela letra ômega. Sendo o espaço amostral o conjunto de todos os resultados possíveis de uma dada experiência, a probabilidade do espaço amostral deverá ser igual a 1 ou 100%, pois ao menos um dos resultados deve ocorrer. P (evento qualquer espaço amostral Ω) = 1,00 Os eventos são os resultados de um experimento. No caso do exemplo, de lançar um dado, seriam exemplos de eventos: A: ocorrer face igual a 6; B: ocorrer face igual a 5. 84 Unidade II Re vi sã o: A nd ré ia G om es - D ia gr am aç ão : L éo - 0 1/ 08 /2 01 2 O evento é geralmente simbolizado por meio de uma letra maiúscula. Poderíamos simbolizar graficamente o espaço amostral e o evento por meio do diagrama de Venn, para que possamos visualizar melhor a diferença entre esses dois importantes conceitos da Teoria das Probabilidades. Evento Espaço amostral Figura 24 O que significa, então, a figura anterior? Para entendermos melhor, vamos relembrar algumas relações que se estabelecem entre dois ou mais conjuntos e que tipo de classificação didática isso gera, para entender as implicações que podem ocorrer para a teoria das probabilidades. Dois ou mais conjuntos que não possuam elementos em comum são chamados conjuntos disjuntos. Por exemplo, sejam os conjuntos a seguir: A = {3, 5, 7} e B = {9, 11} são dois conjuntos que claramente não apresentam nenhum elemento em comum e podem ser representados pelo diagrama de Venn, como segue: A 3 7 5 9 11 B Figura 25 Como A e B não possuem elementos em comum, o resultado da união desses conjuntos irá gerar um novo conjunto cujo número de elementos será dado pela soma dos elementos de A e dos elementos de B. Temos, então: n(A ∪ B) = n(A) + n(B) n(A ∪ B) = 5 Se dois ou mais conjuntos apresentam elementos em comum, teremos o caso de conjuntos não disjuntos. Nesse caso, o número de elementos da união dos dois conjuntos será dado pela soma dos elementos de cada conjunto, subtraindo-se os elementos que estes possuem em comum. A = {2, 4, 6, 8, 10} e B = {8, 10, 12} n(A ∪ B) = n(A) + n(B) - n(A ∩ B); n(A ∪ B) = 5 + 3 – 2 = 6 Podemos verificar esse resultado comparando-o ao diagrama de Venn, que irá apresentar claramente os elementos da união dos dois conjuntos A e B. 87 Re vi sã o: A nd ré ia G om es - D ia gr am aç ão : L éo - 0 1/ 08 /2 01 2 ESTATÍSTICA APLICADA Experimento: lançamento de um dado Ω = {1, 2, 3, 4, 5, 6}; (espaço amostral) A: ocorrer a face 2; B: ocorrer a face 4. Temos aqui dois eventos mutuamente exclusivos e que não são complementares. Quando dois eventos apresentam elementos em comum ou podem ocorrer simultaneamente, diz-se que eles são eventos não mutuamente excludentes. Esses eventos podem ser representados por meio de um diagrama de Venn, como segue: Ω : Espaço amostral A B Figura 29 Podemos nos valer da distribuição de frequências do item 4 para dar exemplo de dois eventos que sejam não mutuamente excludentes. Vejamos, então, a distribuição de frequência das idades dos alunos formandos do curso de Gestão de uma Universidade AB: Tabela 24 – Distribuição de frequência das idades Classes Frequência absoluta simples 20 |- 22 5 22 |- 24 12 24 |- 26 11 26 |- 28 16 28 |- 30 20 30 |- 32 14 32 |- 34 8 34 |- 36 8 36 |- 38 4 38 |- 40 2 ∑ 100 Tomando-se a distribuição de frequência acima, podemos dar exemplo de dois eventos não mutuamente exclusivos: 88 Unidade II Re vi sã o: A nd ré ia G om es - D ia gr am aç ão : L éo - 0 1/ 08 /2 01 2 A: apresentar idade entre 20 e 26 anos no momento da formatura; B: apresentar idade entre 22 e 30 anos no momento da formatura. Como entre esses dois eventos existem elementos em comum, ou seja, os intervalos de 22 a 26 anos, eles não são mutuamente excludentes. É importante ressaltar que os eventos não mutuamente exclusivos, na teoria dos conjuntos, são os conjuntos não disjuntos. Os eventos podem ser ainda coletivamente exaustivos. Isso ocorre quando os eventos em questão ocuparem todo o espaço amostral, tornando impossível qualquer outro resultado além daqueles eventos dados. São considerados eventos coletivamente exaustivos os eventos complementares, mas nem sempre os eventos coletivamente exaustivos serão complementares. Além disso, os eventos coletivamente exaustivos serão, em alguns casos, mutuamente excludentes. Podemos, então, representar graficamente eventos coletivamente exaustivos com o diagrama a seguir: Ω: Espaço amostral A B C Assim, são exemplos de eventos coletivamente exaustivos, no caso de um experimento de lançar uma moeda: A: ocorrer cara; B: ocorrer coroa. Outro exemplo seria ao se fazer a experiência de retirar cartas de um baralho, definir como eventos: A: carta de copas; B: carta de paus; C: carta de ouros; D: carta de espadas. Temos anteriormente dois exemplos de eventos coletivamente exaustivos. Mayer (2000) diz que, em teoria das probabilidades, o espaço amostral ou espaço amostral universal, geralmente denotado S, Ω ou U (de “universo”), de um experimento ou teste aleatório é o conjunto de todos os resultados possíveis. Por exemplo, se o experimento é lançar uma moeda e verificar a face voltada para cima, o espaço amostral é o conjunto {cara, coroa}. Para o lançamento de um dado de seis faces, o espaço amostral é {1, 2, 3, 4, 5, 6}. Qualquer subconjunto de um espaço amostral é comumente chamado um evento, enquanto o subconjunto de um espaço amostral contendo apenas um único elemento é chamado eventos elementares. 89 Re vi sã o: A nd ré ia G om es - D ia gr am aç ão : L éo - 0 1/ 08 /2 01 2 ESTATÍSTICA APLICADA Para alguns tipos de experimentos, podem existir dois ou mais espaços amostrais possíveis plausíveis. Por exemplo, quando retirada uma carta de um baralho de 52 cartas, uma possibilidade poderia ser o valor dela (Ás até o Rei), enquanto outra poderia ser o naipe (copa, ouro, espada ou paus). Uma descrição completa dos resultados, entretanto, especifica ambas: denominação e naipe, e um espaço amostral descrevendo cada carta individualmente pode ser construído por meio do produto cartesiano dos dois espaços amostrais citados. Espaços amostrais aparecem naturalmente em uma introdução elementar à probabilidade, mas são também importantes em espaços de probabilidade. Um espaço de probabilidade (Ω, F, P) incorpora um espaço amostral de resultados, Ω, mas define um conjunto de eventos de interesse, o - álgebra F, para o qual a medida de probabilidade P é definida. Vamos a alguns exemplos: Exemplo 1 Vamos imaginar um grupo de 100 pessoas. Dessas, 70 apresentam sangue RH positivo e 45, tipo O. Escolhendo-se, ao acaso, uma pessoa desse grupo, qual é a probabilidade de o sangue dessa pessoa escolhida ser de tipo diferente de O? Solução Total do grupo: 100 pessoas RH positivo: 70 pessoas Tipo O = 45 pessoas Vamos considerar x o número de pessoas que têm sangue RH positivo e também sangue tipo O. Representando os conjuntos por meios de diagramas de Euler-Venn, temos: 70 - x + x + 45 - x = 100. RH+ 70 - x 45 - xx 0 Figura 30 Assim, temos: 70 + 45 - x = 100. Então, x = 115 - 100 = 15. 92 Unidade II Re vi sã o: A nd ré ia G om es - D ia gr am aç ão : L éo - 0 1/ 08 /2 01 2 Então, pelo Princípio Fundamental da Contagem, temos: 5 × 4 × 3 × 2 × 1 = 120. Assim, obtemos o número de formas de ordenar (“embaralhar”) cinco elementos distintos. Ou, ainda, podemos calcular o número de permutações simples de cinco elementos, ou seja, P5 = 120. Exemplo 6 Ao lançarmos dois dados, a probabilidade de obtermos resultados cuja soma é sete é: Tabela 26 1+1 1+2 1+3 1+4 1+5 1+6 2+1 2+2 2+3 2+4 2+5 2+6 3+1 3+2 3+3 3+4 3+5 3+6 4+1 4+2 4+3 4+4 4+5 4+6 5+1 5+2 5+3 5+4 5+5 5+6 6+1 6+2 6+3 6+4 6+5 6+6 Solução Para cada dado lançado ao acaso, temos seis possibilidades de resultado. Então, pelo PFC, o número de elementos do meu espaço amostral é 6 × 6 = 36. Como pode ser observado na tabela 26, o nº de casos favoráveis é o nº de elementos dos conjuntos de pares ordenados {(1,6), (2,5), (3,4), (4,3), (5,2), (6,1)}, ou seja, é seis. Assim, a probabilidade é P = 6/36 = 1/6. 8 PROBABILIDADE: ORIGEM, MÉTODOS E PRINCIPAIS TEOREMAS Como vimos, a probabilidade é uma técnica estatística utilizada para expressar a chance de ocorrência de determinado evento. A forma clássica de calcular a probabilidade é por meio da relação entre o número de casos favoráveis e o número de casos possíveis. Os casos favoráveis são aqueles resultados que se espera que aconteçam; já os casos possíveis são todos os elementos que compõem o espaço amostral. Logo, em determinado espaço amostral Ω, a probabilidade de um dado evento A, P(A), será uma função definida em Ω, em que cada evento estará associado a um número real, e assim irá satisfazer aos axiomas a seguir. Observação I) 0 ≤ P ≤ 1 à A probabilidade está sempre no intervalo fechado 0 e 1 ou 0% ou 100%. 93 Re vi sã o: A nd ré ia G om es - D ia gr am aç ão : L éo - 0 1/ 08 /2 01 2 ESTATÍSTICA APLICADA II) P(Ω) = 1 à Para todo evento certo, temos P(Ω) = 1 ou 100%. III) Se A e B forem eventos mutuamente exclusivos, (A ∩ B) = ø, então P(A ∪ B) = P(A) + P(B). 8.1 Origens da probabilidade Na realidade, existem três modos diferentes de calcular ou estimar as probabilidades. São eles os métodos clássico, empírico e subjetivo, sendo que os métodos clássicos e empíricos são considerados métodos objetivos. 8.1.1 Métodos objetivos • Método clássico Quando estamos diante de experimentos que têm resultados igualmente prováveis, aplica-se o chamado método clássico. Nesse caso, a probabilidade de ocorrer cada evento (resultado) é uma função do número de resultados possíveis. 1Pevento = ------------------------------------------------------------------ Número de resultados possíveis Por exemplo, no experimento em que lançamos um dado ocorrer qualquer das faces nesse lançamento é igualmente provável. Então, qual seria a probabilidade de ocorrer qualquer dessas faces? 1Pqualquer face = ------------------------------------- Número de faces 1Pqualquer face = ---- 6 Aplicando-se o método clássico a experimentos que envolvam dois ou mais resultados associados, com igual probabilidade de ocorrência desses resultados, terão a definição clássica de probabilidade que demos no início deste item, em que a probabilidade será: Resultados favoráveisP = ----------------------------------------------- Resultados possíveis Verifique e compreenda: favoráveis/possíveis! Por exemplo, a probabilidade de obter quatro ases num baralho de 52 cartas. Nesse caso, temos de identificar o número de resultados favoráveis, ou seja, aqueles resultados esperados. No caso, são quatro resultados favoráveis, dentro de quatro resultados possíveis; então, temos: 94 Unidade II Re vi sã o: A nd ré ia G om es - D ia gr am aç ão : L éo - 0 1/ 08 /2 01 2 4P = -------- = 0,0769 = 7,6% 52 Isso significa que, se houver uma repetição significativa desse experimento, ou seja, de se retirar quatro ases de um baralho de 52 cartas, um evento como esse tem probabilidade de ocorrer 7,6% das vezes. Chance Existe uma maneira diferente de se exprimirem as probabilidades: em vez de se comparar o número de casos favoráveis ao número de casos possíveis, compara-se o número de resultados favoráveis ao número de casos desfavoráveis. Isso pode ser expresso das duas formas a seguir: Número de resultados favoráveisChance = ------------------------------------------------------------------------- ou Número de resultados desfavoráveis Chance = número de resultados favoráveis está para número de resultados desfavoráveis. Por exemplo, numa sala de aula, temos um total de 50 alunos, 22 homens e 28 mulheres. Quais seriam, então, a probabilidade e a chance a favor de se selecionar, aleatoriamente, dessa sala uma mulher? Probabilidade: ε: Retirar pessoas de uma sala de aula Ω: 22 homens e 28 mulheres Evento A: selecionar uma mulher P A P A( ) = + = ⇒ ( ) = =28 22 28 28 50 0 56 56, % A probabilidade de se retirar uma mulher é, portanto, de 56%. Chance Evento A: selecionar uma mulher Nº de casos favoráveis 28 14Chance = ------------------------------------------------- = -------------- = -------------- ou 14/11 Casos desfavoráveis 22 11 As chances de retirar uma mulher da sala são, portanto, de 14 para 11. 97 Re vi sã o: A nd ré ia G om es - D ia gr am aç ão : L éo - 0 1/ 08 /2 01 2 ESTATÍSTICA APLICADA 8.1.2 Método subjetivo Nos itens anteriores, propusemo-nos a calcular probabilidades que se originavam de fatos, fosse por meio do método clássico ou do empírico. No entanto, ao longo do estudo da estatística, surgiram diversas situações em que os eventos não eram nem passíveis de um estudo objetivo e muito menos igualmente prováveis. Nesse caso, então, faz-se necessário atribuir-se subjetivamente uma probabilidade. Por exemplo: à Você encontrará o amor da sua vida amanhã? à Quando os operários do metrô farão nova greve? à Uma mulher com câncer de mama se recuperará completamente? Nesses casos, mesmo que não seja possível efetuar o experimento, pode-se imaginar um grande número de situações idênticas e questionar-se qual será o percentual dessas situações que produzirá o evento desejado. O método subjetivo é semelhante ao método empírico, a única diferença é que, em geral, os dados não podem ser coletados. A probabilidade subjetiva serve como um esforço não apenas para quantificar, mas para confirmar nossa crença a respeito de algo. Probabilidade subjetiva é uma avaliação pessoal do grau de viabilidade de um evento. Existem, obviamente, algumas desvantagens importantes que esse método apresenta: I. as estimativas subjetivas são, em geral, difíceis de defender quando postas em dúvida; II. as estimativas subjetivas podem ser tendenciosas. 8.2 Principais teoremas de probabilidade I. Digamos que temos um evento A qualquer, e um conjunto Φ que representa o conjunto vazio. Suponhamos ainda que A e Φ sejam disjuntos; então, temos: A P A B P A P P A P A P A A Por to P ∩ = ∪( ) = ( ) + ( ) ( ) = ( ) + ( ) ⇒ ∪ = ⇒ ( ) = φ φ φ φ φ φtan 0 Sendo assim, temos que o primeiro teorema importante de probabilidade é o seguinte: Se Φ é o conjunto vazio, então P(Φ) = 0 II. Sejam dois eventos A e A, em que A é complemento de A, em que o espaço amostral Ω pode ser escrito da seguinte forma: Ω = A ∪ A. Além disso, A e A são mutuamente exclusivos. 98 Unidade II Re vi sã o: A nd ré ia G om es - D ia gr am aç ão : L éo - 0 1/ 08 /2 01 2 Sendo assim, temos: A A m exclusivos∩ = ⇒ϕ .. P A A P A P A P P A P A P P A P A P A P A ∪( ) = ( ) + ( ) ( ) = ( ) + ( ) ⇒ ( ) = = ( ) + ( ) ( ) = − ( Ω Ω 1 1 1 ) Se A é complemento de A, então P(A) = 1 - P(A) III. Se, por outro lado, temos o seguinte conjunto B = A ∪ (A ∩ B), em que A e A ∩ B são mutuamente exclusivos, então: P B P A P A B P A B P B P A P B P A P B P A ( ) = ( ) + ∩( ) ∩( ) = ( ) − ( ) ( ) − ( ) ≥ ( ) ≥ ( ) 0 IV. Teorema da soma: se A e B são dois eventos quaisquer, então: P(A ∪ B) = P(A) + P(B) - P(A ∩ B) Verifique, matematicamente, essas propriedades utilizando a teoria dos conjuntos! Quando há mais de um resultado possível, então: nº de elementos do evento AP(evento A) = ------------------------------------------------------------- nº de resultados possíveis Vamos ver alguns exemplos: Exemplo 1 Qual a probabilidade de se extrair um dos quatro reis de um baralho de 52 cartas? 4P(reis) = ------ 52 99 Re vi sã o: A nd ré ia G om es - D ia gr am aç ão : L éo - 0 1/ 08 /2 01 2 ESTATÍSTICA APLICADA Exemplo 2 Três esportistas A, B e C estão em uma competição de natação. A e B têm as mesmas chances de ganhar a competição, e cada um tem duas vezes mais chances de ganhar do que C. Pede-se calcular as probabilidades de A ou C ser o vencedor. Solução Sejam p(A), p(B) e p(C) as probabilidades individuais de A, B e C vencerem. De acordo com os dados da questão, temos: p(A) = p(B) = 2.p(C). Seja p(A) = k. Então, p(B) = k e p(C) = k/2. Temos: p(A) + p(B) + p(C) = 1, de acordo com o teorema do evento certo. Logo, temos: k k k k k+ + = → = → = 2 1 5 2 1 2 5 k + k + k/2 = 1\k = 2/5. Assim, p(A) = k = 2/5, p(B) = 2/5 e p(C) = 2/10 = 1/5. A probabilidade de A ou C vencer será a soma dessas probabilidades, ou seja, 2/5 + 1/5 = 3/5. Exemplo 3 Um dado é viciado, de modo que cada número par tem duas vezes mais chances de aparecer num lançamento que qualquer número ímpar. Determine a probabilidade de em um lançamento aparecer um número primo. 102 Unidade II Re vi sã o: A nd ré ia G om es - D ia gr am aç ão : L éo - 0 1/ 08 /2 01 2 0 5A + 2V 4A + 3V 3A + 4V 2A + 5V 1A + 6V 1A + 5V 1A + 5V 2A + 4V 4A +2V 4A +2V 3A + 2V 3A +3V 2A + 3V 3A + 2V 3A +3V 4A +2V 3A + 2V 2A + 3V 1A + 4V 2A + 4V 3A + 3V 3A + 2V 2A + 3V 1A + 4V 2A + 4V 2A + 3V 1A + 4V 1 2 3 4 5 6 7 8 9 10 11 Figura 31 Ou seja, são possíveis 11 arranjos florais, obedecendo às condições dadas no enunciado do problema. Saiba mais Para uma abordagem mais aprofundada dos conteúdos apresentados neste capítulo, leia: A probabilidade e variáveis aleatórias, de Marcos Magalhães Nascimento. São Paulo: Edusp, 2006. Para se aprofundar no tema probabilidade de forma diferenciada, leia o artigo “O ensino de probabilidade através de um jogo de dados e da metodologia de resolução de problemas”. Disponível em: <http://www.mat. feis.unesp.br/docentes2008/jose_marcos/Minicurso.pdf>. Acesso em: 25 jul. 2012. Resumo Ao longo desta unidade, foram apresentados as características das tabelas de distribuição de frequência, os tipos de frequências e suas representações gráficas (histograma e polígono de frequência) e as medidas de posição numa distribuição de frequência. Foram vistas as ideias de medidas de dispersão numa distribuição de frequência, que nos fornecem instrumentos para determinação dos intervalos padrões de alta ou média variação para as pesquisas em geral, e como verificar os desvios em relação 103 Re vi sã o: A nd ré ia G om es - D ia gr am aç ão : L éo - 0 1/ 08 /2 01 2 ESTATÍSTICA APLICADA à normalidade, ou seja, o quanto os dados estão dispersando em relação às medidas de tendência central. Foram apresentadas as noções do cálculo da probabilidade, a fim de auxiliar na compreensão dos fenômenos aleatórios do que é provável e do que é presumível. E também como calcular a probabilidade de eventos das mais variadas situações, e foi feito um estudo a respeito dos vários tipos de fenômenos aleatórios em distribuição de probabilidade, gráficos e fórmulas para sua generalização, com o intuito de facilitar a compreensão e o entendimento dos cálculos. Exercícios Questão 1 (ENADE-MATEMÁTICA/2008). Há 10 postos de gasolina em uma cidade. Desses 10, exatamente dois vendem gasolina adulterada. Foram sorteados aleatoriamente dois desses 10 postos para serem fiscalizados. Qual é a probabilidade de que os dois postos infratores sejam sorteados? A) 1/45. B) 1/20. C) 1/10. D) 1/5. E) 1/2. Resposta correta: alternativa A. Análise das alternativas Para encontrarmos a alternativa correta, devemos utilizar a teoria das probabilidades e desenvolver os cálculos de acordo com os dados do enunciado do exercício. Sabendo que há 10 postos de gasolina em uma cidade e, desses 10, exatamente dois vendem gasolina adulterada e que foram sorteados aleatoriamente dois desses 10 postos para serem fiscalizados, devemos considerar a ocorrência de dois eventos sucessivos (evento composto), ou seja, a escolha aleatória de um posto seguida da escolha aleatória de outro posto. No primeiro evento (evento A), há a possibilidade de se escolherem dois postos que vendem gasolina adulterada em 10 postos possíveis, logo: 104 Unidade II Re vi sã o: A nd ré ia G om es - D ia gr am aç ão : L éo - 0 1/ 08 /2 01 2 P A n A n U ( ) ( ) ( ) = = 2 10 No segundo evento (evento B), há a possibilidade de se escolher somente um posto (dois menos um) que vende gasolina adulterada em 9 (10 menos 1) postos possíveis. Como esse evento é posterior ao evento A, devem-se desconsiderar as escolhas do evento A. Assim, P B n B n U ( ) ( ) ( ) = = 1 9 Como se deseja calcular a probabilidade de que os dois postos infratores sejam sorteados, temos que considerar a regra da multiplicação (um evento e outro evento), ou seja, a ocorrência dos eventos A e B. Logo, P AeB P A P B( ) ( ). ( ) .= = = =2 10 1 9 2 90 1 45 Então: P A eB( ) = 1 45 Sendo assim, A) Alternativa correta. Justificativa: de acordo com os cálculos. B) Alternativa incorreta. Justificativa: de acordo com os cálculos. C) Alternativa incorreta. Justificativa: de acordo com os cálculos. D) Alternativa incorreta. Justificativa: de acordo com os cálculos. E) Alternativa incorreta. Justificativa: de acordo com os cálculos. Questão 2 (ENEM/2011). Todo o país passa pela primeira fase de campanha de vacinação contra a gripe suína (H1N1). Segundo um médico infectologista do Instituto Emílio Ribas, de são Paulo, a 107 FERREIRA, J. C. Elementos de lógica matemática e teoria dos conjuntos. Disponível em: <http://www. ciul.ul.pt/~amfern/am1/documents/logTeoConj.pdf>. Acesso em: 24 jul. 2012. FONSECA, J. S.; MARTINS, G. A. Curso de Estatística. 6. ed. São Paulo: Atlas, 2009. GARCIA, E. S.; LACERDA, L. S.; BENÍCIO, R. A. Gerenciando incertezas no planejamento logístico: o papel do estoque de segurança. Disponível em: <http://tfscomunicacao.com.br/imgs/sala_estudo/273_ arquivo.pdf>. Acesso em: 25 jul. 2012. GITMAN, L. J. Princípios de Administração – uma visão estatística. São Paulo: Atlas, 2001. IEZZI, G.; HASSAN, S.; DEGENSZAJN, D. Fundamentos de matemática elementar 11 – matemática comercial, matemática financeira e estatística descritiva. São Paulo: Atual, 2005. LAURENTI, R.; BUCHALLA, C. M. A elaboração de estatísticas de mortalidade segundo causas múltiplas. Rev. Bras. Epidemiol, v. 3, n. 1-3, 2000. Disponível em: <http://www.scielosp.org/pdf/rbepid/v3n1-3/03. pdf>. Acesso em: 15 jul. 2012. LOPES, J. M. O ensino de probabilidade através de um jogo de dados e da metodologia de resolução de problemas. Disponível em: <http://www.mat.feis.unesp.br/docentes2008/jose_marcos/Minicurso.pdf>. Acesso em: 25 jul. 2012. MEYER, P. L. Probabilidade: aplicações à Estatística. Rio de Janeiro: Livros Técnicos e Científicos (LTC), 2000. MARTINS, G. A.; DONAIRE, D. Princípios de Estatística. São Paulo: Atlas, 2004. MENEZES, P. B. Matemática discreta para computação e informática. Porto Alegre: Instituto de Informática da UFRGS: Sagra Luzzato, 2004. (Série Livros Didáticos, n. 16). MORETTIN, P. A.; BUSSAB, W. O. Estatística básica. São Paulo: Saraiva, 2004. NASCIMENTO, N. M. A probabilidade e variáveis aleatórias. 2. ed. São Paulo: Edusp, 2006. NETO, A. S. et al. A aplicação de gráficos de controle de Soma Acumulada (CUSUM) para monitoramento de um processo de usinagem. In: SIMPÓSIO DE ENGENHARIA DE PRODUÇÃO, XIV, 2009, Botucatu, SP. Anais... Botucatu, SP: Unesp – Departamento de Engenharia de Produção, 2009. NERY, N.; PATU, G. Judiciário, em guerra por aumento, lidera gastos com pessoal. Folha de S. Paulo, São Paulo, 6 set. 2011. Disponível em: <http://espaco-vital.jusbrasil.com.br/ noticias/2829649/folha-de-sp-judiciario-em-guerra-por-aumento-lidera-gastos-com-pessoal>. Acesso em: 20 jul. 2012. 108 NOGUEIRA, P. J. S. Apostila de Estatística. Universidade Bandeirante de São Paulo. Disponível em: <http://pt.scribd.com/doc/80708751/Estatistica-descritiva-UNIBAN>. Acesso em: 20 jul. 2012. OLIVEIRA, F. E. M. Estatística geral e aplicada. São Paulo: Atlas, 2007. SILVA, T. Tendência central, dispersão e posição. Disponível em: <https://woc.uc.pt/fpce/getFile. do?tipo=2&id=9123>· Acesso em: 25 jul. 2012. SILVA, W. C. M. Conceitos iniciais e breve histórico da estatística. Disponível em: <http://mundobr.pro. br/uneal/wp-content/uploads/2010/04/01.conceitos_inicias-historico-somatorio.pdf>. Acesso em: 25 jul. 2012. STEVENSON, W. J. Estatística aplicada à Administração. São Paulo: Harbra, 2001. TOLEDO, G. L.; OVALLE, I. I. Estatística básica. 2. ed. São Paulo: Atlas, 2010. YASSIN, N. Métodos quantitativos e estatísticos para a tomada de decisão. Disponível em: <http://www.santahelena.ueg.br/posgraduacao/mba/2007/download/metodosquantitativos/ METODOS_QUANTITATIVOS_PARTE_I.pdf>. Acesso em: 25 jul. 2012. VIEIRA, S. Elementos de Estatística. São Paulo: Atlas, 2006. Sites <http://www.ibge.gov.br>. Exercícios Unidade I Questão 1 INSTITUTO NACIONAL DE ESTUDOS E PESQUISAS EDUCACIONAIS ANÍSIO TEIXEIRA (INEP). Exame Nacional do Ensino Médio (ENEM) 2011: 2º dia. Caderno 5 – Amarelo. Questão 148. Disponível em: <http://download.inep.gov.br/educacao_basica/enem/provas/2011/05_AMARELO_GAB.pdf>. Acesso em: 12 ago. 2012. Questão 2 INSTITUTO NACIONAL DE ESTUDOS E PESQUISAS EDUCACIONAIS ANÍSIO TEIXEIRA (INEP). Exame Nacional do Ensino Médio (ENEM) 2011: 2º dia. Caderno 5 – Amarelo. Questão 150. Disponível em: <http://download.inep.gov.br/educacao_basica/enem/provas/2011/05_AMARELO_GAB.pdf>. Acesso em: 12 ago. 2012. 109 Unidade II Questão 1 INSTITUTO NACIONAL DE ESTUDOS E PESQUISAS EDUCACIONAIS ANÍSIO TEIXEIRA (INEP). Exame Nacional de Desempenho dos Estudantes (ENADE) 2008: Matemática. Questão 13. Disponível em: <http://download.inep.gov.br/download/Enade2008_RNP/MATEMATICA.pdf>. Acesso em: 12 ago. 2012. Questão 2 INSTITUTO NACIONAL DE ESTUDOS E PESQUISAS EDUCACIONAIS ANÍSIO TEIXEIRA (INEP). Exame Nacional do Ensino Médio (ENEM) 2011: 2º dia. Caderno 5 – Amarelo. Questão 166. Disponível em: <http://download.inep.gov.br/educacao_basica/enem/provas/2011/05_AMARELO_GAB.pdf>. Acesso em: 12 ago. 2012. 112 All di
UNIVERSIDADE PAULISTA
Interativa
Informações:
www.sepi.unip.br ou 0800 010 9000