Baixe ESTATÍSTICA APLICADA e outras Notas de aula em PDF para Estatística, somente na Docsity! A O + QUTLIER
A —— 4-—— MÁXIMO (Desconsiderando Outliers)
a < TERCEIRO QUARTIL
1 < SEGUNDO QUARTIL (MEDIANA)
T < PRIMEIRO QUARTIL
—+— 4 MÍNIMO (Desconsiderando Outliers)
v
Notas de Aula de Estatística
Professor Kleison Freitas
2020.1
CENTRO UNIVERSITÁRIO mR
UniFanor | NY WYDEN
Notas de Aula Estatística Professor Ms. Kleison Freitas –
[email protected] Página 2 Informações Sobre a Disciplina - Apresentação: Cursando a disciplina de Estatística, o acadêmico poderá utilizar a ferramenta estatística na tomada de decisões que tangem às funções empresariais ou acadêmicas, através de uma postura crítica e reflexiva. - Objetivos 1. Compreender o uso da estatística na prática acadêmica ou empresarial; 2. Desenvolver cálculos básicos da estatística e interpretá-los; 3. Utilizar a objetividade e a probabilidade como uma base nas tomadas de decisões; 4. Entender o uso e a importância da inferência e da previsão estatística em pesquisas de mercado, de opinião e em consultorias empresariais. - Metodologias e Recursos: Utilizar as técnicas estatísticas através de aulas expositivas, práticas em laboratório de informática com uso do Microsoft Excel e possibilitando o discente na resolução de problemas em sua área de atuação e formação. - Sistema de Avaliação: Verificar no Portal da disciplina - Sistema de frequência: O aluno deve ter no mínimo 75% de frequência. Se o aluno tiver acima de 15 faltas estará reprovado por falta, visto que cada aula são três faltas ou três presenças, respectivamente. O aluno deverá administrar as suas faltas. Bibliografia Recomendada TRIOLA, M. F. Introdução à Estatística. 11ª Edição. Rio de Janeiro. Livros Técnicos e Científicos, 2014. MORETIN, L. G. Estatística básica: Probabilidade e Inferência. Volume único. São Paulo: Pearson, 2010. LAPONNI, J.C. Estatística Usando o Excel. 4ª Edição. Editora Campus, 2005. Notas de Aula Estatística Professor Ms. Kleison Freitas –
[email protected] Página 5 Nota de Aula 1 – Introdução Geral à Estatística 1. ESTATÍSTICA: É uma ciência que utiliza teorias probabilísticas para explicar a frequência da ocorrência de eventos, tendo como objetivo maior obter, organizar e analisar dados, a fim de estimar a previsão de fenômenos, conforme o caso estudado. De forma prática e didática, a estatística se resume na: A estatística é uma ciência importante, útil e com um escopo abrangente de aplicação em negócios, administração política física e ciências sociais, dentre outras áreas, quase ilimitado. Na prática empresarial e industrial, a Estatística é uma ferramenta-chave e segura para entender sistemas variáveis, controlar processos, sumarizar dados e tomar decisões baseados nos mesmos. 1.1. Aplicações: Algumas ciências utilizam à estatística como uma ferramenta própria, possuindo-a com suas terminologias próprias, como sendo: Estatística Aplicada à Tecnologia da Informação: É um ramo da estatística que trabalha com a mineração dos dados cadastrados em um banco de dados, a fim de encontrar anomalias ou tendências em séries qualitativas ou quantitativas; Bioestatística: É o planejamento, coleta, avaliação e interpretação de todos os dados obtidos em pesquisa na área biológica, médica e áreas da saúde em geral; Estatística Econômica ou Econometria: É um ramo da estatística direcionado para a análise de fenômenos econômicos; Estatística aplicada à Engenharia: É um ramo da estatística que estuda as suas aplicações no controle de processos de produtos e serviços, no planejamento de novas estratégias de produção, nas vendas, no controle de qualidade, em ensaios destrutivos e não destrutivos, com o objetivo de verificar a porcentagem de peças não conforme as especificações ou a probabilidade de vida de equipamentos ou peças, dentre outras; Estatística Física: É o ramo da física que através da estatística analisa sistemas físicos de alta complexidade, com elevado número de entidades constituintes, como os átomos, as moléculas, os íons, entre outros; Estatística Social: É o ramo da estatística que avalia fatores relativos à realidade social, econômica e ambiental de um país e seu uso para a formulação e a avaliação de políticas públicas; Coleta de Dados Tratamento dos Dados Apresentação dos Resultados Notas de Aula Estatística Professor Ms. Kleison Freitas –
[email protected] Página 6 Estatística aplicada à Contabilidade: A estatística é utilizada na área da contabilidade para comparar o sexo de carteira de clientes, para comparar cargos de funcionários da empresa, onde se compara o custo gasto colocando os mais importantes acima da pirâmide para comparação entre cargos similares, variação e montagem na estrutura de cargos e salários, contagem de estoque, de imobilizado, perdas, juros, dentre outros; Estatística Populacional: É o ramo da estatística relacionado à população e à demografia (área da ciência geográfica que estuda a dinâmica populacional humana, ou seja, as taxas de natalidade, mortalidade, imigração, emigração, densidade populacional, IDH, dentre outros); Estatística Comercial; Estatística Psicológica; Dentre outras áreas. 1.2. Origem: A palavra estatística originou-se da expressão latina statisticum, que significa “Estado”, que depois de vários significados, surgiu em alemão a palavra statistik que significa “análise de dados sobre o Estado”. O Estado teve fundamental importância na origem da Estatística como ciência, pois originalmente, as estatísticas eram colhidas para as finalidades relacionadas com o Estado, como os recenseamentos, por exemplo. Como disciplina, só no século XIX é que se estruturou, mas já era conhecida desde a antiguidade, há mais de 4 mil anos. Nas decisões do dia-a-dia, o indivíduo há de forma direta ou indireta que se basear em dados observados para isso. Por exemplo, ao decidir pelo seguro de um carro de uma determinada seguradora, geralmente, esta procura verificar se este seguro satisfaz as suas necessidades, ou seja, se o seu preço é compatível com o seu orçamento, além de outras características. Posteriormente, compara se dados deste seguro com o de outras seguradoras e, através de uma análise processada internamente em sua mente, toma-se a decisão de adquiri-lo ou não. Essa analogia não difere na realização das pesquisas científicas, que tem por objetivo responder as indagações ou comprovar as hipóteses elaboradas pelo pesquisador. E para isso, é preciso, inicialmente, coletar dados que possam fornecer informações relevantes para responder esses questionamentos, mas para que os resultados da pesquisa sejam confiáveis, tanto a coleta de dados quanto à sua análise deve ser feita de forma criteriosa e objetiva. Para isso, o planejamento eficaz da realização de uma pesquisa científica é necessário. Mas para isso é necessário entender o que realmente é uma pesquisa. Notas de Aula Estatística Professor Ms. Kleison Freitas –
[email protected] Página 7 1.3. Variáveis: São as características associadas ao objeto de estudo investigado ou do experimento realizado. Podendo ser: Qualitativas ou Categorizadas: São variáveis que exprimem qualidade do elemento investigado. Podendo ser: Nominal: Quando o dado se apresenta sob o aspecto qualitativo e não importa a ordem de disposição delas, ou seja, não há uma hierarquia embutida. Exemplos: Tipo de espécie de uma planta, Tipo de adubo utilizado, Área da Biologia pretendida, Gênero de pacientes de um hospital, dentre outros. Ordinal: Quando há uma hierarquia embutida, ou seja, um grau de relevância de um indivíduo para outro mediante suas características. Exemplos: Classe social, Grau de instrução, Desempenho (ótimo, bom, regular, ruim e péssimo), Cargo dos funcionários na empresa, Grau de dor (forte, moderada ou leve), dentre outros. Quantitativas ou Numéricas: São atributos resultantes de uma contagem ou mensuração. Podendo ser: Discreta: São todas as variáveis numéricas cujos valores se obtém a partir de procedimento de contagem originado de um conjunto amostral finito ou enumerável. As variáveis discretas assumem valores inteiros. Exemplos: Número de peixes encontrados em um rio, Número de pacientes vacinados contra uma doença, dentre outros. Contínua: São variáveis numéricas cujos valores são obtidos por procedimento de mensuração (ou não enumerável), de sorte que ao menos teoricamente, os resultados das medidas são capazes de variações insensíveis ou contínuas. As variáveis contínuas podem assumir qualquer valor num intervalo contínuo e são quantificadas em uma escala infinita de valores, por isso, diz-se que as variáveis contínuas são muito informativas. Exemplos: Peso, Altura, Temperatura, Espessura, Velocidade, Idade, Renda (em Reais), dentre outros. Notas de Aula Estatística Professor Ms. Kleison Freitas –
[email protected] Página 10 2.5. Estimativa: É o valor numérico do estimador obtido com base nos resultados amostrais. Um exemplo prático de estimativa é a Idade média de uma parte significativa dos alunos de uma sala de aula, ou seja, a média amostral ( x ), a variância amostral (S²), são exemplos de estimadores. 2.6. Margem de Erro (e): Um estudo em que se optou na utilização da amostragem como método de coleta de dados, sempre apresentará uma “falha” embutida nas suas análises, visto que não se analisou todo o universo. Essa “falha” é conhecida como margem de erro (ou erro amostral), e tem uma relação forte e inversamente proporcional com o tamanho da amostra e dos resultados que foram obtidos com a pesquisa, ou seja, quanto maior for a quantidade de elementos pesquisados, menor a quantidade de erros cometidos, ou seja, menor a margem de erro, mas em contrapartida, maior o custo financeiro da mesma. E vice-versa quando o tamanho amostral for menor. Um exemplo prático de margem de erro é visto nas pesquisas eleitorais em que através de uma amostragem de eleitores um determinado candidato aparece com um percentual de tantos por centos de aceitação ao pleito, levando-se em consideração a margem de erro tolerável de tantos pontos percentuais para mais ou para menos, ou seja, ele estará entre x% e y% dentro da margem de erro, isso quer dizer que, se fosse analisada toda a população de eleitores, existem uma possibilidade de que no dia da eleição o resultado percentual do candidato fique entre x% e y%. A margem de erro é definida, na grande maioria das vezes, antes da coleta de dados, para evitar assim retrabalho aos pesquisadores do estudo, pois caso a margem de erro fique muito alta (acima de 5% para mais ou para menos), o retrabalho é inevitável ocasionando um custo a mais a quem encomendou a pesquisa, e isso ocorre, na prática, por falta de planejamento amostral adequado ao estudo almejado. Assim, para planejar um estudo estatístico com uso de amostragem faz-se necessário conhecer dois processos básicos de amostragens, as amostras não probabilísticas e as probabilísticas. Notas de Aula Estatística Professor Ms. Kleison Freitas –
[email protected] Página 11 3. TÉCNICAS DE AMOSTRAGEM: 3.1. Amostras não probabilísticas: Uma amostra é não probabilística (ou não casual ou não aleatória), quando a probabilidade de seleção de cada unidade amostral da população é desconhecida. Nesse caso, não se podem supor os resultados obtidos para o universo da população, visto que a amostra, por ser não probabilística é não significativa. Desta forma, devem ser evitadas, porque além de não conhecer a margem de erro e a confiabilidade, introduzem tendenciosidade (ou viés ou vício) na seleção das unidades e estimação das mesmas, ou seja, distorcendo os dados do estudo para uma determinada direção. As amostras não probabilísticas mais comuns são: a) Amostras por Conveniência: As amostras por conveniência ocorrem quando as unidades a serem analisadas estão mais acessíveis ao pesquisador de acordo com as conveniências sociais, econômicas, de tempo, dentre outras. É um tipo de amostragem que é vantajosa por ser rápida, de baixo custo e de fácil acessibilidade, mas não há nada que a credite estatisticamente. b) Amostras por Cotas: São amostras em que se leva em conta a porcentagem de alguma(s) característica(s) da população de origem. c) Amostras por Julgamento ou Intencional: É uma forma de amostragem por conveniência na qual os elementos populacionais são selecionados com base no julgamento arbitrário do pesquisador, ou seja, o pesquisador identifica os elementos que corroborarão com o objetivo do seu estudo sem o risco de fugir deste objetivo pré-definido, ou seja, não há uma escolha aleatória dos elementos pesquisados e sim o contrário. d) Amostras de Voluntários: Quando a pesquisa inclui alguns procedimentos perigosos, difíceis ou dolorosos, desta forma a amostragem de sujeitos voluntários é a mais indicada, pois somente voluntários estarão dispostos a participar. O problema deste tipo de amostragem é que ao ser colocado um anúncio em uma rede social, por exemplo, para recrutar voluntários, só responderão pessoas muito especiais, como por exemplo, pessoas aventureiras, ou as pessoas mais corajosas ou as mais motivadas. E muita das vezes, este tipo de pessoa, nem faz parte do público-alvo do estudo. Notas de Aula Estatística Professor Ms. Kleison Freitas –
[email protected] Página 12 3.2. Amostras Probabilísticas: Uma amostra é probabilística (ou ao acaso ou aleatória) quando cada unidade amostral tem uma probabilidade conhecida e diferente de zero de ser escolhida frente a população de origem, garantindo, se for realizada de forma correta, a isenção de vícios. As técnicas de amostragem probabilística consistem em Amostra Aleatória Simples, Amostra Aleatória Estratificada, Amostra sistemática e Amostra por Conglomerado: a) Amostra Aleatória Simples (AAS): Selecionado por um processo ao qual a probabilidade de escolha de todos os elementos é a mesma para todos, ou seja, a população de origem é consideração homogênea, pois os seus elementos têm características parecidas entre si. a1) Fórmula para determinação do tamanho da amostra com AAS: Fonte: Barbetta (2001) Onde: N = Tamanho da população n = Tamanho da amostra Se a confiança do estudo for de 95%, de acordo a tabela da Normal Padrão: ² 1 0 e n , Onde e = margem de erro. Se a confiança for 96%: ² 06,2 0 e n Se a confiança for 97%: ² 17,2 0 e n Se a confiança for 98%: ² 33,2 0 e n Se a confiança for 99%: ² 575,2 0 e n Se a confiança for 99,9%: ² 3 0 e n 0 0. nN nN n Notas de Aula Estatística Professor Ms. Kleison Freitas –
[email protected] Página 15 Nota de Aula 3 – Medidas Descritivas para dados não agrupados 1. INTRODUÇÃO: Para a maioria das pessoas, estatística significa descrever números da forma mais entendível possível, como por exemplo, as taxas mensais de desemprego no Brasil após a alta do dólar no mercado atual, o índice de falências empresariais ocorridas no Brasil de 2010 para cá, a proporção de mulheres que assumem cargos de CEO no mercado brasileiro nos últimos dois anos, a proporção de eleitores que votarão em um determinado candidato nas próximas eleições, o nível de satisfação de clientes de uma determinada loja de conveniência de um determinado Shopping Center, dentre outros. Todos esses exemplos representam descrições estatísticas de um conjunto de dados coletados sobre algum fenômeno e para isso não é preciso usar a inferência estatística ainda, pois o objetivo aqui é apenas descrever estatisticamente essas informações. A descrição estatística dos dados verifica a localização central e a variabilidade desses dados através de médias, medianas, modas, variâncias, desvios-padrão e coeficientes de variação. Ainda, há métodos ilustrativos que possibilitam uma melhor interpretação deles, como os gráficos, dos quais pode-se citar os histogramas, os diagramas de ramo-e-folhas, os diagramas de pontos, os gráficos de caixa (box-blot), dentre outros. A descrição dos dados se dá em duas formas, tanto para dados agrupados em classes como para dados não agrupados. Esta nota de aula verificará apenas os dados não agrupados, e está divido em medidas de tendência central e medidas de dispersão. 2. MEDIDAS DE TENDÊNCIA CENTRAL As chamadas medidas de tendência central têm por objetivo verificar o centro da distribuição dos dados, ou seja, verificar através de medidas específicas o centro do conjunto de dados. As medidas de tendência central mais utilizada são a média aritmética, a moda e a mediana. As usadas com menos frequências são as médias geométricas, harmônicas, quadráticas, cúbicas e biquadráticas. As outras medidas de posição usadas com menos intensidade são as separatrizes, que englobam: a própria mediana através dos decis, dos quartis e dos percentis. Para início desta nota de aula, a primeira medida de tendência central a ser analisada é a média aritmética simples, como segue: Notas de Aula Estatística Professor Ms. Kleison Freitas –
[email protected] Página 16 2.1. Média Aritmética Simples: É definida como sendo o quociente da soma de todos os valores de um conjunto de dados pelo total de valores deste conjunto. Média amostral Média populacional n x X n i i 1 N x N i i 1 , Onde xi = Valores da variável n = Número de valores da amostra N = Número de valores da população OBS1: A média por ser influenciada por todos os valores do conjunto de dados é considerada como uma medida sensível, ao contrário das outras medidas de tendência central existentes. Propriedades: a) A média de um grupo de dados sempre será única, independente da sua localização; b) O resultado de multiplicar a média pela quantidade “n” de valores da variável x é igual a soma dos “n” valores da variável; c) A soma algébrica dos desvios tomados em relação à média é sempre nula: n i i Xx 1 0 d) Somando-se ou subtraindo-se uma constante “c” (valor invariável) a todos os valores de uma variável, a média do conjunto ficará aumentada ou diminuída dessa constante, respectivamente, de forma análoga, se multiplicar ou dividir, a média ficará multiplicada ou dividida, respectivamente. n cx X n i i 1 e n cx X n i i 1 . e n c x X n i i 1 Falando ainda de média, há a média aparada, que não é tão utilizada na prática estatística pois a mesma tende a manipular o resultado final desta medida de tendência central, mas vale a pena conhecer o que é este tipo de medida como segue no próximo tópico. 2.1.1. Média Aparada: Uma média aparada é calculada aparando-se certa porcentagem dos maiores ou menores valores do conjunto de dados. Por exemplo, para calcular a média aparada de 10%, deve-se eliminar 10% dos valores maiores e 10% dos valores menores, e então calcular a média dos valores que sobraram. Podendo-se usar de forma arbitrária a porcentagem a ser retirada da amostra para um novo cálculo. Ao contrário da média aritmética, a média aparada é uma medida resistente, pois não sofre influência dos valores extremos. Notas de Aula Estatística Professor Ms. Kleison Freitas –
[email protected] Página 17 A segunda medida de tendência central a analisar é a moda, como segue no próximo tópico. 2.2. Moda (Mo): Na linguagem coloquial, moda é algo que está em evidência, ou seja, algo que se vê bastante. Na Estatística, como o próprio nome sugere, a Moda é aquele elemento que mais vezes aparece no conjunto de dados. Não é muito sensato dizer que a moda é uma medida de tendência central, pois nem sempre ela representa o centro do conjunto de dados, visto que ela identifica o(s) valor(es) que ocorre(m) com maior frequência, podendo ser único, se existir, como pode também não existir. Nesse caso, é mais correto chamá-la de medida de posição. Quando dois valores ocorrem com a mesma frequência máxima, cada um deles é uma moda. Das diferentes medidas de tendência central, a moda é a única medida que pode ser usada com dados em nível nominal de mensuração, conforme o exemplo 1: Exemplo 1: Um estudo sobre tempos de reação de pessoas em um teste foi composto por 30 canhotos, 50 destros e 20 ambidestros. Embora não possamos tomar a média numérica dessas características, podemos afirmar que a moda é destro, que é a característica com maior frequência. Quando no conjunto há apenas um valor que se repete além dos demais de forma máxima, chama- se este conjunto de unimodal, bem como se tiver dois valores que se repete além dos demais, de forma máxima e na mesma quantidade é bimodal, assim acima de 2 modas é multimodal. Se o conjunto de dados não tiver nenhum valor que se repete além dos demais de forma máxima, o conjunto de dados é amodal. OBS2: Se o conjunto de dados tiver os valores: 1, 1, 2, 2, 3, 3, o conjunto é multimodal, pois todos os valores se repetem 2 vezes, ou seja, a frequência é a mesma para todos. Agora se for: 1, 2, 3, 4, é amodal, pois não há repetição de valores. E se for: 10, 10, 10, 10 é unimodal, pois o valor 10 é o que ocorre com maior frequencia. A terceira medida de tendência central a ser analisada é a mediana. Muitos confundem a mediana com a média, mas são medidas completamente diferente, tanto na sua forma de encontrar quanto na sua interpretação, como segue no próximo tópico. Notas de Aula Estatística Professor Ms. Kleison Freitas –
[email protected] Página 20 Variância amostral Variância populacional 1 1 2 2 n Xx S n i i N x n i i 1 2 2 , onde xi = Valores da variável xi = Valores da variável X = Média aritmética simples µ = Média populacional n = Número de valores da amostra N = Número de valores da população Propriedades: a) A variância de uma constante “c” é igual a zero; b) Ao somar ou subtrair uma mesma constante “c” a todos os valores do conjunto de dados, a variância não ficará alterada; c) Se multiplicar ou dividir cada valor do conjunto de dados por uma mesma constante “c”, a variância ficará multiplicada ou dividida, respectivamente, pela constante ao quadrado (c²). Mas, mesmo elevando os desvios ao quadrado, surge o seguinte questionamento: E se ao invés de elevar cada desvio ao quadrado e depois somar, não seria melhor utilizar o módulo, em que os desvios resultam em valores absolutos e depois utilizar a soma deles? Ou seja, assim: n i i Xx 1 ? E após isso, dividir tudo pela quantidade de valores (n), obtendo aí o desvio médio dado pela seguinte notação n Xx DM n i i 1 ? A resposta para essa pergunta é não, pois o módulo fará com que os desvios negativos fiquem positivos, apresentando uma realidade distorcida dos dados. Ao elevar ao quadrado, todos os desvios são elevados ao quadrado e não somente alguns, portanto, o melhor a ser utilizado é a variância porque ela dá certeza absoluta que as amostras são diferentes. Já o módulo não dá essa informação de variabilidade, ao contrário, ele nos dá evidências de que as amostras são iguais. Por exemplo: Suponha que uma turma fez uma prova e a média desta foi 7,0, e um aluno tirou 8,0, ou seja, a dispersão foi de 1 ponto para mais (8 - 7 = 1 ponto). Se outro aluno tirar 6,0, a dispersão é 1 ponto para menos (6 – 7 = -1 ponto). Se usar o módulo, a dispersão ao invés de ser -1 e 1, será 1 e 1, mostrando que não há dispersão das notas dos dois alunos, ou seja, ao invés de um aluno ter tirado a nota 6 e o outro a nota 8, ambos tiraram a nota 8, pois o desvio com o uso do módulo foi 1 ponto para mais. Mas mesmo a variância sendo considerada a ideal para tomar decisões sobre a variabilidade dos dados, a mesma apresenta um grande problema com unidade de medida dos dados que a compõem, pois estes serão elevados ao quadrado, dificultando assim a sua interpretação, pois se a unidade de medida for em metro, será metro quadrado, se for em centímetro, ficará centímetro ao quadrado e assim por diante. Notas de Aula Estatística Professor Ms. Kleison Freitas –
[email protected] Página 21 Para contornar esse problema e verificar os dados com a unidade de medida original, aconselha-se tirar a raiz quadrada da variância. Nesse caso, chega-se a outra medida de dispersão, o chamado desvio padrão, mas antes de analisar esta medida de dispersão, faz-se necessário se atentar para as seguintes observações: OBS3: Para um melhor entendimento da divisão por “n-1” na fórmula da variância e não por “n” apenas, é que a variância trabalha encima de “n-1” valores, pois se subtende que pelo menos um valor é a própria média (não havendo dispersão de um valor, nesse caso). Portanto, a variabilidade será entre “n-1” valores e não “n”. Por exemplo, sejam os seguintes valores: 1, 2 e 3, a média é “2”, ou seja, um valor é a própria média, mas dois valores não, ou seja, 2 = n-1 = 3-1 = 2. Mas isso não tem 100% de certeza não, pois tem casos em que a média não é igual ao conjunto de valores. OBS4: Observe que no cálculo da variância amostral (S²), deve-se dividir a soma dos quadrados dos desvios por “n-1”e não por “n” apenas. Isso se dá, pois através de estudos que serão vistos em Estimação de Parâmetros, a variância amostral (S²) tende a estimar de forma distorcida a variância populacional (²) se for dividido apenas por “n”, então para que S² seja um estimador não viciado ou não tendencioso de ² deve-se dividir por “n-1”. Há uma demonstração que prova que E(S²) = ², mostrando que a esperança da variância amostral é igual a variância populacional, ou seja, a variância amostral com divisão da sua fórmula por “n-1” representa de forma eficaz e inferencial a variância populacional, sem ter analisado a população em si. OBS5: Quando o tamanho da amostral é suficientemente grande (é usual considerar um valor de n superior a 30) não há praticamente diferença entre S² e ², assim pode-se dividir por “n-1” ou por “n”, respectivamente que o resultado será aproximadamente o mesmo, pois, para comprovação S²/² será aproximadamente 1, não fazendo diferença nenhuma nos cálculos. Agora, se n for menor que 30, essa divisão será bem menor que 1 mostrando que não é a mesma coisa, devendo assim não deixar de dividir por n-1 se for o amostral e por n se for o populacional. Após as observações anteriores, faz-se necessário verificar a medida de dispersão realmente utilizada na tomada de decisão, o desvio padrão. Notas de Aula Estatística Professor Ms. Kleison Freitas –
[email protected] Página 22 3.2. Desvio Padrão (S): O desvio padrão é uma medida de variabilidade dos valores com relação à média deles, mas ao contrário da variância, esta medida utiliza-se à mesma unidade de medida dos dados originais, por isso esta é utilizada com maior frequência que a variância (S²). A notação matemática do desvio padrão, que é a raiz quadrada da variância é como segue: 1-n )(x n 1i 2 i X S A última medida de dispersão a ser analisada é o coeficiente de variação, como segue no próximo tópico. 3.3. Coeficiente de Variação de Pearson (CV): O coeficiente de variação é uma medida de dispersão relativa que avalia o quanto o desvio padrão representa com relação à média aritmética de um conjunto de dados. Assim, quanto menor for o CV, mais homogêneo será o conjunto de dados, ou seja, com menor variabilidade entre eles, caso contrário haverá uma grande variabilidade. Assim, a notação do coeficiente de variação é a seguinte: 100 X S CV Mas para afirmar se os dados são ou não passíveis de grandes ou pequenas variabilidades, adota-se o ponto de corte percentual como segue: Se CV < 50% (Há baixa dispersão entre os dados, ou seja, eles são homogêneos) Se CV 50% (Há alta dispersão entre os dados, ou seja, eles são heterogêneos) Notas de Aula Estatística Professor Ms. Kleison Freitas –
[email protected] Página 25 Nota de Aula 4 – Separatrizes e Box-Plot 1. INTRODUÇÃO: Tanto a média como o desvio padrão podem não ser medidas adequadas para representar um conjunto de dados, pois são afetados, de forma exagerada por valores extremos, ou seja, são medidas sensíveis. Então analisar outras medidas de posição, com as separatrizes, se faz necessário, assim segue as medidas: 1.1. Quartis: Dividem os valores ordenados (em ordem crescente ou decrescente) da variável em quatro partes iguais através de três quartis (Q1, Q2 e Q3), ou seja, (25% abaixo, 50% abaixo e acima, 25% acima). Exercício 1: Seja o seguinte conjunto de dados que representa a idade de determinado grupo de pessoas, calcule os quartis: 2 5 6 9 10 13 15 Exercício 2: Seja o seguinte conjunto de dados que representa a idade de determinado grupo de pessoas, calcule e interprete os quartis: 1 1 2 3 5 5 6 7 9 9 Exercício 3: Seja o seguinte conjunto de dados que representa a idade de determinado grupo de pessoas, calcule e interprete os quartis: 1 1 2 3 5 5 6 7 9 9 10 13 1.2. Decil: Divide o conjunto de dados em 10 partes iguais: D1 = 10%, D2 = 20%, ..., D10 = 100% Decil 1 = Representa os 10% menores e os 90% maiores 1.3. Percentil: Divide a série em 100 partes iguais: P1 = 1%, P2 = 2%, ..., P100 = 100% Percentil 90 = Representa os 90% abaixo e 10% acima Assim: Md = Q2 = D5 = P50 Q1 = P25 Q3 = P75 Notas de Aula Estatística Professor Ms. Kleison Freitas –
[email protected] Página 26 2. BOX-PLOT Em 1977, John Tukey publicou uma proposta que posteriormente foi reconhecida como sendo um eficiente método para mostrar cinco números que sumarizam qualquer conjunto de dados. O gráfico proposto é chamado de Box-Plot (também conhecido como Box and whisker plot). O Box-Plot é um tipo de representação gráfica conveniente para revelar tendências centrais, dispersão, distribuição dos dados e a presença de outliers (dados discrepantes). A construção de um Box-plot exige o “resumo dos cinco números”, ou seja, o menor valor do conjunto de dados, o primeiro quartil, o segundo quartil, o terceiro quartil e o maior valor do conjunto de dados. 2.1. Interpretação do Box-Plot: O gráfico de Box-plot interpreta-se da seguinte forma: • A caixa (Box) propriamente contém a metade 50% dos dados (Q2 = Mediana). O limite superior da caixa indica o percentil de 75% dos dados (Q3) e o limite inferior da caixa indica o percentil de 25% (Q1). A distância entre esses dois quantis (Q3 – Q1) é conhecida como intervalo interquartílico (Tamanho da caixa). • A linha no meio da caixa indica o valor de mediana (Q2) dos dados. • Se a linha mediana dentro da caixa não é equidistante (ter a mesma distância) dos extremos, diz então que os dados são assimétricos (à direita ou à esquerda). • Os extremos do gráfico indicam o valor mínimo e máximo, a menos que valores outliers estejam presentes. • Os pontos fora do gráfico são então outliers ou suspeitos de serem outliers. 2.2. Vantagens do Box-plot: • Mostra graficamente a posição central dos dados (mediana) e a tendência; • Mostra a forma de simetria ou assimetria (à direita ou à esquerda) dos dados; • Ao contrário de muitas outras formas de mostrar os dados, o Box-plot mostra os outliers. • Utilizando o Box-plot para cada variável categórica de lado a lado no mesmo gráfico, pode-se facilmente comparar os dados. 2.3. Desvantagem do Box-Plot: Em alguns casos a quantidade de outliers pelo intervalo definido pelo desvio padrão e pelo Box-Plot se diferem, pois pelo intervalo definido pelo desvio padrão os dados não são modificados em momento algum, já com o Box-Plot o cálculo do limite inferior junto com o intervalo interquartílico não mostra bem a realidade dos dados, mas este tipo de gráfico é bastante utilizado para verificar o formato da curva dos dados. Assim, para contornar esta situção a idéia é utilizar os Box-Plot para verificar o formato da curva e o intervalo definido pelo desvio padrão para encontrar os dados discrepantes. Neste caso, o uso do Box-Plot deve ser em último caso para evitar interpretações erradas. Segue um exemplo prático para ilustrar isso: Notas de Aula Estatística Professor Ms. Kleison Freitas –
[email protected] Página 27 Através desse gráfico, podemos comparar as distribuições de idade entre cada profissão, quanto a posição e dispersão. Temos por exemplo, que advogados têm a menor média de idade de escolha da profissão. Médicos têm a maior idade, seguidos pelos dentistas. Temos, entretanto, que a variação de idade para os dentistas é muito maior do que para os médicos e advogados. Provavelmente detecta-se uma diferença significativa entre as médias de idade de advogados e médicos, e advogados e dentistas, mas devido a grande variação de idades para dentistas, talvez não se detecte diferença entre médicos e dentistas. Temos também a ocorrência de uma observação discrepante (outlier) para idade de dentistas: enquanto 50% dos dentistas estão entre aproximadamente 29 e 34 anos, houve um dentista com idade próxima de 20. Além disso, enquanto a distribuição de idade para advogados parece razoavelmente simétrica em torno da mediana, para médicos e dentistas parece haver uma concentração maior (moda) para idades maiores, indicando provavelmente uma distribuição assimétrica à direita (Md > Média). Se a assimetria fosse do lado esquerdo, a distribuição dos dados seria assimétrica à esquerda (Média < Md). Caso há dúvidas na assimetria dos dados, a sugestão é encontrar o coeficiente de assimetria (CA), com a seguinte notação: S Modax CA 3 , assim, se: CA = 0, então os dados são simétricos CA < 0, os dados são assimétricos à esquerda ou negativamente CA > 0, os dados são assimétricos à direita ou positivamente Notas de Aula Estatística Professor Ms. Kleison Freitas –
[email protected] Página 30 2.1. Interpretação subjetiva do gráfico de dispersão: x y Correlação Positiva entre x e y x y Forte correlação Positiva entre x e y x y Correlação Positiva perfeita entre x e y Assim, a importância de tal determinação decorre do fato de que a presença de uma correlação pode conduzir-nos a um método para estimar a variável y (efeito) utilizando a variável x (causa). Notas de Aula Estatística Professor Ms. Kleison Freitas –
[email protected] Página 31 2.2. Outliers: Os conhecidos como outliers, são os pontos discrepantes, ou as observações extremas que não são condizentes com o restante da massa de dados, conforme o Gráfico abaixo. As causas mais prováveis da ocorrência de outliers pode ser o registro incorreto dos dados, algum defeito no instrumento de medição utilizado, dentre outros. Caso isso ocorra, o outlier deve ser, se possível, corrigido, em extremo caso eliminado. Desta forma, deve-se dar a devida atenção à causa de tais anomalias, pois esses dados discrepantes podem ser úteis para descobrir a causa dessa ocorrência. Como as conclusões tiradas de gráficos de dispersão tendem a ser subjetivas, necessita-se de métodos mais precisos e objetivos. Então se utiliza o coeficiente de correlação linear de Pearson para detectar padrões lineares. 2.3. Coeficiente de Correlação de Pearson1 ( xyR ): O Coeficiente de Correlação de Pearson mede o grau de associação entre as duas variáveis analisadas, podendo ser fraca ou forte. Para isso, a notação matemática que permite verificar essa associação é a que segue: n Y Y n X X n YX XY Rxy 2 2 2 2 Assim, o valor de Rxy deve pertencer ao intervalo -1 Rxy 1, e a sua interpretação é a seguinte: 0,00 Rxy 0,69 = Correlação fraca + 0,70 Rxy 1,00 = Correlação forte + -0,69 Rxy 0,00 = Correlação fraca - -0,70 Rxy -1,00 = Correlação forte - 1Karl Pearson foi um grande contribuidor para o desenvolvimento da estatística como uma disciplina científica. Foi o fundador do Departamento de Estatística Aplicada na University College London em 1911, sendo o primeiro departamento universitário dedicado à estatística em todo o mundo. x y Outlier Diretamente proporcional: x y Inversamente proporcional: x y Notas de Aula Estatística Professor Ms. Kleison Freitas –
[email protected] Página 32 Contudo, em geral, uma correlação forte não é sinônima de uma relação causa-efeito entre as amostras ou variáveis. Há situações em que um coeficiente de correlação próximo de um ou de um menos um não significa que a maioria dos pares de valores esteja contida em uma reta (será visto em regressão linear). Desta forma, o simples conhecimento do coeficiente de correlação não é suficiente devido a anomalias na dispersão dos dados, por isso é recomendada a construção do gráfico de dispersão das amostras para melhor compreender o resultado, pois em alguns casos, a relação de causa e efeito pode ser provocada por um ou mais fatores ocultos, uma variável não considerada na análise. Por exemplo, suponha que o número de vendas diárias de um jornal e a produção diária de ovos tenha uma forte correlação positiva. Não se pode afirmar que o aumento do número de jornais vendidos resulte no aumento da produção de ovos. Para compreender a forte correlação positiva, devem-se procurar fatores ocultos, por exemplo, o aumento de riqueza da população que resulta em aumento de demanda dos dois produtos ao mesmo tempo, jornais e ovos. Conhecer a relação significativa entre as variáveis é de extrema importância para que assim o investigador possa realizar suas previsões com mais segurança, assim, faz-se necessário conhecer o que é regressão linear. 3. REGRESSÃO LINEAR SIMPLES: Como visto anteriormente, o coeficiente de correlação (Rxy) apenas não mede com segurança a relação causa-efeito entre duas variáveis, apesar de essa relação poder estar presente. Por exemplo, uma correlação fortemente positiva entre as variáveis x e y não autoriza afirmar que variações da variável X provocam variações na Y, ou vice-versa. Entretanto, em uma regressão linear, a relação causa e efeito deve ser definida no início da análise de forma sensata pelo pesquisador ou analista. Em muitas pesquisas estatísticas, o objetivo principal é estabelecer relações que possibilitem predizer uma ou mais variáveis em termos de outras. Assim, é que se fazem estudos para predizer os seguintes exemplos: Temperatura de uma cidade com relação ao consumo de medicamento para gripe; Perda de peso de uma pessoa em decorrência do número de semanas que se submete a uma dieta de 800 calorias-dia; Despesa de uma família com médico e com remédio em função de sua renda; Consumo per capita de certos alimentos em função do seu valor nutritivo e do gasto com propaganda na TV; Taxa de juros em função da inflação; Salário em função da escolaridade do trabalhador. Notas de Aula Estatística Professor Ms. Kleison Freitas –
[email protected] Página 35 Anexo 3 – Manual da Calculadora Científica e HP 12C para Correlação e Regressão Linear Modelo: Casio fx 82MS 1. Calcular Coeficiente de Correlação (Rxy): Colocar no modo que aceita valores de x e y: Clicar em Mode 3 (Reg) 1 (Lin) Digitar os seguintes pares ordenados (valores de x e) na calculadora: Digitar: 2,5 (tecla do lado do M+) 57 M+ 4,5 (tecla do lado do M+) 78 M+ ... 1 (tecla do lado do M+) 48 M+ Encontrar o valor do Coeficiente de Correlação (Rxy): Clicar em Shift 2 (S-VAR) clicar na seta localizada em Replay duas vezes para a direita Clicar no número 3 = Aparecerá 0,9575 (Valor do Coeficiente de Correlação = 95,75%). 2. Calcular “a” e “b” da Regressão Linear: Não desligar a calculadora. Com os dados já digitados ir em: Clicar em Shift 2 (S-VAR) clicar na seta localizada em Replay duas vezes para a direita Clicar no número 1 = Aparecerá 40,675 (Valor do “a”). Clicar em Shift 2 (S-VAR) clicar na seta localizada em Replay duas vezes para a direita Clicar no número 2 = Aparecerá 8,35 (Valor do “b”). X = Causa Y = Efeito 2,5 57 4,5 78 4 72 2 58 6 89 3 63 4 75 5 84 3 75 1 48 Notas de Aula Estatística Professor Ms. Kleison Freitas –
[email protected] Página 36 Modelo: Casio fx 82ES Limpar a memória: Clicar em Shift 9 3 = 1. Calcular Coeficiente de Correlação (Rxy): Colocar no modo que aceita valores de x e y: Clicar em Mode 1 (Stat) 2 (Ax+b) Digitar: 1,1 = 12 1,2 = 12,5 ... 1,9 = 7 Encontrar o valor do Coeficiente de Correlação (Rxy): Clicar em Shift 1 7 3 = 2. Calcular “a” e “b” da Regressão Linear: Shift 1 7 1 = Shift 1 7 2 = HP – Modelo: 12C Passos para o procedimento completo: 1º) Digitar os pares ordenados na calculadora: y Enter x + 2º) Achar o valor de “a”: 0 g 2 3º) Armazenar o valor de “a”: Clicar em STO 0 4º) Achar o coeficiente de Correlação: Clicar em x y 5º) Achar o valor de a + b: Clicar em 1 g 2, depois Valor de b: Clicar em RCL (Recuperar o valor de b) 0 - Notas de Aula Estatística Professor Ms. Kleison Freitas –
[email protected] Página 37 Anexo 4 – Correlação e Regressão Linear com uso do Microsoft Excel CORRELAÇÃO: 1º Passo: Digitar o banco de dados em coluna; Identificar quais são as variáveis quantitativas e qual delas será x (causa) e y (Efeito); 2º Passo: Construção do gráfico de dispersão entre x e y: Selecionar as variáveis Propaganda (x) e Vendas (y) Inserir gráfico escolher gráfico de dispersão xy (ou Ponto) Avançar Clicar em “OK”. Formatação do gráfico: Apagar a legenda Título: Clique com botão direto do mouse dentro do gráfico: Opções do gráfico Em Título: digitar “Relação entre Propaganda (R$ milhões) versus Vendas (R$ milhões) de uma determinada empresa x”. Formatar os eixos “x” e “y”, sendo Propaganda (R$ milhões) e Vendas (R$ milhões), respectivamente; Letra Times New Roman, tamanho 11; Verificar se os dados do gráfico seguem uma tendência linear. Se sim, calcula-se a correlação linear entre as variáveis x e y; 2º Passo: Fazer estudo de correlação linear entre x e y: Procedimento 1: Com a ferramenta FUNÇÃO: Posicione o cursor em um local abaixo do banco de dados para visualizar o resultado; Clicar em Inserir função Em selecionar uma categoria, escolha “Estatística” Selecione uma função: CORREL OK Em matriz 1: selecione todos os dados da variável x, em matriz 2: selecione todos os dados da variável y, inclusive com o título. Caso esqueça de selecionar o título, o programa calcula a correlação mesmo assim. Com isso sairá o resultado da correlação entre x e y = 0,8594 = 85,94% Propaganda (R$ milhões) Vendas (R$ milhões) Propaganda (R$ milhões) 1 Vendas (R$ milhões) 0,8593 1 Notas de Aula Estatística Professor Ms. Kleison Freitas –
[email protected] Página 40 Fazendo previsões matemáticas com uso da equação de regressão linear: Para investimento em propaganda no valor de 20 milhões, 40 milhões e 50 milhões de reais, assim: Assim, a projeção para cada um dos investimentos será de: Notas de Aula Estatística Professor Ms. Kleison Freitas –
[email protected] Página 41 Nota de Aula 6 – Probabilidade 1. INTRODUÇÃO: O passo decisivo para a fundamentação teórica da inferência estatística associa-se ao desenvolvimento do cálculo das probabilidades. Até recentemente, era comum creditar a decisão de qualquer evento aos deuses ou alguma outra causa sobrenatural. Simplesmente não havia espaço para uma abordagem que atribuísse ao acaso, e tão somente a ele, essas ocorrências. Entretanto, a Humanidade precisou de centenas de anos para se acostumar com um mundo onde alguns eventos não tinham causa, ou eram determinados por causas tão remotas que somente podiam ser razoavelmente representados por modelos não casuais. Tendo isso em vista, fica mais fácil perceber porque a abordagem matemática do acaso, do azar e do risco só se iniciou há pouco mais de 500 anos. Dessa forma, a teoria das probabilidades nasceu das tentativas de quantificação dos riscos dos seguros e da avaliação das chances de se ganhar em jogos de azar. Assim, essa quantificação dos riscos ocorreu há mais de 5 mil anos entre os comerciantes marítimos mesopotâmicos e fenícios, aplicados à perda de carga de navios, ou por naufrágio ou por roubo. Assim, a prática foi continuada pelos gregos e romanos e acabou chegando ao mundo cristão medieval através dos comerciantes marítimos italianos que se baseavam em estimavas empíricas das probabilidades de acidentes para estipularem as taxas e prêmios correspondentes. Logo após o término da Idade Média, o crescimento dos centros urbanos levou à popularização de um novo tipo de seguro: o seguro de vida. Assim, com este tipo de seguro surgiram os primeiros estudos matemáticos sobre o assunto, fazendo com que houvesse um enorme aumento nos negócios de seguros marítimos (associados aos preciosos carregamentos trazidos das Américas e das Índias), mas os seguradores continuaram a usar as milenares técnicas empíricas. Posteriormente a isso, o primeiro trabalho prático na área dos seguros de vida é devido a Halley em 1693 (Degrees of Mortality of Mankind). Nesse trabalho, Halley mostrou como calcular o valor da anuidade do seguro em termos da expectativa de vida da pessoa e da probabilidade de que ela sobreviva por um ou mais anos, mas com Daniel Bernoulli (1730), a matemática dos seguros atingiu um estado bastante maduro, pois com ele retoma-se um clássico problema de, a partir de um número dado de recém-nascidos, calcular o número esperado de sobreviventes após n anos. Notas de Aula Estatística Professor Ms. Kleison Freitas –
[email protected] Página 42 Além disso, ele também dá os primeiros passos em direção a novos tipos de seguros calculando, por exemplo, a mortalidade causada pela varíola em pessoas de idade dada. Concomitantemente, os jogos de azar, jogos nos quais a possibilidade de ganhar ou perder não dependem da habilidade do jogador, mas sim exclusivamente do azar do apostador, são, provavelmente, tão velhos quanto à humanidade. Sendo assim, a origem da probabilidade se deu aos jogos de azar, através de questões postas pelo matemático francês Pascal (1623-1662) com o célebre cavaleiro Méré, um famoso jogador profissional que escreveu uma carta a Pascal, propondo-lhe resolver alguns problemas matemáticos que tinha encontrado em suas lidas com jogos de azar. Sendo assim, hoje há muitas aplicações que envolvem jogos de azar como as loterias, os cassinos de jogos, as corridas de cavalos e os esportes organizados (futebol, voleibol, handebol), dentre outros, que utilizam a teoria das probabilidades diariamente nas duas deliberações. Independente de qual seja a aplicação em particular, a utilização das probabilidades indica que existe um elemento de acaso, ou de incerteza, quanto à ocorrência ou não de um evento futuro. Assim é que, em muitos casos, pode ser impossível afirmar por antecipação o que ocorrerá, mas é possível dizer o que pode ocorrer. Por exemplo, se jogarmos uma moeda para o ar, de modo geral não podemos afirmar se vai dar cara ou coroa. Além disso, mediante determinada combinação de julgamento, experiência e dados históricos, em geral, é possível dizer quão provável é a ocorrência de determinado evento futuro. Assim, as probabilidades são úteis porque auxiliam a desenvolver estratégias e faz com que o método da inferência estatística se baseie na teoria da probabilidade para formular conclusões sobre toda uma população (N) baseada em uma amostra (n). Dessa forma é que alguns motoristas parecem demonstrar uma tendência para correr a grande velocidade se acham que há pouco risco de serem apanhados ou de correr acidentes fatais. Os investidores sentem-se mais inclinados a aplicar seu dinheiro se as chances de lucro são boas, e você certamente carregará capa ou guarda-chuva se houver grande probabilidade de chover. Analogamente, uma empresa pode sentir-se inclinada a negociar seriamente com um sindicato quando há forte ameaça de greve, ou mais inclinada a investir em novo equipamento se há boa chance de recuperar o dinheiro, ou ainda de contratar um novo funcionário que pareça promissor, dentre outros. Ao longo dos anos, os cálculos probabilísticos vieram se aperfeiçoando, passando da simples análise de fatos concretos à abstração destes. Um caso de utilização da teoria da probabilidade é o envolver a maior loteria do Brasil, a Mega-Sena, onde são apostados de seis a quinze números, entre os 60 disponíveis no volante (01 a 60, inclusive respectivamente). Neste jogo, os apostadores podem apostar de no mínimo seis números e no máximo quinze do total de 60. Marcando 4, 5 ou 6 pontos (quadra, quina ou sena, respectivamente) receberão prêmios. Notas de Aula Estatística Professor Ms. Kleison Freitas –
[email protected] Página 45 Contudo, os estatísticos Stephen Samuels e George McCabe da Universidade de Purdue calcularam a probabilidade de alguém ganhar a loteria duas vezes num período de 4 meses como de 1 para 30. Por quê essa chance e essa probabilidade de ganho aumenta? Porque os jogadores não compram um único bilhete para cada uma das duas loterias, compram vários bilhetes múltiplos por semana. Justificando nesse caso a lei dos grandes números com a quantidade grande de jogadas por jogadores. Em outras palavras, quer ganhar na Mega-Sena, aposte nela e com muitas cartelas, mas muitas mesmo. Um outro exemplo para a lei dos grandes números é, se fizermos uma pesquisa sobre a população de um Estado brasileiro e observamos apenas alguns cidadãos (amostra), os resultados podem conter grande erro, porém se analisarmos várias pessoas em várias cidades diferentes dentro deste Estado (selecionados ao acaso), os resultados das amostras estarão muito próximos dos verdadeiros valores da população e quanto maior a amostra (maior número de pessoas entrevistadas) maior será esta aproximação. Diante de tudo isto, os jogos, considerados legais, no Brasil é estimulado, pois de acordo o site da Caixa Econômica Federal (Janeiro, 2012), quem joga na Mega-Sena tem milhões de motivos para apostar e milhões de brasileiros para ajudar. 51% do valor arrecadado com as apostas é repassada ao Governo Federal, que pode, então, realizar investimentos nas áreas da saúde, educação, segurança, cultura e do esporte, beneficiando toda a população, por exemplo, 18,1% é destinado à Seguridade Social, 7,76% ao FIES-Crédito educativo e 3,14% ao Fundo Penitenciário Nacional. Desde então, as loterias em geral se tornaram imensamente populares por duas razões. Primeiro, elas atraem o apostador com a oportunidade de ganhar milhões de reais com um investimento de dois reais, segundo, quando o apostador perde, pelo menos acredita que seu dinheiro está indo para uma boa causa. A Mega-Sena não é simplesmente uma “vantagem” para o povo concedida pelo governo, pois como a grande maioria dos apostadores são pertencentes à classe baixa, os mesmos gastam na loteria aproximadamente o mesmo que pessoas de classe média, mas por terem menos dinheiro, o maior percentual de seus ganhos dos que apostam na sorte se destinam a esse fim. Isso faz desta uma forma de atividade “regressiva”, ou seja, empobrece mais quem já é tido como pobre. “Sempre acerto 11 pontos e ganho 2 reais na LOTOFACIL, só uma vez que acertei 13 pontos e ganhei 10 reais. No total ja ganhei 32 reais, mas aí descontei 12 reais das apostas, sobrou 20 reais, só que aí fui descontar os outros jogos que eu não acertei e vi que fiquei 17 reais mais pobre...” (depoimento anônimo de um jogador) Notas de Aula Estatística Professor Ms. Kleison Freitas –
[email protected] Página 46 2. CONCEITOS INICIAIS: Experimentos aleatórios: São aqueles ensaios que não são previsíveis, mesmo que repetido em idênticas condições, geram resultados diferentes, pois ocorrem ao acaso. Exemplo: Nascimento de duas crianças; Espaço amostral (): É o conjunto de todos os resultados possíveis de um experimento aleatório, ou seja, é o conjunto universo do experimento. Exemplo: Seja o experimento “Nascimento de duas crianças”. Os resultados possíveis são? Evento (E): É o subconjunto do espaço amostral que contém os resultados que nos interessam. Exemplo: Lançam-se uma moeda e um dado honestos. Enumere o seguinte evento: E1= Sair cara e face par Evento certo: É o evento que ocorre com certeza (É o próprio espaço amostral). Ex: Sair face menor que 7 no lançamento de um dado. Evento impossível: É o evento que nunca ocorre (), ou seja, não há possibilidade de ocorrência deste evento. Exemplo: Obter soma maior que 12 no lançamento de dois dados. Operações com eventos aleatórios: a) União: Sejam os eventos A e B, a união do evento A ao evento B é entendido por A B. Representa a ocorrência de pelo menos um dos eventos, A ou B. b) Interseção: O evento interseção é formado pelos pontos amostrais que pertencem simultaneamente aos eventos A e B, sendo representado por A B. Exemplo: Seja o experimento: “Lançamento um dado de 6 faces honesto”. Então, = {1, 2, 3, 4, 5, 6}, sejam os eventos: E1: Ocorrer face par E2: Ocorrer número menor que 3 a) Então, E1 E2 = b) Então, E1 E2 = Eventos mutuamente exclusivos ou disjuntos: São eventos que não ocorrem simultaneamente, ou seja, A B = , pois a ocorrência de um deles anula a ocorrência do outro. Exemplo: Seja o experimento “Lançar um dado honesto”. Então, = {1, 2, 3, 4, 5, 6}, sejam os eventos: E1: Ocorrer face par E2: Ocorrer face ímpar Então, E1 E2 = E1 E2 Notas de Aula Estatística Professor Ms. Kleison Freitas –
[email protected] Página 47 Eventos complementares ( )E : O complemento de um evento “E”, denotado por E ou cE , consiste em todos os resultados em que o evento “E” não ocorre, ou seja, é o acontecimento complementar de E. Eventos complementares são eventos mutuamente exclusivos, mas a recíproca não é verdadeira, ou seja, nem todo evento mutuamente exclusivo é complementar, por exemplo, no jogo de futebol, se o time ganhar é por que o outro perdeu, mas se empatar, nenhum ganhou ou nenhum perdeu. E E = (mutuamente exclusivo) E E = E + E = E = - E Dizemos que E e E são complementares se sua união é o próprio espaço amostral e sua interseção é vazia. Exemplo: Cara ou coroa na jogada de uma moeda; Exemplo: Feridos e não feridos num acidente. 2.1. Definição de Probabilidade: É a possibilidade de que certo evento venha ocorrer, ou seja, é uma medida da incerteza associada aos resultados do experimento aleatório. De acordo a Lei de Laplace: Seja um espaço amostral equiprovável (quando todos têm a mesma probabilidade de ocorrer) de um experimento aleatório, e E, um evento desse espaço amostral finito, definido por: do elementos de Número E de elementos de Número )(EP , assim: )( )( )( n En EP Em outras palavras, probabilidade é uma fração entre o número de resultados favoráveis (aqueles que satisfazem a necessidade do problema a ser calculado) com o número de resultados possíveis. Propriedades/Axiomas: a) A probabilidade de um evento certo é igual a 1, isto é, P() = 1 b) O P(E) 1: A probabilidade de um evento ocorrer é sempre maior ou igual a zero e menor ou igual a 1. c) 1)()()(1)( APAPAPAP = P(), ou seja, a soma de eventos mutuamente exclusivos sempre será igual a 1. d) P() = 0, mas a reciproca não é verdadeira, pois o fato de P(A) = 0 não implica que seja impossível. Exercício 1: É sexta-feira a noite e um estudante universitário está em uma festa e lembra que na próxima segunda-feira haverá uma prova de cálculo em que ele está totalmente “por fora” da matéria. E o pior é que, se ele não conseguir uma boa nota, estará reprovado. Mas ele lembra que o professor falou que a prova teria 3 questões de múltipla escolha, e basta ele acertar duas dessas questões para ser aprovado. Se o estudante optar em continuar na festa e decidir que vai fazer a prova na base do “chute”. Portanto: a) Relacione os diferentes resultados possíveis que ele poderá obter: b) Qual é a probabilidade de responder corretamente todas as três questões e ser aprovado? c) Qual é a probabilidade chutar corretamente pelo menos 2 questões e conseguir sua aprovação? d) A estratégia de “chutar” na prova é uma estratégia inteligente adotada pelo aluno? Notas de Aula Estatística Professor Ms. Kleison Freitas –
[email protected] Página 50 5. PROBABILIDADE CONDICIONAL: Se A e B são eventos associados a um espaço amostral , com P(B) 0, então a probabilidade de ocorrência do evento A condicionada à ocorrência do evento B, é denotada por P (A/B) e definida pela relação: )( )( )/( BP BAP BAP , onde P (B) > 0 Nesse caso, )( )( )( )( )/( n Bn n BAn BAP . Se A e B forem independentes: )( )( )().( )/( AP BP BPAP BAP , analogamente P(B/A) = P(B), ou seja, a regra da probabilidade condicional não se aplica. Exercício 5: Suponha que nesta sala de aula há um total 15 alunos regularmente matriculados. O professor gostaria de identificar qual a área da estatística é mais interessante para o aluno se aprofundar de acordo a sua área de formação. Assim, um aluno será sorteado ao acaso entre todos os alunos que constam na lista de presença do professor. Se o número sorteado for par, qual a probabilidade de que seja o aluno de número 6? Notas de Aula Estatística Professor Ms. Kleison Freitas –
[email protected] Página 51 Nota de Aula 7 – Distribuição Normal de Probabilidade 1. INTRODUÇÃO: Quando uma variável aleatória assume somente valores inteiros, suas informações são originadas de uma variável aleatória discreta, pois estas são obtidas por contagem. Agora, em alguns casos, os resultados de uma variável aleatória podem não estar limitados somente a números inteiros, mas podendo ser não inteiros também. Suponha, por exemplo, que uma variável X represente a altura (cm) de um indivíduo, neste caso, raramente um indivíduo tem exatamente 1,77cm ou 1,78cm de altura, pois teoricamente, esta variável pode assumir um número infinito de valores intermediários, como 1,7704cm ou 1,7832 cm, por isso trata-se de uma variável aleatória contínua, variável este que é obtida por mensuração e por este motivo seus possíveis valores tendem para o infinito, visto não serem inteiros. A descoberta teve logo grande sucesso e grandes estudiosos da época foram ligados à curva normal, tais como Laplace que em 1783 a utilizou para descrever a distribuição de erros, e Gauss que em 1809 a empregou para analisar dados astronômicos. Assim, como Gauss foi a primeira pessoa a reafirmar o papel fundamental proposta por Moivre a curva da normal é chamada hoje de curva de Gauss. Antes de explanar com mais detalhes a curva de Gauss, faz-se necessário analisar a lei dos grandes números proposta por Bernoulli. Esse teorema diz o seguinte: numa situação de eventos casuais, onde as alternativas são independentes, obter coroa em lances de uma moeda de cara ou coroa, tem a probabilidade A distribuição contínua mais comum e mais utilizada no âmbito estatístico é a distribuição de probabilidade chamada normal, que também é conhecida como curva em forma de sino ou curva de Gauss, como será vista mais adiante. Esta distribuição tem uma história bastante longa, e está ligada à história da descoberta das probabilidades, que surgiram no século XVII para resolver, inicialmente, questões de apostas de jogo de azar. O responsável direto pela curva normal foi o matemático francês Abraham de Moivre (1667-1754), exilado na Inglaterra, que a definiu em 1730, dando sequência aos trabalhos de Jacob Bernoulli (com o teorema dos grandes números) e de seu sobrinho Nicolaus Bernoulli, ambos matemáticos suíços. Johann Carl Friedrich Gauss (1777-1855) Notas de Aula Estatística Professor Ms. Kleison Freitas –
[email protected] Página 52 matemática exata de 50% (porque somente dois eventos possíveis: cara ou coroa), mas na prática esta probabilidade de 50% é apenas aproximada. E essa aproximação é tanto mais exata quanto maior forem às tentativas que você fizer de lançar moeda, chegando a quase atingir os exatos 50% se você lançar a moeda infinitas vezes. Isto é, quanto mais lances você fizer, menor será o desvio (erro) em relação à média de 50% que o resultado irá produzir. Isso quer dizer que os desvios serão menores na medida em que sobe o número de lances. Desvios grandes são raros e desvios pequenos frequentes, quanto menores os desvios mais frequentes eles serão, de sorte que, aumentando as tentativas (os lances), aumenta-se o número de desvios pequenos, sobrepujando cada vez mais os desvios grandes, de tal sorte que, no limite, haverá quase somente desvios pequenos, sendo o desvio zero o menor deles e, por consequência, o mais frequente. O matemático francês Moivre assumiu essa idéia de Bernoulli e disse: erros grandes são mais raros que erros pequenos. Assim, quanto menores os erros, mais frequentes eles serão e quanto maiores, menos frequentes. Dessa forma, os erros se distribuem equitativamente em torno de um ponto modal, a média, formando uma curva simétrica com pico na média e caindo rapidamente para as caudas à esquerda (erros que subestimam a média) e à direita (erros que superestimam a média). Além disso, essa curva simétrica permitiu a Moivre calcular uma medida de dispersão das observações em torno da média, medida esta que hoje em dia é conhecida como o desvio padrão. Moivre, ainda chamou esta curva de normal, por que a média dela representa a norma, isto é, as coisas todas deviam ser como a média, de sorte que tudo que se desvia dessa média é considerado erro, portanto a equivalência, neste caso, entre desvio e erro. Um outro matemático do século XIX, de origem belga, Quetelet, fez uma “orgia de medições” sobre eventos do homem, tais como natalidade, mortalidade, alcoolismo, insanidade, medidas antropométricas, dentre outros, resultando no Tratado sobre o homem e o desenvolvimento de suas faculdades (1835), afirmando que tudo no homem e no mundo se distribui segundo a curva normal. Embora essa afirmação de Quetelet tenha tido reações contrárias, ela evocou pesquisas sem fim sobre esta história da distribuição normal dos eventos, chegando hoje em dia a ser mantida a idéia de que, praticamente, todos os eventos se distribuem assim. Daí a hegemonia da curva normal nas análises estatísticas em pesquisas científicas. Aliás, assumir a distribuição normal em pesquisa está baseado em dois fundamentos: 1 – Quando a distribuição da própria população for normal, ou 2 – Quando a distribuição da população não for normal, mas se tiver o número grande de casos (teorema de Bernoulli através da lei dos grandes números ou o teorema central do limite). Esta história do limite central é extremamente complicada, mas os matemáticos chegaram a provar este teorema. Assim, qualquer que seja a distribuição dos seus dados, se você tiver um número grande de observações, você pode usar com tranquilidade a curva normal como uma aproximação adequada para a análise dos seus dados. Uma curiosidade: um N de tamanho 30 já é considerado um grande número se a Notas de Aula Estatística Professor Ms. Kleison Freitas –
[email protected] Página 55 Uma das características importantes da normal é que a partir desses parâmetros será possível calcular, por exemplo, a porcentagem de valores que deverão estar acima ou abaixo de um determinado valor da v.a., ou entre esses dois valores definidos. Analisando a fórmula de f(x), observe que para cada par de parâmetros e , há uma curva diferente de f(x) ou que, para qualquer outro par de parâmetros e , a curva f(x) será diferente. c) Os valores de f(x) nunca tocam o eixo “x” da curva da Normal, mas f(x) 0, se x ; d) A área sob a curva é 1. Como se trata de distribuição de probabilidade contínua, a área que fica entre a curva e o eixo “x” representa a probabilidade. A probabilidade de ocorrer um evento entre os pontos “a” e “b” é calculada pela integral definida (visto na disciplina de cálculo) da função entre os pontos “a” e “b”, representada por: 2 2 1 2 1 ),( xb a ebaP , graficamente: Observa-se que o cálculo direto de probabilidade envolvendo a distribuição normal exige recursos de cálculo avançado e, mesmo assim, dada a forma da função densidade de probabilidade (f.d.p), não é um processo muito elementar. Por isso ela foi tabelada, permitindo assim obter diretamente o valor da probabilidade desejada. Verifica-se que, no entanto, a f.d.p da normal depende de dois parâmetros, a e ², o que acarreta um grande trabalho para tabelar as probabilidades, considerando-se as várias combinações de e ². Esse problema pode ser resolvido por meio de uma mudança de variável, obtendo-se, assim, a distribuição normal padronizada ou reduzida. a b Notas de Aula Estatística Professor Ms. Kleison Freitas –
[email protected] Página 56 4. A CURVA NORMAL E A CURVA PADRONIZADA (Z): Os pesquisadores quando falam da curvam normal, tipicamente entendem a curva normal padronizada (ou igualitária a normal original), a qual é definida pela simetria e pela curtose. Mas a curva normal original é definida exclusivamente pela simetria, isto é, que as áreas sob a curva são idênticas em ambos os lados da média: a curva normal é unimodal (tem apenas um pico) e simétrica. Assim, todas as curvas da figura abaixo são normais, porque têm um pico somente e são simétricas, embora os desvios sejam diferentes, provocando diferentes níveis de curtose. Na fórmula 2 x 2 1 e 2 1 )x(f , observa-se que a parte mais importante é o expoente 2 X 2 1 , e nele se vê que quem comanda as ações são os dados empíricos de X e os parâmetros de sua distribuição (µ e ). Agora, tanto os X quanto os parâmetros de uma distribuição variam de pesquisa para pesquisa e, assim, as curvas normais que resultam são diferentes. Portanto, ao invés de trabalhar com os valores brutos de X, vamos padronizar estes valores e transformá-los em valores de Z, ou seja, agora a distribuição normal terá o seguinte formato: X Z , com isso 2 2 2 1 )( Z eZf A vantagem desta curva normal padronizada é que em alguns parâmetros já estão automaticamente definidos para qualquer escala de medida que você utilizar, quais seja, a média é zero ( = 0) e desvio padrão um ( = 1), onde suas probabilidades já foram calculadas e são apresentadas em uma tabela (ver anexo desta nota de aula) de fácil utilização. Essa tabela nada mais é que uma tabela de conversão do número de desvios padrão entre x e em um algoritmo. Em que X é uma variável aleatória normal da média e variância ² (são constantes), assim: X ~ N(; ²) Z ~ N(0; 1²), seu gráfico será: Notas de Aula Estatística Professor Ms. Kleison Freitas –
[email protected] Página 57 A curva normal padronizada é definida pela simetria e pela curtose, sendo chamada de mesocúrtica. A curtose da distribuição normal se refere á altura do pico da curva, o qual acontece na média da distribuição: se o pico é muito elevado, a curva é chamada de leptocúrtica, se o pico é achatado a curva é chamada de platicúrtica, se for mediano, a curva é chamada de mesocúrtica, sendo esta última, a característica da normal padronizada, como mostra a figura abaixo: Trabalhar com a curva normal padronizada facilita muito a vida da gente, pois com ela a média sempre será zero e o desvio padrão será um. Quando não for padronizada, então teremos que calcular o valor da média e o valor do desvio padrão da distribuição e trabalhar com os dois parâmetros. Notas de Aula Estatística Professor Ms. Kleison Freitas –
[email protected] Página 60 Anexo 5 – Tabela da Distribuição Normal Notas de Aula Estatística Professor Ms. Kleison Freitas –
[email protected] Página 61 1ª LISTA DE EXERCÍCIOS DE ESTATÍSTICA PARA AP 1 Variáveis: 1) Suponha que o gestor hospitalar solicitou que o gerente de Tecnologia da Informação analisasse os indicadores referente aos 60 pacientes atendidos na emergência durante o último domingo do mês passado. Os dados estão organizados no seguinte banco de dados abaixo: Paciente Gênero Peso (kg) Tipo de Tratamento Número de convulsões Classificação da doença 1 Masculino 89,79 A 1 Leve 2 Feminino 64,20 A 3 Severa 3 Masculino 91,00 B 2 Moderada ... ... ... ... ... ... 58 Masculino 71,00 B 0 Severa 59 Masculino 78,80 A 2 Leve 60 Feminino 71,00 B 3 Moderada Fonte: Dados hipotéticos De acordo com o banco de dados acima classifique o tipo de variável para as variáveis seguintes. Marque a alternativa correta: a) Gênero: (a) Qualitativa Nominal (b) Qualitativa Ordinal (c) Quantitativa Discreta (d) Quantitativa Contínua b) Peso: (a) Qualitativa Nominal (b) Qualitativa Ordinal (c) Quantitativa Discreta (d) Quantitativa Contínua c) Tipo de Tratamento: (a) Qualitativa Nominal (b) Qualitativa Ordinal (c) Quantitativa Discreta (d) Quantitativa Contínua d) Número de Convulsões: (a) Qualitativa Nominal (b) Qualitativa Ordinal (c) Quantitativa Discreta (d) Quantitativa Contínua e) Classificação da doença: (a) Qualitativa Nominal (b) Qualitativa Ordinal (c) Quantitativa Discreta (d) Quantitativa Contínua Notas de Aula Estatística Professor Ms. Kleison Freitas –
[email protected] Página 62 2) O atual Governo Federal está exigindo uma quantidade maior de informação antes de aceitar um candidato e decidir se concede ou não uma bolsa do Prouni para uma faculdade privada de Fortaleza. Assim, classifique cada uma das informações dos futuros alunos à instituição. Marque a alternativa correta: a) Quantidade de prêmios escolares obtidos: (a) Qualitativa Nominal (b) Qualitativa Ordinal (c) Quantitativa Discreta (d) Quantitativa Contínua b) Qual a sua faixa de Renda familiar mensal (OBS: Identificar a classe social de acordo com a legenda abaixo)? ( ) Até R$ 1.874,00 ( ) De R$ 1.874,01 a R$ 3.748,00 ( ) De R$ 3.748,01 a R$ 9.370,00 ( ) De R$ 9.370,01 a R$ 18.740,00 ( ) Mais de R$ 18.740,00 (a) Qualitativa Nominal (b) Qualitativa Ordinal (c) Quantitativa Discreta (d) Quantitativa Contínua c) Salário (em reais) dos pais: (a) Qualitativa Nominal (b) Qualitativa Ordinal (c) Quantitativa Discreta (d) Quantitativa Contínua d) Qual o seu Estado civil? (a) Qualitativa Nominal (b) Qualitativa Ordinal (c) Quantitativa Discreta (d) Quantitativa Contínua Planejamento Amostral: 3) (Amostra Aleatória Simples) Estudo sobre elaboração de estratégia de marketing: A “Guerra das Colas” é o termo popular utilizado para a intensa competição entre Coca-Cola e Pepsi mostrada em suas campanhas de marketing. As campanhas geralmente têm estrelas do cinema, televisão, youtubers e influenciadores digitais, que surgem reforçando as suas preferências com base em testes de sabor. Assim, como parte de uma campanha de marketing, a Pepsi submeteu de uma população de 625 consumidores de refrigerante sabor cola uma amostragem de 300 a um teste cego (isto é, o consumidor degusta o refrigerante e informa qual dos dois ele prefere sem visualizar a marcar que está degustando). Cada consumidor é questionado quanto à sua preferência em relação à marca A ou B. Diante disso, calcule a margem de erro do teste cego, se a confiança for de 99%? Gabarito: 6,7% Legenda com relação a faixa de renda familiar do pesquisado e sua classe social segundo o IBGE: Até R$ 1.874,00 – Classe E De R$ 1.874,01 a R$ 3.748,00 – Classe D De R$ 3.748,01 a R$ 9.370,00 – Classe C De R$ 9.370,01 a R$ 18.740,00 – Classe B Mais de 18.740,00 – Classe A Notas de Aula Estatística Professor Ms. Kleison Freitas –
[email protected] Página 65 Separatrizes e Box-Plot 8) Estudo sobre controle de qualidade na construção civil e de produção: Uma olaria produz tijolos que é um material cerâmico utilizado na construção civil de acordo com a norma de resistência estabelecido pelo departamento de controle de qualidade do seu respectivo cliente. Assim, um determinado cliente estabeleceu como critério que 50% entre o Quartil 1 e Quartil 3 dos tijolos devem suportar, no mínimo, uma força de compressão entre 6,5 e 8,5kg/cm2 (ou seja, o tijolo consegue suportar um corpo de peso entre 6,5 e 8,5 kg, por exemplo) para que o lote produzido seja aprovado e utilizado nas suas futuras construções. Num ensaio de uma amostra de 26 tijolos escolhidos aleatoriamente de um lote produzido pela olaria e realizado pelo engenheiro de controle de qualidade do cliente foram registrados os seguintes dados com relação a sua resistência à compressão em kg/cm2: 2,8 3,3 4,5 5,0 5,3 6,0 6,0 7,0 7,0 7,3 7,3 7,5 7,8 7,8 8,3 8,5 8,8 9,0 9,0 9,0 9,0 9,3 9,6 9,8 10,0 10,0 Nestas condições, através do gráfico Box-Plot, o departamento de Controle Estatístico de Qualidade do cliente, de acordo o critério estabelecido aprovará ou reprovará o lote de tijolos para utilização? 9) Dentre as afirmativas abaixo, marque a INCORRETA: (a) O Q2 é igual à mediana que é igual ao Percentil 25 (b) Os Decis dividem a distribuição em dez partes iguais (c) As Separatrizes são estimativas que não analisam a dispersão dos dados (d) O P60 indica que 40% dos valores são maiores que ele e 60% abaixo (e) O Q3 é igual ao Percentil 75. 10) Em relação ao gráfico Box-Plot, conforme a figura abaixo, pode-se afirmar que: (a) A linha que passa no interior da caixa é a média. (b) O comprimento da caixa no gráfico retrata o intervalo interquartílico (IIQ). (c) Entre o primeiro e o segundo quartis há 50% dos dados da amostra. (d) Se houver valores discrepantes (outliers), estes estarão localizadas dentro da caixa. (e) No limite superior da “caixa” há 50% dos dados da amostral. Notas de Aula Estatística Professor Ms. Kleison Freitas –
[email protected] Página 66 2ª LISTA DE EXERCÍCIOS DE ESTATÍSTICA PARA AP 2 Correlação e Regressão Linear 1) Estudo sobre marketing digital: O Instagram é a rede social que mais cresce no mundo, pois além de tudo é uma ótima estratégia de marketing digital na divulgação de uma marca e também no engajamento com potenciais clientes. A rede só permite que o usuário utilize até 30 hashtags (#) por postagens, para captação de possíveis clientes. Assim, suponha que um determinado usuário fez postagem de divulgação do seu negócio de consultoria empresarial no seu perfil comercial durante 10 dias seguidos e utilizou para cada dia uma quantidade diferente de hashtags, conforme vista no Quadro abaixo: Quantidade de hashtags Vendas fechadas (R$) 30 430 18 335 25 520 26 490 27 470 10 210 8 195 17 270 15 400 25 480 Assim, através dos dados: a) Faça o gráfico de dispersão e tire as conclusões preliminares b) Calcule o Coeficiente de Correlação de Pearson c) Através do Método de Regressão Linear, encontre a equação de previsão. d) Faça uma previsão de vendas se a quantidade de hashtags no próximo post que ele fizer for de: d1) 30 hashtags (o limite máximo) d2) 25 hashtags d3) 20 hashtags e) Essas previsões tem uma confiança de quantos porcentos? Notas de Aula Estatística Professor Ms. Kleison Freitas –
[email protected] Página 67 2) Estudo sobre a produção industrial: Uma determinada produtora de cimentos localizada no município do Pecém, interior do Ceará, levantou os seguintes dados referente a venda de saco de cimentos de 50kg durante os primeiros 7 dias úteis de um determinado mês. Dia 1 2 3 4 5 6 7 Quantidade de cimentos vendidos (sacos) 180 188 190 198 200 208 213 a) Fazer o diagrama de dispersão; b) Calcular o Coeficiente de Correlação de Pearson (Rxy); c) Calcular a reta de regressão estimada (y = a + bx); d) Se a quantidade vendida seguir a mesma tendência dos 7 dias analisados, faça uma previsão da produção de sacos de cimentos para o 8º, 9º e 10º dia; e) Se a meta da indústria analisada é de vender 270 sacos de cimentos por dia, em que dia eles conseguirão isso? f) Encontre o Coeficiente de Determinação (R²) e interprete. Probabilidade 3) Em um canteiro de obras há 375 quadrantes de 1 metro quadrado, que foi definido por um engenheiro civil, numerados consecutivamente de 1 a 375 para realizar um estudo do solo por amostragem. Escolhe-se por sorteio um quadrante desse canteiro para estudo de suas características, a probabilidade de se obter um quadrante numerado com um número múltiplo de 15 é? Gabarito: 6,67% 4) Suponha que o professor falou o seguinte na última aula de Estatística: “Alunos, estudem todo o assunto que foi visto durante todo o semestre que se encontra nas Notas de Aulas de Estatística, pois na próxima aula farei um sorteio de um aluno e abrirei aleatoriamente a nota de aula. Assim, na página em que eu abrir o aluno sorteado deverá fazer no quadro para toda a turma um exercício que estiver na página sorteada, sendo que se a página tiver mais de um exercício, será feito o primeiro exercício que há nela”. Suponha ainda que a nota de aula é composta por 240 páginas, e o aluno verificou que os assuntos que ele mais domina estão entre as páginas 80 e 120, excluindo estas duas. Diante disso qual é a probabilidade de quando o professor abrir a nota de aula ele abra entre estas páginas, e ele resolva com tranquilidade e receba a pontuação que será proporcionada pela atividade? 5) Dentre os números formados por três algarismos, qual é a probabilidade de encontrarmos um número maior que 930? Gabarito: 7,67%