Baixe Estatística aplicada as ciência sociais e outras Manuais, Projetos, Pesquisas em PDF para Estatística, somente na Docsity! C iê n ci as C o n tá b ei s José Sérgio Casé de Oliveira Estatística Aplicada às Ciências Sociais Aplicadas II U n iv er si d ad e Fe d er al d a B ah ia Es ta tí st ic a A p lic ad a às C iê n ci as S oc ia is A p lic ad as II Estatística Aplicada às Ciências Sociais Aplicadas II Vivemos a era da informação, nunca se coletaram e analisaram tantos dados como atualmente. E isso segue como uma tendência crescente, espera-se que com o passar do tempo e com os avanços tecnológicos, cada vez seja possível coletar e analisar mais e mais informação. Nesse contexto, é de fundamental importância para qualquer prossional ser capaz de utilizar toda essa informação a seu favor. Para que isso seja feito de forma eciente, é imprescindível o conhecimento de estatística, mais precisamente, métodos estatísticos capazes guiar a tomada de decisão. Pensando nisso, esse módulo foi confeccionado a m de possibilitar um acesso suave a algumas das principais técnicas para extração de informação relevante a partir de dados. O objetivo principal aqui é apresentar uma série de ferramentas estatísticas que podem ser utilizadas em diferentes contextos e que são capazes de fornecer respostas sobre questões complexas de se avaliar. MATF10 C M Y CM MY CY CMY K ESTATÍSTICA APLICADA ÀS CIÊNCIAS SOCIAIS APLICADAS II UNIVERSIDADE FEDERAL DA BAHIA Reitor: João Carlos Salles Pires da Silva Vice-Reitor: Paulo César Miguez de Oliveira Pró-Reitoria de Ensino de Graduação Pró-Reitor: Penildon Silva Filho Faculdade de Ciências Contábeis Diretor: Prof. Joséilton Silveira da Rocha Superintendência de Educação a Distância -SEAD Superintendente: Márcia Tereza Rebouças Rangel Coordenação de Tecnologias Educacionais CTE-SEAD Haenz Gutierrez Quintana Coordenação de Design Educacional CDE-SEAD Lanara Souza Coordenadora Adjunta UAB Andréa Leitão UAB -UFBA Bacharelado em Ciências Contábeis EaD Coordenadora: Profª Inês Teresa Lyra Gaspar da Costa Produção de Material Didático Coordenação de Tecnologias Educacionais CTE-SEAD Núcleo de Estudos de Linguagens & Tecnologias - NELT/UFBA Coordenação Prof. Haenz Gutierrez Quintana Projeto gráfico Prof. Haenz Gutierrez Quintana Projeto da Capa: Prof. Alessandro Faria Arte da Capa: Alessandro Faria Foto de capa: Designed by mindandi / Freepik Revisão: Júlio Pereira Neves Equipe Design - Supervisão Alessandro Faria Editoração / Ilustração Moema Baião Ariana Santana Marcos Nascimento Design de Interfaces Raissa Bomtempo Equipe Audiovisual Direção: Prof. Haenz Gutierrez Quintana Produção: Letícia Moreira de Oliveira Ana Paula Borges Câmera Maria Christina Souza Edição: Victor Foseca Imagens de cobertura: Marcone Silva | Freepik Animação e videografismos: Dominique de Andrade Santos Edição de áudio Greice Mara Trilha Sonora: José Balbino Esta obra está sob licença Creative Commons CC BY-NC-SA 4.0: esta licença permite que outros remixem, adaptem e criem a partir do seu trabalho para fins não comerciais, desde que atribuam o devido crédito e que licenciem as novas criações sob termos idênticos. Dados Internacionais de Catalogação na Publicação (CIP) Sistema de Bibliotecas da UFBA Oliveira, José Sérgio Casé de. Estatística aplicada às ciências sociais aplicadas II / José Sergio Casé de Oliveira. - Salvador: UFBA, Faculdade de Ciências Contábeis; Superintendência de Educação a Distância, 2018. 112 p. : il. Esta obra é um Componente Curricular do Curso de Bacharelado em Ciências Contábeis na modalidade EaD da UFBA/SEAD/UAB. ISBN: 978-85-8292-162-3 1. Estatística matemática. 2. Amostragem (Estatística). 3. Análise multivariada. 4. Ciências sociais - Métodos estatísticos. I. Universidade Federal da Bahia. Faculdade de Ciências Contábeis. II. Universidade Federal da Bahia. Superintendência de Educação a Distância. III. Título. CDU: 519.2 O48 SUMÁRIO CARTA DE APRESENTAÇÃO DA DISCIPLINA 07 MINICURRÍCULO DO PROFESSOR 08 UNIDADE 1 - NOÇÕES GERAIS SOBRE AMOSTRAGEM 11 1.1 Alguns conceitos importantes 11 1.2 Métodos de Amostragem 16 1.3 O tamanho da amostra 20 UNIDADE 2 - ESTIMAÇÃO 25 2.1 Estimação intervalar 26 UNIDADE 3 - TESTE DE HIPOTESES 43 3.1 Conceitos básicos 43 3.2 Teste para diferença de duas médias populacionais 49 3.3 Teste para diferença de médias populacionais em amostras pareadas 54 3.4 Teste para diferença de duas proporções populacionais 56 3.5 Comparando três ou mais médias 57 3.6 Noções de testes não paramétricos 62 UNIDADE 4 – ANÁLISE DE REGRESSÃO SIMPLES 69 4.1 Introdução 69 4.2 O modelo 70 4.3 Validação do modelo 74 4.4 Observando os resíduos 77 4.5 Coeficiente de determinação 79 4.6 Aplicação prática com auxílio de software 80 UNIDADE 5 - NOÇÕES DE ESTATÍSTICA MULTIVARIADA 85 5.1 Conceitos introdutórios 85 5.2 Modelagem via Regressão 87 Estatística Aplicada às Ciências Sociais Aplicadas II 5.3 Técnicas Baseadas em Correlação 89 ANEXO A 93 ANEXO B 94 ANEXO C 95 ANEXO D 98 ANEXO E 99 REFERENCIAS 100 9 José Sérgio Casé de Oliveira MINI CURRICULUM DO PROFESSOR O Prof. José Sérgio Casé de Oliveira é bacharel em ciências econômicas pela Universidade Federal de Pernambuco, mestre em estatística, também pela Universidade Federal de Pernambuco, e doutor em economia pela Universidade Federal da Paraíba. Atualmente é professor da Faculdade de Ciências Contábeis da Universidade Federal da Bahia. Tem experiência com pesquisas em econometria, macroeconomia, distribuições de probabilidade e estatística computacional. 10 Estatística Aplicada às Ciências Sociais Aplicadas II José Sérgio Casé de Oliveira UNIDADE 1 - NOÇÕES GERAIS SOBRE AMOSTRAGEM Os estudos que se utilizam de estatística normalmente seguem uma série de etapas para sua realização. Essas etapas, por vezes, são chamadas de método estatístico, e podem ser apresentadas como: 1. Delimitação do problema 2. Planejamento 3. Coleta de dados 4. Organização e apresentação dos dados 5. Análise e Interpretação dos resultados Nesse capítulo, estamos especialmente interessados na etapa 3. Do método estatístico. A coleta de dados nada mais é do que o passo por meio do qual se obtém a informação relevante sobre o objeto de estudo. Discutiremos aqui a importância desse passo para o bom funcionamento da investigação por meio do método estatístico, e veremos algumas das principais técnicas para coleta de dados, as quais são comumente chamadas de amostragem. 1.1 Alguns conceitos importantes Antes de mais nada é importante se estabelecer alguns conceitos preliminares. Será denominada de População o conjunto de todos os elementos a serem estudados. Por exemplo, imagine que se deseja saber a idade média de pessoas fumantes do estado da Bahia, logo, a população de interesse para o estudo são todos os indivíduos fumantes residentes do estado da Bahia. 14 Estatística Aplicada às Ciências Sociais Aplicadas II Exemplo1.2: Suponha que a idade média dos cidadãos baianos seja igual a 36 anos. Uma amostra representativa para população dos cidadãos baianos deve ter idade média aproximadamente igual a 36 anos. Outra característica importante é a imparcialidade da amostragem, ou seja, o procedi- mento de amostragem deve ser conduzido de tal forma que todos os elementos da popu- lação devem ter igual oportunidade de compor a amostra. Exemplo1.3: Considere que se deseja obter informações sobre a média de chuvas no mês de janeiro no estado da Bahia. Cidades com maior intensidade de chuvas devem ter as mesmas chances de compor a amostra que cidades com menos intensidade de chuvas, caso contrário, a amostra não será capaz de representar bem essa característica da população. Outro conceito importante é o Erro associado ao processo de utilização da amostra. Como se deseja obter informações a partir de um subconjunto da população, é natural que este, por mais representativo que seja, não seja capaz de carregar consigo todas as características inerentes à população como um todo. Na prática, quando se colhe uma amostra, por mais rigoroso que seja o procedimento adotado na coleta, esta pode não ser perfeitamente representativa para população. Podemos subdividir esse erro em duas categorias, o erro não amostral e o erro amostral. O erro não amostral, é o erro associado ao procedimento utilizado para obtenção da amostra. Normalmente está associado a não imparcialidade da amostra. Esse erro pode ser minimizado utilizando técnicas de amostragem imparciais. O erro amostral está associado a incapacidade da amostra de conseguir representar de forma precisa as características intrínsecas a população. Ou seja, por melhor que seja o procedimento de amostragem, na prática é muito improvável que a estimativa obtida a partir da amostra seja idêntica ao parâmetro real da população. Se, por exemplo, for cole- tada informação referente à altura de todos os homens do Brasil, e à média proveniente dessa população for igual a 1,74 m, dificilmente a média obtida a partir de uma amostra da altura dos homens brasileiros será exatamente igual a 1,74 m. Além disso, diferentes ExemplosEx. ExemplosEx. 15 José Sérgio Casé de Oliveira amostras sobre uma mesma população podem gerar resultados diferentes, mesmo utili- zando técnicas similares para obtenção da amostra. Matematicamente podemos definir o erro amostral como a diferença entre a estimativa obtida a partir da amostra e o parâmetro populacional (). ERRO AMOSTRAL = ESTIMATIVA - θ. Exemplo1.4: Suponha que determinada cidade tem 10 empresas (população), as quais tiveram os seguintes lucros (em milhões) no ano de 2016. A = -1,70; B = -1,45; C = -0,42; D = 0,04; E = 0,39; F = 0,48; G = 1,31; H = 1,63; I = 1,70; J = 2,00. Note que a média de lucros das empresas dessa cidade é aproximadamente igual a 0,40. Se para compor minha amostra, eu escolho de forma parcial apenas as 5 primeiras empresas que tiveram desempenhos abaixo da média, A, B, C, D e E, vou ter como resul- tado que o lucro médio da cidade foi aproximadamente igual a -0.63. Note que isso é muito distante da realidade que é um lucro médio de 0,40. Este erro está associado ao erro não amostral, posto que se deve a forma como minha amostra foi colhida. Note que se eu escolher, mais uma vez de forma parcial, as 5 empresas com melhor desempenho (F, G, H, I e J) será obtida também uma média de lucros incompatível com a realidade. Por outro lado, eu posso ser imparcial na escolha da amostra (controlando assim o erro não amostral), utilizando por exemplo, um gerador aleatório de números para selecionar as empresas. Admita que o gerador sorteia as empresas G, F, B, J e C, que passam a compor nossa amostra. Note que a média de lucros da cidade, considerando essas empresas, é aproximadamente igual a 0,38, um resultado similar a média de lucros real. De forma que o erro amostral pode ser estimado em ERRO AMOSTRAL=ESTIMATIVA- θ ERRO AMOSTRAL=0,38 – 0,4 = -0,02. ExemplosEx. 16 Estatística Aplicada às Ciências Sociais Aplicadas II Admita uma segunda amostra obtida também a partir de um gerador aleatório de números composta por C, A, H, E e I. De forma que o lucro médio das empresas da cidade considerando essa amostra é igual a 0,32. Logo, ERRO AMOSTRAL=ESTIMATIVA- θ ERRO AMOSTRAL=0,32 – 0,4 = -0,08. Note que mesmo se utilizando do mesmo procedimento de amostragem obtivemos dife- rentes erros amostrais. 1.2 Métodos de Amostragem Normalmente, os métodos de amostragem são divididos em dois grupos. A amostragem é denominada probabilística se todos os elementos da população possuem probabili- dade conhecida e diferente de zero, de pertencer à amostra. Caso contrário, a amostragem é chamada não probabilística. Os métodos de amostragem não probabilística se utilizam de algum critério não proba- bilístico para seleção da amostra, por exemplo, o pesquisador pode optar por compor sua amostra a partir de indivíduos de fácil acesso, a fim de se obter ganhos em termos de tempo e custos, prezando pela conveniência. Entretanto, utilizando-se uma amostra não probabilística não é possível generalizar os resultados da pesquisa para a população, uma vez que amostra não é imparcial e/ou representativa. Para realizar inferências ou induções sobre a população com base em uma determinada amostra, é necessário que esta tenha sido obtida a partir de um processo de amostragem probabilística. Esse método embasa a posterior utilização de técnicas estatísticas sobre a amostra. Por ser a forma de amostragem mais indicada, daremos enfoque aqui a amos- tragem probabilística. 1.2.1 Amostragem aleatória simples (AAS) Este é o procedimento mais elementar, neste tipo de amostragem, deve-se garantir que todos os elementos de uma população de tamanho N tenham a mesma probabilidade de serem selecionados. O procedimento consiste basicamente em: i. Rotula-se todos os elementos da população; ii. Sorteia-se aleatoriamente e sem reposição um elemento dessa população; iii. Repete-se o sorteio até que se obtenha n elementos para compor a amostra. 19 José Sérgio Casé de Oliveira A essa altura surge uma dúvida pertinente, dado que o tamanho desejado para a amostra é n, como decidir os tamanhos de n1 e n2 ? Ou ainda, como decidir qual o tamanho da representatividade de cada estrato na amostra final? Trataremos aqui de duas formas mais usuais para definir o tamanho de cada estrato, são elas AAE por igual ou uniforme e a AAE proporcional. 1.2.2.1 Amostragem Aleatória Estratificada Uniforme Na AAE uniforme (AAEu), é atribuído a cada subamostra de cada estrato o mesmo número de indivíduos. Assim, dada uma amostra de tamanho n e um procedimento de AAEu que considere k estratos, tem-se que cada uma das subamostras dos estratos será composta por n/k indivíduos. Exemplo1.6: Suponha que se deseja obter uma amostra composta por 1000 indivíduos (assim, n = 1000) a partir de uma determinada população. Suponha ainda que esta população pode ser desmembrada em 4 diferentes estratos (logo, k=4), por exemplo i) Indivíduos desempregados; ii) Indivíduos que ganham até 3 salários mínimos; iii) Indivíduos que ganham mais que 3 e menos que 10 salários mínimos; iv) Indivíduos que ganham 10 ou mais salários mínimos; Assim, utilizando a AAEu optaremos por admitir que cada subamostra de cada estrato terá indivíduos, de tal forma que n1=n2=n3=n4=500. Note ainda que. n1+n2+n3+n4+1000. ExemplosEx. 20 Estatística Aplicada às Ciências Sociais Aplicadas II 1.2.2.2 Amostragem Aleatória Estratificada Proporcional Na AAE proporcional (AAEp) a representatividade de cada estrato é reproduzida na amostra. Ou seja, a proporção de cada estrato com relação à população é a mesma pro- porção de cada subamostra com relação a amostra total. Ou ainda A partir disto, podemos facilmente deduzir que Exemplo1.7: Suponha que se deseja obter uma amostra composta por 200 indivíduos (assim, n =200) a partir de uma determinada população. Suponha ainda que esta população pode ser desagregada em 2 diferentes estratos (logo, k=2), indivíduos do sexo masculino ou feminino, por exemplo. Admita que a população é comporta por 10000 indivíduos (N=10000), em que 6000 são do sexo feminino (N1=6000) e 4000 são do sexo masculino (N2=4000). Assim, utilizando a AAEp optaremos por admitir que a subamostra referente aos indiví- duos do sexo feminino será composta por indivíduos. Enquanto que a subamostra referente aos indivíduos do sexo masculino será composta por indivíduos. ExemplosEx. 21 José Sérgio Casé de Oliveira Note que e que Garantindo assim a proporcionalidade. 1.3 O tamanho da amostra Visto todo o conteúdo até o momento, um leitor mais atento facilmente percebeu que em nossas abordagens e exemplos sempre partimos do pressuposto do conhecimento do tamanho da amostra. Entretanto, uma dúvida bastante pertinente é, como escolher o tamanho da amostra? Esse é um assunto bastante complexo por envolver diversas meto- dologias adequadas para as mais diferentes perguntas que se deseja responder a partir de uma amostra. Aqui será apresentado um caso bastante simples, porém usual dadas as limitações de profundidade teórica. Considere que o objeto de desejo é estimar a média populacional a partir da média amostral. A escolha do tamanho ideal da amostra deve levar em consideração o chamado erro aceitável e a probabilidade de ocorrer o erro aceitável (1-α). O erro aceitável é a margem de erro máxima para o erro amostral que o pesquisador está disposto a aceitar. Figura 2: Erro aceitável. / Fonte: Elaboração do autor 24 Estatística Aplicada às Ciências Sociais Aplicadas II 25 José Sérgio Casé de Oliveira UNIDADE 2 - ESTIMAÇÃO Vimos até aqui formas adequadas para coleta de informações que sejam capazes de car- regar consigo característica intrínsecas de determinada população. Coletada a amostra de forma pertinente surge a necessidade de estimar a partir da amostra determinadas características (ou parâmetros) populacionais, tais como média e variância, por exemplo. Essa parte do processo é conhecida como estimação pontual, posto que a partir dela se obtém um único valor (ou ponto). Por exemplo, a estimação da média de uma amostra é dada por um único valor (o mesmo vale para a variância). Vimos ainda no capítulo anterior que dependendo da forma como a amostra é coletada, o valor da estimativa pode variar (ver Exemplo 1.4), mesmo que os procedimentos de coleta da amostra estejam corretos. De forma que a estimação pontual não possibilita ter uma ideia do erro cometido ao se proceder a estimação. Assim, é interessante se construir um intervalo em torno da estimação pontual para que se tenha mais confiança e se tenho uma ideia do tamanho do erro que o estimador utilizado pode causar. Dessa forma, seria interessante que ao invés de termos apenas um valor para estimativa de determinado parâmetro (como ocorre na estimação pontual), nós tivéssemos um intervalo de valores que melhor reflita o parâmetro populacional. Esse tipo de estimação denominamos estimação por intervalo ou estimação inter- valar. Por exemplo: Suponha que a média de determinada população é igual a 100. São coletadas 3 amostras, cujas médias são respectivamente iguais a 99, 101 e 102. Se as 3 amostras foram coletadas corretamente, temos que os três valores são estimativas válidas para média populacional, logo, estas têm equivalência estatística. Assim, o objetivo aqui é obter um intervalo de valores ao qual o verdadeiro valor do parâmetro populacional deve ter grandes chances de pertencer. Esse intervalo é conhecido como Intervalo de Confiança (IC). 26 Estatística Aplicada às Ciências Sociais Aplicadas II 2.1 Estimação intervalar Trataremos aqui de algumas técnicas para estimação intervalar considerando seis casos específicos de interesse, a saber, estimativa intervalar para média populacional quando a variância populacional é conhecida e quando é desconhecida; estimativa intervalar para proporção populacional; estimativa intervalar para diferença entre duas médias popu- lacionais considerando tanto variância populacional conhecida quanto desconhecida; e diferença entre duas proporções populacionais. Assumiremos aqui que n é grande. Essa hipótese é importante porque a partir dela podemos presumir (dado o Teorema Central do Limite) que a média amostral segue dis- tribuição Normal. Isso facilita bastante a estimação, posto que já existe todo um arca- bouço teórico construído, de forma que focaremos aqui em como utilizar essas técnicas. 2.1.1 Estimação intervalar para média populacional quando a variância é conhecida Temos interesse aqui em estimar os limites inferiores e superiores do IC, tal que exista uma probabilidade pré-definida (1-α) de que a média populacional esteja contida nesse IC. Assim determinaremos duas estatísticas, a saber: Limite inferior - Linf ; e Limite superior -Lsup ; denotando nossa pretensão matematicamente, desejamos obter a P (Linf < μ < Lsup ) = 1-α, lembrando que (1-α) é o nível de confiança. Para isso será necessário recorrer a alguns fundamentos teóricos. Do Teorema Central do Limite (TCL) temos que em que μ é a média populacional e ~ N(0, ) denota “segue distribuição Normal com média 0 e variância ”. Tem-se ainda que que partindo disso, podemos estabelecer que 29 José Sérgio Casé de Oliveira Figura 3: Obtenção de valores críticos a partir da tabela t de Student. / Ilustração: Ariana Santana Assim, como , então , e se tem interesse em , como indicado na figura acima, tem-se que . Nesse caso a fórmula para obtenção do intervalo de confiança não tem mudanças drás- ticas, e pode ser expressa por em que é obtido da tabela de valores críticos da distribuição t de Student e a variância do estimador é dada por Exemplo 2.3: Assuma uma população que possui desvio padrão e média des- conhecidos. Um estudo consegue as informações de que X=25, S=10, e que a partir de uma amostra de tamanho 21. Deseja-se determinar o intervalo de 95% de confiança para a média populacional. Note que Grau de Liberdade 1 2 3 4 5 6 7 8 9 10 11 12 a unilateral bilateral 0,05 0,100 63,657 9,925 5,841 4,604 4,032 3,707 3,499 3,355 3,250 3,169 3,106 3,055 0,025 0,050 12,706 4,303 3,182 2,776 2,577 2,447 2,305 2,506 2,222 2,228 2,201 2,179 0,005 0,010 6,314 2,920 2,353 2,132 2,015 1,943 1,895 1,860 1,833 1,812 1,796 1,782 ExemplosEx. 30 Estatística Aplicada às Ciências Sociais Aplicadas II Utilizando essas informações podemos escrever o intervalo de confiança como como 1-α=95% , da de valores críticos da distribuição t de Student temos que Tv,a=2,086, logo Ou seja, com 95% de confiança, acredita-se que está μ contida no intervalo [20,448 ; 29,552]. 2.1.3 Estimação intervalar para proporção populacional O terceiro caso a ser abordado aqui será o da estimação intervalar para proporção popu- lacional (p). Como se sabe, a proporção populacional é representa pela percentagem de indivíduos de determinada população que têm determinada característica. Para a esti- mativa da proporção amostral podemos utilizar uma representação binária para indicar a existência ou não de determinada característica, atribuindo 1 aos indivíduos que pos- suem a característica de interesse, e 0 aos que não possuem. Posteriormente, calcula-se a média simples dessa amostra, assim, podemos expressar matematicamente a proporção amostral como onde é o valor correspondente a cada elemento da população. Exemplo 2.4: Considere uma população composta por 60% de mulheres e 40% de homens, dessa população é obtida uma amostra aleatória composta por 5 indivíduos, a saber, João, Marilia, Luiz, Fernanda, Maria e Camila. Deseja-se saber a proporção amostral de mulheres. ExemplosEx. 31 José Sérgio Casé de Oliveira Como a característica de interesse é “ser mulher”, podemos representar a amostra como 0, 1, 0, 1, 1 e 1. Aplicando a fórmula para proporção temos Partindo mais uma vez do TCL, podemos supor que segue distribuição Normal. Assim, a construção dos intervalos de confiança é similar às formas apresentadas até o momento. Podemos representar o intervalo de confiança para proporção populacional como em que surge aqui um problema, a estimação do IC depende de algo que pode não ser conhecido, p . Existem duas abordagens para lidar com esse problema, a primeira é a chamada abor- dagem conservadora, a qual parte do fato de que posto que o valor máximo de p(1-p) se dá quando p=1/2. Nesse caso, assumimos que e o IC é dado por 34 Estatística Aplicada às Ciências Sociais Aplicadas II ny indivíduos. Chamemos as médias amostrais de X e Y de , respectivamente. A ideia aqui reside em estimar IC para diferença entre as médias populacionais dessas duas amostras, em que podemos representar matematicamente essa diferença por μx - μy. Para construção desse IC, vamos admitir que as variâncias populacionais correspon- dentes a cada uma das amostras são conhecidas e são denotadas por ; A derivação do estimador do IC para diferença de médias é similar a apresentada para o caso de uma só amostra apresentada no início desse capítulo. Entretanto, ao invés de tra- balhar com o estimador , vamos trabalhar com o estimador , cuja variância é dada por Assim, temos que o IC para diferença de médias é dado por Exemplo 2.6: Assuma que existem duas empresas concorrentes no mercado de notebooks, a empresa X e a empresa Y . Suponha que se deseja saber a dife- rença entre a média de idade dos consumidores da marca X( ) e a média de idade dos consumidores da marca Y( ). Sabe-se, por meio de um estudo pre- liminar que σx=9 e σy=10 . São coletadas duas amostras, uma para cada consu- midor dos produtos de cada empresa, de forma que se obteve a partir de uma amostra de tamanho nx=36, enquanto que foi obtido =35 de uma amostra de tamanho ny=49 . Vamos então calcular o IC para μ x- μ yconsiderando um nível de confiança de 95%. ExemplosEx. 35 José Sérgio Casé de Oliveira De forma que a diferença entre as idades médias dos consumidores das duas marcas está entre 0,94 anos e 9,06 anos. Ou seja, podemos afirmar com 95% de confiança que existe de fato diferença de idade média entre os consumidores de cada marca. 2.1.5 Estimação intervalar para diferença entre duas médias com variância desconhecida Aqui admitimos que as variâncias populacionais são desconhecidas, entretanto, elas podem se apresentar de duas formas, onde cada uma tem seu IC correspondente. Por isso, nesse tópico serão tratados dois casos, a saber I. A variância populacional correspondente a cada uma das amostras é desconhe- cida, entretanto, sabe-se que são iguais. Nesse caso teremos que trabalhar com suas estimativas, denotadas por e , em que ; II. A variância populacional correspondente a cada uma das amostras é desconhe- cida e são diferentes. Nesse caso, teremos que trabalhar com suas estimativas, deno- tadas por . Caso I – variâncias desconhecidas, porém iguais O formato do IC para este caso é bastante similar ao caso anterior, cujas variâncias popu- lacionais são conhecidas. As únicas diferenças aqui dizem respeito à variância do esti- mador para diferença de médias, como as variâncias populacionais são agora desconhe- cidas temos que utilizar a variância amostral como aproximação, de forma que, agora, a variância do estimador é dada por em que onde é a variância amostral da amostra X e é a variância amostral da amostra Y. Além disso, não podemos mais utilizar valores críticos da distribuição Normal padrão, agora utilizaremos os valores críticos da distribuição t de Student com nx = ny - 2 graus de liberdade. 36 Estatística Aplicada às Ciências Sociais Aplicadas II Assim, nesse caso, o IC é dado por Exemplo 2.7: Suponha que nosso interesse é investigar a influência do uso de tabaco por mulheres gravidas no peso das crianças ao nascer. Assim, temos duas populações, as mulheres grávidas fumantes e as mulheres grávidas não- -fumantes. Com base em uma pesquisa, são disponibilizadas as seguintes informações: Mulheres não-fumantes: nx = 25; X = 3,6 Kg; Sx = 0,7 Kg Mulheres fumantes: ny = 15; Y = 3,2 Kg; Sy = 1 Kg Vamos agora calcular o IC para diferença de médias considerando um nível de confiança de 95%. Antes de mais nada, precisamos calcular o valor de . Sabe-se que logo, substituindo as informações disponíveis, temos que Dado que conhecemos conhecemos também , e da tabela dos valores crí- ticos da distribuição t de Student tem-se que T38,0,05 é igual a 2,024. Finalmente podemos montar o IC, o qual é dado por ExemplosEx. 39 José Sérgio Casé de Oliveira 2.1.6 Estimação intervalar para diferença entre duas proporções Vimos anteriormente sobre estimação intervalar para proporção quando se trabalha com uma única amostra, agora vamos considerar o caso em que temos duas populações independentes, e deseja-se estimar o IC para diferença de suas proporções populacionais. Denotaremos a proporção da população X por px e a proporção da população Y por py , de forma que temos interesse em (px - py). A variância do estimador para diferença da proporção populacional é dada por de forma que o IC pode ser obtido por meio da seguinte fórmula Exemplo 2.9: Assuma que temos interesse em estudar a população de determi- nada espécie de peixe, considerando duas lagoas. Da lagoa X, é retirada uma amostra de 116 peixes, e observa-se que apenas 84 são da espécie que temos interesse. Da lagoa Y é retirada uma amostra de 80 peixes, dos quais 45 são da espécie que temos interesse. Deseja-se estimar o IC de 90% de confiança para diferença entre as proporções. Aplicando a fórmula do IC, temos ExemplosEx. 40 Estatística Aplicada às Ciências Sociais Aplicadas II Ou seja, a verdadeira diferença entre as proporções populacionais está entre 4,5% e 27,9%, com 95% de confiança. 41 José Sérgio Casé de Oliveira 44 Estatística Aplicada às Ciências Sociais Aplicadas II H0: μ=μ0; H0: μ≥μ0; H0: μ≤μ0 b) Hipótese Alternativa É a afirmação que deve ser verdadeira caso a hipótese nula seja rejeitada, ou seja, caso H0 seja rejeitada, o parâmetro deve ter características não condizentes com H0. A hipó- tese alternativa representa a afirmação sobre o parâmetro de interesse que se acredita ser verdadeira quando a hipótese nula não o for. A hipótese alternativa é denotada por H1. Exemplos de hipóteses alternativas considerando afirmações sobre determinada média populacional H1: μ≠μ0; H1: μ<μ0; H1: μ>μ1 A escolha das hipóteses nula e alternativa pelo pesquisador determina o procedimento de teste de hipóteses a ser utilizado. A depender dessa escolha podemos ter que utilizar testes unilaterais ou bilaterais. Por exemplo, suponha que as hipóteses de interesse são H0: μ=μ0 vs H1: μ<μ0 , Nesse caso, é necessário utilizar um teste unilateral. Para melhor entender a ideia de teste unilateral e bilateral, considere a reta dos reais na figura abaixo. Caso a hipótese alterna- tiva seja H1: μ<μ0 ou H1: μ>μ0 , então o teste será unilateral por que caso se rejeite H0, a hipótese alternativa indica que o valor de μ estará à direita ou à esquerda de μ0, na reta dos reais. Já no caso em que a hipótese alternativa é algo como H1: μ≠μ0, tem-se que essa supõe que μ pode assumir qualquer valor a direita e a esquerda de μ0 , desde que não seja exata- mente igual a μ0. Nesse caso, utilizamos testes bilaterais. Figura 4: Testes unilaterais e bilaterais. / Ilustração: Ariana Santana A escolha sobre as hipóteses nula e alternativa é bastante importante, de forma que é indispensável que esta seja feita de forma correta. Em teoria a hipótese nula deve refletir o cenário mais importante para pesquisa a ser desenvolvida. Por exemplo, se já existe ou Unilateral e Bilateral −∞ +∞ μ 0 45 José Sérgio Casé de Oliveira um conhecimento preestabelecido ou uma afirmação alheia sobre determinada variável, pode-se utilizar esse conhecimento para formular a hipótese nula. A hipótese alternativa deve refletir um cenário que dê suporte a uma argumentação alter- nativa ou que uma afirmação que confronte o que foi estabelecido na hipótese nula. II. Erros A ideia central do teste de hipóteses é chegar a uma decisão sobre as hipóteses nula e alternativa, a rigor, decidimos se rejeitamos ou não a hipótese nula. Entretanto, ao tomar essa decisão (rejeitar ou não H0 ) podemos incorrer em erro. Mais precisamente, podemos cometer dois tipos de erros, podemos rejeitar H0 quando H0 é verdadeira e podemos não rejeitar H0 quando H0 é falsa, esses dois tipos de erro são denominados Erro tipo I e Erro tipo II, respectivamente. Figura 5: Tipos de erros. Ilustração: Ariana Santana III. Nível de significância Normalmente se estabelece o Erro tipo I como o mais danoso ou inconveniente para a pesquisa. Exemplo clássico: Considere um júri popular, onde este tem que absolver ou condenar o réu, e o réu pode ser culpado ou inocente. Neste caso, temos que a) Erro tipo I: condenar o réu quando o mesmo é inocente; b) Erro tipo II: absolver o réu quando o mesmo é culpado. Realidade 𝐻𝐻 é verdadeira 𝐻𝐻 é falsa Decisão tomada Rejeitar 𝐻𝐻 ERRO TIPO I (rejeitar 𝐻𝐻 quando 𝐻𝐻 é verdadeira) Decisão correta Não rejeitar 𝐻𝐻 Decisão correta ERRO TIPO II (não rejeitar 𝐻𝐻 quando 𝐻𝐻 é falsa ) 0 0 0 0 0 0 0 0 46 Estatística Aplicada às Ciências Sociais Aplicadas II Dessa forma, é tido como mais danoso cometer o erro tipo I. Assim, é importante que se controle a probabilidade de se cometer o erro tipo I, de forma que ela seja a menor possível. A essa probabilidade, damos o nome de nível de signifi- cância e a denotamos por α . P(Erro tipo I)=P(rejeitar H0 | H0 é verdadeira)=α . Normalmente α é estabelecido como 1% ou 5%. Além disso, denotaremos aqui a probabilidade de se cometer o erro tipo II por β , ou seja, P(Erro tipo II)=P(não rejeitar H0 | H0 é falsa)= β . IV. Estatística de teste A estatística de teste é a forma como condessaremos as informações contidas na amostra para ser capazes de tomar a decisão de rejeitar ou não a hipótese nula. Está pode estar associada a alguma distribuição de probabilidade ou não. Caso esteja associada a alguma distribuição de probabilidade, dizemos que o teste é paramétrico. Caso não seja neces- sário assumir que a estatística de teste segue alguma distribuição dizemos que o teste é não paramétrico. V. Região de rejeição (RR) Também chamada de região crítica, a região de rejeição compreende os valores para estatística de teste que se mostram demasiadamente destoantes do que foi assumido na hipótese nula. Por outro lado, a região que compreende os valores da estatística de teste que são esta- tisticamente equivalentes ao valor assumido na hipótese nula é chamada região de não rejeição (RNR). O conceito de RNR em muito se assemelha ao conceito de intervalo de confiança. O valor que delimita a fronteira entre as regiões de rejeição e não rejeição é chamado valor crítico. Para uma melhor compreensão, considere o seguinte exemplo, onde dese- ja-se testar H0: μ=μ0 vs H1: μ≠μ0 , lembrando que um teste para essas hipóteses é do tipo bilateral, por isso teremos dois valores críticos. Fixado o valor de α , suponha os valores críticos são dados por Z α e -Z α, de forma que a RR e a RNR podem ser observadas na reta real abaixo. 49 José Sérgio Casé de Oliveira Note que nesse caso, é necessário um teste bilateral. Em resumo, para proceder um teste de hipóteses estatístico, precisamos de três informa- ções básicas, são elas 1) Hipóteses estatísticas; 2) Estatística de teste; e 3) Valores críticos. 3.2 Teste para diferença de duas médias populacionais Suponha agora que temos interesse em duas populações, e que temos duas amostras correspondentes, denotadas pelo conjunto X composto nx por indivíduos, e pelo con- junto Y composto por ny indivíduos. Chamemos as médias amostrais de X e Y de X e Y, respectivamente. A ideia aqui é bastante similar ao que foi visto sobre IC para diferença entre as médias populacionais. Entretanto, agora temos interesse em testar hipóteses sobre duas médias populacionais, mais especificamente, estaremos aqui interessados em testar se as médias populacionais de duas diferentes populações independentes são estatisticamente iguais ou não, com base em suas respectivas amostras. Ou ainda, H0: μx=μy vs H1: μx≠μy , que pode ainda ser expresso por, H0: μx-μy=0 vs H1: μx-μy≠0 . Os procedimentos para o teste de hipóteses, nesse caso, variam de acordo com as infor- mações disponíveis sobre as variâncias populacionais (assim como na estimação de IC). Dessa forma, vamos tratar aqui três casos diferentes, em que as variâncias são conhe- cidas; as variâncias são desconhecidas, porém iguais; e as variâncias são desconhecidas e diferentes. 3.2.1 Variâncias conhecidas Este é o caso mais simples, em que a estatística de teste será dada por 50 Estatística Aplicada às Ciências Sociais Aplicadas II onde são conhecidos. Nesse caso, os valores críticos Zα e -Zα são obtidos da distribuição Normal padrão. Exemplo 3.2: Uma máquina enche latas de refrigerante com base no peso. Duas amostras são retiradas ao acaso em turnos diferentes de produção. A pri- meira amostra tem 10 latas e a segunda tem 20 latas, com respectivos pesos médios e desvios padrão iguais a 174,6 g e 5 g; e 178,9 g e 6 g. Deseja-se saber se a máquina está bem regulada considerando um nível de significância de 1%. Nosso interesse aqui é testar H0: μx=μy vs H1: μx≠μy . Primeiramente vamos obter o valor da estatística de teste Conhecido o valor da estatística de teste, precisamos agora conhecer o valor do nível crítico que pode ser obtido da tabela da distribuição Normal padrão. Lembrando que consideramos um nível de significância de 1%, então Zα=2,575. Como o valor calculado da estatística de teste está contido na RNR (-2,575<-1,049 < 2,575), então temos evidencias para a não rejeição de H0. ExemplosEx. 51 José Sérgio Casé de Oliveira 3.2.2 Variâncias desconhecidas, porém, iguais Vamos considerar agora que temos a informação de que as variâncias populacionais são iguais, ou seja, . Entretanto, as variâncias populacionais são desconhecidas, de forma que teremos que recorrer a suas estimativas dadas pela variância de cada amostra. Assim, a estatística de teste será dada por em que onde é a variância amostral da amostra X e é a variância amostral da amostra Y. De forma similar a metodologia para estimação do IC, aqui será utilizada a distribuição t de Student com graus de liberdade (v) dados por v=nX+nY-2 , para obtenção dos valores críticos Tv,a e -Tv,a. Obs.: Assim como em IC, para obtenção dos valores críticos a partir da distribuição t de Studet, usar como referência valores bilaterais. Exemplo 3.3: Deseja-se investigar a quantidade de nicotina em duas marcas de cigarros, coletadas as amostras tem-se que Cigarro X: Cigarro Y: Assumindo que as variâncias populacionais são desconhecidas, porém iguais, desejamos testar a hipótese de que H0: μx=μy vs H1: μx≠μy , ExemplosEx. YY 54 Estatística Aplicada às Ciências Sociais Aplicadas II Assim, como o valor calculado da estatística de teste está contido na RNR (-2,447<0,467 < 2,447), então temos evidencias para a não rejeição de H0 . 3.3 Teste para diferença de médias populacionais em amostras pareadas Até aqui tratamos de amostras independentes, vamos considerar agora a existência de dependências entre as amostras. Nesse caso, as observações aparecem aos pares, por exemplo, cada indivíduo é observado duas vezes ao longo do tempo, de forma que teremos duas amostras considerando os mesmos indivíduos, porém, em contextos diferentes. Exemplo 3.5: Seleciona-se uma amostra de funcionários de uma empresa. Cada funcionário realiza determinada função utilizando um método tradi- cional chamado método 1 para o fazer, e o tempo que ele leva para realizar a função é cadastrado na amostra X , em seguida, os mesmos funcionários devem realizar a mesma função utilizando um método alternativo chamado método 2, e o tempo que cada um leva para realizar a função é cadastrado na amostra Y . Agora estaremos interessados em uma terceira amostra gerada a partir das duas amos- tras iniciais. Essa terceira amostra é denotada por d e é obtida fazendo a diferença entre xi e yi , para i=1, … ,n , em que n é o tamanho das amostras, e xi e yi representam os ele- mentos que compõe as amostras X e Y . Assim temos que di= xi -yi . Note que agora temos uma única amostra (d) de tamanho n, e que é preciso que nX=nY=n. A ideia consiste em testar se a as médias populacionais diferem significativamente ou não, ou seja H0: μx=μy vs H1: μx≠μy , ou ainda, queremos testar se a média populacional da diferença entre as médias popula- cionais é estatisticamente igual a zero ou não, de forma que temos interesse em testar se H0: μd=0 vs H1: μd≠0 . ExemplosEx. 55 José Sérgio Casé de Oliveira Para testar essas hipóteses utiliza-se a seguinte estatística de teste em que e Sd são respectivamente a média simples e o desvio padrão da amostra d . Os valores críticos são obtidos da distribuição t de Student com n-1 graus de liberdade. Exemplo 3.6: Seis cobaias foram submetidas a dietas com determinadas rações durando uma semana cada dieta com cada ração. Ao término de cada semana são coletadas informações sobre os pesos (em gramas) das cobaias, as infor- mações estão disponíveis abaixo Ilustração: Ariana Santana Com base nessas informações, temos que = -2 e Sd = 5,366 . Assim a estatística de teste é igual a Considerando um nível de significância de 1%, e n-1=5 graus de liberdade, temos que Tv,α=4,032. ExemplosEx. Cobaia Dieta 𝑋𝑋 Dieta 𝑌𝑌 𝑑𝑑 1 635 640 -5 2 704 712 -8 3 662 661 1 4 560 558 2 5 603 610 -7 6 745 740 5 56 Estatística Aplicada às Ciências Sociais Aplicadas II Como o valor calculado da estatística de teste está contido na RNR (-4,032<-0,913 < 4,032), então temos evidências para a não rejeição de H0. 3.4 Teste para diferença de duas proporções populacionais A ideia aqui é bastante similar ao que foi visto em teste para diferença de duas médias populacionais. Mais uma vez, suponha que temos interesse em duas populações, e que temos duas amostras correspondentes, denotadas pelo conjunto X composto nx por indi- víduos, e pelo conjunto Y composto ny por indivíduos. Chamemos as proporções de X e Y de , respectivamente. Nosso interesse reside em testar hipóteses sobre duas proporções populacionais, mais especificamente, estaremos aqui interessados em testar se as proporções populacionais de duas diferentes populações independentes são estatisticamente iguais ou não, com base em suas respectivas amostras. Ou ainda, H0: px=py vs H1: px≠py , que pode ainda ser expresso por H0: px-py=0 vs H1: px-py≠0 . Para os procedimentos de teste, utilizaremos a seguinte estatística de teste em que com Px: número de indivíduos da amostra que possuem a característica de interesse; Py: número de indivíduos da amostra que possuem a característica de interesse. Neste caso, os valores críticos são obtidos da distribuição Normal padrão. 59 José Sérgio Casé de Oliveira Existem algumas limitações ao uso desse procedimento de teste, é necessário que haja independência entre as variáveis, as observações sigam distribuição Normal e tenham mesma variância populacional. ExemplosEx. Exemplo 3.8: Vinte e um ratos foram divididos em três grupos, em que cada grupo recebe uma dieta rica em vitaminas A, B e C, respectivamente, por uma semana. Após esse período, mediu-se o ganho de peso (em gramas) dos ani- mais, e esses valores estão disposto na tabela a seguir Ilustração: Ariana Santana Neste caso, temos interesse em testar H0: μ1=μ2=μ3 vs H1: ao menos uma igualdade não é atendida . Da tabela acima, temos as seguintes informações Lembrando ainda que n=n1+n2+n3=21 , e k=3 . Para calcular o valor da estatística de teste é necessário primeiro obter A B C 5,1 4,2 4,7 4,4 5,4 5,2 3,7 4,3 4,0 4,1 4,6 3,6 5,0 4,7 4,9 3,3 4,7 3,8 3,7 3,8 4,6 60 Estatística Aplicada às Ciências Sociais Aplicadas II Passemos agora para estatística de teste Considerando um nível de confiança de 5%, e observado os valores na tabela referentes a distribuição F com (2;18) graus de liberdade, temos que F(k-1;n-1),α = 3,55. Como o valor calculado da estatística de teste está contido na RR (0,362< 3,55), então temos evidencias para a não rejeição de H0. 3.5.2 Teste de Tukey O teste F é apropriado para comparação de várias médias simultaneamente, entretanto, caso a hipótese nula seja rejeitada, ou seja, ao menos uma média difere das demais, este teste não possibilita saber qual dos grupos destoa com relação aos demais. O teste de Tukey promove a comparação de médias duas a duas, no caso de o teste F rejeitar a hipótese nula. Dessa forma, nossas hipóteses de interesse agora são O procedimento de Tukey usa a distribuição da estatística de variação “studentizada” em que são a maior e a menor médias entre os grupos, e QMd é o deno- minador da estatística de teste do teste F, ou seja, 61 José Sérgio Casé de Oliveira caso o valor absoluto de q exceda o teste indica que as médias dos grupos são significativamente diferentes. Exemplo 3.9: Crianças foram separadas em três grupos aos quais foram dados diferentes níveis de motivação para estudar matemática (baixa, média e alta). Aplicou-se um exame com as crianças e tabulou-se as notas que segue Ilustração: Ariana Santana A princípio foi aplicado o teste F para avaliar se as médias são iguais. O resultado por F=7,82 > F2;24;0,05 = 3,403, logo rejeita-se H0. Sabendo que utilize o teste de Tukey para investigar quais médias são diferentes. Vamos testar as médias de A e B, A e C, e B e C. ExemplosEx. A B C 4 12 1 5 8 3 4 10 4 3 5 6 6 7 8 10 9 5 1 14 3 8 9 2 9 4 2 64 Estatística Aplicada às Ciências Sociais Aplicadas II Primeiro precisamos definir o posto das observações Ilustração: Ariana Santana Assim, temos que Rx = 23 e Ry=55 . Seguindo agora, vamos calcular U. O menor valor de U é 2. Da tabela de Maan-Whitney, temos que o valor crítico considerando um nível crítico de 5%, é igual a 5. Como o valor calculado de U é menor que o valor tabelado (2 < 5), então o teste indica que devemos rejeitar H0. 3.6.2 Teste de Kruskal Wallis O teste de Kruskal Wallis é o equivalente não paramétrico para o teste F. Aqui, assim como no caso anterior, é necessário que a variável de interesse esteja em escala ordinal. É necessário que existam ao menos 5 indivíduos e ao menos 3 grupos para compor a amostra. Assim, de forma similar ao teste F, deseja-se testar algo como H0: os tratamentos tem efeios similares vs H1: os tratamentos não tem efeitos similares. A estatística de teste é dada por Marca X Marca Y Nota Posto Nota Posto 2 1,5 5 5,5 2 1,5 6 7,5 3 3 7 9 4 4 8 10 5 5,5 9 11 6 7,5 10 12 Soma 23 Soma 55 65 José Sérgio Casé de Oliveira Se o valor de H calculado for maior que o valor crítico correspondente da tabela da dis- tribuição qui-quadrado, com k-1 graus de liberdade, então rejeitamos H0. Caso a amostra seja muito pequena, por exemplo, k=3 e a amostra de cada grupo contém cinco ou menos elementos, a aproximação pela distribuição qui-quadrado não é boa. Caso um ou mais valores observados apareçam mais que uma vez, é necessário que se proceda uma correção no valor de H, de forma que a estatística de teste será dada por em que tl é tamanho do grupo de elementos repetidos l, e g é a quantidade de grupos. Os elementos que não se repetem correspondem cada um a um grupo de tamanho 1. Exemplo 3.11: Toma-se aleatoriamente três amostras em três capitais dife- rentes, onde pergunta-se a cada indivíduo quantas vezes ele foi ao shopping no mês anterior, o resultado está disposto na tabela a seguir Ilustração: Ariana Santana Com base nessas informações, podemos admitir que os tratamentos são similares? Temos interesse aqui em testar se H0: os tratamentos tem efeios similares vs H1: os tratamentos não tem efeitos similares. ExemplosEx. Grupo 1 Grupo 2 Grupo 3 20 12 8 4 21 22 7 9 10 2 0 5 17 14 6 3 1 19 66 Estatística Aplicada às Ciências Sociais Aplicadas II Primeiramente, vamos atribuir os postos. Ilustração: Ariana Santana Vamos agora obter o valor da estatística de teste Considerando um nível de confiança de 5%, da tabela qui-quadrado temos que o valor crítico é dado por 5,991. Como o valor calculado de H é menor que o valor tabelado (0,784<5,991), então o teste indica que não devemos rejeitar H0. Grupo 1 Grupo 2 Grupo 3 Quantidade Posto Quantidade Posto Quantidade Posto 20 16 12 12 8 9 4 5 21 17 22 18 7 8 9 10 10 11 2 3 0 1 5 6 17 14 14 13 6 7 3 4 1 2 19 15 Soma 50 Soma 55 Soma 66 José Sérgio Casé de Oliveira UNIDADE 4 –ANÁLISE DE REGRESSÃO SIMPLES Aqui veremos a técnica estatística provavelmente mais utilizada para trabalhos cientí- ficos. Por vezes, o pesquisador acredita que uma variável pode influenciar fortemente o comportamento de outra variável, entretanto, o contrário não seria válido. Por exemplo, as variáveis consumo e renda. É fácil ver que para se poder consumir mais produtos é necessário dispor de mais renda. Entretanto, a renda do indivíduo não varia caso ele con- suma mais ou menos (lembrando que renda é fluxo de dinheiro e não estoque). Note que nesse caso temos duas variáveis de interesse em que uma exerce influência sobre a outra, entretanto, sem reciprocidade. Para avaliar a direção o grau e a relevância dessa influência podemos utilizar a análise de regressão simples. 4.1 Introdução Regressão é um termo introduzido por Francis Galton (1889) ao analisar dados sobre alturas de pais e seus filhos. Embora houvesse uma tendência de pais altos terem filhos altos, e de pais baixos terem filhos baixos, a altura média dos filhos de pais de uma dada altura tendia a se deslocar ou “regredir” até a altura média da população como um todo. Hoje em dia, regressão ocupa-se do estudo da dependência de uma variável (chamada variável endógena, resposta ou dependente), em relação a uma ou mais variáveis, cha- madas variáveis explicativas (ou exógenas). E tem como objetivo estimar a média (da população) ou valor médio da variável dependente em termos dos valores conhecidos (ou fixos) das explicativas. Aqui estamos interessados em estudar a chamada regressão linear simples, em que se analisa a influência de uma única variável explicativa sobre uma variável dependente, assumindo uma função linear para expressar essa relação de influência. O caso em que existe mais que uma variável explicativa chamamos regressão linear múltipla. 70 Estatística Aplicada às Ciências Sociais Aplicadas II É importante aqui fazer algumas distinções para melhor compreender o que é uma regressão. A primeira delas é que apesar de regressão lidar com a dependência de uma variável em relação a outras variáveis, ela não implica necessariamente em causa. Rela- ções estatísticas não estabelecem relações causais, por mais fortes que essas possam ser. Exemplo 4.1: Um estudo com regressão pode indicar que fumantes estão mais propensos a ter câncer de pulmão que não fumantes, mas não pode estabelecer que fumar causa câncer de pulmão, isso fica a critério da medicina. Outra distinção importante diz respeito a diferença entre regressão e correlação. Aná- lise de correlação tem como objetivo medir a intensidade ou o grau de associação linear entre duas variáveis, sob um contexto de influência mútua. Na análise de regressão ten- tamos estimar ou prever o valor médio de uma variável com base nos valores fixados de outras variáveis. Note que correlação é uma medida de influência bilateral, enquanto que em regressão, assume-se que uma variável influência a outra. 4.2 O modelo A ideia consiste em estabelecer uma forma funcional e linear nos parâmetros para a variável que se deseja modelar (Y), com relação as informações disponíveis (X). Por exemplo, yi=β0+β1 xi+ei , i=1,… ,n em que yi e xi são respectivamente, os i-ésimos elementos das minhas variáveis depen- dente e independente. β0 é o chamado intercepto. β1 é chamado coeficiente angular. Aqui temos que β0 e β1 são nossos parâmetros de interesse. E ei é o i-ésimo erro não observável. Note que estamos supondo uma relação de linearidade entre as variáveis, e estamos supondo ainda que uma variável é perfeitamente explicada por uma segunda variável, por isso é imprescindível a utilização do termo de erro, uma vez que muito dificilmente no mundo real essas duas suposições serão satisfatórias. De forma que, desde o princípio, já temos em mente que o modelo não é perfeito e poderá cometer erros. Para minimizar esse problema, podemos escolher os valores de β0 e β1 que tornam o ei menor possível. Ou seja, temos interesse em estimativas de β0 e β1 (denotadas por ) ExemplosEx. 71 José Sérgio Casé de Oliveira que me ofereçam o menor erro possível. O estimador capaz de me oferecer isso é o cha- mado Estimador de Mínimos Quadrados Ordinários, ou simplesmente MQO. Na prática ei é não observável, por isso, o método de estimação leva em consideração uma aproximação do erro, a qual chamaremos de resíduo, e será denotado por . Assim, temos que os resíduos são dados por A ideia do modelo consiste em traçar uma reta média capaz de caracterizar a relação de influência de X sobre Y de forma que a distância entre cada observação e a reta média seja a menor possível. Figura 8: Reta de regressão. Ilustração: Ariana Santana Para se obter o estimador de MQO é necessária a suposição de algumas hipóteses básicas. São elas I. O modelo está corretamente especificado; II. X é não estocástico; III. Os erros têm média zero; IV. Os erros têm variância constante igual a σ2; V. Os erros são independentes; VI. Os erros têm distribuição Normal. Y X } 0 1 ei 74 Estatística Aplicada às Ciências Sociais Aplicadas II logo, aplicando a fórmula para estimação da variância dos resíduos, tem-se passando então para o cálculo das variâncias, temos Conhecida a forma dos estimadores, é importante agora saber os interpretar. é o intercepto, como vimos anteriormente, ele pode ser interpretado como o valor médio de Y quando X é nulo. Já (o coeficiente angular) interpretado como o impacto que é causado em Y dado uma variação marginal em X, ou ainda, é a magnitude (ou grau de influência) de X sobre Y. 4.3 Validação do modelo Feita a estimação do modelo, devemos seguir o passo seguinte que é a validação do mesmo. Nesta etapa, procedemos testes de hipóteses a fim de se garantir a validade das hipóteses postuladas. Como aqui abordaremos apenas o caso de regressão simples, iremos nos ater a testar apenas as hipóteses IV, V e VI, que são referentes ao erro do modelo. Existem diversos testes para avaliar cada uma dessas hipóteses, a maior parte deles exige um pouco mais de profundidade teórica para um melhor entendimento, de forma que aqui vamos apre- sentar alguns testes simples para cada caso. Em caso de os testes serem baseados em con- teúdos mais avançados, apenas mencionaremos o teste. Lembrando que na prática todos 75 José Sérgio Casé de Oliveira esses testes já estão programados em diversos softwares. Não sendo imprescindível o pro- fundo conhecimento da teoria por trás do teste para sua utilização. i. Testando se os erros têm variância constante Essa hipótese é de fundamental para se garantir as boas propriedades dos estimadores. Caso ela seja violada, dizemos que os erros têm problemas de heteroscedasticidade. Um dos testes mais comuns é o teste de Goldfeld-Quandt, o qual tem como hipóteses de teste H0:variância dos erros constante vs H1:não H0 A ideia do teste consiste ordenar as n observações de forma crescente com respeito a variável explicativa. Em seguida, divide-se a amostra em três partes, de forma que a parte central contenha 25% das observações. Em seguida, estima-se duas regressões para as partes 1 e 3. A estatística de teste é dada por em que n3 e n1 são os números de observações das partes 1 e 3. é o número de observações centrais que forma omitidas. SQRreg1 é a soma dos quadrados dos resíduos da regressão feita com a primeira parte dos dados. E SQRreg2 é a soma dos quadrados dos resíduos da regressão feita com a terceira parte dos dados. Sob homocedasticidade, FGQ deve ser próximo de 1. Os valores críticos são obtidos da distribuição F, com (n3-p+1,n1-p+1) graus de liberdade. ii. Testando se os erros têm correlação Essa hipótese normalmente é testada quando se deseja modelar uma série de tempo, ou seja, as observações são obtidas a partir de um indivíduo que é acompanhado ao longo do tempo. Os testes mais comuns nesse caso são os testes de Durbin-Watson, h de Durbin e Breuch-Goldfrey. Esses testes são baseados em modelo de séries temporais, e avaliam se há ou não correlação entre os erros com base nos resíduos. iii. Testando se os erros seguem distribuição Normal Essa hipótese é especialmente importante na etapa posterior a estimação do modelo, quando se deseja validar as informações obtidas a partir do mesmo. Isso porque a maior parte dos testes de hipóteses utilizados parte do princípio que os erros seguem distri- buição Normal para derivar a distribuição de sua estatística de teste. 76 Estatística Aplicada às Ciências Sociais Aplicadas II Os testes mais comuns para indicar a normalidade dos erros são os testes de Bera-Jarque e Kolmogorov-Smirnov. Ambos se baseiam nos resíduos do modelo de regressão. Além das hipóteses do modelo, convém também testar a validade dos valores estimados para β0 e β1. A ideia do teste consiste em avaliar se o valor estimado é estatisticamente diferente de zero ou não. Assim testa-se H0:βi=0 vs H1:βi≠0 . Para isso utiliza-se a seguinte estatística de teste e a região crítica é obtida da tabela da distribuição t de Student com n - 2 graus de liberdade. Esse teste é especialmente importante por ser capaz de identificar se X tem ou não influencia sobre Y. Caso H0 seja rejeitada, temos indícios de que X influencia Y. Exemplo 4.3: Considere os dados do Exemplo 4.2 e teste as hipóteses de que os coeficientes estimados são iguais a zero. Temos que . Primeiro testaremos H0:β0=0 vs H1:β0≠0 . A estatística de teste é dada por Da tabela t de Student, considerando 2 graus de liberdade e um nível de significância de 5%, temos que tv,α=4,303. Como 3,62 está na RNR, não podemos rejeitar a hipótese de que β0=0. ExemplosEx. 79 José Sérgio Casé de Oliveira 4.5 Coeficiente de determinação O coeficiente de determinação, denotado por R2, é uma métrica que aponta a qualidade do ajuste da reta de regressão aos dados. É uma medida que se encontra entre zero e um, ou seja, 0≤R2≤1, em que quanto mais próximo de 1, melhor o ajuste do modelo, e quanto mais próximo de 0, pior o ajuste do modelo. Podemos obter o R2 por meio da seguinte fórmula em que SQE é a soma dos quadrados explicados pelo modelo de regressão e SQT é a soma dos quadrados totais. Assumindo que podemos decompor a SQT de tal forma que, SQT = SQE + SQR, em que SQR é a soma dos quadrados dos resíduos. Podemos representar alternativamente o por R2 O R2 pode ainda ser interpretado como a proporção da variação total de Y explicada pelo modelo de regressão. ExemplosEx. Exemplo 4.4: Considerando novamente o Exemplo 4.2, calcule o R2 do modelo ajustado. Lembrando que Ilustração: Ariana Santana ê1 ê2 3 ê 4 ê -0,46 2,78 -1,28 -1,04 80 Estatística Aplicada às Ciências Sociais Aplicadas II Então, 4.6 Aplicação prática com auxílio de software O procedimento de regressão é deveras trabalhoso para ser realizado manualmente, principalmente em um contexto em que temos muitas observações. Para facilitar as esti- mações, existem uma variedade grande de softwares que possuem algoritmos capazes de realizar todos os cálculos para grandes bases de dados (R, STATA, SPSS, Excel, entre outros). Veremos aqui como proceder uma regressão linear simples utilizando o software Excel da Microsoft. Em nossa aplicação, teremos interesse em explicar a taxa de mortalidade infantil nos municípios baianos (Y) por meio da renda média das pessoas ocupadas de cada cidade (X). De forma que o modelo a ser estimado pode ser expresso por Yi=β0+β1 Xi+e , para i=1,…,n. Os dados para aplicação são provenientes do Atlas do Desenvolvimento Humano, com- preendem 418 municípios que foram observados no ano de 2010. Antes de iniciar as estimações, note que é de se esperar que a variável renda média tenha impacto negativo sobre a variável taxa de mortalidade, posto que se a renda média é elevada, a cidade tem habitantes de maior poder aquisitivo, que podem pagar mais por remédios e tratamentos. Dado que as informações já estão na planilha do Excel, para o procedimento de regressão, seleciona-se o menu DADOS e em seguida, na faixa de opções correspondente, selecio- na-se a função Análise de Dados. De forma que surgirá uma segunda janela denomi- nada Análise de Dados. Nela, deve-se selecionar a opção Regressão e posteriormente selecionar OK. 81 José Sérgio Casé de Oliveira Feito isso, surgirá uma terceira janela denominada Regressão, nela devem ser infor- madas as variáveis dependente (Y) e independente (X), respectivamente, nas estradas correspondentes a Intervalo Y de entrada e Intervalo X de entrada. Ainda na janela Regressão, existem outras funções interessantes a se explorar. Na seção Resíduos, podemos selecionar Plotar revsíduos e Plotar ajuste de linha. Por fim, na janela Regressão, selecionando OK, é gerada uma saída de informações sobre as estimativas do modelo de regressão, além dos dois gráficos que também foram solici- tados. As etapas até aqui descritas por ser melhor compreendidas com auxílio das ima- gens a seguir. Figura 12: Regressão em planilha eletrônica - 1. / Fonte: Elaboração do autor. Figura 13: Regressão em planilha eletrônica - 2. / Fonte: Elaboração o autor. 84 Estatística Aplicada às Ciências Sociais Aplicadas II José Sérgio Casé de Oliveira UNIDADE 5 - NOÇÕES DE ESTATÍSTICA MULTIVARIADA Todas as técnicas que vimos até aqui tratam da utilização de um, ou no máximo dois con- juntos de dados que são utilizados para inferir informações sobre a amostra. Na prática, temos acesso a diversos conjuntos de dados que podem estar relacionados entre si, e é de suma importância que se utilize o máximo de informação possível para uma tomada de decisão precisa e correta. Antes de tomar qualquer decisão, sempre pensamos e ponderamos com respeito a qual melhor alternativa escolher. Esse processo envolve uma série de fatores que são anali- sados e ponderados. Por exemplo, se se deseja comprar um relógio entre diversas opções existentes, analisa-se a durabilidade, a precisão, a aparência, entre tantos outros fatores. Normalmente esses fatores tem pesos diferentes na decisão. Nesse capítulo, veremos uma série de técnicas estatísticas para se extrair informações relevantes de um conjunto de variáveis de interesse. Veremos que é possível extrair dife- rentes tipos de informações dessas variáveis e que para cada problemática, existe uma técnica apropriada para análise dos dados. 5.1 Conceitos introdutórios Antes de mais nada é importante fazer a distinção do que é uma análise univariada e uma análise multivariada. UNIVARIADA – diz respeito a análise feita sobre uma única variável. Exemplos dessa abordagem são a estatística descritiva, teste de média, análise variância (ANOVA), entre outras. Existe ainda uma categoria entre análise univariada e multivariada, denominada, análise bivariada. 86 Estatística Aplicada às Ciências Sociais Aplicadas II BIVARIADA – este é o caso intermediário entre a análise univariada e a multi- variada. Na análise bivariada trabalhamos com duas variáveis. Por exemplo, teste para diferença de média, regressão simples, entre outras. MULIVARIADA – diz respeito a análise estatística feita sobre três ou mais variáveis. A nomenclatura análise multivariada diz respeito a divversas técnicas estatísticas que utilizam simultaneamente mais que duas variáveis para construção de informação rele- vante. A técnica utilizada depende diretamente da pergunta que se deseja responder com base nos dados disponíveis, de forma que cada técnica de análise multivariada é diferente da outra, cada qual com suas condições particulares de uso. Por exemplo, podemos ter interesse em identificar o quanto amostras se relacionam segundo alguns critérios, podemos utilizar análise de agrupamento hierárquico ou aná- lise de componentes principais. Podemos ainda ter interesse em como uma série de variá- veis influenciam uma única variável, assim podemos utilizar regressão múltipla. O procedimento de escolha da metodologia adequada para análise dos dados passa pela categorização dos dados disponíveis. Os dados podem ser qualitativos ou quantitativos. A variável qualitativa expressa determinada característica do indivíduo, a ausência dela (nesse caso temos uma escala nominal), ou sua intensidade (nesse caso temos uma escala ordinal). É possível converter a informação em um padrão numérico, entretanto, esse valor não tem um significado quantitativo. Exemplo 5.1: Quando se pergunta o indivíduo nasceu no Brasil ou não (escala nominal), este só tem duas opções viáveis, sim ou não. É possível converter a resposta para uma escala numérica atribuindo 1 a sim e 0 a não. Exemplo 5.2: Pode-se ter interesse em saber a satisfação do indivíduo com determinado serviço prestado (escala ordinal). Para isso, elabora-se uma escala de graus de satisfação, por exemplo, não satisfeito, indiferente, satisfeito. É possível aqui converter a resposta para uma escala numérica atribuindo 0 para não satisfeito, 1 para indiferente e 2 para satisfeito. ExemplosEx. 89 José Sérgio Casé de Oliveira 5.2.3 Modelos Lineares de probabilidade Essa técnica é popularmente conhecida como modelo de regressão logit, e pode ser considerada uma mistura de regressão múltipla e análise discriminante. Ela se assemelha a análise de regressão múltipla porque é também de interesse se estimar pesos para as variáveis independentes a fim de melhor prever o comportamento da variável indepen- dente. Entretanto, diferentemente da regressão múltipla, a variável dependente é qualita- tiva e não quantitativa, e nesse aspecto, o modelo é semelhando a análise discriminante. Neste caso, considerando que a variável dependente seja qualitativa em escala nominal, pode-se utilizar o modelo de regressão logit (também conhecido como regressão logís- tica). Em caso de a variável dependente seja qualitativa em escala ordinal, pode ser utili- zado o modelo de regressão logit ordenado. Uma característica que merece destaque nesse modelo é a sua interpretação, pela qual é possível determinar a probabilidade de que determinado evento de interesse ocorra, de acordo com as características observadas desse evento. Exemplo 5.5: Suponha que se deseja saber a probabilidade de que uma pessoa venha a ter câncer de pulmão. Para isso, tem-se uma amostra de pessoas que desenvolveram a doença (a estes se atribui o valor 1) e pessoas que não desen- volveram a doença (a estes se atribui o valor 0). Com base em características comportamentais (como hábito de fumar, praticar exercícios físicos, entre outros) e física (peso, altura, características genéticas), se pode estabelecer quais características são influentes para que o indivíduo tenha uma maior probabilidade de desenvolver a doença ou não. 5.3 Técnicas Baseadas em Correlação As técnicas apresentadas até aqui têm por característica principal se utilizarem de variá- veis dependentes e independentes. Entretanto, nem sempre é possível previamente definir que determinada variável é dependente e determinada variável não o é. Por vezes, nosso interesse reside simplesmente em investigar a interdependência de todas as variá- veis conjuntamente, nesse caso existem técnicas multivariadas apropriadas. Note que isso ExemplosEx. 90 Estatística Aplicada às Ciências Sociais Aplicadas II implica uma análise de caráter mais explanatório dos dados. Aqui serão apresentadas as principais técnicas utilizadas para esta finalidade. 5.3.1 Análise de fatores Por vezes, nos deparamos com um grande banco de dados e não sabemos exatamente como trabalhar tanta informação simultaneamente. Surge a necessidade de traçar perfis aos dados. Observar quais variáveis tem maior relação umas com as outras. É possível que se possa condensar a informação contida em muitas variáveis em uma única variável não observada diretamente, esta variável pode ser chamada de fator. Quando nos depa- ramos com interesses nessa linha, é recomendável o uso de análise de fatores. Por vezes se utiliza análise fatorial com o intuito de i. Reduzir grandes conjuntos de variáveis para conjuntos menores e mais significa- tivos, e ii. Identificar grupos de variáveis inter-relacionadas e distingui-los de outros grupos de variáveis inter-relacionadas. Essa técnica é baseada na matriz de correlações das variáveis. A ideia por trás do método é que é possível condensar a informação contida em um determinado número de variá- veis com uma perda mínima de informação. Ou seja, com base na matriz de correlação das variáveis, busca-se determinar grupos, tais que, as variáveis dentro de cada grupo possuam alta correlação entre si, enquanto possuírem correlação relativamente pequena com variáveis de outro grupo. Uma outra forma de pensar é se duas ou mais variáveis estão altamente correlacionadas, quer dizer que, se elas estão “dizendo a mesma coisa”, assim será possível “passar essa mensagem” utilizando uma variável apenas. Exemplo 5.6: Suponha um estudo de mercado sobre automóveis. Neste estudo, levantaram-se diversas variáveis levadas em consideração pelo consumidor ao escolher um carro, por exemplo. i. Espaço interno; ii. Custo de manutenção; ExemplosEx. 91 José Sérgio Casé de Oliveira iii. Design; iv. Baixo consumo de combustível; v. Preço de revenda; vi. Fácil manuseio de instrumentos; vii. Robustez do motor; viii. Robustez do cambio; ix. Porta malas; x. Conforto interno; xi. Variedade de cores; xii. Preço de seguro; xiii. Distância entre eixos; xiv. Altura em relação ao solo. Note que elencamos ao todo 14 variáveis. Para o departamento de marketing, seria pro- blemático ter que desenvolver uma campanha publicitária levando em consideração cada uma das 14 variáveis analisadas. Em vez disso, seria ideal se fosse possível saber como o consumidor pensa em termos de variáveis mais geral, ou fatores. Utilizando análise fatorial, pode-se delimitar três categorias mais gerais como I. Custo-benefício; II. Conforto; e III. Segurança. De forma que podemos obter características referentes aos fatores a partir do conheci- mento das variáveis disponíveis. 5.3.2 Análise de clusters Esta técnica tem por objetivo simplesmente alocar os indivíduos em grupos de simila- ridade com base em suas características observadas. Note que esta técnica propõe algo similar ao que foi visto de análise discriminante. Entretanto, aqui não precisamos definir uma variável dependente, analisamos todas as características de cada indivíduo simulta- neamente, e a partir disto, definimos a qual grupo o indivíduo pertence. 94 Estatística Aplicada às Ciências Sociais Aplicadas II ANEXO A Tabela A: Valores críticos da distribuição t de Student. Fonte: Elaboração do autor. G.L. α unilateral 0,005 0,025 0,050 G.L. α unilateral 0,005 0,025 0,050 bilateral 0,010 0,050 0,100 bilateral 0,010 0,050 0,100 1 63,657 12,706 6,314 41 2,701 2,020 1,683 2 9,925 4,303 2,920 42 2,698 2,018 1,682 3 5,841 3,182 2,353 43 2,695 2,017 1,681 4 4,604 2,776 2,132 44 2,692 2,015 1,680 5 4,032 2,571 2,015 45 2,690 2,014 1,679 6 3,707 2,447 1,943 46 2,687 2,013 1,679 7 3,499 2,365 1,895 47 2,685 2,012 1,678 8 3,355 2,306 1,860 48 2,682 2,011 1,677 9 3,250 2,262 1,833 49 2,680 2,010 1,677 10 3,169 2,228 1,812 50 2,678 2,009 1,676 11 3,106 2,201 1,796 51 2,676 2,008 1,675 12 3,055 2,179 1,782 52 2,674 2,007 1,675 13 3,012 2,160 1,771 53 2,672 2,006 1,674 14 2,977 2,145 1,761 54 2,670 2,005 1,674 15 2,947 2,131 1,753 55 2,668 2,004 1,673 16 2,921 2,120 1,746 56 2,667 2,003 1,673 17 2,898 2,110 1,740 57 2,665 2,002 1,672 18 2,878 2,101 1,734 58 2,663 2,002 1,672 19 2,861 2,093 1,729 59 2,662 2,001 1,671 20 2,845 2,086 1,725 60 2,660 2,000 1,671 21 2,831 2,080 1,721 61 2,659 2,000 1,670 22 2,819 2,074 1,717 62 2,657 1,999 1,670 23 2,807 2,069 1,714 63 2,656 1,998 1,669 24 2,797 2,064 1,711 64 2,655 1,998 1,669 25 2,787 2,060 1,708 65 2,654 1,997 1,669 26 2,779 2,056 1,706 66 2,652 1,997 1,668 27 2,771 2,052 1,703 67 2,651 1,996 1,668 28 2,763 2,048 1,701 68 2,650 1,995 1,668 29 2,756 2,045 1,699 69 2,649 1,995 1,667 30 2,750 2,042 1,697 70 2,648 1,994 1,667 31 2,744 2,040 1,696 71 2,647 1,994 1,667 32 2,738 2,037 1,694 72 2,646 1,993 1,666 33 2,733 2,035 1,692 73 2,645 1,993 1,666 34 2,728 2,032 1,691 74 2,644 1,993 1,666 35 2,724 2,030 1,690 75 2,643 1,992 1,665 36 2,719 2,028 1,688 76 2,642 1,992 1,665 37 2,715 2,026 1,687 77 2,641 1,991 1,665 38 2,712 2,024 1,686 78 2,640 1,991 1,665 39 2,708 2,023 1,685 79 2,640 1,990 1,664 40 2,704 2,021 1,684 80 2,639 1,990 1,664 95 José Sérgio Casé de Oliveira ANEXO B Tabela B: Valores críticos do teste de Tukey. Fonte: Elaboração do autor. GL ( (𝑛𝑛 -𝑘𝑘 𝛼𝛼 𝑘𝑘 níveis 2 3 4 5 6 7 8 9 10 5 0,05 3,64 4,6 5,22 5,67 6,03 6,33 6,58 6,8 6,99 0,01 5,7 6,98 7,8 8,42 8,91 9,32 9,67 9,97 10,24 6 0,05 3,46 4,34 4,9 5,3 5,63 5,9 6,12 6,32 6,49 0,01 5,24 6,33 7,03 7,56 7,97 8,32 8,61 8,87 9,1 7 0,05 3,34 4,16 4,68 5,06 5,36 5,61 5,82 6 6,16 0,01 4,95 5,92 6,54 7,01 7,37 7,68 7,94 8,17 8,37 8 0,05 3,26 4,04 4,53 4,89 5,17 5,4 5,6 5,77 5,92 0,01 4,75 5,64 6,2 6,62 6,96 7,24 7,47 7,68 7,86 9 0,05 3,2 3,95 4,41 4,76 5,02 5,24 5,43 5,59 5,74 0,01 4,6 5,43 5,96 6,35 6,66 6,91 7,13 7,33 7,49 10 0,05 3,15 3,88 4,33 4,65 4,91 5,12 5,3 5,46 5,6 0,01 4,48 5,27 5,77 6,14 6,43 6,67 6,87 7,05 7,21 11 0,05 3,11 3,82 4,26 4,57 4,82 5,03 5,2 5,35 5,49 0,01 4,39 5,15 5,62 5,97 6,25 6,48 6,67 6,84 6,99 12 0,05 3,08 3,77 4,2 4,51 4,75 4,95 5,12 5,27 5,39 0,01 4,32 5,05 5,5 5,84 6,1 6,32 6,51 6,67 6,81 13 0,05 3,06 3,73 4,15 4,45 4,69 4,88 5,05 5,19 5,32 0,01 4,26 4,96 5,4 5,73 5,98 6,19 6,37 6,53 6,67 14 0,05 3,03 3,7 4,11 4,41 4,64 4,83 4,99 5,13 5,25 0,01 4,21 4,89 5,32 5,63 5,88 6,08 6,26 6,41 6,54 15 0,05 3,01 3,67 4,08 4,37 4,59 4,78 4,94 5,08 5,2 0,01 4,17 4,84 5,25 5,56 5,8 5,99 6,16 6,31 6,44 16 0,05 3 3,65 4,05 4,33 4,56 4,74 4,9 5,03 5,15 0,01 4,13 4,79 5,19 5,49 5,72 5,92 6,08 6,22 6,35 17 0,05 2,98 3,63 4,02 4,3 4,52 4,7 4,86 4,99 5,11 0,01 4,1 4,74 5,14 5,43 5,66 5,85 6,01 6,15 6,27 18 0,05 2,97 3,61 4 4,28 4,49 4,67 4,82 4,96 5,07 0,01 4,07 4,7 5,09 5,38 5,6 5,79 5,94 6,08 6,2 19 0,05 2,96 3,59 3,98 4,25 4,47 4,65 4,79 4,92 5,04 0,01 4,05 4,67 5,05 5,33 5,55 5,73 5,89 6,02 6,14 20 0,05 2,95 3,58 3,96 4,23 4,45 4,62 4,77 4,9 5,01 0,01 4,02 4,64 5,02 5,29 5,51 5,69 5,84 5,97 6,09 24 0,05 2,92 3,53 3,9 4,17 4,37 4,54 4,68 4,81 4,92 0,01 3,96 4,55 4,91 5,17 5,37 5,54 5,69 5,81 5,92 30 0,05 2,89 3,49 3,85 4,1 4,3 4,46 4,6 4,72 4,82 0,01 3,89 4,45 4,8 5,05 5,24 5,4 5,54 5,65 5,76 40 0,05 2,86 3,44 3,79 4,04 4,23 4,39 4,52 4,63 4,73 0,01 3,82 4,37 4,7 4,93 5,11 5,26 5,39 5,5 5,6 60 0,05 2,83 3,4 3,74 3,98 4,16 4,31 4,44 4,55 4,65 0,01 3,76 4,28 4,59 4,82 4,99 5,13 5,25 5,36 5,45 120 0,05 2,8 3,36 3,68 3,92 4,1 4,24 4,36 4,47 4,56 0,01 3,7 4,2 4,5 4,71 4,87 5,01 5,12 5,21 5,3 96 Estatística Aplicada às Ciências Sociais Aplicadas II ANEXO C Tabela C1: Valores críticos da distribuição F (5% de significância). Fonte: Elaboração do autor. Observação: A tabela C1 foi rotacionada 90o em sentido anti-horário para melhor visualização. k- 1 1 2 3 4 5 6 7 8 9 10 11 12 13 14 15 16 17 18 19 20 1 16 1,4 5 19 9,5 0 21 5,7 1 22 4,5 8 23 0,1 6 23 3,9 9 23 6,7 7 23 8,8 8 24 0,5 4 24 1,8 8 24 2,9 8 24 3,9 1 24 4,6 9 24 5,3 6 24 5,9 5 24 6,4 6 24 6,9 2 24 7,3 2 24 7,6 9 24 8,0 1 2 18 ,51 19 ,00 19 ,16 19 ,25 19 ,30 19 ,33 19 ,35 19 ,37 19 ,38 19 ,40 19 ,40 19 ,41 19 ,42 19 ,42 19 ,43 19 ,43 19 ,44 19 ,44 19 ,44 19 ,45 3 10 ,13 9,5 5 9,2 8 9,1 2 9,0 1 8,9 4 8,8 9 8,8 5 8,8 1 8,7 9 8,7 6 8,7 4 8,7 3 8,7 1 8,7 0 8,6 9 8,6 8 8,6 7 8,6 7 8,6 6 4 7,7 1 6,9 4 6,5 9 6,3 9 6,2 6 6,1 6 6,0 9 6,0 4 6,0 0 5,9 6 5,9 4 5,9 1 5,8 9 5,8 7 5,8 6 5,8 4 5,8 3 5,8 2 5,8 1 5,8 0 5 6,6 1 5,7 9 5,4 1 5,1 9 5,0 5 4,9 5 4,8 8 4,8 2 4,7 7 4,7 4 4,7 0 4,6 8 4,6 6 4,6 4 4,6 2 4,6 0 4,5 9 4,5 8 4,5 7 4,5 6 6 5,9 9 5,1 4 4,7 6 4,5 3 4,3 9 4,2 8 4,2 1 4,1 5 4,1 0 4,0 6 4,0 3 4,0 0 3,9 8 3,9 6 3,9 4 3,9 2 3,9 1 3,9 0 3,8 8 3,8 7 7 5,5 9 4,7 4 4,3 5 4,1 2 3,9 7 3,8 7 3,7 9 3,7 3 3,6 8 3,6 4 3,6 0 3,5 7 3,5 5 3,5 3 3,5 1 3,4 9 3,4 8 3,4 7 3,4 6 3,4 4 8 5,3 2 4,4 6 4,0 7 3,8 4 3,6 9 3,5 8 3,5 0 3,4 4 3,3 9 3,3 5 3,3 1 3,2 8 3,2 6 3,2 4 3,2 2 3,2 0 3,1 9 3,1 7 3,1 6 3,1 5 9 5,1 2 4,2 6 3,8 6 3,6 3 3,4 8 3,3 7 3,2 9 3,2 3 3,1 8 3,1 4 3,1 0 3,0 7 3,0 5 3,0 3 3,0 1 2,9 9 2,9 7 2,9 6 2,9 5 2,9 4 n- 1 10 4,9 6 4,1 0 3,7 1 3,4 8 3,3 3 3,2 2 3,1 4 3,0 7 3,0 2 2,9 8 2,9 4 2,9 1 2,8 9 2,8 6 2,8 5 2,8 3 2,8 1 2,8 0 2,7 9 2,7 7 11 4,8 4 3,9 8 3,5 9 3,3 6 3,2 0 3,0 9 3,0 1 2,9 5 2,9 0 2,8 5 2,8 2 2,7 9 2,7 6 2,7 4 2,7 2 2,7 0 2,6 9 2,6 7 2,6 6 2,6 5 12 4,7 5 3,8 9 3,4 9 3,2 6 3,1 1 3,0 0 2,9 1 2,8 5 2,8 0 2,7 5 2,7 2 2,6 9 2,6 6 2,6 4 2,6 2 2,6 0 2,5 8 2,5 7 2,5 6 2,5 4 13 4,6 7 3,8 1 3,4 1 3,1 8 3,0 3 2,9 2 2,8 3 2,7 7 2,7 1 2,6 7 2,6 3 2,6 0 2,5 8 2,5 5 2,5 3 2,5 1 2,5 0 2,4 8 2,4 7 2,4 6 14 4,6 0 3,7 4 3,3 4 3,1 1 2,9 6 2,8 5 2,7 6 2,7 0 2,6 5 2,6 0 2,5 7 2,5 3 2,5 1 2,4 8 2,4 6 2,4 4 2,4 3 2,4 1 2,4 0 2,3 9 15 4,5 4 3,6 8 3,2 9 3,0 6 2,9 0 2,7 9 2,7 1 2,6 4 2,5 9 2,5 4 2,5 1 2,4 8 2,4 5 2,4 2 2,4 0 2,3 8 2,3 7 2,3 5 2,3 4 2,3 3 16 4,4 9 3,6 3 3,2 4 3,0 1 2,8 5 2,7 4 2,6 6 2,5 9 2,5 4 2,4 9 2,4 6 2,4 2 2,4 0 2,3 7 2,3 5 2,3 3 2,3 2 2,3 0 2,2 9 2,2 8 17 4,4 5 3,5 9 3,2 0 2,9 6 2,8 1 2,7 0 2,6 1 2,5 5 2,4 9 2,4 5 2,4 1 2,3 8 2,3 5 2,3 3 2,3 1 2,2 9 2,2 7 2,2 6 2,2 4 2,2 3 18 4,4 1 3,5 5 3,1 6 2,9 3 2,7 7 2,6 6 2,5 8 2,5 1 2,4 6 2,4 1 2,3 7 2,3 4 2,3 1 2,2 9 2,2 7 2,2 5 2,2 3 2,2 2 2,2 0 2,1 9 19 4,3 8 3,5 2 3,1 3 2,9 0 2,7 4 2,6 3 2,5 4 2,4 8 2,4 2 2,3 8 2,3 4 2,3 1 2,2 8 2,2 6 2,2 3 2,2 1 2,2 0 2,1 8 2,1 7 2,1 6 20 4,3 5 3,4 9 3,1 0 2,8 7 2,7 1 2,6 0 2,5 1 2,4 5 2,3 9 2,3 5 2,3 1 2,2 8 2,2 5 2,2 2 2,2 0 2,1 8 2,1 7 2,1 5 2,1 4 2,1 2