






























































Estude fácil! Tem muito documento disponível na Docsity
Ganhe pontos ajudando outros esrudantes ou compre um plano Premium
Prepare-se para as provas
Estude fácil! Tem muito documento disponível na Docsity
Prepare-se para as provas com trabalhos de outros alunos como você, aqui na Docsity
Encontra documentos específicos para os exames da tua universidade
Prepare-se com as videoaulas e exercícios resolvidos criados a partir da grade da sua Universidade
Responda perguntas de provas passadas e avalie sua preparação.
Ganhe pontos para baixar
Ganhe pontos ajudando outros esrudantes ou compre um plano Premium
Aula 09 Estatística
Tipologia: Notas de aula
1 / 70
Esta página não é visível na pré-visualização
Não perca as partes importantes!































































Teoria e exercícios comentados Prof. Jeronymo Marcondes - Aula 09
Associação entre variáveis 2 Associação entre variáveis qualitativas 4 Associação entre variáveis quantitativas 10 Associação entre variáveis qualitativas e quantitativas 15 Introdução ao método de regressão 17 Estimação com base em amostra e Método dos Mínimos Quadrados Ordinários (MQO)
Tabela ANOVA 28 Teste de hipóteses sobre os coeficientes 35 Eficiência do estimador de Mínimos Quadrados Ordinários (MQO) 38 Lista de Exercícios resolvidos 60 Gabarito 70
Bem vindos à nossa última aula teórica! Nesta aula, temos alguns assuntos importantes para discutir:
Dica de um concurseiro Aquele pensamento de estudar matérias de exatas, tais como estatística, só por exercícios não é muito correto. Toda matéria, independentemente de qual, deve ser estudada com base em teoria também. Muitos exercícios podem exigir conhecimentos mais aprofundados, tal como vocês verão no simulado.
Teoria e exercícios comentados Prof. Jeronymo Marcondes - Aula 09
1. Associação entre variáveis
Até agora estudamos o comportamento de variáveis com distribuições e parâmetros definidores de sua dinâmica, tal como sua média, por exemplo.
Mas, uma questão que os estatísticos sempre têm que abordar é: como é o comportamento conjunto de mais de uma variável?
Por exemplo, um pesquisador pode estar interessado em saber como a renda dos indivíduos de uma determinada região está correlacionada com seus gastos em consumo. O que deve ser feito é avaliar como a variável "renda” de um determinado indivíduo se relaciona com a variável "gastos em consumo” do mesmo.
Neste caso, teríamos um conjunto de variáveis relativas à renda dos diversos indivíduos pesquisados (r t) e outro conjunto com as variáveis relativas ao consumo destes mesmos indivíduos (q). Suponha que nossa amostra seja dada por 8 (oito) indivíduos, cujos valores para estas variáveis sejam dados por:
1 1000 700 2 1500 800 3 2000 1000 4 2300 1100 5 2700 1200 6 5500 2300 7 6000 2500 8 7300 3000
Se você colocar em um gráfico os pontos relativos a cada indivíduo, de forma que localizemos o valor de consumo no eixo vertical, da renda no eixo horizontal e que o ponto seja a "intersecção” destes valores, teríamos o seguinte gráfico de dispersão:
Teoria e exercícios comentados Prof. Jeronymo Marcondes - Aula 09
2. Associação entre variáveis qualitativas
Para que vocês entendam direitinho, vamos analisar alguns exemplos do livro "Estatística Básica” dos professores Bussab e Morettin.
Suponha que queiramos verificar se existe associação entre o sexo e a carreira escolhida por 200 alunos de Economia e Administração. Nós podemos verificar como se dá a distribuição conjunta destas variáveis por meio de uma tabela de dupla entrada ou tabela de contingência. Veja como seria uma tabela deste tipo:
Olhe, cada entrada da tabela representa quantas vezes ocorre cada realização conjunta. Não entendeu? Veja o primeiro quadradinho da tabela, que tem o valor de 85:
O que ele está te dizendo é que há 85 homens que cursam economia, ou seja, ele dá a realização simultânea de (sexo = masculino) e (curso = economia).
Em termos matriciais, nós podemos chamar esta célula de (1, 1), pois se trata da intersecção da primeira linha com a primeira coluna. Assim, sempre que você ver a definição de uma célula de uma matriz com base em dois números entre parênteses (x e y , por exemplo), o que isso está te falando é que: (x ,y ) = (linha, coluna) = intersec ção da linha x com coluna y.
Teoria e exercícios comentados Prof. Jeronymo Marcondes - Aula 09
Este é um exemplo de amostragem aleatória estratificada em contraposição à amostragem aleatória simples , que estudamos até agora! Esta última é o caso no qual qualquer membro da população tem a mesma chance de ser sorteado para a amostra, como se fosse um sorteio. Já no presente exemplo, a população foi dividida em subgrupos (tal como homens e mulheres, por exemplo) e, a partir daí, é realizada uma amostragem aleatória simples em cada um destes estratos.
E qual é a quantidade de alunos de Economia, independentemente do sexo?
Ora, basta somar a linha respectiva à economia:
Entendeu? Há 120 alunos de Economia, sendo 85 homens e 35 mulheres. Este valor, que nos dá o valor total de realizações de uma variável qualitativa (independentemente das outras variáveis qualitativas), é chamado de distribuição marginal. Na nossa tabela, estes valores estão nas células (1,3), (2,3), (3,1) e (3,2).
Em vez de trabalharmos com frequências absolutas, como é o caso, fica mais fácil visualizar interações utilizando frequências relativas!
-“Como fazer isso, professor”?
Basta dividir as células pelas suas distribuições marginais.
“Mas, devo utilizar as distribuições marginais das linhas ou das colunas”?
Aí,depende do que você quer avaliar. No nosso caso, vamos fixar o total dos sexos como 100% e, com base nisso, encontrar quanto cada curso representa de matriculas por sexo. Veja como ficaria:
Teoria e exercícios comentados Prof. Jeronymo Marcondes - Aula 09
Veja outro exemplo:
Agora a coisa é diferente! Veja que as proporções de frequência nos cursos de Física e Ciências Sociais por parte do sexo masculino (71% e 29%, respectivamente) e feminino (29% e 67%, respectivamente) são muito diferentes das proporções marginais (60% e 40%, respectivamente). Ou seja, quando incluímos a informação referente ao sexo do indivíduo, a distribuição de pessoas pelos cursos se modifica muito com relação ao total geral. Assim, as variáveis parecem estar associadas!
Porém, muitas vezes, é importante quantificar esta associação, isso é, o “quanto” estas variáveis estão associadas?
Para isso utilizaremos o chamado coeficiente de contingência de Pearson. Este coeficiente se baseia no somatório dos desvios de cada célula com relação ao seu valor esperado caso as variáveis em estudo não fossem associadas. Não entendeu nada, não é? Vamos voltar ao exemplo dos alunos de Física e Ciências Sociais.
No fundo, o que fizemos foi comparar a proporção marginal de cada curso com relação às suas respectivas proporções associada a cada sexo. Assim, caso as variáveis não tivessem nenhuma associação, esperar-se-ia que:
Entendeu? Se as variáveis não forem associadas, espera-se que 60% das pessoas frequentarão cursos de Física e 40% cursos de Ciências Sociais, independentemente do sexo. Se isso for verdade, basta aplicar estes
Teoria e exercícios comentados Prof. Jeronymo Marcondes - A ula 09 percentuais no total de cada coluna que encontraríamos os valores esperados de cada célula se as variáveis não fossem associadas.
Se compararmos o valor real de cada célula com seu valor esperado, teremos a seguinte distribuição:
Este é o mesmo problema que encontramos quando estudamos a variância, pois a soma dos desvios deve igualar zero. Assim, vamos adotar uma estratégia semelhante para resolver o problema, elevando os desvios ao quadrado e dividindo tal resultado pelo valor esperado da célula:
Pode-se provar que a soma de todos estes elementos gera uma estatística de teste qui-quadrado (x 2). Não cabe demonstrar isso aqui, portanto, decore!
Assim, a estatística de teste para análise de associação entre estas variáveis é dada por:
x^2
Este é um valor significantemente maior do que zero, portanto, pode-se inferir que as variáveis estão associadas. Quanto maior este valor, menor é a associação entre as variáveis.
Teoria e exercícios comentados Prof. Jeronymo Marcondes - Aula 09
Nós já estudamos o que é um erro amostrai: a margem de erro da aula anterior. Existe uma fórmula que nos dá a amostra mínima com base no máximo de erro que estamos dispostos a cometer:
1
Isso é, para um erro amostral da ordem de 4%, devemos ter uma amostra de, no mínimo:
Ou seja, nossa amostra deve ter, no mínimo, 625 elementos.
3. Associação entre variáveis quantitativas
No caso de uma análise entre variáveis quantitativas o nosso "arsenal” para análise é muito maior! Nós podemos tanto utilizar o que estudamos na seção anterior, quanto outras possibilidades gráficas, como o diagrama de dispersão.
Veja o exemplo que demos no início da aula:
1 1000 700 2 1500 800 3 2000 1000 4 2300 1100 5 2700 1200 6 5500 2300 7 6000 2500 8 7300 3000
Teoria e exercícios comentados Prof. Jeronymo Marcondes - Aula 09
Este é um caso de variáveis quantitativas em que podemos usar o diagrama de dispersão, ensinado na aula 00. O que eu quero que vocês notem é o seguinte:
Entendeu? Se você traçar uma reta que "mais ou menos” que une os pontos, você encontra uma reta inclinada para cima, ou como chamam os matemáticos, positivamente inclinada. O que isso quer dizer é: quanto maior a renda, maior será o consumo associado, isso é, trata-se de variáveis positivamente correlacionadas.
Este é um caso possível de associação entre duas variáveis quantitativas, mas não o único. As variáveis podem ser negativamente correlacionadas. Neste caso, quanto maior uma delas, menor será o valor associado na outra.
Quer um exemplo? Suponha que seja feita uma pesquisa que relacione o PIB de 6 economias com a taxa de incidência de leptospirose nas mesmas. É de se esperar que economias mais ricas tendam a ter melhores condições de saneamento, o que reduz a taxa de incidência desta doença. Em termos gráficos, seria algo mais ou menos assim:
Teoria e exercícios comentados Prof. Jeronymo Marcondes - A u la 09
Neste caso, não há uma tendência clara entre as duas variáveis! Este é um exemplo de variáveis não associadas.
Uma medida numérica de associação pode ser obtida pelo coeficiente de correlação ( p ). Para uma amostra de tamanho (n ), o coeficiente de correlação entre duas variáveis quaisquer, x e y, é dado por:
Sendo x e y as médias e dp(x) e dp{y) os desvios padrões das variáveis x e y respectivamente.
Em termos bem simples, cada parêntese representa a versão padronizada de cada uma das variáveis, portanto o coeficiente de correlação é igual à média dos produtos dos valores padronizados das variáveis em análise. Este valor vai de - 1 (menos hum) a 1 (hum):
-! < p <!
Teoria e exercícios comentados Prof. Jeronymo Marcondes - Aula 09
Um valor próximo de 1 indica associação positiva, enquanto que outro próximo de -1 indica associação negativa. Um valor próximo de zero indica não associação entre variáveis.
Outra forma de explicitar o coeficiente de correlação é por meio da covariância.
Covariância (Cov) é uma medida da “variância conjunta” entre duas variáveis. Para uma amostra de tamanho (n ), a covariância entre duas variáveis quaisquer, x e y, é dada por:
Aí fica fácil ver que:
Entendeu? Antes de passarmos para o próximo tópico, vocês precisam saber uma coisa importante demais sobre a covariância!
A covariância entre duas variáveis é influenciada pela associação que uma variável tem sobre a outra. Assim, se duas variáveis são independentes, a covariância entre ambas é igual à zero. Porém, o fato de a covariância entre duas variáveis ser igual à zero não quer dizer que elas sejam independentes. Atenção a isso!
Teoria e exercícios comentados Prof. Jeronymo Marcondes - Aula 09
Assim, podemos quantificar o grau de associação entre duas variáveis como o “ganho relativo na variância” obtido pela introdução da variável qualitativa. Isso é feito por meio do R2 (nós a estudaremos com mais detalhes logo mais).
Para quantificarmos o R2 precisamos definir ( Var ), a média das variâncias dentro dos subgrupos, que chamaremos de variância média. Ao definirmos Vart • nt como o produto da variância do subgrupo i pelo tamanho da amostra no mesmo, a variância média será dada por:
Assim, com base na variância total da amostra ( Var ), podemos definir R2 como:
Então se aplicarmos esta fórmula a nosso exemplo acima:
Isso quer dizer que 41,5% da variabilidade dos salários é explicada pela variável “grau de instrução”.
Beleza, terminamos a parte de correlação, vamos à regressão!
Z(Vari ■ nt)
Teoria e exercícios comentados Prof. Jeronymo Marcondes - Aula 09
5. Introdução ao método de Regressão
Pessoal, hora de forçar a memória escolar e lembrar o que é uma função, ou melhor, uma função linear. Função é uma relação entre duas variáveis, como por exemplo:
a) Vendas de uma empresa e gastos em propaganda; b) Aumento de peso de uma pessoa e quantidade de comida ingerida; c) Valor da conta de energia e número de equipamentos elétricos em uma casa.
Se chamarmos a primeira variável de cada item de y e a segunda de x, matematicamente, pode-se descrever tal relação como: y = f(x). O que quer dizer "y é função de X" ou que as vendas de uma empresa são uma função da quantidade investida em propaganda. Pode-se afirmar que y depende de x, portanto, a nomenclatura usual chama y de variável dependente ou explicada e x de variável independente ou explicativa.
Uma das formas de se expressar tal função é a partir de uma relação linear, tal como: y = 2 + 3x. Ou, genericamente, para qualquer valor que pudesse substituir 2 e 3 na equação acima: y = a + 0x. (1) Este é um exemplo de uma função linear, dado que o expoente de x é 1. (lembrem- se que qualquer variável elevada a 1 é igual à própria variável). Esta função linear (lembrem-se da escola) é uma reta. Se x estivesse elevado ao quadrado, seria uma parábola. Para que você tenha certeza que isso é uma reta, substitua alguns valores
Prof. Jeronymo Marcondes WWW.estrategiaconcursoS.COm.br 17 de 70
Teoria e exercícios comentados Prof. Jeronymo Marcondes - Aula 09
A reta é representada pela equação (1) e os pontos são os valores que y assume para cada x.
E aí pessoal, o que vocês estão vendo? Veja que a reta explica bem o comportamento da variável, se aproximando dos valores reais, mas ainda assim não explica tudo. Olhe o 3° ponto, nele o valor das vendas aumentou, na média , muito mais do que o esperado para um determinado investimento em propaganda. Isso pode ser decorrência de muitos fatores do mundo real, como o fato de que a empresa talvez fosse muito desconhecida até então, portanto, um pequeno investimento em propaganda teve resultados muito grandes quando comparado a empresas que já são relativamente conhecidas. Este tipo de raciocínio pode ser aplicado para os pontos abaixo da reta também, que apresentam, na média, retornos abaixo do esperado para um determinado gasto em propaganda.
Assim, se uma versão linear e simples da equação de reta for a mais bem ajustada à série de dados, pode-se inferir que a equação que representa a real dinâmica do fenômeno em estudo, no caso, as vendas da empresa é dada por:
y i = a + p X i + E t Sendo m o termo que representa o "erro”, ou seja, os desvios das observações com relação à reta (pensem comigo, o erro é a distância da reta até cada um daqueles pontos no gráfico acima). O subscrito 7 ’ se refere à cada uma das empresas
Teoria e exercícios comentados Prof. Jeronymo Marcondes - Aula 09 analisadas em 2012, isto é, a empresa representada no primeiro ponto no gráfico tem subscrito (1), a segunda subscrito (2) e assim por diante.
Vocês concordam comigo que não dá para levar em conta todas as variáveis que afetam o comportamento das vendas de todas as empresas? Pode ser que um gerente comercial muito bom de serviço tenha pedido demissão da empresa (4), o que puxaria suas vendas para baixo, apesar do investimento em propaganda, etc. Assim, o erro leva em conta estes efeitos impossíveis de se mensurar, mas que afetam a dinâmica de y.
Bom, apesar do fato de que este erro é algo que nós temos que aprender a viver com ele, o mesmo possui uma característica interessante que nós temos que levar em conta:
Isto é, a média dos erros é igual a zero. Ou seja, os desvios "para cima da reta” igualam o valor dos desvios” para baixo da reta” na média.
Ou seja, estes erros são supostamente aleatórios, então a teoria nos permite inferir que, se o modelo estiver corretamente especificado, o erro será, na média, igual à zero.
E aí rapaziada, que cara de sono é esta? Vamos acordando, pois um futuro servidor público não pode dormir em serviço! Você será bem remunerado e com status, mas com muita responsabilidade.
E ( e ô = 0
1- hipótese sobre o modelo de regressão linear: E ( e ô = 0