Docsity
Docsity

Prepare-se para as provas
Prepare-se para as provas

Estude fácil! Tem muito documento disponível na Docsity


Ganhe pontos para baixar
Ganhe pontos para baixar

Ganhe pontos ajudando outros esrudantes ou compre um plano Premium


Guias e Dicas
Guias e Dicas


Aula 09 Estatística, Notas de aula de Direito

Aula 09 Estatística

Tipologia: Notas de aula

2015

Compartilhado em 04/02/2015

fabiana-silva-41
fabiana-silva-41 🇧🇷

4.8

(69)

370 documentos

1 / 70

Toggle sidebar

Esta página não é visível na pré-visualização

Não perca as partes importantes!

bg1
pf3
pf4
pf5
pf8
pf9
pfa
pfd
pfe
pff
pf12
pf13
pf14
pf15
pf16
pf17
pf18
pf19
pf1a
pf1b
pf1c
pf1d
pf1e
pf1f
pf20
pf21
pf22
pf23
pf24
pf25
pf26
pf27
pf28
pf29
pf2a
pf2b
pf2c
pf2d
pf2e
pf2f
pf30
pf31
pf32
pf33
pf34
pf35
pf36
pf37
pf38
pf39
pf3a
pf3b
pf3c
pf3d
pf3e
pf3f
pf40
pf41
pf42
pf43
pf44
pf45
pf46

Pré-visualização parcial do texto

Baixe Aula 09 Estatística e outras Notas de aula em PDF para Direito, somente na Docsity!

Teoria e exercícios comentados Prof. Jeronymo Marcondes - Aula 09

AULA 09 - Correlação e Regressão

SUMÁRIO PÁGINA

Associação entre variáveis 2 Associação entre variáveis qualitativas 4 Associação entre variáveis quantitativas 10 Associação entre variáveis qualitativas e quantitativas 15 Introdução ao método de regressão 17 Estimação com base em amostra e Método dos Mínimos Quadrados Ordinários (MQO)

Tabela ANOVA 28 Teste de hipóteses sobre os coeficientes 35 Eficiência do estimador de Mínimos Quadrados Ordinários (MQO) 38 Lista de Exercícios resolvidos 60 Gabarito 70

Bem vindos à nossa última aula teórica! Nesta aula, temos alguns assuntos importantes para discutir:

  1. Correlação.
  2. Regressão Linear.

Dica de um concurseiro Aquele pensamento de estudar matérias de exatas, tais como estatística, só por exercícios não é muito correto. Toda matéria, independentemente de qual, deve ser estudada com base em teoria também. Muitos exercícios podem exigir conhecimentos mais aprofundados, tal como vocês verão no simulado.

Prof. Jeronymo Marcondes WWW.estrategiaconcursoS.COm.br 1 de 70

Teoria e exercícios comentados Prof. Jeronymo Marcondes - Aula 09

1. Associação entre variáveis

Até agora estudamos o comportamento de variáveis com distribuições e parâmetros definidores de sua dinâmica, tal como sua média, por exemplo.

Mas, uma questão que os estatísticos sempre têm que abordar é: como é o comportamento conjunto de mais de uma variável?

Por exemplo, um pesquisador pode estar interessado em saber como a renda dos indivíduos de uma determinada região está correlacionada com seus gastos em consumo. O que deve ser feito é avaliar como a variável "renda” de um determinado indivíduo se relaciona com a variável "gastos em consumo” do mesmo.

Neste caso, teríamos um conjunto de variáveis relativas à renda dos diversos indivíduos pesquisados (r t) e outro conjunto com as variáveis relativas ao consumo destes mesmos indivíduos (q). Suponha que nossa amostra seja dada por 8 (oito) indivíduos, cujos valores para estas variáveis sejam dados por:

Indivíduo

Renda

(R$)

Consumo

(R$)

1 1000 700 2 1500 800 3 2000 1000 4 2300 1100 5 2700 1200 6 5500 2300 7 6000 2500 8 7300 3000

Se você colocar em um gráfico os pontos relativos a cada indivíduo, de forma que localizemos o valor de consumo no eixo vertical, da renda no eixo horizontal e que o ponto seja a "intersecção” destes valores, teríamos o seguinte gráfico de dispersão:

Prof. Jeronymo Marcondes WWW.estrategiaconcursoS.COm.br 2 de 70

Teoria e exercícios comentados Prof. Jeronymo Marcondes - Aula 09

2. Associação entre variáveis qualitativas

Para que vocês entendam direitinho, vamos analisar alguns exemplos do livro "Estatística Básica” dos professores Bussab e Morettin.

Suponha que queiramos verificar se existe associação entre o sexo e a carreira escolhida por 200 alunos de Economia e Administração. Nós podemos verificar como se dá a distribuição conjunta destas variáveis por meio de uma tabela de dupla entrada ou tabela de contingência. Veja como seria uma tabela deste tipo:

Curso\Sexo Masculino Feminino Total

Economia 85 35 120

Administração 55 25 80

Total 140 60 200

Olhe, cada entrada da tabela representa quantas vezes ocorre cada realização conjunta. Não entendeu? Veja o primeiro quadradinho da tabela, que tem o valor de 85:

Curso\Sexo Masculino Feminino Total

Economia 85 35 120

Administração 55 25 80

Total 140 60 200

O que ele está te dizendo é que há 85 homens que cursam economia, ou seja, ele dá a realização simultânea de (sexo = masculino) e (curso = economia).

Em termos matriciais, nós podemos chamar esta célula de (1, 1), pois se trata da intersecção da primeira linha com a primeira coluna. Assim, sempre que você ver a definição de uma célula de uma matriz com base em dois números entre parênteses (x e y , por exemplo), o que isso está te falando é que: (x ,y ) = (linha, coluna) = intersec ção da linha x com coluna y.

Prof. Jeronymo Marcondes WWW.estrategiaconcursoS.COm.br 4 de 70

Teoria e exercícios comentados Prof. Jeronymo Marcondes - Aula 09

Este é um exemplo de amostragem aleatória estratificada em contraposição à amostragem aleatória simples , que estudamos até agora! Esta última é o caso no qual qualquer membro da população tem a mesma chance de ser sorteado para a amostra, como se fosse um sorteio. Já no presente exemplo, a população foi dividida em subgrupos (tal como homens e mulheres, por exemplo) e, a partir daí, é realizada uma amostragem aleatória simples em cada um destes estratos.

E qual é a quantidade de alunos de Economia, independentemente do sexo?

Ora, basta somar a linha respectiva à economia:

Curso\Sexo Masculino Feminino Total

Economia 85 35 120

Administração 55 25 80

Total 140 60 200

Entendeu? Há 120 alunos de Economia, sendo 85 homens e 35 mulheres. Este valor, que nos dá o valor total de realizações de uma variável qualitativa (independentemente das outras variáveis qualitativas), é chamado de distribuição marginal. Na nossa tabela, estes valores estão nas células (1,3), (2,3), (3,1) e (3,2).

Em vez de trabalharmos com frequências absolutas, como é o caso, fica mais fácil visualizar interações utilizando frequências relativas!

-“Como fazer isso, professor”?

Basta dividir as células pelas suas distribuições marginais.

“Mas, devo utilizar as distribuições marginais das linhas ou das colunas”?

Aí,depende do que você quer avaliar. No nosso caso, vamos fixar o total dos sexos como 100% e, com base nisso, encontrar quanto cada curso representa de matriculas por sexo. Veja como ficaria:

Prof. Jeronymo Marcondes WWW.estrategiaconcursoS.COm.br 5 de 70

Teoria e exercícios comentados Prof. Jeronymo Marcondes - Aula 09

Veja outro exemplo:

Curso\Sexo Masculino Feminino Total

Física 100 (71%) 20(33%) 120(60% )

Ciências Sociais 40 (29%)^ 40(67% )^ 80(40% )

Total 140(100% ) 60(100% ) 200(100% )

Agora a coisa é diferente! Veja que as proporções de frequência nos cursos de Física e Ciências Sociais por parte do sexo masculino (71% e 29%, respectivamente) e feminino (29% e 67%, respectivamente) são muito diferentes das proporções marginais (60% e 40%, respectivamente). Ou seja, quando incluímos a informação referente ao sexo do indivíduo, a distribuição de pessoas pelos cursos se modifica muito com relação ao total geral. Assim, as variáveis parecem estar associadas!

Porém, muitas vezes, é importante quantificar esta associação, isso é, o “quanto” estas variáveis estão associadas?

Para isso utilizaremos o chamado coeficiente de contingência de Pearson. Este coeficiente se baseia no somatório dos desvios de cada célula com relação ao seu valor esperado caso as variáveis em estudo não fossem associadas. Não entendeu nada, não é? Vamos voltar ao exemplo dos alunos de Física e Ciências Sociais.

No fundo, o que fizemos foi comparar a proporção marginal de cada curso com relação às suas respectivas proporções associada a cada sexo. Assim, caso as variáveis não tivessem nenhuma associação, esperar-se-ia que:

Curso\Sexo Masculino Feminino Total

Física 84 (60%) 36 (60%) 120 (60%)

Ciências Sociais 56 (40%) 24 (40%) 80 (40%)

Total 140 (100%) 60(100% ) 200 (100%)

Entendeu? Se as variáveis não forem associadas, espera-se que 60% das pessoas frequentarão cursos de Física e 40% cursos de Ciências Sociais, independentemente do sexo. Se isso for verdade, basta aplicar estes

Prof. Jeronymo Marcondes WWW.estrategiaconcursoS.COm.br 7 de 70

Teoria e exercícios comentados Prof. Jeronymo Marcondes - A ula 09 percentuais no total de cada coluna que encontraríamos os valores esperados de cada célula se as variáveis não fossem associadas.

Se compararmos o valor real de cada célula com seu valor esperado, teremos a seguinte distribuição:

Curso\Sexo Masculino Feminino Total

Física 100-84=16 20-36=-16 0

Ciências Sociais 40- 56=-16 4 0 -24=16 0

Total 0 0 0

Este é o mesmo problema que encontramos quando estudamos a variância, pois a soma dos desvios deve igualar zero. Assim, vamos adotar uma estratégia semelhante para resolver o problema, elevando os desvios ao quadrado e dividindo tal resultado pelo valor esperado da célula:

Curso\Sexo Masculino Feminino

Física (1 6 )7 8 4 (-16) 736

CiênciasSociais (-1 6 )7 5 6 (16) 724

Pode-se provar que a soma de todos estes elementos gera uma estatística de teste qui-quadrado (x 2). Não cabe demonstrar isso aqui, portanto, decore!

Assim, a estatística de teste para análise de associação entre estas variáveis é dada por:

x^2

( 16)2 _ ( - 16)2 _ ( 16)2 _ ( - 16)

84 + 56 + 24 + 36 = 3,04 + 4,^ 57 + 7,^ 11 + 10,67^ =^ 25,

Este é um valor significantemente maior do que zero, portanto, pode-se inferir que as variáveis estão associadas. Quanto maior este valor, menor é a associação entre as variáveis.

Prof. Jeronymo Marcondes WWW.estrategiaconcursoS.COm.br 8 de 70

Teoria e exercícios comentados Prof. Jeronymo Marcondes - Aula 09

Nós já estudamos o que é um erro amostrai: a margem de erro da aula anterior. Existe uma fórmula que nos dá a amostra mínima com base no máximo de erro que estamos dispostos a cometer:

1

Isso é, para um erro amostral da ordem de 4%, devemos ter uma amostra de, no mínimo:

Ou seja, nossa amostra deve ter, no mínimo, 625 elementos.

3. Associação entre variáveis quantitativas

No caso de uma análise entre variáveis quantitativas o nosso "arsenal” para análise é muito maior! Nós podemos tanto utilizar o que estudamos na seção anterior, quanto outras possibilidades gráficas, como o diagrama de dispersão.

Veja o exemplo que demos no início da aula:

Indivíduo

Renda

(R$)

Consumo

(R$)

1 1000 700 2 1500 800 3 2000 1000 4 2300 1100 5 2700 1200 6 5500 2300 7 6000 2500 8 7300 3000

Prof. Jeronymo Marcondes WWW.estrategiaconcursoS.COm.br 10 de 70

Teoria e exercícios comentados Prof. Jeronymo Marcondes - Aula 09

Este é um caso de variáveis quantitativas em que podemos usar o diagrama de dispersão, ensinado na aula 00. O que eu quero que vocês notem é o seguinte:

Entendeu? Se você traçar uma reta que "mais ou menos” que une os pontos, você encontra uma reta inclinada para cima, ou como chamam os matemáticos, positivamente inclinada. O que isso quer dizer é: quanto maior a renda, maior será o consumo associado, isso é, trata-se de variáveis positivamente correlacionadas.

Este é um caso possível de associação entre duas variáveis quantitativas, mas não o único. As variáveis podem ser negativamente correlacionadas. Neste caso, quanto maior uma delas, menor será o valor associado na outra.

Quer um exemplo? Suponha que seja feita uma pesquisa que relacione o PIB de 6 economias com a taxa de incidência de leptospirose nas mesmas. É de se esperar que economias mais ricas tendam a ter melhores condições de saneamento, o que reduz a taxa de incidência desta doença. Em termos gráficos, seria algo mais ou menos assim:

Prof. Jeronymo Marcondes WWW.estrategiaconcursoS.COm.br 11 de 70

Teoria e exercícios comentados Prof. Jeronymo Marcondes - A u la 09

Neste caso, não há uma tendência clara entre as duas variáveis! Este é um exemplo de variáveis não associadas.

Uma medida numérica de associação pode ser obtida pelo coeficiente de correlação ( p ). Para uma amostra de tamanho (n ), o coeficiente de correlação entre duas variáveis quaisquer, x e y, é dado por:

Sendo x e y as médias e dp(x) e dp{y) os desvios padrões das variáveis x e y respectivamente.

Em termos bem simples, cada parêntese representa a versão padronizada de cada uma das variáveis, portanto o coeficiente de correlação é igual à média dos produtos dos valores padronizados das variáveis em análise. Este valor vai de - 1 (menos hum) a 1 (hum):

-! < p <!

Prof. Jeronymo Marcondes WWW.estrategiaconcursoS.COm.br 13 de 70

Teoria e exercícios comentados Prof. Jeronymo Marcondes - Aula 09

Um valor próximo de 1 indica associação positiva, enquanto que outro próximo de -1 indica associação negativa. Um valor próximo de zero indica não associação entre variáveis.

Outra forma de explicitar o coeficiente de correlação é por meio da covariância.

Covariância (Cov) é uma medida da “variância conjunta” entre duas variáveis. Para uma amostra de tamanho (n ), a covariância entre duas variáveis quaisquer, x e y, é dada por:

Cov(x, y) = n Z[O* - x) •(yf - y)]

Aí fica fácil ver que:

Cov{x, y)

Pxy dp{x) • dp{y)

Entendeu? Antes de passarmos para o próximo tópico, vocês precisam saber uma coisa importante demais sobre a covariância!

A covariância entre duas variáveis é influenciada pela associação que uma variável tem sobre a outra. Assim, se duas variáveis são independentes, a covariância entre ambas é igual à zero. Porém, o fato de a covariância entre duas variáveis ser igual à zero não quer dizer que elas sejam independentes. Atenção a isso!

Prof. Jeronymo Marcondes WWW.estrategiaconcursoS.COm.br 14 de 70

Estratégia r n N r i i R « ; n < ;C O N C U R S O S^ Estatística p/AFRFB

Teoria e exercícios comentados Prof. Jeronymo Marcondes - Aula 09

Assim, podemos quantificar o grau de associação entre duas variáveis como o “ganho relativo na variância” obtido pela introdução da variável qualitativa. Isso é feito por meio do R2 (nós a estudaremos com mais detalhes logo mais).

Para quantificarmos o R2 precisamos definir ( Var ), a média das variâncias dentro dos subgrupos, que chamaremos de variância média. Ao definirmos Vartnt como o produto da variância do subgrupo i pelo tamanho da amostra no mesmo, a variância média será dada por:

Assim, com base na variância total da amostra ( Var ), podemos definir R2 como:

Então se aplicarmos esta fórmula a nosso exemplo acima:

Isso quer dizer que 41,5% da variabilidade dos salários é explicada pela variável “grau de instrução”.

Beleza, terminamos a parte de correlação, vamos à regressão!

Z(Varint)

Prof. Jeronymo Marcondes WWW.estrategiaconcursoS.COm.br 16 de 70

Teoria e exercícios comentados Prof. Jeronymo Marcondes - Aula 09

5. Introdução ao método de Regressão

Pessoal, hora de forçar a memória escolar e lembrar o que é uma função, ou melhor, uma função linear. Função é uma relação entre duas variáveis, como por exemplo:

a) Vendas de uma empresa e gastos em propaganda; b) Aumento de peso de uma pessoa e quantidade de comida ingerida; c) Valor da conta de energia e número de equipamentos elétricos em uma casa.

Se chamarmos a primeira variável de cada item de y e a segunda de x, matematicamente, pode-se descrever tal relação como: y = f(x). O que quer dizer "y é função de X" ou que as vendas de uma empresa são uma função da quantidade investida em propaganda. Pode-se afirmar que y depende de x, portanto, a nomenclatura usual chama y de variável dependente ou explicada e x de variável independente ou explicativa.

Uma das formas de se expressar tal função é a partir de uma relação linear, tal como: y = 2 + 3x. Ou, genericamente, para qualquer valor que pudesse substituir 2 e 3 na equação acima: y = a + 0x. (1) Este é um exemplo de uma função linear, dado que o expoente de x é 1. (lembrem- se que qualquer variável elevada a 1 é igual à própria variável). Esta função linear (lembrem-se da escola) é uma reta. Se x estivesse elevado ao quadrado, seria uma parábola. Para que você tenha certeza que isso é uma reta, substitua alguns valores

Prof. Jeronymo Marcondes WWW.estrategiaconcursoS.COm.br 17 de 70

Teoria e exercícios comentados Prof. Jeronymo Marcondes - Aula 09

A reta é representada pela equação (1) e os pontos são os valores que y assume para cada x.

E aí pessoal, o que vocês estão vendo? Veja que a reta explica bem o comportamento da variável, se aproximando dos valores reais, mas ainda assim não explica tudo. Olhe o 3° ponto, nele o valor das vendas aumentou, na média , muito mais do que o esperado para um determinado investimento em propaganda. Isso pode ser decorrência de muitos fatores do mundo real, como o fato de que a empresa talvez fosse muito desconhecida até então, portanto, um pequeno investimento em propaganda teve resultados muito grandes quando comparado a empresas que já são relativamente conhecidas. Este tipo de raciocínio pode ser aplicado para os pontos abaixo da reta também, que apresentam, na média, retornos abaixo do esperado para um determinado gasto em propaganda.

Assim, se uma versão linear e simples da equação de reta for a mais bem ajustada à série de dados, pode-se inferir que a equação que representa a real dinâmica do fenômeno em estudo, no caso, as vendas da empresa é dada por:

y i = a + p X i + E t Sendo m o termo que representa o "erro”, ou seja, os desvios das observações com relação à reta (pensem comigo, o erro é a distância da reta até cada um daqueles pontos no gráfico acima). O subscrito 7 ’ se refere à cada uma das empresas

Prof. Jeronymo Marcondes WWW.estrategiaconcursoS.COm.br 19 de 70

Estratégia r n N r i i R « ; n < ;C O N C U R S O S^ Estatística p/AFRFB

Teoria e exercícios comentados Prof. Jeronymo Marcondes - Aula 09 analisadas em 2012, isto é, a empresa representada no primeiro ponto no gráfico tem subscrito (1), a segunda subscrito (2) e assim por diante.

Vocês concordam comigo que não dá para levar em conta todas as variáveis que afetam o comportamento das vendas de todas as empresas? Pode ser que um gerente comercial muito bom de serviço tenha pedido demissão da empresa (4), o que puxaria suas vendas para baixo, apesar do investimento em propaganda, etc. Assim, o erro leva em conta estes efeitos impossíveis de se mensurar, mas que afetam a dinâmica de y.

Bom, apesar do fato de que este erro é algo que nós temos que aprender a viver com ele, o mesmo possui uma característica interessante que nós temos que levar em conta:

Isto é, a média dos erros é igual a zero. Ou seja, os desvios "para cima da reta” igualam o valor dos desvios” para baixo da reta” na média.

Ou seja, estes erros são supostamente aleatórios, então a teoria nos permite inferir que, se o modelo estiver corretamente especificado, o erro será, na média, igual à zero.

E aí rapaziada, que cara de sono é esta? Vamos acordando, pois um futuro servidor público não pode dormir em serviço! Você será bem remunerado e com status, mas com muita responsabilidade.

Prof. Jeronymo Marcondes WWW.estrategiaconcursoS.COm.br 20 de 70

E ( e ô = 0

atento!

1- hipótese sobre o modelo de regressão linear: E ( e ô = 0