Notas sobre

Regressão, Preparada

por

L. A. Bertolo

Correlação e Regressão

Notas preparadas por L.A. Bertolo

Índice

Termos básicos e conceitos ...................................................................................................................1

Regressão simples ................................................................................................................................5

Regressão Múltipla ..............................................................................................................................13

Terminologia de Regressão ..................................................................................................................20

Fórmulas de Regressão .......................................................................................................................21

Termos Básicos e conceitos

1. Um gráfico de espalhamento (

scatter plot

) é uma representação gráfica da relação entre duas ou mais

variáveis. Num gráfico de espalhamento de duas variáveis x e y, cada ponto no gráfico é um par x-y.

2. Nós usamos regressão e correlação para descrever a variação em uma ou mais variáveis.

A. A variação é a soma dos desvios quadrados de

uma variável de sua média.

Variação= x−x







B. A variação é o numerador da variância de uma

amostra:

Variância= ∑ x−x







N−1

C. Ambas, a variação e a variância, são medidas

da dispersão de uma amostra.

3. A covariância entre duas variáveis aleatórias é

uma medida estatística do grau para o qual as

duas variáveis se movem juntas.

A. A covariância captura quanto uma variável é diferente da sua média quando a outra variável for diferente da

sua média.

B. Uma covariância positiva indica que as variáveis tendem a se moverem juntas; uma covariância negativa indica

que as variáveis tendem a se moverem em direções opostas.

C. A covariância é calculada como a razão da co-variação pelo tamanho da amostra menos um:

Covariância= ∑ x



−xy



−y





N−1

onde N é o tamanho da amostra

é a i-ésima

observação da variável x,

 é a média das observações da variável x,

é a i-ésima

observação da variável y, e

 é a média das observações da variável y.

O valor real da covariância não é significante porque ele não é afetado pela a escala das duas variáveis. Isto é o

porquê de se calcular o coeficiente de correlação – para tornar algo interpretável da informação da covariância.

E. O coeficiente de correlação, r, é uma medida da intensidade da relação entre ou dentre as variáveis.

Cálculo:

Exemplo1: Preços de vendas de casas e pés

quadrados

Preços de venda de casas (eixo vertical) v. pés quadrados

para uma amostra de 34 casas em Setembro de 2005 em St.

Lucie County.

Regressão e Correlação, Notas de estudo de Matemática

Documentos relacionados

Pré-visualização parcial do texto

Baixe Regressão e Correlação e outras Notas de estudo em PDF para Matemática, somente na Docsity!

Notas sobre Regressão, Preparadas por L. A. Bertolo

Correlação e Regressão

Índice

Termos Básicos e conceitos

1. Um gráfico de espalhamento ( scatter plot) é uma representação gráfica da relação entre duas ou mais

Covariância =

∑ ⢘⤙⢀⡩䙦x⤙ − x㍤䙧䙦y⤙ − y㍤䙧

N − 1

Também referida como regressão dos mínimos quadrados e mínimos quadrados ordinários ( ordinary

least squares - OLS).

Variação

do Y

= 㔳䙦y⤙ − y㍤䙧⡰^ = SS⤄⤥⤰⤑⤢

∑ ⢘⤙⢀⡩䙦y ⤙ − y㍤䙧䙦x⤙ − x䙧㍥ = 1.

∑ ⢘⤙⢀⡩䙦x ⤙ − x㍤䙧⡰= 450

N = 30

b㕒⡨ = y㍤ − b⡩ x㍤

b⡩

∑ ⢘⤙⢀⡩䙦y⤙ − y䙧㍥ 䙦x⤙ − x䙧㍥

N − 1

∑ ⢘⤙⢀⡩䙦x⤙ − x䙧㍥^ ⡰

N − 1

∑ ⢘⤙⢀⡩ x⤙y⤙⡹䚀

䙦∑ ⢘⤙⢀⡩x⤙ ∑ ⢘⤙⢀⡩y⤙䙧

N

∑ ⢘⤙⢀⡩ x⤙⡰− 䚀

䙦∑ ⢘⤙⢀⡩x⤙䙧

N

R⡰^ =

Observação x y

Soma 135 416

verdadeiro ( 1 bˆ s no caso acima) com nível de confiança especificado.

Sᡔ㕓

S⤕⡰

∑ ⢘⤙⢀⡩䙦x⤙ − x䙧㍥^ ⡰

x y (y - yMédio)

2 ^y y-^y (^y - y

Médio)

2 εεεε^2

yˆ = bˆ 0 + bˆi xp

homoscedásticos. [Uma violação disto é referida como heteroscedasticidade^2 .]

εi =Yi – (b ˆ 0 + b ˆ 1 x1i + 2 b ˆ x2i)

df = ⤥⤒⤩⤕⤨⤲⤑⤤ú⤣⤕⤨⤥ ⤔⤕çõ⤕⤩ − ⤲⤑⤨⤙á⤲⤕⤙⤩ ⤙⤤⤔⤕⤦⤕⤤⤔⤕⤤⤰⤕⤩⤤ú⤣⤕⤨⤥ ⤔⤕ − 1 = N − k − 1 = N − 䙦k + 1䙧

B. A estatística-F pode ser formulada para testar todas as variáveis independentes como um grupo (a aplicação

H 0 : b 1 = b 2 = b 3 = b 4 = 0

⡴⡳⡹⡳⡹⡩ =^

⡳⡷ =^13 ,^373

Exemplo 7: Calculando um valor projetado ( forecasted)

Solução

SS

R^2 =

F =

14. Variáveis Dummy são variáveis qualitativas que tomam os valores zero ou um.

B. Estes tipos de variáveis são chamadas variáveis dummy e aos dados é atribuído um valor de "0" ou "1". Em

qualitativa. Uma variável dummy é uma variável dicotômica; isto é, ela toma um valor de um ou zero.

C. Use uma variável dummy a menos que o número de classes (p.ex., se tem três classes, use duas variáveis

dummy), caso contrário você cairá numa variável dummy "emboscada" (multicolinearidade perfeita –

D. Uma variável dummy interativa é uma variável dummy (0,1) multiplicada por uma variável para criar uma

Testes e intervalos de confiança

SEE = 㒖

∑ 㐵y⤙ − b㕒⡨ − b㕒⤙x⤙㐹

N − 2

∑ ⢘⤙⢀⡩䙦y⤙ − y㕈⤙䙧⡰

N − 2

∑ ⢘⤙⢀⡩䙦e㕈⤙䙧⡰

N − 2

Sᡔ㕓

S⤕⡰

∑ ⢘⤙⢀⡩䙦x⤙ − x䙧㍥^ ⡰

Previsão

Análise de Variância

㔳䙦y⤙ − y㍤䙧⡰^ = SS⤄⤥⤰⤑⤢

SS⤂⤕⤩⤙⤔⤱⤑⤢ = SSE = 㔳䙦y⤙ − y㕈䙧⡰^ = 㔳 e㕈⤙

∑ ⢘⤙⢀⡩䙦y⤙ − y䙧㍥䙦x⤙ − x䙧㍥