Prepare-se para as provas
Obter pontos
Guias e Dicas
Venda na Docsity
Docsity I.A.
ENEM

Prepare-se para as provas

Estude fácil! Tem muito documento disponível na Docsity

Ganhe pontos para baixar

Ganhe pontos ajudando outros esrudantes ou compre um plano Premium

Guias e Dicas

Venda na Docsity

Docsity I.A.

Entrar Cadastre-se

Prepare-se para as provas

Estude fácil! Tem muito documento disponível na Docsity

Encontrar documentos

Prepare-se para as provas com trabalhos de outros alunos como você, aqui na Docsity

Encontra documentos específicos para os exames da tua universidade

Videoaulas

Prepare-se com as videoaulas e exercícios resolvidos criados a partir da grade da sua Universidade

Quiz

Responda perguntas de provas passadas e avalie sua preparação.

Docsity AINEW

Resuma seus documentos, faça perguntas, converta-os em questionários e mapas conceituais

TCC e ENEM 2026

Estude com provas passadas, TCCs e dicas úteis

Explorar perguntas

Tire suas dúvidas lendo as respostas dadas por outros alunos como você.

Ganhe pontos para baixar

Ganhe pontos ajudando outros esrudantes ou compre um plano Premium

Compartilhe documentos

20 Pontos

Por cada documento compartilhado

Responda às perguntas

5 Pontos

por cada resposta enviada (máx. 1 por dia)

Todas as maneiras de obter pontos grátis

Ganhe pontos imediatamente

Escolha um Plano Premium com todos os pontos que precisa

Oportunidades de estudo

Escolha seu próximo programa de estudos

Entre em contato direto com as melhores Universidades do mundo. Pesquise entre milhares de Universidades e parceiros oficiais

Comunidade

Pergunte à comunidade

Peça ajuda à comunidade e tire suas dúvidas relacionadas ao estudo

Guias grátis

Os eBooks que salvam estudantes!

Baixe gratuitamente nossos guias de estudo, métodos para diminuir a ansiedade, dicas de TCC preparadas pelos professores da Docsity

Estatistica Basica, Notas de estudo de Estatística

Universidade Federal do Rio Grande do Norte (UFRN)Estatística

Apostila 5

Tipologia: Notas de estudo

Antes de 2010

Compartilhado em 07/12/2009

flavia-mckenzie-1 🇧🇷

4.6

(8)

18 documentos

1 / 31

Esta página não é visível na pré-visualização

Não perca as partes importantes!

Descubra Notas de estudo de Estatística Universidade Federal do Rio Grande do Norte (UFRN)

Documentos relacionados

Estatistica Basica

Estatística Experimental

(6)

Estatistica com Excel

A origem da estatística

Lista de exercícios de estatística descritiva

Estatística experimental não-paramétrica

(4)

Relatório física estatística e sistemas complexos

Apostila - Estatística Aplicada a Educação

(1)

Gráficos em R e estatística descritiva

Exercícios Resolvidos e Propostos de Probabilidade: Estatística Aulas 5-8

(1)

Eletricidade Basica

atividade estatística

Pré-visualização parcial do texto

Baixe Estatistica Basica e outras Notas de estudo em PDF para Estatística, somente na Docsity!

T e x t o v : C O R R E L A Ç Ã O E R E G R E S S Ã O

1. CORRELAÇÃO SUMÁRIO
- 1.1. Introdução...................................................................................................................................................
- 1.2. Padrões de associação
- 1.3. Indicadores de associação..........................................................................................................................
- 1.4. O coeficiente de correlação........................................................................................................................
- 1.5. Hipóteses básicas
- 1.6. Definição......................................................................................................................................................
- 1.7. Distribuição amostral de r (quando ρρρρ = 0)
- 1.8. Distribuição amostral de r (quando ρρρρ ≠≠≠≠ 0)
- 1.9. Propriedades de r
1. REGRESSÃO
- 2.1. Estimativa dos parâmetros de regressão................................................................................................
- 2.2. Estimativa da variância do termo erro...................................................................................................
- 2.3. Distribuições das estimativas...................................................................................................................
  - 2.3.1. Distribuição do estimador “b”..............................................................................................................................
  - 2.3.2. Distribuição do estimador “a”
- 2.4. Decomposição da soma dos quadrados
  - 2.4.1. Decomposição dos desvios...................................................................................................................................
  - 2.4.2. Cálculo das variações
- 2.5. Intervalos de confiança
  - 2.5.1. Intervalo para o coeficiente linear (α)
  - 2.5.2. Intervalo para o coeficiente angular (β)
  - 2.5.3. Intervalo para previsões
- 2.6. Testes de hipóteses....................................................................................................................................
  - 2.6.1. Teste para a existência da regressão.....................................................................................................................
  - 2.6.2. Teste para o coeficiente linear..............................................................................................................................
- 2.7. Coeficiente de determinação ou de explicação.......................................................................................
1. EXERCÍCIOS...............................................................................................
1. RESPOSTAS...............................................................................................
1. REFERÊNCIAS

T e x t o v : C O R R E L A Ç Ã O E R E G R E S S Ã O

1.2. PADRÕES DE ASSOCIAÇÃO

Independente do tipo (correlacional ou experimental) a relação entre as variáveis pode ser resumida através de uma equação indicando o padrão de associação entre as duas variáveis. As relações mais comuns encontradas estão ilustradas na figura 1.1.

Quando não é possível perceber uma relação sistemática entre as variáveis é dito que as variáveis são não correlacionadas , são independentes ou ainda que são ortogonais.

1.3. INDICADORES DE ASSOCIAÇÃO

Suponha-se que queiramos determinar se duas variáveis aleatórias estão de alguma forma correlacionadas. Por exemplo, suponha-se que se queira determinar se o desempenho dos empregados no trabalho está de alguma forma associado ao escore obtido num teste vocacional.

Tabela de contingência 2x2. Uma vez que a correlação entre duas variáveis aleatórias reflete o quanto os altos escores de uma delas implicam em altos escores da outra e baixos escores de uma implicam em baixos escores da outra e vice-versa, no caso de uma relação negativa, pode-se começar a análise identificando, justamente quantos elementos de uma das variáveis são altos e quantos são baixos. Para determinar se um escore ou valor é alto ou baixo, pode-se convencionar que qualquer valor acima da mediana é alto e qualquer valor abaixo da mediana é baixo. Classificando desta forma pode-se ter então, para o exemplo, 4 possíveis resultados:

ü Tanto o desempenho no trabalho quanto no teste estão acima da mediana (+ +)

ü O desempenho no trabalho está acima mas o do teste está abaixo da mediana (+ −)

ü Tanto o desempenho no trabalho quanto o do teste estão abaixo da mediana (− −)

ü O desempenho no trabalho está abaixo da mediana mas o teste não (− +)

Estas quatro possibilidades podem ser arranjadas em uma tabela de contingência 2x2, como a mostrada abaixo:

Tabela 1.1 −−−− Desempenho no trabalho e no teste

Desempenho no trabalho Escore no teste vocacional Abaixo da mediana ( −−−− ) Acima da mediana (+) Acima da mediana (+) (^) (−, +) 10 empregados (+, +) 40 empregados Abaixo da mediana ( −−−− ) (−, −) 40 empregados (+, −) 10 empregados

Observe−se que se não existir relação entre as duas variáveis deve−se esperar número idêntico de empregados em cada uma das células da tabela, isto é, se a pessoa o escore da pessoa no teste vocacional está acima ou abaixo da mediana não tem nada a ver com o seu escore no desempenho no trabalho estar acima ou abaixo da mediana.

O que pode ser visto na tabela acima é que parece existir uma forte correlação entre as duas variáveis, pois ao invés de igual número em cada célula o que se tem é um número grande de ambas as variáveis acima da mediana e um número grande de escores de ambas as variáveis abaixo da mediana. Das 50 pessoas com escore acima da mediana no teste, 40 deles (80%) apresentaram escore acima da mediana no desempenho do trabalho. Da mesma forma dos 50 que tiverem classificações abaixo da mediana, 40 deles apresentaram escore abaixo da mediana no desempenho do trabalho. Se não houvesse correlação seria de se esperar que dos 50 que tiveram escores acima da mediana no teste 25 tivessem escores acima da mediana no desempenho do trabalho e 25 abaixo.

T e x t o v : C O R R E L A Ç Ã O E R E G R E S S Ã O

A tabela 1.2 mostra outras possíveis saídas para este tipo de esquema de classificação cruzada. Novamente 100 elementos são classificados em 4 células de acordo com o critério anterior. A parte (a) da tabela mostra uma associação positiva, a parte (b) uma negativa e a parte (c) que não deve existir associação entre duas variáveis X e Y.

Tabela 1.2 - Indicativos da presença de associação entre duas variáveis X e Y.

(a) Relação positiva (b) Relação negativa (c) Sem relação Valor de Y Valor de Y Valor de Y Valor de X

Abaixo da mediana

Acima da mediana

Valor de X

Abaixo da mediana

Acima da mediana

Valor de X Abaixo da mediana

Acima da mediana

15 35 Acima da mediana

35 15 Acima da mediana

Abaixo da mediana

35 15 Abaixo da mediana

15 35 Abaixo da mediana

Diagramas de dispersão. As tabelas de contingência 2x2 fornecem somente a indicação grosseira da relação entre duas variáveis, a não ser o fato de que os valores estão situados acima e abaixo da mediana, qualquer outra informação é desperdiçada. Vamos considerar um exemplo, envolvendo duas variáveis contínuas.

Um comerciante de temperos está curioso sobre a grande variação nas vendas de loja para loja e acha que as vendas estão associadas com o espaço nas prateleiras dedicados a sua linha de produto em cada ponto de venda. Dez lojas foram selecionadas ao acaso através do país e as duas seguintes variáveis foram mensuradas: (1) total de espaço de frente (comprimento x altura em cm^2 ) dedicados a sua linha de produtos e (2) total das vendas dos produtos, em reais, no último mês. Os dados são apresentados na tabela 1.3.

Tabela 1.3 – Vendas x espaço dedicado aos produtos (em cm^2 ).

Local Espaço Vendas 1 340 71 2 230 65 3 405 83 4 325 74 5 280 67 6 195 56 7 265 57 8 300 78 9 350 84 10 310 65 Pela observação da tabela não é fácil perceber o tipo de relacionamento que possa existir entre as duas variáveis. Para ter uma idéia melhor, as variáveis são colocadas no que é denominado de diagrama de dispersão. Uma das variáveis (X) é representada no eixo horizontal e a outra variável (Y) no eixo vertical, conforme figura 1.2.

T e x t o v : C O R R E L A Ç Ã O E R E G R E S S Ã O

Suponha-se que existam apenas duas variáveis X e Y. Uma amostra da variável “X” , assumindo os valores particulares X 1 , X 2 , ..., Xn e uma amostra da variável “Y” assumindo os valores particulares Y 1 , Y2, ... , Yn são obtidas e suponha-se ainda que o objetivo é saber se existe algum tipo de relacionamento linear entre estas duas variáveis. Isto poderá ser medido pelo coeficiente de correlação que fornece o grau de relacionamento linear entre duas variáveis.

1.6. DEFINIÇÃO

Na população o coeficiente de correlação é representado por ρρρρ e na amostra por r. Assim dadas duas amostras, uma da variável X e outra da variável Y, o coeficiente de correlação amostral poderá ser calculado através da seguinte expressão:

= å − å −

å − −

Xi X. Yi^ Y

X X.Y Y r i i 2 2

[ å −( å )] [ å −( å )]

å −å å n X Xi .n Y Yi

n X.Y X. Y

i i

i i i i 2 2 2 2

Uma população que tenha duas variáveis não correlacionadas linearmente pode produzir uma amostra com coeficiente de correlação diferente de zero. Para testar se a amostra foi ou não retirada de uma população de coeficiente de correlação não nulo entre duas variáveis, precisamos saber qual é a distribuição amostral da estatística r.

1.7. DISTRIBUIÇÃO AMOSTRAL DE R (QUANDO ρρρρ = 0)

A distribuição amostral de r depende somente do valor de ρρρρ (coeficiente de correlação populacional) e do tamanho da amostra.

Se for admitido que ρρρρ = 0 , a distribuição amostral de r (coeficiente de correlação na amostra) será simétrica em torno de “0” com variabilidade dada por:

1 2 −

= − σ n

r r

Neste caso, pode-se mostrar que o quociente: 2

1 2 −

= − σ n r / r r r tem uma distribuição^ t^ com^ n - 2

graus de liberdade. Isto é: 2

1 2 −

= − n

t r r.

Exemplo: Quer-se testar se existe ou não correlação linear entre X = toneladas de adubo orgânico por ha e Y = produção da cultura A por ha. Para tanto é realizado um experimento com duração de 5 anos que mostrou os resultados da tabela 1.4. Verificar se existe relacionamento linear entre as duas variáveis.

Tabela 1.4 −−−− Valores das variáveis X e Y Anos X Y 1989 2 48 1990 4 56 1991 5 64 1992 6 60 1993 8 72

T e x t o v : C O R R E L A Ç Ã O E R E G R E S S Ã O

Para saber se há ou não correlação linear entre estas duas variáveis na população de onde foi retirada esta amostra é necessário realizar um teste de hipóteses, ou seja, é preciso testar:

H0: ρ = 0 (Não existe relacionamento linear na população) H1: ρ ≠ 0 (Existe relacionamento linear na população) A tabela 1.5 mostra os cálculos necessários para se obter o coeficiente de correlação para esta amostra das variáveis X e Y.

Tabela 1.5 −−−− Valores das variáveis X e Y e cálculos para obter r

Anos X Y XY X^2 Y^2 1989 2 48 96 4 2304 1990 4 56 224 16 3136 1991 5 64 320 25 4096 1992 6 60 360 36 3600 1993 8 72 576 64 5184 Total 25 300 1576 145 18320

O valor de r será dado então por:

[ ( )] [ ( )]

= å −å å − å

å − å å

n X Xi .n Y Yi

n X.y X. Y r i i

i i i i 2 2 2 2

5 1576 25 300 5 145 25 2 5 18320 3002

.. (. ).(. )

− − −

A estatística teste será:

1 2 −

−

t r r ,

que neste caso, tem uma distribuição t com n - 2 = 3 graus de liberdade. O valor de t (calculado) é:

5270 5 3

095 1 095 2

(^1 2) , ,^2 , n

t r r = −

= − −

= −

O valor tabelado de t com 3 g.l. e a 5% de significância, considerando um teste bilateral é: 3,182.

Com estes valores rejeita-se H 0 e pode-se afirmar, com 5% de significância, que as duas variáveis possuem um relacionamento linear na população.

Dado que há fortes evidências de que as duas variáveis possuem um relacionamento linear pode-se então ajustar uma linha de regressão entre elas.

1.8. DISTRIBUIÇÃO AMOSTRAL DE R (QUANDO ρρρρ ≠≠≠≠ 0)

Para testar a existência de um certo grau de correlação entre duas variáveis X e Y, isto é, para testar

H0: ρ = ρ 0 contra H1: ρ ≠ ρ 0 ρ > ρ 0

T e x t o v : C O R R E L A Ç Ã O E R E G R E S S Ã O

2. REGRESSÃO

Uma vez constatado que existe correlação linear entre duas variáveis, pode-se tentar prever o comportamento de uma delas em função da variação da outra.

Para tanto será suposto que existem apenas duas variáveis. A variável X (denominada variável controlada, explicativa ou independente) com valores observados X 1 , X 2 , ..., Xn e a variável Y (denominada variável dependente ou explicada) com valores Y 1 , Y2, ... , Yn. Os valores de Y são aleatórios, pois eles dependem não apenas de X, mas também de outras variáveis que não estão sendo representadas no modelo. Estas variáveis são consideradas no modelo através de um termo aleatório denominado “erro”. A variável X pode ser aleatória ou então controlada.

Desta forma pode-se considerar que o modelo para o relacionamento linear entre as variáveis X e Y seja representado por uma equação do tipo:

Y = αααα + (^) ββββ X + U ,

onde “U” é o termo erro, isto é, “U” representa as outras influências na variável Y além da exercida pela variável “X”.

Esta equação permite que Y seja maior ou menor do que αααα + ββββ X , dependendo de “U” ser positivo ou negativo. De forma ideal o termo “U” deve ser pequeno e independente de X, de modo que se possa modificar X, sem modificar “U”, e determinar o que ocorrerá, em média, a Y, isto é:

E(Y/X) = αααα + (^) ββββ X Os dados {(Xi , Yi ), i = 1, 2, ..., n} podem ser representados graficamente marcando-se cada par (Xi , Yi ) como um ponto de um plano. Os termos Ui são iguais a distância vertical entre os pontos observados (Xi , Yi ), e os pontos calculados (Xi , α + βXi ). Isto está ilustrado na figura 2.1.

Um modelo de regressão consiste em um conjunto de hipóteses sobre a distribuição dos termos “erro” e as relações entre as variáveis X e Y.

Algumas destas hipóteses são: (i) E(Ui ) = 0; (ii) Var(Ui ) = σ^2

Figura 2.1 −−−− O modelo de regressão linear

Y • E(Y/X) = α + βX Erro U Y

)

X

T e x t o v : C O R R E L A Ç Ã O E R E G R E S S Ã O

Na hipótese (i) o que se está supondo é que os U (^) i são variáveis aleatórias independentes com valor esperado igual a zero e na (ii) que a variância de cada Ui é a mesma e igual a σ^2 , para todos os valores de X.

Supõem-se ainda que a variável independente X, permaneça fixa , em observações sucessivas e que a variável dependente Y seja função linear de X. Os valores de Y devem ser independentes um do outro. Isto ocorre em geral, mas em alguns casos, como, por exemplo, observações diferentes são feitas no mesmo indivíduo em diferentes pontos no tempo está suposição poderá não ocorrer.

Como o valor esperado de Ui é zero, o valor esperado da variável dependente Y, para um determinado valor de X, é dado pela função de regressão α + βX ou seja:

E(Y/X) = E(α + βX + U) = α + βX + E(U) = α + βX [1]

já que α + βX é constante para cada valor de X dado.

O símbolo E(Y/X) é lido valor esperado de Y, dado X. A variância de Y, para determinado valor de X, é igual a:

V(Y/X) = V(α + βX + U) = V(U) = σ^2 [2] A hipótese de que V(Y/X) é a mesma para todos os valores de X, denominada de homocedasticidade, é útil pois permite que se utilize cada uma das observações sobre X e Y para estimar σ^2. O termo “homo” significa “o mesmo” e “cedasticidade” significa “disperso”.

De [1] e [2] decorre que, para um dado valor de X, a variável dependente Y tem função densidade de probabilidade (condicional) com média α + βX e variância σ^2. A figura 2.2, ilustra a função densidade. Na parte superior da figura é ilustrado o caso heterocedástico e na parte inferior o caso homocedástico.

A posição da função densidade f(Y/X) varia em função da variação do valor de X. Note-se que a média da função densidade se desloca ao longo da função de regressão α + βX.

Figura 2.2 −−−− Função densidade de Y dado X

T e x t o v : C O R R E L A Ç Ã O E R E G R E S S Ã O

com os valores de “a” e “b” obtidos através das seguintes expressões:

å − å

å −å å

n X ( Xi)

b n XY X Y 2 2 i

i i i i e a =Y−bX

Utiliza-se o valor ) Y , porque o valor de Y, obtido a partir da reta estimada de regressão, para um dado valor de X, é uma estimativa do valor E(Y/X) , isto é, do valor esperado de Y dado X.

Exemplo: São fornecidos 5 pares de valores, na tabela abaixo, correspondentes as variáveis X e Y. A estimativa da reta de regressão entre X e Y , é obtida utilizando as expressões de a e b acima e usando os resultados obtidos na tabela 2.1.

Tabela 2.1 - Valores para estimar a linha de regressão

X Y X^2 XY

X = 20 / 5 = 4;

Y = 31/5 = 6,

b = (5.163 - 20.31) / (5.110 - 400) = 1,

a = Y - b X = 6,20 - 1,30.4 = 1 Então a linha estimada será:

) Y = 1.3X + 1 Esta reta é o “melhor” ajustamento para estes dados e seria diferente para cada amostra das variáveis X e Y, retiradas desta mesma população. Esta reta pode ser considerada uma estimativa da verdadeira linha de regressão onde 1,3 seria uma estimativa do valor β (parâmetro angular) e 1 uma estimativa do valor α (parâmetro linear), que são os verdadeiros coeficientes de regressão.

2.2. ESTIMATIVA DA VARIÂNCIA DO TERMO ERRO

O termo erro, U, é uma variável aleatória, supostamente com média zero e variância constante. Então, intuitivamente parece plausível usar os resíduos da reta de regressão pelos método dos mínimos quadrados para se estimar a variância σ^2 dos termos “erro”. A variância amostral desses resíduos é igual a:

)^2 =

2 (E E) n

å (^) − , onde E = å E / n. Observe-se entretanto que:

å E = å(Y − a − bX ) = å Y − na − b åX= 0, pela primeira equação normal (i).

Portanto, σ^ )^2 pode ser escrito como: σ^ )^2 = (^) å (^) E^2 / n.

T e x t o v : C O R R E L A Ç Ã O E R E G R E S S Ã O

Mas σ^ )^2 , neste caso, é um estimador tendencioso. Pode-se obter um estimador não

tendencioso, multiplicando σ^ )^2 por n / (n - 2). O novo estimador, não tendencioso, será representado S^2

e sua raiz quadrada:

S =

n 2

2 n 2

n 2

E^2 (Y Y) (Y a bX) −

= −

å å^ −^ å^ − −

é denominada de “ erro-padrão da estimativa ” ou “erro-padrão amostral da regressão”.

Obs.: A utilização de “n - 2” é conseqüência do fato de que se deve estimar dois parâmetros, α e β, antes de obter os resíduos E. Como resultado, há somente “n - 2” graus de liberdade associados à quantidade (^) å (^) E^2.

A expressão acima, para o cálculo do erro amostral da regressão, apresenta o inconveniente de exigir o cálculo de cada valor previsto de Y, através da linha de regressão, tornando sua obtenção muito trabalhosa. Existe, entretanto, uma alternativa para se obter este valor (erro padrão da estimativa) sem a necessidade de calcular todos os valores previstos.

Observe-se que:

åE^2 = å(Y − Y

) )^2 å(Y − a − bX)^2 = (^) å (^) [ Y − Y + b X( −bX)]^2 = (^) å (^) ( Y −Y)^2 − 2b (^) å ( X −X)( Y − Y) + 2 2 å (^) b (X −X).

Fazendo:

( ) S n

X ( X X) å^ X = XX å = − å −

2 (^22)

S n

Y ( Y Y) å^ Y = YY = − å å (^) −

2 (^22)

S

n

X Y

(X X)(Y Y) å XY = XY

å å

å − − =^ −

Lembrando que:

b = n (^) X Y X Y n (^) X X

i i i i i i

å − å å å 2 − ( å )^2

i i i i

X Y X Y n

X X n

å^ −^ å å

− å å 2 ( )^2 , segue que^ b = S^ XY/S^ XX^ e que^ S^ XY^ = bS^ XX

Então vem:

å E^2 =^ å (^ Y^ −^ a^ −bX)^2 = S^ YY - 2b^2 S^ XX + b^2 S^ XX = S^ YY - b^2 S^ XX. Assim:

S 2 =

2 2 2 2

E n

Y a bX n

å −

= å −^ − −

( ) (^) = SYY b SXX n

− −

2 2

= SYY^ XY

b S n

− − 2 Pode-se verificar que S 2 definido desta maneira é um estimador não-tendencioso de σ^2 , isto é, E(S 2 ) = σ^2.

O erro padrão da regressão será dado, então, por:

T e x t o v : C O R R E L A Ç Ã O E R E G R E S S Ã O

O valor de “b” será: b = S (^) XY/S (^) XX = 39/30 = 1, Portanto o erro padrão da regressão será:

n 2

SYY bSXY n 2

s SYY b^2 SXX −

−

− = (^) = 5 2

54 , 80 1 , 3. 39 −

−

4 , 10 = 1 , 3667 = 1,1690 = 1,

2.3. DISTRIBUIÇÕES DAS ESTIMATIVAS

Observando-se as expressões dos estimadores “a” e “b” da reta estimada, pode-se notar que ambos dependem de Y que é uma variável aleatória com distribuição supostamente normal de média f(X) e desvio padrão σ^2. Como os estimadores “a” e “b” são funções lineares de uma variável aleatória normal, também serão variáveis aleatórias com distribuição normal. O que precisa ser determinado, então, é a média e a variância de cada um deles. Antes disso vai-se determinar uma estimativa de σ^2 a variância da variável Y, que no modelo é suposta a mesma para cada valor de X (homocedasticidade).

2.3.1. DISTRIBUIÇÃO DO ESTIMADOR “ B ”

Tem-se que:

b = S (^) XY / S (^) XX = (^ X^ X)(^ Y^ Y) S XX

å − −^ = Y X^ X^ Y X^ X S XX

å (^ − )^ −^ å (^ − ) Mas ( X −X) å = 0, logo:

b = Y X^ X SXX

å (^ − )

Mas Y = α + βX + U, então:

b = Y X^ X SXX

å ( − ) = å (^ α^ +^ βX^ +^ U)(^ X^ −X) S (^) XX

= α^ (^ X^ X) SXX

å − + β^ X(X^ X S (^) XX

å − )^

U X^ X SXX

å ( − )

Como S (^) XX = å (^) ( X −X)^2 = å ( X − X)( X −X)= å X(X − X ) − X å( X −X) = å X(X −X) , pois å( X −X)

= 0

Vem: b = β + U X X SXX

å (^ − )

Logo a expectância de “b” será:

E(b) = E(β) + E( U X X SXX

å (^ − ) ) = E(β) + ( X X) S (^) XX

å − E(U). Mas E(U) = 0, por hipótese.

Então: E(b) = E(β) = β, uma vez que a média de uma constante é a própria constante. Isto, também, mostra que “b” é um estimador não-tendencioso de β. Para a variância, tem-se:

V(b) = V(β + U X X SXX

å (^ − ) ) = V( U X X SXX

å (^ − ) ) =

2 2

( ) ( )

X X SXX

å (^) − V(U).

T e x t o v : C O R R E L A Ç Ã O E R E G R E S S Ã O

Tendo em vista que por hipótese do modelo V(U) = σ^2 e que (^) å (^) ( X −X)^2 = S (^) XX, segue:

V(b) = XX XX

S S

. ( )

2 2

σ (^) = σ^2 S XX

. Portanto, a distribuição da estatística “b” é N(β, σ S XX

2.3.2. DISTRIBUIÇÃO DO ESTIMADOR “ A”

Quanto à distribuição da variável aleatória “a”, tem-se:

a = Y - b X. Mas Y = åY / n, então:

a = Y n

å (^) − bX = å (^ α^ +^ β + ) − X U n

bX = α å (^) + βå (^) + å (^) − n

X n

U n

bX = α + β X + U n

å (^) −bX

Assim:

E(a) = E(α) + E(β X ) + E U n ( å^ ) − E bX( )= α + β X + E U n X å (^ ) − β , pois E(b) = β

Então E(a) = α, pois E(U) = 0. Vê-se que “a” é um estimador não-tendencioso de α. Quanto à variância, tem-se:

V(a) = V(α) + V(β X ) + V( U n

å (^) ) +V(bX) = 0 + 0 + 1 2

2 n

å V(U)^ +^ X V(b) =^

1 2

2 2 2 n

X SXX

å σ +^ σ = =

σ 2 σ^2 n

X S (^) XX

1 2 σ (^ ) n

X S (^) XX

Portanto a distribuição de “a” é: N(α, σ 1

2 n

X S (^) XX

2.4. DECOMPOSIÇÃO DA SOMA DOS QUADRADOS

2.4.1. DECOMPOSIÇÃO DOS DESVIOS

Pelo figura 2.3, pode-se perceber que o desvio em relação a Y (desvio total), isto é, Y - Y pode ser decomposto em dois outros desvios:

Y

Y - Y

)

Y - Y ) Y Y Y

)

X X

Figura 2.3 −−−− Desvios na regressão

T e x t o v : C O R R E L A Ç Ã O E R E G R E S S Ã O

(c) Variação Residual: VR ou (^) S^2 Y^ /X

De acordo com a propriedade aditiva das variações, pode-se calcular VR por diferença. Assim: VR = å(Y -

) Y )^2 = VT - VE ou VR = S (^) YY - bS (^) XY

2.5. INTERVALOS DE CONFIANÇA

Da mesma forma que foram obtidos intervalos de confiança para a média, variância e proporção de uma população, pode-se determinar os intervalos de confiança para os parâmetros da regressão. Ou seja, pode-se determinar um intervalo de confiança para o coeficiente linear (α), um intervalo de confiança para o parâmetro angular (β) e pode-se ainda determinar um intervalo de confiança para um valor previsto de Y, dado X. Este intervalo pode ser para o valor médio de Y para um dado X, isto é, E(Y/X) ou, então, para um valor individual de Y, isto é,

) Y. A estimativa pontual para os dois últimos casos é a mesma. O que vai mudar é o intervalo de confiança correspondente. Isto se deve ao fato de que o modelo desenvolvido é associado principalmente à média do grupo do que a uma informação individual.

2.5.1. I NTERVALO PARA O COEFICIENTE LINEAR ( αααα )

Considerando que a distribuição do coeficiente linear é dado por N(α, σ 1 2 n

X S (^) XX

). Então,

fixada uma confiança de 1 - α, o intervalo será:

P(a - t (^) n-2 .S 1 2 n

X S (^) XX

≤ α ≤ a + t (^) n-2 .S 1 2 n

X S (^) XX

) = 1 - α

com t (^) n-2 sendo um valor da distribuição “t” com “n - 2” graus de liberdade e S uma estimativa de σ.

2.5.2. I NTERVALO PARA O COEFICIENTE ANGULAR ( ββββ )

Considerando que a distribuição do coeficiente angular é dado por N(b, σ S XX

). Então, fixada

uma confiança de 1 - α, o intervalo será:

P(b - t (^) n-. S SXX

≤ β ≤ b + tn-. S SXX

) = 1 - α

com t (^) n-2 sendo um valor da distribuição “t” com “n - 2” graus de liberdade e S uma estimativa de σ.

2.5.3. I NTERVALO PARA PREVISÕES

(a) Intervalo para o valor médio de

) Y

Tem-se que

) Y = a + bX é um estimador de E(Y/X) ou f(X). Para construir um intervalo de confiança para este valor é necessário conhecer a sua distribuição. Isto é, deve-se conhecer a média e a variância de

) Y.

T e x t o v : C O R R E L A Ç Ã O E R E G R E S S Ã O

E(

) Y ) = E(a + bX) = E(a) + E(bX) = α + βE(X) = α + βX = f(X) = E(Y/X), pois, neste caso, X é constante para cada valor de Y.

Tem-se:

) Y = a + bX, mas a = Y - b X , então: ) Y = Y - b X + bX = Y + b(X - X ). A variância de

) Y , será:

) Y ) = V[ Y - b(X - X )] = V( Y ) + V[b(X - X )] = V ( ) Y n

å (^) + (X - X ) (^2) V(b) = 1 n^2 å^ V(Y) +

(X - X )^2 σ^2 S XX

σ^2 n

+ (X - X )^2

σ^2 S XX

= σ^2 1 2 n

X X SXX

é −

ê ê

ú ú

( ) .

Portanto:

) Y tem distribuição N(α + βX, σ 1

2 n

X X S (^) XX

+ (^ − )^ )

Conhecida a distribuição de

) Y , então o intervalo de confiança de “1 - α“ de probabilidade para f(X) ou E(Y/X) será:

P(

) Y - t (^) n-2. S. 1 2 n

X X S (^) XX

(^ − )^ ) ≤ E(Y/x) ≤

) Y + t (^) n-2. S. 1 2 n

X X S (^) XX

(^ − )^ ) = 1 - α, onde t (^) n-2 é o valor da

distribuição t com “n - 2” graus de liberdade.

(b) Intervalo para um valor individual (

)

Y )

Uma estimativa do valor individual de Y é dado pela reta de regressão

) Y = a + bX, para um dado X e o desvio de previsão será dado por Y -

) Y , cujas propriedades são: Para a média: E(Y -

) Y ) = E(Y) - E(

) Y ) = f(X) - f(X) = 0 Para a variância, tem-se:

V(Y -

) Y ) = V(Y) + V(

) Y ) = σ^2 + σ^2 1 2 n

X X SXX

ê ê

ú ú

( ) (^) = σ 2 1 1 2

- −

ê ê

ú n ú

X X S (^) XX

Então:

Y -

) Y tem distribuição N(0, σ 1 1 2

- − n

X X S (^) XX

Conhecida a distribuição de Yi -

) Y , então o intervalo de confiança de “1 - α“ de probabilidade para um valor individual de Y (Yi ) para um dado X, será:

) Y - t (^) n-2. S. 1 1

- − n

X X S (^) XX

( ) (^) ); Y) + t n-2. S.^1

1 2

- − n

X X S (^) XX

( ) (^) , onde t n-2 é o valor da distribuição t

com “n - 2” graus de liberdade.