Docsity
Docsity

Prepare-se para as provas
Prepare-se para as provas

Estude fácil! Tem muito documento disponível na Docsity


Ganhe pontos para baixar
Ganhe pontos para baixar

Ganhe pontos ajudando outros esrudantes ou compre um plano Premium


Guias e Dicas
Guias e Dicas


manual para regressão linear, Manuais, Projetos, Pesquisas de Engenharia Mecânica

manual para regressão linear

Tipologia: Manuais, Projetos, Pesquisas

Antes de 2010

Compartilhado em 28/03/2010

fanie-visoto-4
fanie-visoto-4 🇧🇷

5

(3)

13 documentos

1 / 26

Toggle sidebar

Esta página não é visível na pré-visualização

Não perca as partes importantes!

bg1
0
10
20
30
40
50
60
y
0 .5 1 1.5 2 2.5 3 3.5 4 4.5 5
x
y = 9.1x + 8.5
Manual Operacional para a Regressão Linear
Manuel António Matos
FEUP 1995
pf3
pf4
pf5
pf8
pf9
pfa
pfd
pfe
pff
pf12
pf13
pf14
pf15
pf16
pf17
pf18
pf19
pf1a

Pré-visualização parcial do texto

Baixe manual para regressão linear e outras Manuais, Projetos, Pesquisas em PDF para Engenharia Mecânica, somente na Docsity!

0

10

20

30

40

50

60

y

0 .5 1 1.5 2 2.5 3 3.5 4 4.5 5 x

y = 9.1x + 8.

Manual Operacional para a Regressão Linear

Manuel António Matos

FEUP 1995

índice

    1. Introdução
    1. Preliminares
  • 2.1. Convenções.....................................................................................................................................
  • 2.2. Modelo da regressão linear.............................................................................................................
  • 2.3. Pressupostos ...................................................................................................................................
  • 2.4. Médias e variâncias ........................................................................................................................
    1. Modelização
  • 3.1. Variáveis não-numéricas.................................................................................................................
  • 3.2. Interacções......................................................................................................................................
  • 3.3. Suavizar ..........................................................................................................................................
  • 3.4. Variáveis ortogonais .......................................................................................................................
    1. Transformações dos dados
  • 4.1. Centragem.......................................................................................................................................
  • 4.2. Estandardização..............................................................................................................................
  • 4.3. Norma unitária................................................................................................................................
    1. Estimação de parâmetros
  • 5.1. Passagem obrigatória na origem .....................................................................................................
  • 5.2. Interpretação dos parâmetros estimados .........................................................................................
    1. Avaliação da qualidade do ajuste
  • 6.1. Erro quadrático .............................................................................................................................
  • 6.2. Variância do erro ..........................................................................................................................
  • 6.3. Coeficiente de Determinação........................................................................................................
  • 6.4. ANOVA........................................................................................................................................
    1. Testes e intervalos de confiança
  • 7.1. Distribuições de probabilidade dos parâmetros ............................................................................
  • 7.2. Correlações e Matriz Covariância ................................................................................................
  • 7.3. Testes de hipóteses .......................................................................................................................
  • 7.4. Intervalos de confiança dos parâmetros........................................................................................
  • 7.5. Intervalo da resposta.....................................................................................................................
  • 7.6. Intervalo de predição ....................................................................................................................
    1. Análise de resíduos
  • 8.1. Eliminação de observações...........................................................................................................
  • 8.2. Verificação de pressupostos .........................................................................................................
  • 8.3. Expressão do modelo....................................................................................................................
    1. Selecção de variáveis
  • 9.1. Medida F e estatística Ck ..............................................................................................................
  • 9.2. Pesquisa t-dirigida ........................................................................................................................
  • 9.3. Selecção para a frente (forward selection) ....................................................................................
  • 9.4. Eliminação para trás (backward elimination) ...............................................................................
  • 9.5. Procedimento passo a passo .........................................................................................................
    1. Multicolinearidade
  • 10.1. Detecção .......................................................................................................................................
  • 10.2. Regressão de componentes principais ..........................................................................................
  • Bibliografia

designadas genericamente por Xk ( k = 1..p ), com as leituras de uma certa grandeza Y. No caso da regressão linear, está subjacente uma relação do tipo:

Y = a + b 1 X 1 + b 2 X 2 + ... + bp Xp

onde a , b 1 , b2 , ... bp seriam os parâmetros da relação linear procurada. O objectivo pode ser explicativo (demonstrar uma relação matemática que pode indicar, mas não prova , uma relação de causa-efeito) ou preditivo (obter uma relação que nos permita, perante futuras observações das variáveis Xk , prever o correspondente valor de Y , sem necessidade de o medir). Dadas as características deste texto, não se aprofundará esta questão, mas a distinção básica entre as duas situações é fundamental. Independentemente dos objectivos, as variáveis Xk são muitas vezes designadas por variáveis explicativas, uma vez que tentam explicar as razões da variação de Y.

Supondo que se dispõe de n conjuntos de medidas com as correspondentes observações, a utilização do modelo incluirá sempre uma parcela de erro. Utilizando o índice i ( i = 1..n ) para indicar cada conjunto, ter-se-á então:

yi = a + b1 xi1 + b 2 xi2 + ... + bp xip + ei i = 1..n

Independentemente das motivações, a versão da regressão linear que aqui se apresenta consiste em estimar os valores dos parâmetros a , b 1 , b2 , ... bp , através da minimização da soma dos quadrados dos desvios. Daí o nome de (^) método dos mínimos quadrados que às vezes se utiliza, nomeadamente para a (^) regressão simples (p=1). O termo (^) multi-regressão é usado para explicitar o caso (^) p>.

Neste ponto, é conveniente definir:

y = [ y 1 y 2 .. yn ]'^ vector das leituras x (^) k = [ x1k x2k .. xnk ]' vector das observações de cada variável Xk X = [ x1 x2 ..^ xp ]^ matriz de observações (elementos^ xik ,^ i = 1..n ,^ k=1..p ) b = [ a^ b^0 ]'=[ a b^1 b2 ... bp ]'^ vector dos parâmetros e = [ e 1 e 2 .. en ]'^ vector dos erros 1 = [1 ... 1]'^ vector unitário de dimensão^ n Xa = [ 1 x1 x2 .. xp ] matriz aumentada de observações ( i = 0..n , (^) k=0..p )

Com estas definições, é possível escrever a expressão anterior de forma compacta:

y =^ a. 1 +^ X. b 0 +^ e

ou y =^ Xa. b +^ e

Uma vez obtida a estimativa b ˆ dos parâmetros b , a expressão operacional da regressão permite obter estimativas ˆ y das leituras correspondentes às observações x 1 x 2 .. xp :

y ˆ = a ˆ + b ˆ 1 x 1 + b ˆ 2 x 2 + ... + bp ˆ x (^) p ou y ˆ = a ˆ + x '. b ˆ (^0)

O cálculo simultâneo dos valores estimados correspondentes às observações usadas na parametrização da regressão pode ser feito com base na expressão matricial correspondente:

y ˆ = X (^) a. b ˆ

Nas restantes secções deste texto, dão-se indicações sobre a selecção de variáveis, obtenção de estimativas dos parâmetros e interpretação e validação de resultados.

2.3. Pressupostos

Para além de pressupostos gerais acerca da correcta especificação do modelo e da medição sem erros das variáveis observadas, um pressuposto importante para todo o desenvolvimento é de que os erros do modelo e têm média nula, não estão correlacionados e têm variância constante σ. Se estes pressupostos não forem verificados, muitas das expressões utilizadas neste texto podem deixar de fazer sentido, pois foram deduzidas a partir dessa hipótese.

Uma condição adicional para os erros do modelo é de que estejam normalmente distribuídos. Não sendo essencial para a derivação das expressões de cálculo das estimativas dos parâmetros, este pressuposto é indispensável para toda a matéria respeitante a testes de hipóteses e derivação de intervalos de confiança e, em geral, para toda a validação estatística dos resultados.

Para contemplar esse importante aspecto, este texto inclui alguns procedimentos de verifica- ção, a posteriori , dos pressupostos respeitantes aos erros do modelo (análise de resíduos).

2.4. Médias e variâncias

Sobretudo com o intuito de fixar notações, recordam-se, a seguir, algumas definições que

Um erro frequente consiste em usar variáveis com mais de dois valores, o que institui uma ordem a priori e uma relação fixa entre classes. No caso do exemplo, seria portanto errado usar apenas uma variável que tomasse os valores (0, 1, 2) para as três classes.

3.2. Interacções

Os efeitos conjuntos de variáveis podem ter de ser incluídos no modelo linear, se elas não forem independentes. No caso de variáveis numéricas, o gráfico de Y vs X 1 .X 2 deve ser linear, se o termo for de incluir. No caso de X 1 representar uma categoria, sendo X 2 uma variável numérica, os gráficos de Y vs X 2 para diversos valores de X 1 devem ter distintas inclinações e ordenadas na origem, se a interacção entre as duas variáveis for importante.

3.3. Suavizar

Para facilitar a visualização as tendências dos dados, nomeadamente em gráficos, podem usar-se mecanismos de suavização de irregularidades em dados ordenados, como médias móveis ou medianas de três pontos. A regularização por médias móveis consiste em substituir cada ponto ( xi , yi ) por ( xi , z (^) i ), onde z (^) i é a média dos valores de Y nos 3 ou 5 pontos centrados em ( xi , yi ), por exemplo z (^) i =( yi-2 + yi-1 + yi + yi+1 + yi+2 )/5, sendo ignorados, neste caso, necessariamente os dois primeiros e dois últimos pontos da lista, previamente ordenada pelos valores de X. Na utilização da mediana de 3 pontos, substitui-se cada valor de yi pela mediana de ( yi-1 , yi , yi+1 ), repetindo-se o processo até estabilizar. Neste caso, os pontos extremos da lista inicial, ordenada pelos valores de X , mantêm-se fixos ao longo do processo.

3.4. Variáveis ortogonais

Há vantagem em que o maior número possível de variáveis sejam ortogonais, pois permite simplificações e separabilidade no cálculo. Recorda-se que duas variáveis Xu e Xv são ortogonais se xu (^) ⋅ xv = 0. Note-se, por outro lado, que as variáveis que representam categorias não são obrigatoriamente ortogonais. No caso do exemplo da tabela 1, X 1 e X 2 são ortogonais, mas o mesmo não se passaria se fossem definidas como na tabela 2:

Tabela 2: Variáveis binárias não-ortogonais

A B C

X 1 1 0 0

X 2 0 1 0

4. Transformações dos dados

Em alternativa ao uso das variáveis originais ("raw"), podem ser usadas variáveis centradas ("centered"), estandardizadas ("standardized") ou com norma unitária ("unit lenght"), obtidas através das transformações indicadas a seguir. Todos estes procedimentos visam compatibilizar, de algum modo, variáveis que podem ter escalas e dispersões muito diferentes. Em particular, a comparação da influência relativa das diversas variáveis, com base nos parâmetros estimados, só faz sentido se as variáveis forem normalizadas.

Como se verá noutro local deste texto, os resultados obtidos depois de qualquer das transformações que se descrevem a seguir são sempre iguais aos da versão com os dados originais. Também os parâmetros têm relações simples entre si, permitindo passar facilmente de uma formulação a outra.

4.1. Centragem

Uma transformação simples consiste em centrar cada variável em relação à sua média. A variável transformada Mk obtém-se de Xk através de:

m (^) ik = xikXk

Semelhantemente ao que se fez para X , também aqui se define M =[ m 1 m 2 .. mp ].

4.2. Estandardização

A estandardização corresponde a uma transformação para média nula e desvio padrão unitário de cada variável original Xk. A nova variável Z (^) k é obtida através de:

zik = xik^ −^ X^ k s (^) k Neste caso, define-se Z =[ z 1 z 2 .. zp ].

4.3. Norma unitária

Esta transformação substitui os valores de cada variável Xk por uma nova variável Wk , obtida pela seguinte regra:

A B C

X 1 0 1 1

X 2 0 0 1

6. Avaliação da qualidade do ajuste

6.1. Erro quadrático

O valor minimizado do quadrado dos erros pode ser calculado através de:

r (^) i^2 i ∑ =^ ( yi −^ y ˆ i )^2 i ∑ =^ ( y^^ −^ y ˆ) |. ( yy ˆ) = y '. yy '. X a. b ˆ

A simplificação no último membro da igualdade deve-se a ser ˆ y. (^) ( yy ˆ) = y ˆ. e =0.

6.2. Variância do erro

Supondo que os erros são independentes e têm a mesma variância, a estimativa da variância do erro é dada por:

σˆ 2 =

r (^) i^2 in (^) − p (^) − 1

Em princípio, todas as futuras observações de Y estarão no intervalo ±3 σ centrado no valor predito ˆ y. Mais adiante se verá uma melhor definição de intervalos de confiança para ˆ y.

6.3. Coeficiente de Determinação

A soma dos quadrados das observações pode ser decomposta em:

yi^2 ∑ i = n. Y^^2 + (^) ( y ˆ (^) iY ) 2

i r (^) i^2 ∑ i ou TSS = SSM + SSR + SSE

onde se usam as iniciais, em língua inglesa, de "Total Sum of Squares" (soma quadrática total), "Sum of Squares due to the Mean" (soma quadrática devida à média), "Sum of Squares due to the Regression" (soma quadrática devida à regressão) e "Sum of Squares due to the Error" (soma quadrática devida ao erro). À soma SSR+SSE chama-se "Adjusted Total Sum of Squares" (soma quadrática total ajustada), com a sigla inglesa TSS(adj).

O coeficiente de determinação, usado como medida de qualidade do ajuste, é dado por:

R^2 = SSR

SSR + SSE

( y^ ˆ (^) i −^ Y )^2 i ∑ ( y^ ˆ (^) i −^ Y )^2 +^ r^ i^2 ii

ou seja, o coeficiente mede a proporção da variação de Y em relação à média que é explicada pela regressão. Um resultado a reter é que R^2 = ρ Y^2 Y^ ˆ (quadrado do coeficiente de correlação entre Y e Y ˆ ). Em princípio, a qualidade do ajuste será tanto maior quanto mais R^2 se aproximar da unidade.

6.4. ANOVA

As tabelas de análise de variância (" An alysis O f Va riance") são comuns em diversos tipos de estudos estatísticos, sendo frequentemente incorporadas nos programas dedicados à regressão e nas folhas de cálculo que incluem este tipo de estudos. A organização dos valores tem normalmente o aspecto indicado na tabela 3, onde são usadas algumas iniciais referidas no ponto anterior. As médias dos quadrados são obtidas dividindo as somas de quadrados pelos graus de liberdade correspondentes, como em MSE=SSE/(n-p-1). Repare- -se que MSE = ˆ σ 2.

Tabela 3: Quadro típico de ANOVA

Os dois valores de F apresentados na tabela permitem realizar testes de nulidade dos parâmetros. O valor na linha da média é em geral muito elevado, não conduzindo a qualquer resultado com interesse; o valor na linha da regressão é usado no teste de b 0 = 0 , descrito noutra secção do presente texto. Alguns programas e folhas de cálculo incluem na tabela o valor da probabilidade do teste F , permitindo uma avaliação imediata da rejeição ou não da hipótese b 0 = 0. A rejeição dá-se quando o valor da probabilidade é pequeno, correspondendo a valores elevados de F.

7. Testes e intervalos de confiança

Os exercícios de validade (testes e intervalos de confiança) que se apresentam a seguir permitem ter uma ideia indirecta da qualidade da regressão. Para além de uma validação geral do modelo obtido, os testes podem servir para confirmar hipóteses de valores particulares para os parâmetros, estabelecidas por via teórica ou em anteriores experiências.

Graus de liberdade

Soma dos quadrados

Média dos quadrados F (^) R 2 Média 1 SSM MSM MSM/MSE SSR/(SSR+SSE) Regressão p SSR MSR MSR/MSE Erro n-p-1 SSE MSE Total n TSS

7.3. Testes de hipóteses

Os testes indicados a seguir seguem, em geral, o princípio habitual de propor uma hipótese nula, uma hipótese alternativa e uma regra de rejeição, para um certo nível de significância (tipicamente 5% , embora possam ser usados outros valores). Isto significa que a probabilidade do teste rejeitar uma hipótese nula que fosse verdadeira (erro tipo I) é inferior a 0.05 , mas não nos diz nada sobre o erro complementar (erro tipo II) ou seja, não rejeitar a hipótese nula, sendo esta falsa. Os resultados positivos dos testes devem ser, portanto, utilizados com prudência, a menos que se possua uma estimativa da probabilidade do erro do tipo II.

7.3.1. O valor do parâmetro b (^) k é igual a b (^) x?

Este teste permite excluir ou não a hipótese do verdadeiro valor de bk ser um certo valor bx , por exemplo um valor teórico que se pretende confirmar, ou então o valor nulo, correspondente a não incluir a variável Xk no modelo. Claro que o teste não serve para verificar se o parâmetro tem exactamente o valor estimado, pois t=0 e a hipótese nula nunca seria rejeitada.

H 0 : bk =bx H (^) a : bkbx kk

k x ˆ c

t bˆ b σ

Rejeição de H 0 se |t | > |t 1- γ /2 (n-p-1 )|

O teste anterior também pode ser aplicado ao parâmetro a , com as alterações evidentes (mesmos graus de liberdade).

7.3.2. Os coeficientes b 0 são todos simultaneamente nulos?

Permite uma verificação genérica da adequação do modelo, neste caso pela rejeição da hipótese nula. Quanto maior é o valor calculado de F , mais fácil é aquela rejeição, por ser mais pequeno o valor de γ para a qual o valor da tabela é menor ou igual ao valor calculado de F.

H 0 : b 0 = 0 H (^) a : b 00 MSE

F = MSR

Rejeição de H 0 se γ<γ 0 , sendo F1- γ (p, n-p-1 )F

O valor limite γ 0 a utilizar depende das circunstâncias ( 0.05 ou 0.10 ), mas pode ir até 0.25 , numa opção cautelosa (no sentido de manter o modelo) que torna mais difícil não rejeitar a

hipótese nula.

7.4. Intervalos de confiança dos parâmetros

Os intervalos de confiança indicados a seguir são válidos apenas para parâmetros considerados individualmente. Se se pretendesse considerar simultaneamente vários parâmetros, teriam que ser usadas distribuições de probabilidade conjuntas. Como é óbvio, os intervalos serão tanto mais apertados quanto menor for o nível de confiança 100.(1- γ )%. Repare-se que os intervalos de confiança podem funcionar como teste de hipóteses: se o intervalo contém a hipótese nula, esta não é rejeitada. Neste caso, o valor de γ funciona como nível de significância.

7.4.1. Intervalo de a

a^ ˆ −∆ a ≤ a ≤ a ˆ +∆ a onde ∆ a = σˆ c 00. t 1- γ /2(n-p-1 )

7.4.2. Intervalos dos b 0

b^ ˆ k −∆ bk ≤ bk ≤ b ˆ k +∆ bk onde ∆ bk = σˆ. ckk. t 1- γ /2(n-p-1 )

O uso combinado destes intervalos dá uma ideia optimista do conjunto dos b 0. Uma alternativa ao uso de distribuições conjuntas de probabilidade será usar a expressão:

( b 0 b 0 ) MM ( b (^) 0b 0 )

ˆ (^) −.. .ˆ ≤ p σˆ^2 .F1- γ (p, n-p-1 )

que define a região de 100.(1- γ )% confiança (em geral um elipsoide) para o conjunto dos b 0. A expressão é mais facilmente utilizada para verificar se um conjunto particular de valores está ou não incluído na região de confiança.

7.5. Intervalo da resposta

Uma vez estabelecidos os parâmetros do modelo, é possível, como se disse inicialmente, estimar o valor de Y correspondente a uma dada observação das variáveis Xk. Se designarmos por u =[ 1 u 1 u 2 ... up ]' o vector alargado das observações das p variáveis, a estimativa de y será dada por: y ˆ =^ u '. b ˆ

Se os erros tiverem distribuição normal, também Y ˆ ~ N( E[Y] , Var[ Y ] ˆ ). Uma vez que a variância é estimada, o intervalo de 100 .(1- γ )% de confiança para E[Y]=E[ Y ] ˆ será dado por:

t (− i ) = r (^) i. n^ −^ p^ −^^2 (^1^ −^ hii ). SSE^ −^ r^ i^2

8.1. Eliminação de observações

Valores elevados de um determinado resíduo (sob qualquer das formas) aconselham uma inspecção cuidadosa da observação correspondente, com vista à sua eventual eliminação. mais formalmente, se o valor de um ou mais t (^) (-i) corresponder a uma probabilidade pequena na tabela da distribuição com n-p-2 graus de liberdade, os pontos em causa poderão estar muito fora da regressão, podendo justificar-se a sua eliminação, sobretudo se houver razões físicas que ponham em causa as observações ou leituras correspondentes.

Certos traçados gráficos também podem ser utilizados na referida detecção. Por exemplo:

  • Histogramas de resíduos "Student". Possível eliminação dos pontos que estejam para lá de três desvios padrão, na distribuição (aproximadamente normal) destes resíduos;
  • Resíduos em função das respostas ou em função de variáveis. Permitem uma detecção visual qualitativa de situações a investigar;
  • Resíduos em função de resíduos de eliminação. Os pontos "normais" deverão estar sobre uma linha recta de inclinação 1 , que passa pela origem, ou seja, a eliminação da observação respectiva não faz variar sensivelmente os resíduos.

É possível definir, também, testes estatísticos aproximados para detecção de isolados. No entanto, as decisões de eliminação devem ser sempre tomadas com muita prudência, pois correspondem a uma diminuição do volume inicial de dados. Eliminações apressadas são facilmente sujeitas a crítica.

8.2. Verificação de pressupostos

Apresentam-se, a seguir, alguns testes que permitem verificar se os pressupostos em relação aos erros do modelo são verificados pelos resíduos. Trata-se de verificações a posteriori que poderão levar à revisão do modelo.

8.2.1. Aleatoriedade

Uma forma corrente de verificar a aleatoriedade dos resíduos é o teste às sequências de sinais dos resíduos, através do "runs test" (teste de corridas), importante sobretudo quando as observações dependem do tempo. Considerando apenas os sinais (+ ou -) dos resíduos, pela ordem em que foram recolhidos, haverá n 1 sinais (+), n2 sinais (-) e r corridas (sequências máximas de sinais iguais seguidos). Na sequência (+ - - + + + + - - - + + -), por

exemplo, será n1=7 , n2 =6 e r=6. Usando em seguida tabelas para o "runs test", determinam- se valores críticos que ajudam a determinar, com nível de significância 5%, se a sequência é ou não aleatória. Em função de n1 e n 2 , as tabelas dão dois valores (inferior e superior) que terão que enquadrar o valor de r. Caso contrário, suspeita-se de não-aleatoriedade. No caso do exemplo, os dois valores são 3 e 12 , concluindo-se pela aleatoriedade, uma vez que (^3) ≤ r12.

As tabelas referidas para este teste só abrangem, geralmente, até um máximo de 20 para n 1 ou n2. Para valores superiores, usa-se a distribuição normal da forma habitual nos testes, com

Z =

r (^) − 2n^1 n n1 + n2 −^

2n1n2. (^) ( 2n (^) 1 n2n1n2 ) (^ n (^) 1 +^ n2 )^2^.^ ( n1 (^) +^ n2 −^^1 )

8.2.2. Correlação sucessiva

A verificação de independência é usualmente feita através do teste de Durbin-Watson à correlação entre resíduos sucessivos. O teste é útil sobretudo em dados dependentes do tempo. A partir de ε i= ρ. ε i-1+ δ i , onde os δ i ~ N( 0 , σ^2 ), a estatística a usar é:

d =

( r (^) i −^ r (^) i1 )^2 i = 2

n

r (^) i^2 i = 1

n

O teste H 0 : ρ =0 , Ha : ρ >0 baseia-se em tabelas próprias, que fornecem dois índices dL e dU , rejeitando-se H 0 se d<dL , e não se rejeitando se d>dU (dentro do intervalo não se podem retirar conclusões). Para testar H 0 contra Ha : ρ <0 , usa-se a estatística d'=4-d , com as mesmas tabelas.

8.2.3. Heteroscedaticidade

A detecção de desigualdades de variância dos erros pode ser realizada a partir de um gráfico dos resíduos r (^) i em função dos ˆ yi. Se o aspecto não for uma mancha de largura uniforme, por exemplo alargando com o aumento de ˆ yi , poderá ser necessário transformar Y ( ln Y , 1/Y , etc) ou alterar o modelo. Um gráfico semelhante, mas dos quadrados dos resíduos, pode confirmar suspeitas e ajudar a detectar isolados.

Ou seja, valores elevados de F conduzem à rejeição da hipótese b 2 = 0 , e as variáveis em causa são mantidas no modelo.

Uma alternativa ao uso de F é o cálculo de

ck = SSE^1 MSE −^ ( n (^) − 2k )

onde k é o número de variáveis do modelo reduzido (sem as r variáveis em causa). Se o valor de ck for muito superior a k , deve suspeitar-se que algumas variáveis importantes serão rejeitadas, caso se opte pelo modelo reduzido. Devem procurar-se, portanto, subconjuntos de variáveis que conduzam a valores de ck próximos de k.

Menos formalmente, podem comparar-se os valores de MSE e R^2 para os modelos "completo" e reduzido. Se não diferirem muito, será mais económico usar o modelo reduzido.

9.2. Pesquisa t -dirigida

Este método parte do modelo completo, calculando-se as estatísticas t correspondentes à

eliminação de cada uma das variáveis Xk , através de

t (^) k = β^ ˆ (^) k σ^ ˆ. ckk

Um critério habitual é conservar todas as variáveis para as quais |t|>3. Depois desta selecção inicial, que permite limitar muito o número de regressões alternativas a experimentar, é investigada a inclusão de cada uma das restantes variáveis, com recurso, por exemplo, às técnicas da secção anterior. Para além do esquema aqui indicado, podem ser utilizados diferentes procedimentos com base no mesmo princípio.

9.3. Selecção para a frente (forward selection)

Neste método, as variáveis candidatas X 1 .. Xp vão sendo introduzidas progressivamente no modelo, com base na comparação das somas dos quadrados dos resíduos ( SSE ) que resultam da sua introdução. Não garantindo a descoberta do melhor subconjunto de variáveis, o método é fácil de usar e permite obter, em geral, resultados bastante bons, com muito menos esforço do que ensaiar todas as possíveis regressões. O procedimento geral é o seguinte:

  1. Escolher Xu que conduz ao menor valor de SSE da regressão y=a+buXu Repetir
  2. Escolher Xv que conduz ao menor valor de SSE da regressão y=a+buXu+bv Xv até SSE não diminuir mais ou até estarem incluídos todos os termos.

A decisão sobre paragem pode ser baseada num teste com uma estatística próxima de F , calculada para cada uma das variáveis candidatas no estágio ( s+1 ), quando há s variáveis anteriormente seleccionadas. A expressão para uma variável candidata (^) Xk será:

Fk =^ SSEs^ − (^) SSEsk + 1 MSEsk +^1

= SSE^ s^ −^ SSEs^ +^1

k SSEsk + (^) 1 n −^ s −^ 2

A variável a entrar no modelo será a que tiver maior valor de (^) Fk , mas só será adicionada se se verificar a condição

max k Fk = Fmax ≥ F 1 −γ ( 1 , n − s − 2 )

sendo usual fixar-se um valor pouco exigente para γ (p.ex. 0.25 ). Se a condição não for satisfeita, o procedimento pára. No limite, será necessário calcular p! regressões, com um número de parâmetros crescendo de 2 até p+1 ao longo dos estágios.

9.4. Eliminação para trás (^) (backward elimination)

Filosofia complementar da anterior. O processo inicia-se com a regressão completa (todas as p variáveis) e em cada estágio é eliminada a variável cuja saída do modelo conduz à regressão reduzida com menor SSE. A eliminação pode ser feita usando a estatística:

Fk =^ SSEs^ +^^1

k (^) − SSE (^) s MSE

onde MSE é sempre o da regressão completa, e SSE (^) sk +^ (^) 1 não obriga a executar a regressão

reduzida (sem Xk ), toda a vez que

SSE (^) sk +^ (^) 1SSEs = t (^) k^2. MSEs

onde t k é a estatística usada para o teste de bk =bx (ver testes), neste caso com bx =0. Em

consequência, só é necessário calcular uma regressão em cada estágio, o que torna este processo bastante económico.