Baixe Regressao Linear Algebra linear e geometria analitica e outras Notas de aula em PDF para Álgebra, somente na Docsity! Regressão Linear Algumas vezes estamos interessados não apenas se existe associação entre duas variáveis quantitativas x e y, mas nós temos também uma hipótese a respeito de uma provável relação de causa e efeito entre variáveis. Desejamos saber se y “depende” de x. Neste caso, y é chamado de variável dependente ou variável resposta e x é chamado de variável independente ou explanatória que, na linguagem epidemiológica, é denominada “fator de risco”. Na forma de regressão mais comumente utilizada, a regressão linear, temos a hipótese de que o valor de y depende do valor de x e expressamos matematicamente esta relação por meio de uma equação, assumindo que a associação entre x e y é linear, ou seja, descrita adequadamente por uma reta. Quando temos uma variável resposta y e uma variável explanatória x a regressão é dita simples. Quando temos uma variável resposta y e mais de uma variável explanatória, x1, x2, x3... a regressão é chamada múltipla. A regressão é usada basicamente com duas finalidades: de previsão (prever o valor de y a partir do valor de x) e estimar o quanto x influencia ou modifica y. Vejamos o exemplo abaixo. No diagrama de dispersão vemos que, à medida em que aumenta a porcentagem de crianças imunizadas contra DPT (difteria, coqueluche e tétano) em amostra de 20 países do mundo em 1992 diminui a taxa de mortalidade infantil de crianças menores de 5 anos. Esta relação pode ser descrita razoavelmente por uma reta. Temos a hipótese que a percentagem de imunização contra DPT pode influenciar a mortalidade infantil, mas desejamos medir esta associação, que pode ser descrita com a fórmula: Y = a + b x a= coeficiente linear (também chamado intercepto, é o valor que y assume quando x for zero) b= coeficiente angular (é a inclinação da reta, mede o aumento ou redução em y para cada aumento de uma unidade em x). Tabela 1. Porcentagem de crianças imunizadas contra DPT e taxa de mortalidade de menores de 5 anos para 20 países, 1992. País Porcentagem imunizada Taxa de mortalidade por 1000 nascidos vivos pais dpt mort Bolivia 77 118 Brasil 69 65 Camboja 32 184 Canada 85 8 China 94 43 Republica Tcheca 99 12 Egito 89 55 Etiopia 13 208 Finlandia 95 7 Franca 95 9 Pós-Graduação em Saúde Coletiva – UFMA – Métodos Estatísticos em Epidemiologia 2 Grecia 54 9 India 89 124 Italia 95 10 Japao 87 6 Mexico 91 33 Polonia 98 16 Federacao Russa 73 32 Senegal 47 145 Turquia 76 87 Reino Unido 90 9 Pós-Graduação em Saúde Coletiva – UFMA – Métodos Estatísticos em Epidemiologia 5 A primeira forma de se avaliar resíduos é plotar um gráfico no qual os resíduos ( yy ˆ− ) são colocados no eixo vertical (y) e os valores esperados de y ( ŷ ) no eixo horizontal (x). Os pontos devem ficar distribuídos de forma equilibrada acima e abaixo da linha que passe no ponto de resíduo 0, formando uma nuvem retangular de pontos. Quando não há homocedasticidade (que é o caso acima), observa-se uma nuvem em forma de cone. A dispersão dos valores é maior na primeira parte da distribuição. Quando a relação não for linear, observa- se uma nuvem curva. Neste caso, porém existem valores atípicos, Grécia, que tem uma baixa cobertura de DPT e uma mortalidade infantil baixa e Índia que tem alta cobertura de DPT e uma mortalidade alta. Pode ser que a retirada de pontos extremos, com resíduos altos melhore a homocedasticidade. Entretanto só se deve retirar pontos extremos com uma boa justificativa (erro de leitura ou anotação dos dados, problemas durante a realização do experimento). Se eles realmente fazem parte da realidade é melhor tentar uma transformação, pois a eliminação do ponto vai distorcer a análise do fenômeno. Para realizar estes cálculos no Stata, digite: predict morte gen res=mort-morte Pós-Graduação em Saúde Coletiva – UFMA – Métodos Estatísticos em Epidemiologia 6 gen str5 letra = substr(pais,1,5) twoway scatter res morte, mlabel(letra) O gráfico dos resíduos versus cada variável explanatória também é muito elucidativo para testar os pressupostos do modelo. A presença de uma relação curvilinear, por exemplo, sugere que a adição de um termo quadrático à variável explanatória deve ser adicionado ao modelo. rvpplot dpt, mlabel(letra) O gráfico de probabilidade normal dos resíduos também é muito útil. Depois que toda a variável sistemática for removida do modelo, os resíduos devem ter distribuição normal. pnorm res EXERCÍCIOS Medidas de comprimento (em cm) e de peso (em gramas) de uma amostra de 20 bebês nascidos com baixo peso estão na tabela abaixo: Comprimento Peso comp peso 41 1360 40 1490 38 1490 38 1180 38 1200 32 680 33 620 38 1060 34 830 32 880 39 1130 38 1140 39 1350 37 950 39 1220 38 980 42 1480 39 1250 38 1250 30 1320 Pós-Graduação em Saúde Coletiva – UFMA – Métodos Estatísticos em Epidemiologia 7 1) Primeiro digite os dados acima no Stata. 2) Verifique se as variáveis têm distribuição normal ou se há valores extremos. Plote o histograma, o Box-plot e o gráfico da probabilidade normal para cada variável. Explore o menu Graphics do Stata. Graphics / Histogram / Variable: peso / OK Graphics / Box Plot / Variable: comp / OK Graphics / Distributional Graphs / Normal quantile plot / Variable: peso / OK Alternativamente você poderia digitar: histogram peso graph box peso, medtype(line) qnorm peso 3) Construa um gráfico de dispersão bidimensional do peso (x) versus o comprimento (y) e avalie se esta relação pode ser descrita por uma reta. Graphics / Twoway graphs / Type: scatter X: peso Y: comp / OK Ou twoway (scatter comp peso) 4) Há alguma evidência de uma relação linear entre as variáveis? Há algum ponto extremo? 5) É possível, a partir do conhecimento do peso do recém-nascido prever o seu comprimento? Usando o comprimento como variável resposta e o peso como variável explicativa, faça os cálculos da regressão linear. regress comp peso 6) Quais os valores obtidos para o intercepto e para o coeficiente angular? Ao nível de significância de 0.05, teste a hipótese nula de que a verdadeira inclinação da reta (b) é igual a 0. O que você conclui? 7) Qual o comprimento estimado pelo modelo para um bebê que pesou 1320 gramas? Qual o resíduo neste caso (a diferença entre o comprimento observado, no caso 30 e o comprimento estimado pelo modelo)?