Docsity
Docsity

Prepare-se para as provas
Prepare-se para as provas

Estude fácil! Tem muito documento disponível na Docsity


Ganhe pontos para baixar
Ganhe pontos para baixar

Ganhe pontos ajudando outros esrudantes ou compre um plano Premium


Guias e Dicas
Guias e Dicas


Regressão Beta e Aplicações, Notas de estudo de Estatística

Regressão Beta e Aplicações

Tipologia: Notas de estudo

2013

Compartilhado em 11/08/2013

christian-galarza-morales-2
christian-galarza-morales-2 🇧🇷

5

(2)

4 documentos

1 / 17

Toggle sidebar

Esta página não é visível na pré-visualização

Não perca as partes importantes!

bg1
REGRESSÃO BETA E APLICAÇÕES
BETA REGRESSION AND APLICATIONS
Galarza, Christian
Mestrando em Estatística – IMECC / UNICAMP
RESUMO
Este trabalho apresenta uma introdução ao Modelo de Regressão Beta simples com dispersão
variável calculando seus estimadores de Máxima Verossimilhança pelo Método Newton-
Raphson e Scoring de Fisher. Além disso, tem-se a aplicação dos modelos nos dados Gasoline
Yield Data de Prater (1956), onde se testam diferentes condições como modelos e funções
de ligação, isto utilizando o pacote betareg do software estatístico R.
Palavras-chave: Modelo de regressão Beta simples, Modelo de regressão Beta com dispersão
var vel, Newton-Rapson, Scoring de Fisher, Aplicações.
ABSTRACT
This paper presents an introduction to the Simple and Varying dispersion Beta Regression
Model calculating the Maximum likelihood estimators through Newton-Raphson and Fisher’s
Scoring Methods. Futhermore, has an application of the models with the Gasoline Yield Data
of Prater (1956), where we test different conditions like models and link functions, all using
the betareg package of statistical R software.
Keywords: Simple Beta Regression, Varying dispersion beta regression model, Newton-Raphson,
Fisher’s Scoring, Aplications.
pf3
pf4
pf5
pf8
pf9
pfa
pfd
pfe
pff

Pré-visualização parcial do texto

Baixe Regressão Beta e Aplicações e outras Notas de estudo em PDF para Estatística, somente na Docsity!

REGRESSÃO BETA E APLICAÇÕES

BETA REGRESSION AND APLICATIONS

Galarza, Christian

Mestrando em Estatística – IMECC / UNICAMP

RESUMO

Este trabalho apresenta uma introdução ao Modelo de Regressão Beta simples com dispersão variável calculando seus estimadores de Máxima Verossimilhança pelo Método Newton- Raphson e Scoring de Fisher. Além disso, tem-se a aplicação dos modelos nos dados Gasoline Yield Data de Prater (1956), onde se testam diferentes condições como modelos e funções de ligação, isto utilizando o pacote betareg do software estatístico R.

Palavras-chave : Modelo de regressão Beta simples, Modelo de regressão Beta com dispersão variável, Newton-Rapson, Scoring de Fisher, Aplicações.

ABSTRACT

This paper presents an introduction to the Simple and Varying dispersion Beta Regression Model calculating the Maximum likelihood estimators through Newton-Raphson and Fisher’s Scoring Methods. Futhermore, has an application of the models with the Gasoline Yield Data of Prater (1956), where we test different conditions like models and link functions, all using the betareg package of statistical R software.

Keywords : Simple Beta Regression, Varying dispersion beta regression model, Newton-Raphson, Fisher’s Scoring, Aplications.

1. INTRODUÇÃO

Nos modelos de regressão, muitas vezes a variável y resposta é uma variável que apenas toma valores no intervalo contínuo [0,1], de modo que é necessário considerar algumas alternativas para ajustar o modelo de regressão sob esta condição. Alguns exemplos de variáveis são os seguintes:

 Porcentagem do tempo dedicado a alguma atividade.  Taxa de pobreza, taxa de desemprego.  Pontuação de uma prova.  Proporção de um composto químico numa mistura.  Fração da superfície colhida de uma floreta.

Pode-se aplicar algumas transformações à variável de resposta, mas pelo geral se precisa supor normalidade. Aliás, às vezes os parâmetros não podem ser interpretados facilmente em termos da resposta original e não é viável arrumar problemas de heterocedasticidade ou assimetria.

Uma melhor alternativa é supor que a variável de resposta y segue uma distribuição contínua com suporte (0,1), tal como a distribuição Beta, a qual é ligada às variáveis preditoras por uma função de ligação. Os modelos de regressão Beta usam um tipo de parametrização em termos de sua média e a precisão (dispersão) porque assim é muito mais fácil fazer as interpretações das estimativas.

O modelo de regressão Beta fornece estimações precisas e seguras em relação aos coeficientes, independentemente da tendência dos dados (valores próximos de zero o de um) ou do tamanho da amostra.

Vale mencionar que a Distribuição Beta não pertence à família exponencial de funções, pois sua distribuição não pode ser escrita da forma canônica; ela tem sua própria família que comtempla as distribuições Uniforme, Arco-Seno e Dirichlet segundo Sant’ Anna, Catten (2009).

Em geral, o modelo de regressão Beta e muito útil para diversas aplicações práticas, além de que há um campo grande de pesquisa onde se tem desenvolvido muita literatura sobre este tema nos últimos anos. A Sua aplicação foi implementada no pacote betareg no software R (www.r-project.org).

݃ ߤሺ௜ ሻ ൌ ܠ ௜୘^ ࢼ ൌ ߟ ௜

Gráfico 1. Beta densities for different values of(ߤ,߶). Fonte: [4] Beta regression in R.

onde ܠ (^) ௜ é o vetor de covariaveis de dimensão p e ࢼ ൌ ൫ߚଵ , … …. , ߚ௣ ൯் é o vetor de parâmetros da regressão, i = 1 ,... , n. tem-se diferentes propostas de funções de ligação ݃ ሺ∙ሻ podendo ser escolhida a que leve para um bom ajuste. As funções de ligação mais comuns são as funções inversas acumuladas das distribuições Logística, Normal padrão, Valor mínimo extremo, Valor máximo extremo e Cauchy. Veja-se tabela 1 para mais detalhe.

DISTRIBUIÇÃO NOME FUNÇÃO DE LIGAÇÃO Logística Logit ݃ ሺߤሻ ൌ logሾߤ ሺ1 െ ߤ⁄^ ሻሿ Normal padrão Probit ݃ ሺߤሻ ൌ Φି ଵ^ ሻߤሺ Valor mínimo extremo Complementário log-log ݃ ሺߤሻ ൌ logሾെ logሺ1 െ ߤሻሿ Valor máximo extremo Log-log ݃ ሺߤሻ ൌ െlogሾെ logሺߤሻሿ Cauchy Cauchit ݃ ሺߤሻ ൌ tanሾߨሺ ߤെ 0.5ሻሿ

Ramalho, Ramalho & Murteira (2010) apresento sugestões para diferentes funções de ligação. A função de Log verossimilhança ℓሺࢼ, ߶|࢟^ ௢௕௦ ሻ^ pode ser calculada como

௜ୀଵ

onde ℓ (^) ௜ ߤሺ௜ ࢟|߶ ,^ ௢௕௦ ሻ ൌ logሾΓሺ߶ሻሿ െ logሾΓሺߤ௜ ߶ሻሿ െ logൣΓ൫ ሺ1 െ ߤ௜ ൯൧߶ሻ (^) (2.6)

ߤ൅ሺ (^) ௜ ߶െ 1ሻ logሾݕ௜ ሿ ൅ ሼሺ1 െ ߤ௜ ሻ ߶െ 1ሽ logሾ1 െ ݕ௜ ሿ Note que ߤ௜ ି݃ൌ ଵ^ ࢞ሺ (^) ௜் ࢼሻ é uma função de ࢼ , o vetor de parâmetros de regressão. O vetor de parâmetros ࣂ ൌ ሺࢼ் , ߶ሻ்^ é calculado por Máxima Verossimilhança (ML), usando o logit como função de ligação temos

ߟ (^) ௜ ൌ logit ሾߤ௜ ሿ ൌ log ൤ (^) 1 െ ߤߤ௜ ௜

ߤ௜ ି݃ൌ ଵ^ ࢞൫ (^) ௜் ࢼ൯ ൌ (^) 1 ൅ expሺߟexpሺߟ௜^ ሻ ௜ ሻ

ݕ௜∗^ ൌ logit ሾݕ௜ ሿ ൌ log ൤ (^) 1 െ ݕݕ௜ ௜

obtendo as derivativas temos

ࢼ ߲෍ ൌ^

௜ୀଵ onde,

߲ ℓ (^) ௜ ߲ሺࣂሻ ߤ (^) ௜ ߲߲െ ൌߤ (^) ௜logሾΓሺߤ௜^ ߲߲െ ሻሿ߶ߤ (^) ௜logൣΓ൫ ሺ1 െ ߤ௜^ ሻ߶൯൧ ൅ ߶ logሾݕ௜^ ሿ ൅ ߶ logሾ1 െ ݕ௜^ ሿ ߰ ߶െ ൌ ߤሺ௜ ߰ ߶ ൅ ሻ߶ ሺሺ1 െ ߤ௜ ሻ߶ሻ ൅ ߶ logሾݕ௜ ሿ ൅ ߶ logሾ1 െ ݕ௜ ሿ ݕሺ߶ൌ ௜∗^ ߤ െ௜∗^ ሻ

ߟ ௜ ൌ^

ߤ′ሺ ௜ ሻ ൌ^

logit′ሺߤ (^) ௜ ሻ ߤ ൌ^ ௜^ ሺ1 െ ߤ௜^ ሻ

߲ ߟ (^) ߲௜ ࢼ ߲࢞ൌ^

ࢼ ࢞ൌ^ ௜

sendo ߰ ሺ∙ሻ a função digama 1 , ߤ௜∗^ ߰ൌ ߤሺ௜ ߰െ ሻ߶ ሺሺ1 െ ߤ௜ ሻ߶ሻ e ݕ௜∗^ definido em (2.9), pelo que a derivada fica ߲ ℓሺࣂሻ߲ ࢼ ൌ ෍^ ݕሺ߶௜

௜ୀଵ

que pode ser escrito de maneira matricial como ࢄ߶୘^ ࢟ሺࢀ ∗^ െ ࣆ ∗^ ሻ onde X é a matriz de desenho e T é uma matriz diagonal que contém os elementos ߤ௜ ሺ1 െ ߤ௜ ሻ. Do mesmo jeito pode ser calculada a derivada

onde ߱ ௜ ߰ൌ ᇱ^ ߤሺ௜ ߰൅ ሻ߶ ᇱ^ ൫ሺ1 െ ߤ௜ ൯߶ሻ e ܿ ௜ ߤൣ߶ൌ (^) ߱௜ ௜ ߰െ ᇱ^ ൫ሺ1 െ ߤ௜ ൯൧߶ሻ. Aplicando valor esperado se obtém a matriz de Informação Esperada de Fisher ॅሺࣂሻ dada por

ࢼࢼ ࣣ ࢼథࣣ ࢼథ்ࣣ థథ

e seus elementos são

ࣣࢼࢼ ൌ ෍ ߶ ߱ଶ^ ௜ ߤ൫௜ ሺ1 െ ߤ௜ ሻ൯࢞ ଶ ࢞௜ ௜்

௜ୀଵ ࣣࢼథ ܿ෍ ൌ (^) ௜ ߤ௜ ሺ1 െ ߤ௜ ࢞ሻ (^) ௜

௜ୀଵ ࣣథథ ൌ ෍൛ሺ1 െ ߤ௜ ሻ߰ଶ^ ᇱ^ ൫ሺ1 െ ߤ௜ ሻ߶൯ ൅ ߤ௜߰ଶ^ ᇱ^ ߤሺ௜ ߶ሻ െ߰ ′ሺ߶ሻൟ

௜ୀଵ

elementos que podem ser expressados de forma matricial como

ࢄ߶୘^ ࢄࢃ ்ࢄ ࢉࢀ

்ࢄሺ ሻ்ࢉࢀ (^) trሺࡰሻ

onde ࢀൌ diagሼݐଵ , … , ݐ௡ ሽ, ࢃൌ diagሼݓଵ , … ,ܹ (^) ௡ ሽ, ܿሾ ൌ ࢉ (^) ଵ , … ,ܿ (^) ௡ ሿ் e ࡰൌ diagሼ݀ (^) ଵ , … ,݀ (^) ௡ ሽ com elementos

ݐ௜ ߤ ൌ (^) ௜ ሺ1 െ ߤ௜ ሻ, ݓ௜ ߱ ߶ ൌ (^) ௜ ݐ௜ଶ^ , ܿ ௜ ߤൣ߶ൌ (^) ߱௜ ௜ ߰െ ᇱ^ ൫ሺ1 െ ߤ௜ ሻ߶൯൧, ݀ ௜ ൌ ሺ1 െ ߤ௜ ሻ߰ଶ^ ᇱ^ ൫ሺ1 െ ߤ௜ ሻ߶൯ ൅ ߤ௜߰ଶ^ ᇱ^ ߤሺ௜ ߰െ ሻ߶ ᇱ^ .ሻ߶ሺ

As estimativas de Máxima Verossimilhança para ࣂ podem ser calculadas iterativamente pelos algoritmos:

Newton-Raphson Escoring de Fisher ࣂሺ௧ାଵሻ^ ൌ ࣂሺ௧ሻ^ ൅ ሾॴሺࣂሻሿିଵ^ ℓ൫ࣂ׏ ሺ௧ሻ^ ࢟ห (^) ௢௕௦ ൯ ࣂሺ௧ାଵሻ^ ൌ ࣂሺ௧ሻ^ ൅ ሾতሺࣂሻሿିଵ^ ℓ൫ࣂ׏ሺ௧ሻ^ ࢟ห (^) ௢௕௦ ൯

até alcançar convergência, isto é

ฮࣂ ሺ௧ାଵሻ^ െ ࣂሺ௧ሻ^ ฮ ൏ ߝ, ߝൌ 10ି ଺^ ,

onde sugestões para os valores iniciais dos parâmetros foram apresentados por Ferrari & Cribari-Neto (2004). Para amostras grandes, e sob condições de regularidade, os estimadores de Máxima Verossimilhança ࢼ෡^ e ߶෠, têm aproximadamente distribuição de densidade conjunta normal ( p+1) multivariada, i.e.,

߶෠቉ ~ࣨ^ ௣ାଵ^ ൬ ൤

onde os erros padrões dos estimadores podem ser obtidos da matriz de variâncias e covariâncias ሾতሺࣂሻሿି ଵ^ como

ܲܧ൫ࣂ෡൯ ൌ diag ଵ ଶ⁄^ ሺሾতሺࣂሻሿି ଵ^ ሻ.

Uma extensão do modelo de regressão Beta simples foi apresentado formalmente por Simas et al. (2010) é o modelo de regressão Beta com dispersão variável, i.e., considerando um parâmetro de precisão não fixo para todas as variáveis, mas que pode ser modelado de um jeito parecido à média por covariaveis. Mais especificamente ݕ௜ ߤࣜሺ~ (^) ௜ ߶ , (^) ௜ ሻ para cada i independentemente, com funções de ligação:

݃ ߤሺ௜ ሻ ൌ ܠ (^) ௜୘^ ࢼ ൌ ߟଵ௜ ݃ ߶ሺ௜ ሻ ൌ ܢ௜୘^ ࢽ ൌ ߟଶ௜

sendo ࢼ e ࢽ vetores dos coeficientes de regressão, ߟଵ௜ e ߟ (^) ଶ௜ preditores lineares e ܠ (^) ௜ e ܢ௜ vetores de regressores. A função de ligação mais comum para ߶௜ é log, forçando que seja sempre positivo. As estimativas de ML são feitas do mesmo jeito que no caso do modelo simples, mas só se tem que substituir ߶ por ߶௜ na equação (2.6).

Observe-se que a covariável temp e o fator batch são significativos para explicar a variável de interesse yield, além disso, obtém-se um valor alto da precisão ߶ de 440,3, e o seu valor é determinante para um bom ajuste.

3.2. Modelo de Regressão Beta com precisão variável

Embora o modelo de regressão Beta já incorpora informação da dispersão dos dados de um jeito natural (ver equação 2.4b), considerando o parâmetro de precisão ߶ como não fixo, podemos modelar a heterocedasticidade, isto utilizando uma função de ligação log e a variável temp como covariável como na equação (2.13).

BR_logitV = betareg(yield ~ batch + temp|temp, data = GasolineYield) summary(BR_logitV)

Call: betareg(formulalink = "logit") = yield ~ batch + temp | temp, data = GasolineYield,

Standardized weighted residuals 2: -2.5399 -0.7792Min^ 1Q^ -0.1167Median^ 0.86213Q^ 2.9419Max Coefficients (mean model with logit link):

Gráfico 2. Temperatura em graus Fahrenheit onde a gasolina é evaporada Vs. proporção de petróleo bruto convertida em gasolina depois dos processos de destilação e fracionamento. As observações ligadas por números iguais representam um nível do fator batch.

(Intercept) -5.9232361^ Estimate^ Std.0.1835262^ Error^ z-32.275^ value^ Pr(>|z|)< 2e-16 *** batch1batch2 1.60198771.2972663 0.06385610.0991001 25.08713.090 << 2e-162e-16 ****** batch3batch4 1.56533831.0300720 0.09973920.0632882 15.69416.276 << 2e-162e-16 ****** batch5batch6 1.15416301.0194446 0.06564270.0663510 17.58215.364 << 2e-162e-16 ****** batch7 0.6222591 0.0656325 9.481 < 2e-16 *** batch8batch9 0.56458300.3594390 0.06018460.0671406 9.3815.354 (^) 8.63e-08< 2e-16 ****** temp 0.0103595 0.0004362 23.751 < 2e-16 *** Phi coefficientsEstimate (precision Std. Error model z withvalue log Pr(>|z|) link): (Intercept)temp 1.3640890.014570 1.2257810.003618 1.1134.027 (^) 5.65e-05 0. ---Signif. codes: 0 '' 0.001 '*' 0.01 '' 0.05 '.' 0.1 ' ' 1

Type of estimator: ML (maximum likelihood) Log-likelihood:Pseudo R-squared: 86.98 0.9519 on 13 Df Number of iterations: 33 (BFGS) + 28 (Fisher scoring)

e com isto se tem evidencia de melhora ao incluir a temperatura de evaporação da gasolina como covariável do parâmetro de precisão ߶. Agora os dois modelos (com precisão constante e não) são comparados pelo Teste de Ração de Verossimilitudes.

lrtest(BR_logit, BR_logitV)

Likelihood ratio test Model 1: yield ~ batch + temp Model#Df 2:LogLik yield Df ~ Chisqbatch Pr(>Chisq)+ temp | temp 12 1213 84.79886.977 1 4.359 0.03681 *


Signif. codes: 0 ‘’ 0.001 ‘’ 0.01 ‘’ 0.05 ‘.’ 0.1 ‘ ’ 1

sendo evidencia de que o Modelo 2 (com precisão não constante) é melhor do que o Modelo

  1. Note-se que é o mesmo que testar uma hipótese nula de igual dispersão vs. dispersão variável, i.e., ܪ଴ ݕ :௜ ߤࣜሺ~ (^) ௜ ሻ߶ , ܸܵ ܪଵ ݕ :௜ ߤࣜሺ~ (^) ௜ ߶ ,௜ ሻ

cuja hipóteses nula é rejeitada a favor da hipóteses alternativa. O critério AIC também comprovou que o modelo 2 é melhor.

AIC(BR_logit,BR_logitV)

BR_logit df 12 -145.5951AIC BR_logitV 13 -147.

precisão fixa, mas ainda melhor do que o modelo com modelação da dispersão proposto em linhas anteriores. Olhe-se o gráfico 4.

4. MODELOS DE REGRESSÃO BETA MAIS GERAIS

Varying dispersion beta regression models: Smithson & Verkuilen (2006).

A general class of beta regression models: Simas, Barreto-Souza & Rocha (2010).

Inflated beta regression models: Cook, Kieschnick, McCullough (2008), Ospina & Ferrari (2010,2012a), Calabrese (2012).

Truncated inflated beta regression models: Pereira, Botter & Sandoval (2011, 2013).

Semi-parametric beta regression: Branscum, Jonhson & Thurmond (2007), Weihua et al (2012).

Time series : Rydlewski (2007), Rocha & Cribari–Neto (2009), Billio & Casarin (2011), Casarin, Dalla Valle, Leisen (2012); da-Silva, Migon & Correia (2011), da-Silva & Migon (2012), Guolo & Varin (2012).

Multivariate beta regression : Souza & Moura (2012a, 2012b)

Gráfico 4. Curvas médias de predição da proporção de petróleo bruto convertida em gasolina depois dos processos de destilação e fracionamento dada a temperatura em graus Fahrenheit onde a gasolina é evaporada. Cada curva representa a função média ajustando os dados com modelos com funções de ligação logit, probit e loglog.

Mixed beta regression : Zimprich (2010), Verkuilen & Smithson (2012), Figueroa–Zúñiga, Arellano Valle & Ferrari (2013), Bonat, Ribeiro Jr & Zeviani (2013).

Errors-in-variables beta regression models : Carrasco, Ferrari, Arellano–Valle (2012) (more later).

Beta rectangular regression models: Bayes, Bazán & García (2012).

5. PESQUISAS

Além, são apresentados diferentes pesquisas e aplicações do Modelo Beta:

Johnson et al. (1995, p. 235). “The beta distributions are among the most frequently employed to model theoretical distributions”.

Bury (1999). “Applications of the beta distribution in engineering”.

Janardan and Padmanabhan (1986). “Modelling of hydrological variables using the beta distribution”.

McNally (1990). “Use of the beta distribution in the study of reproducibility of cows”.

Graham e Hollands (1990) e Milyutin e Yaromenko (1991). “Use the beta distribution in studies of indices related to the transmission of solar radiation”

Maffet and Wackerman (1991). “Power of radar signals is modeled by using the beta law.

Wiley et al. (1989). “Develop a beta model to estimate the probability of HIV transmission during sexual intercourse involving infected and non-infected individuals”.

#Regressão Beta RegBeta = function(X,y,b,phi,MaxIter=200,error=0.0001) {

n = nrow(X) p = ncol(X) thv = c(b,phi) count = 0 criterio = 1 while(criterio > error) { count = count + 1 GM = EFBeta(x,y,thv) ite = solve(GM$MIEF)%%GM$GG thn = thv + ite criterio = sqrt(t(thv-thn)%%(thv-thn)) thv = thn npar = p+ if (count==MaxIter) { break } } EPbeta = sqrt(diag(solve(GM$MIEF))) loglik = logverB(param,y,X) #Criterios AIC<- -2loglik +2npar BIC <- -2loglik +log(n)npar HQ <- -2loglik +2log(log(n))*npar return(list(iter=count, theta = thn, EPbeta = EPbeta ,AIC = AIC, BIC = BIC, HQ = HQ))

}

REFERÊNCIAS

1. Bayer, F.M. (2011) Modelagem e Inferência em Regressão Beta, Tese de Doutorado, Universidade Federal de Pernambuco, Recife, Brasil. 2. Biguelini, C.B.,(2009). Modelo de Regressão Beta para a Análise da Origem dos Problemas de Sistemas Prediais. Monografia. Universidade Federal do Rio Grande do Sul. 3. Branscum, A.J., Johnson, W.O. & Thurmond, M.C. (2007). Bayesian beta regression: applications to household expenditure data and genetic distance between foot-and-mouth disease viruses. Australian and New Zealand Journal of Statistics, 49, 287–301. 4. Cribari–Neto, F. & Zeiles, A. (2010). Beta regression in R. Journal of Statistical Software, 34, 1–24. 5. Espinheira, P.L., Ferrari, S.L.P. & Cribari–Neto, F. (2008a). Influence diagnostics in beta regression. Computational Statistics and Data Analysis, 52, 4417–4431. 6. Ferrari, S.L.P. & Cribari–Neto, F. (2004). Beta regression for modelling rates and proportions. Journal of Applied Statistics, 31, 799–815. 7. Ferrari, S.L.P., Espinheira, P.L. & Cribari–Neto, F. (2011). Diagnostic tools in beta regression with varying dispersion. Statistica Sinica, 65, 337–351. 8. Ospina, R., Cribari–Neto, F. & Vasconcellos, K.L.P. (2006). Improved point and interval estimation for a beta regression model. Computational Statistics and Data Analysis, 51, 960–981. Erratum at Computational Statistics and Data Analysis, 55, 2445.