之前講到的線性模型,是通過一系列連續(xù)型或類別型變量來預(yù)測正態(tài)分布的響應(yīng)變量。但在許多情況下,假設(shè)因變量為正態(tài)分布并不合理,例如以下集中情況:
廣義線性模型擴(kuò)展了線性模型的框架,它包含了非正態(tài)因變量的分析,使線性模型對于解決實際問題更具有通用性和廣泛性。 廣義線性模型概論許多廣泛應(yīng)用的、流行的數(shù)據(jù)分析方法其實都?xì)w屬于廣義線性模型框架?,F(xiàn)在假設(shè)我們要對響應(yīng)變量Y和p個預(yù)測變量X1......Xp間的關(guān)系進(jìn)行建模,在標(biāo)準(zhǔn)線性模型中,我們可以假設(shè)Y呈正態(tài)分布,關(guān)系的形式為: 該等式表明響應(yīng)變量的條件均值是預(yù)測變量的線性組合。參數(shù)βj指一單位Xj的變化造成的Y預(yù)期的變化,β0指當(dāng)所有預(yù)測變量都為0時Y的預(yù)測值。對于這個等式,我們可以通俗地理解為:給定一系列X變量的值,賦予X變量合適的權(quán)重,然后將它們加起來,便可預(yù)測Y觀測值分布的均值。 我們并沒有對預(yù)測變來那個Xj做任何分布的假設(shè),與Y不同,它們不需要呈正態(tài)分布。實際上,它們常為類別型變量。另外、對預(yù)測變量使用非線性函數(shù)也是允許的,比如我們可以使用X^2或者X1*X2,只要等式的參數(shù)(β0、β1、...、βp)為線性即可。 廣義線性模型擬合的形式為: 其中g(shù)(u y)是條件均值的函數(shù)(稱為連接函數(shù))。另外、我們可以不假設(shè)Y為正態(tài)分布,把它改為Y服從指數(shù)分布族中的任意一種分布即可。設(shè)定好連接函數(shù)和概率分布后,可以通過最大似然估計的多次迭代推導(dǎo)出各參數(shù)值。 glm()函數(shù)R語言中可通過glm()函數(shù)擬合廣義線性模型,函數(shù)基本形式為: glm(formula, family=family(link=function), data=) 下圖列出了概率分布(family)和相應(yīng)默認(rèn)的連接函數(shù)(function)。 glm()函數(shù)可以擬合許多流行的模型,比如Logistic回歸、泊松回歸,下面對這兩個模型進(jìn)行闡述。假設(shè)我們有一個響應(yīng)變量(Y)、三個預(yù)測變量(X1、X2、X3)和一個包含數(shù)據(jù)的數(shù)據(jù)框(mydata)。 Logistic回歸 Logistic回歸適用于二值響應(yīng)變量(0,1)。模型假設(shè)Y服從二項分布,線性模型的擬合形式為: 其中π=μY是Y的條件均值(即給定一系列X的值時Y=1的概率),(π /1-π )為Y=1時的優(yōu)勢比,log(π /1-π )為對數(shù)優(yōu)勢比,或logit。在這個例子中,log(π /1-π )為連接函數(shù),概率分布為二項分布,可用以下代碼擬合Logistic回歸模型: glm(Y~X1+X2+X3, family=binomial(link='logit'), data=mydata) 泊松回歸 泊松回歸適用于在給定時間內(nèi)響應(yīng)變量為事件發(fā)生數(shù)目的情形。它假設(shè)Y服從泊松分布,線性模型的擬合形式為: 其中λ是Y的均值(也等于方差)。此時,連接函數(shù)為log(λ),概率分布為泊松分布,可用如下代碼擬合泊松回歸模型: glm(Y~X1+X2+X3, family=poisson(link='log'), data=mydata) 標(biāo)準(zhǔn)線性模型標(biāo)準(zhǔn)線性模型屬于廣義線性模型的一個特例。如果令連接函數(shù)g(μY)=μY或恒等函數(shù),并設(shè)定概率分布為正態(tài)分布,那么可用如下代碼擬合標(biāo)準(zhǔn)線性模型: glm(Y~X1+X2+X3, family=gaussian(link='identity'), data=mydata) 生成的結(jié)果與下列代碼的結(jié)果相同: lm(Y~X1+X2+X3, data=mydata) 總之,廣義線性模型通過擬合響應(yīng)變量的條件均值的一個函數(shù),假設(shè)響應(yīng)變量服從指數(shù)分布族的某個分布,極大地擴(kuò)展了標(biāo)準(zhǔn)線性模型。模型 參數(shù)估計的推導(dǎo)依據(jù)是極大似然估計,而非最小二乘法。 |
|