小男孩‘自慰网亚洲一区二区,亚洲一级在线播放毛片,亚洲中文字幕av每天更新,黄aⅴ永久免费无码,91成人午夜在线精品,色网站免费在线观看,亚洲欧洲wwwww在线观看

分享

用R語言做數(shù)據(jù)分析——泊松回歸

 geoallan 2017-07-16

用R語言做數(shù)據(jù)分析——泊松回歸

當通過一系列的連續(xù)型或類別型預測變量來預測計數(shù)型結(jié)果變量時,泊松回歸是一個非常有用的工具。為闡述泊松回歸模型的擬合過程,并探討一些可能出現(xiàn)的問題,我們將使用robust包中Breslow癲癇數(shù)據(jù)。特別地,我們將討論在治療初期的八周內(nèi),抗癲癇藥物對癲癇發(fā)病數(shù)的影響。

我們就遭受輕微或嚴重間歇性癲癇的病人的年齡和癲癇發(fā)病數(shù)收集了數(shù)據(jù),包含病人被隨機分配到藥物組或者安慰劑組前八周和隨機分配后八周兩種情況。響應(yīng)變量sumY(隨機化后八周癲癇發(fā)病數(shù)),預測變量為治療條件(Trt)、年齡(Age)和前八周內(nèi)的基礎(chǔ)癲癇發(fā)病數(shù)(Base)。之所以包含基礎(chǔ)癲癇發(fā)病數(shù)和年齡,是因為它們對響應(yīng)變量有潛在影響。在解釋這些協(xié)變量后,我們感興趣的是藥物治療是否能減少癲癇發(fā)病數(shù)。

首先,看看數(shù)據(jù)集的統(tǒng)計匯總信息:

用R語言做數(shù)據(jù)分析——泊松回歸

注意,雖然數(shù)據(jù)集有12個變量,但是我們只關(guān)注之前描述的四個變量。基礎(chǔ)和隨機化后的癲癇發(fā)病數(shù)都有很高的偏度?,F(xiàn)在,我們更詳細的考察響應(yīng)變量,如下代碼可生成的圖形如下圖所示:

用R語言做數(shù)據(jù)分析——泊松回歸

從上圖可以清楚地看到因變量的偏移特性及可能的離群點。初看圖形,藥物治療下癲癇發(fā)病數(shù)似乎變小了,且方差也變小了(泊松分布中,較小的方差伴隨著較小的均值)。與標準最小二乘回歸不同,泊松分布并不關(guān)注方差異質(zhì)性。

接下來擬合泊松回歸:

用R語言做數(shù)據(jù)分析——泊松回歸

輸出結(jié)果列出了偏差、回歸參數(shù)、標準誤差和參數(shù)為0的檢驗。除以,這里的預測變量在p<>

解釋模型參數(shù)

使用coef()函數(shù)可獲得模型系數(shù),或者調(diào)用summary()函數(shù)的輸出結(jié)果中的Coefficients表格:

用R語言做數(shù)據(jù)分析——泊松回歸

Φ

在泊松回歸中,因變量以條件均值的堆屬性是ln(λ)來建模。年齡的回歸參數(shù)為0.0227,表明保持其他預測變量不變,年齡增加一歲,癲癇發(fā)病數(shù)的對數(shù)平均值將相應(yīng)增加0.03。截距項即當預測變量都為0時,癲癇發(fā)病數(shù)的對數(shù)平均值。由于不可能為0歲,且調(diào)查對象的基礎(chǔ)癲癇發(fā)病數(shù)均不為0,因此截距項沒有任何意義。

通常在因變量的初始尺度(癲癇發(fā)病數(shù)、而非發(fā)病數(shù)的對數(shù))上解釋回歸系數(shù)比較容易。為此,指數(shù)化系數(shù):

用R語言做數(shù)據(jù)分析——泊松回歸

現(xiàn)在可以看到,保持其他變量不變,年齡增加一歲,期望的癲癇發(fā)病數(shù)將乘以1.023。這意味著年齡的增加與較高的癲癇發(fā)病數(shù)相關(guān)聯(lián)。更重要的是,一單位Trt的變化(即從安慰劑到治療組),期望的癲癇發(fā)病數(shù)將乘以0.86,也就是說,保持基礎(chǔ)癲癇發(fā)病數(shù)和年齡不變,服藥組相對于安慰劑組發(fā)病數(shù)降低了20%。

另外需要牢記的是,與Logistic回歸中的指數(shù)化參數(shù)相似,泊松模型中的指數(shù)化參數(shù)對響應(yīng)變量的影響都是成倍增加的,而不是線性相加。同樣,我們還需要評價波形模型的過度離勢。

過度離勢

泊松分布的方差與均值相等。當響應(yīng)變量觀測的方差比一句泊松分布預測的方差大時,泊松回歸可能發(fā)生過度離勢。由于處理計數(shù)型數(shù)據(jù)時經(jīng)常發(fā)生過度離勢,且過度離勢會對結(jié)果的可解釋性造成負面影響,因此我們需要花些時間討論該問題。

可能造成過度離勢的原因有如下幾個:

  • 遺漏了某個重要的預測變量;

  • 可能因為事件相關(guān)。在泊松分布中,計數(shù)中每次時間都被認為是獨立發(fā)生的。以癲癇數(shù)據(jù)為例,這意味著對于任何病人,每次癲癇發(fā)病的概率與其他癲癇發(fā)病的概率相互獨立。但是這個假設(shè)通常都無法滿足。對于某個病人,在已知他已經(jīng)發(fā)生了39次癲癇時,第一次發(fā)生癲癇的概率不可能與第40次發(fā)生癲癇的概率相同。

  • 在縱向數(shù)據(jù)分析中,重復測量的數(shù)據(jù)優(yōu)于內(nèi)在群聚特性可導致過度離勢。

如果存在過度離勢,在模型中我們無法進行解釋,那么可能會得到很小的標準誤和置信區(qū)間,并且顯著性檢驗也過于寬松(也就是說,我們將會發(fā)現(xiàn)并不真實存在的效應(yīng))。

與Logistic回歸類似,此處如果殘差偏差與殘差自由度的比例遠遠大于1,那么表明存在過度離勢。對于癲癇數(shù)據(jù),它的比例為:

用R語言做數(shù)據(jù)分析——泊松回歸

很顯然,比例遠遠大于1。

qcc包提供了一個對泊松回歸過度離勢的檢驗方法,如下代碼進行癲癇數(shù)據(jù)過度離勢的檢驗:

用R語言做數(shù)據(jù)分析——泊松回歸

意料之中,顯著性檢驗的p值果然小于0.05,進一步表明確實存在過度離勢。

通過用family='quasipoisson'替換family='poisson',我們?nèi)匀豢梢允褂胓lm()函數(shù)對該數(shù)據(jù)進行擬合。這與Logistic回歸處理過度離勢的方法是相同的。

用R語言做數(shù)據(jù)分析——泊松回歸

注意,使用類泊松(quasi-Poisson)方法所得的參數(shù)估計與泊松方法相同,但標準誤差大了許多。次數(shù),標準誤差越大將會導致Trt(和Age)的p值越大于0.05。當考慮過度離勢,并控制基礎(chǔ)癲癇數(shù)和年齡時,并沒有充足的證據(jù)表明藥物只來哦相對于使用安慰劑能顯著降低癲癇發(fā)病次數(shù)。

    本站是提供個人知識管理的網(wǎng)絡(luò)存儲空間,所有內(nèi)容均由用戶發(fā)布,不代表本站觀點。請注意甄別內(nèi)容中的聯(lián)系方式、誘導購買等信息,謹防詐騙。如發(fā)現(xiàn)有害或侵權(quán)內(nèi)容,請點擊一鍵舉報。
    轉(zhuǎn)藏 分享 獻花(0

    0條評論

    發(fā)表

    請遵守用戶 評論公約

    類似文章 更多