尋找統(tǒng)計(jì)上的統(tǒng)一范式 序幕我的記憶力很差。 在大學(xué)里,我的初戀是生物學(xué),但由于他們對(duì)記憶的重視,最終我的班級(jí)向我關(guān)上了大門。 我被數(shù)學(xué)吸引了,因?yàn)槲也恍枰涀∪魏螙|西。 在數(shù)學(xué)上,重點(diǎn)是我們?nèi)绾瘟私饽承┲R(shí)。 如果您自己無(wú)法證明結(jié)果,那么您將無(wú)法理解。 由于某些原因,仍然經(jīng)常通過(guò)列出適用于各種情況的測(cè)試來(lái)教授統(tǒng)計(jì)數(shù)據(jù)。 復(fù)雜的流程圖以及更具體的統(tǒng)計(jì)測(cè)試。 A statistical flow chart for testing hypothesis about the mean. 這導(dǎo)致統(tǒng)計(jì)測(cè)試的混亂和誤用。 沒(méi)關(guān)系,因?yàn)槲矣幸恍┖孟ⅰ?基本統(tǒng)計(jì)信息可以分為三個(gè)部分:
對(duì)于具有數(shù)據(jù)科學(xué)和/或機(jī)器學(xué)習(xí)背景的人來(lái)說(shuō),這是個(gè)好消息。 由于回歸是大多數(shù)機(jī)器學(xué)習(xí)研究的起點(diǎn),因此它意味著您已經(jīng)在進(jìn)行統(tǒng)計(jì)假設(shè)檢驗(yàn)(也許不知道)。 在本文中,我將通過(guò)一些示例說(shuō)明如何從回歸角度考慮常見(jiàn)的統(tǒng)計(jì)檢驗(yàn),從而著重于此的最后一步。 線性回歸快速回顧在線性回歸中,我們?yōu)樘卣鱴和響應(yīng)變量y之間的關(guān)系建立了線性模型。 該模型是統(tǒng)計(jì)模型,因?yàn)榧僭O(shè)ε是隨機(jī)的。 The noise term, assumed to be normally distributed in ordinary least squares (OLS) 這是一個(gè)數(shù)學(xué)模型。 這是我們精確指定數(shù)據(jù)集假設(shè)的一種方法。 每當(dāng)我們構(gòu)建模型時(shí),記住著名的引用都是很有用的:
模型是對(duì)現(xiàn)實(shí)世界復(fù)雜性的抽象和簡(jiǎn)化。 由于它們是一種簡(jiǎn)化,因此它們始終是錯(cuò)誤的,但是它們可能會(huì)捕獲一些重要的想法。 舉例來(lái)說(shuō),我們考慮一下1991年至2018年間帶有NBA選秀權(quán)的數(shù)據(jù)集(您可以從我的網(wǎng)站下載該數(shù)據(jù)集)。 我們可能會(huì)看選秀次數(shù)和平均每場(chǎng)職業(yè)得分之間的關(guān)系。 在下面的散點(diǎn)圖中顯示了這一點(diǎn),同時(shí)顯示了與數(shù)據(jù)的最佳擬合回歸線。
最佳擬合回歸線如下: Best fit linear regression model 通常通過(guò)最小化殘差平方來(lái)找到最適合線性回歸的方法。 LS cost function for N data points. 在這里,我將不討論成本函數(shù)的實(shí)際最小化。 可以說(shuō),我們可以使用線性代數(shù)的一些技巧,很快找到此成本函數(shù)的全局最小值。 這為我們提供了一些最佳的坡度和截距擬合參數(shù)。 分類變量的回歸我們還可以對(duì)本質(zhì)上屬于分類的特征執(zhí)行回歸。 這里的竅門是對(duì)分類變量進(jìn)行所謂的熱編碼。 想法是將分類級(jí)別轉(zhuǎn)換為指標(biāo)變量(δ)。 如果輸入屬于其指定級(jí)別,則這些δ將為1,否則為零。 例如,對(duì)于' NBA選秀'數(shù)據(jù),讓我們將'簽到號(hào)碼'列分為'彩票簽'(≤14)和'非彩票簽'(NL)。 然后,我們可以尋找這兩組玩家的平均每局得分差異。 Encoded regression model. δ is zero if not a lottery pick and one otherwise. 這是此數(shù)據(jù)的圖,其中顯示了回歸線。 現(xiàn)在,斜率項(xiàng)β給出了非彩票選擇(x = 0)和彩票選擇(x = 1)之間每場(chǎng)比賽的平均得分之差。 這里的輕微上升趨勢(shì)表明,我們有一些證據(jù)表明,樂(lè)透彩票在他們的職業(yè)生涯中趨向于平均得分更高。 當(dāng)然,這種趨勢(shì)是基于對(duì)玩家的隨機(jī)抽樣得出的,因此,如果我們收集新的樣本,這種上升趨勢(shì)可能會(huì)消失。 為了解決由于隨機(jī)采樣而引起的這種變化,我們可以形成斜率的置信區(qū)間。 對(duì)于上面的彩票選擇示例,我們?yōu)閰?shù)找到以下95%的置信區(qū)間: β∈(3.48,4.78) α∈(6.65,7.57) 這告訴我們,職業(yè)生涯PPG彩票簽到非彩票簽的平均差很可能在3.48和4.78之間。 這使我們對(duì)效果的方向(正)和效果的大?。?.5-4.8點(diǎn))都有一個(gè)了解。 我們可以看到該斜率的間隔不包含零。 這告訴我們,如果我們重新采樣數(shù)據(jù),我們不太可能看到這種趨勢(shì)的逆轉(zhuǎn)。 如果我們將置信度從95%提高到說(shuō)99%,我們將看到間隔寬度將增加。 為了減少錯(cuò)誤,我們需要更大范圍的值。 現(xiàn)在,我們可以玩增加(100-p)%置信區(qū)間的游戲,直到該區(qū)間在左側(cè)剛剛達(dá)到0為止。 該值稱為p值。
如果Null假設(shè)為真(即H(:β= 0),則P值賦予P(D |H?)觀察數(shù)據(jù)的可能性。 兩次樣本t檢驗(yàn)在某些情況下,我們可能只關(guān)心效果的方向,而不關(guān)心效果的大小。 這屬于統(tǒng)計(jì)檢驗(yàn)的范疇,稱為二樣本t檢驗(yàn)。 在基礎(chǔ)統(tǒng)計(jì)學(xué)課程中,我們被教導(dǎo)使用兩個(gè)樣本的t檢驗(yàn)來(lái)評(píng)估在兩種條件下收集的數(shù)據(jù),以證明平均值存在差異。 這是經(jīng)典的對(duì)照組與實(shí)驗(yàn)組。 為了在R中執(zhí)行此測(cè)試,我首先要從相當(dāng)大的草稿數(shù)據(jù)集中制作一個(gè)較小的數(shù)據(jù)集。 下面的命令只是生成100個(gè)玩家的隨機(jī)子集供我們比較。 我還為數(shù)據(jù)集創(chuàng)建了一個(gè)彩票欄,以供參考。
現(xiàn)在我們準(zhǔn)備在R中運(yùn)行t檢驗(yàn)。
現(xiàn)在注意結(jié)果中的p值。 在此,相對(duì)較小的值表示在給出零假設(shè)的情況下不太可能獲得數(shù)據(jù)。 現(xiàn)在,將其作為具有分類特征的線性回歸進(jìn)行。 在這里,我將為簡(jiǎn)單的線性回歸顯示R中的summary命令的結(jié)果。 我強(qiáng)調(diào)了重要的一面。 將此與我們使用兩個(gè)樣本t檢驗(yàn)發(fā)現(xiàn)的結(jié)果進(jìn)行比較。 t值(直到符號(hào))和p值相同! 另外,在查看R中的回歸摘要時(shí),請(qǐng)注意,摘要的最后一行重復(fù)了相同的p值。 這是在整個(gè)回歸模型上進(jìn)行F檢驗(yàn)的結(jié)果。 該測(cè)試告訴我們模型中的任何特征是否以統(tǒng)計(jì)上顯著的方式偏離零。 當(dāng)然,在這種簡(jiǎn)單情況下,我們只有一個(gè)功能,因此模型上的F檢驗(yàn)和彩票功能上的t檢驗(yàn)是完全一樣的。 在多元回歸(一個(gè)以上的特征)中,這些將有所不同。 方差分析和多元回歸假設(shè)我們要評(píng)估球員排名對(duì)其職業(yè)平均得分的影響。 首先,我們應(yīng)該清理數(shù)據(jù)集中的位置列的級(jí)別。
然后,我們可以按職位繪制職位職業(yè)得分的圖: Box plot of the effect of position on career scoring numbers for our sample of nba players. 我們可能想知道這些組的均值是否真的不同,或者觀察到的差異是否也可以通過(guò)抽樣誤差來(lái)解釋。 在經(jīng)典統(tǒng)計(jì)中,我們會(huì)說(shuō)我們要進(jìn)行單向方差分析(方差分析)。 這可以在R中輕松完成: ANOVA in R, notice the p-value is given on the far right p=0.0813. 現(xiàn)在我們也可以將此作為回歸。 我們的回歸模型具有以下形式: 現(xiàn)在,alpha截距值告訴我們中心的平均值,兩個(gè)斜率告訴我們相對(duì)于中心值的點(diǎn)。 這一切都在R的后臺(tái)完成。這是輸出: 將回歸輸出中的最后一行(F檢驗(yàn))與ANOVA輸出進(jìn)行比較。 我們?cè)俅慰吹较嗤慕Y(jié)果! 這告訴我們一種方法,方差分析只是具有分類特征的線性回歸模型,具有兩個(gè)以上的層次。 所使用的檢驗(yàn)具有零假設(shè),即所有斜率均為零。 兩向方差分析通過(guò)兩種方差分析,我們使用兩個(gè)分類特征來(lái)預(yù)測(cè)連續(xù)響應(yīng)變量。 讓我們使用Tm(起草小組)和Pos(位置)列處理草稿數(shù)據(jù)集。 雙向方差分析需要更多數(shù)據(jù)來(lái)擬合模型,因此我們將使用完整數(shù)據(jù)集而不是精簡(jiǎn)數(shù)據(jù)集。 首先,我運(yùn)行下面的兩個(gè)命令來(lái)清理兩個(gè)分類功能級(jí)別。
在這種情況下,我們的線性模型采用以下形式: 第一個(gè)總和是虛擬編碼的團(tuán)隊(duì)變量,第二個(gè)是職位類別。 所有這些都很好地在R中完成。要執(zhí)行分析,我們可以使用以下方法建立線性模型: Build a two-way ANOVA linear model 唯一的變化是我們應(yīng)該在模型上使用anova()命令,而不是通常的summary()。 這將顯示以下結(jié)果: 這兩行告訴我們,我們有證據(jù)表明職位對(duì)職業(yè)分?jǐn)?shù)很重要,但是我們沒(méi)有足夠的證據(jù)得出團(tuán)隊(duì)重要的結(jié)論。 您現(xiàn)在可能會(huì)看到如何使用多元回歸執(zhí)行N向ANOVA。 ANCOVA分析如果我們?cè)诨貧w中添加連續(xù)特征,則現(xiàn)在會(huì)使用另一個(gè)名稱(ANCOVA =協(xié)方差分析)。 這樣做的動(dòng)機(jī)可能是因?yàn)槲覀円呀?jīng)看到位置對(duì)NBA球員來(lái)說(shuō)至關(guān)重要,但這可能僅僅是因?yàn)槟承┪恢蒙系纳蠄?chǎng)時(shí)間比其他位置上的要多。 通過(guò)將其作為模型中的一項(xiàng)功能,我們可以控制上場(chǎng)時(shí)間的效果。 首先,我將重新縮放分鐘數(shù)列(MP),以使平均值為零且標(biāo)準(zhǔn)差設(shè)置為1。 這樣做的動(dòng)機(jī)是,否則我們?cè)诰€性模型中的截取實(shí)際上是無(wú)用的,因?yàn)檫@會(huì)給平均每場(chǎng)0分鐘的中鋒提供職業(yè)PPG。 現(xiàn)在,截距將解釋一個(gè)平均每場(chǎng)比賽上場(chǎng)時(shí)間的中鋒的平均PPG。 也許是一口,但更有意義。 Scale the minutes played column 這是繪制的分鐘數(shù)與每場(chǎng)比賽的積分之間的關(guān)系圖,位置以顏色顯示。 現(xiàn)在,我們建立線性模型: 這將產(chǎn)生以下結(jié)果: 第一行告訴我們,即使控制了上場(chǎng)時(shí)間,該職位對(duì)職業(yè)PPG也有統(tǒng)計(jì)學(xué)上的顯著影響。 比例和GLM我們還可以將其他基本統(tǒng)計(jì)程序表述為回歸。 但是,我們將需要利用所謂的廣義線性模型(GLM)進(jìn)行更深入的研究。 首先,我將生成一個(gè)供我們使用的偽數(shù)據(jù)集。 下面的命令創(chuàng)建一個(gè)R數(shù)據(jù)框,用于存儲(chǔ)一個(gè)假想比賽的罰球結(jié)果和球員姓名,其中,運(yùn)動(dòng)員A和B均獲得100次罰球。 玩家B的投籃命中率僅為77%,而玩家A的投籃率則為80%,盡管這有抽樣誤差。 我們可以在R中使用table命令查看隨機(jī)繪制的結(jié)果: 在這里,我們可能要執(zhí)行兩個(gè)樣本的比例檢驗(yàn),以檢驗(yàn)兩個(gè)參與者之間百分比不同的假設(shè)。 可以使用prop.test命令在R中完成。
現(xiàn)在使用回歸方法。 如上所述,由于我們的響應(yīng)變量不再是連續(xù)的,因此我們需要調(diào)整回歸以處理二進(jìn)制輸出。 確實(shí),我們希望我們的模型產(chǎn)生概率p? 這可以使用邏輯回歸完成。 我們通常的回歸采用以下形式: 在邏輯回歸中,在給定X?特征的情況下,我們的輸出Y?應(yīng)該給出Y?取值為1的概率。 如前所述,我們有一個(gè)問(wèn)題,因?yàn)樯鲜瞿P偷挠沂謧?cè)將產(chǎn)生?=(-∞,∞)的值,而左手側(cè)將處于[0,1]。 因此,要使用這樣的模型,我們需要將輸出從[0,1]轉(zhuǎn)換為整個(gè)實(shí)線?。 logit函數(shù)為此用途,因?yàn)樗成淞薼ogit:[0,1]→?。 因此,如果將輸出視為由logit函數(shù)Y function = logit(p?)產(chǎn)生,則可以使用多元回歸技術(shù)。 這是邏輯回歸的基本思想: 最后,我們可以反轉(zhuǎn)logit函數(shù)以獲得實(shí)際概率: logit?1:?→[0,1]由下式給出: 邏輯回歸是稱為廣義線性模型(GLM)的一系列技術(shù)中的一個(gè)示例。 GLM包含線性預(yù)測(cè)器函數(shù)α+ ∑β?X??和鏈接函數(shù)g(),該函數(shù)將線性預(yù)測(cè)器映射到響應(yīng)變量。 這在R中非常容易實(shí)現(xiàn)。我們只需將lm()函數(shù)更改為glm()并指定要使用的鏈接函數(shù)。
在上述情況下,我們實(shí)際上擬合了兩個(gè)邏輯回歸。 第一個(gè)是我們實(shí)際上要構(gòu)建的模型,第二個(gè)是兩個(gè)樣本比例檢驗(yàn)的原假設(shè)的等效項(xiàng)。 通過(guò)僅設(shè)置截距(上述為?1),我們說(shuō)兩個(gè)球員的罰球百分比必須相同。 然后,我們使用anova()函數(shù)將我們的模型與原假設(shè)模型進(jìn)行比較。 我還指定了方差分析應(yīng)使用似然比檢驗(yàn)(LRT)。 當(dāng)然,通常需要注意的是,p值與上面的比例測(cè)試相同。 另外,此示例向我們展示了如何使用回歸模型和anova命令進(jìn)行模型選擇。 確實(shí),我們一直在做這件事,因?yàn)榱慵僭O(shè)一直是一個(gè)模型-我們之前在anova命令中不必指定它。 這也向我們展示了如何開(kāi)始將我們的模型與更復(fù)雜的空模型進(jìn)行比較。 通過(guò)模型選擇,我們可以比較模型并超越普通的空模型。 為什么這很重要下面顯示了數(shù)學(xué)模型自然發(fā)展的超級(jí)幻想圖: RIP Model. Let this be a warning to you Deep Learning! 當(dāng)我們被迫將統(tǒng)計(jì)測(cè)試識(shí)別為數(shù)學(xué)模型時(shí),它將假設(shè)推到了最前沿。 希望這可以使我們停留在模型生命周期的前兩個(gè)階段更長(zhǎng)的時(shí)間。 同樣,這意味著我們可以停止記住一些統(tǒng)計(jì)測(cè)試。 停止記憶并開(kāi)始構(gòu)建模型 如果您想繼續(xù)學(xué)習(xí)該主題,強(qiáng)烈建議您訪問(wèn)JonasLindel?v的網(wǎng)站。 對(duì)于這方面的教科書(shū),我建議進(jìn)行統(tǒng)計(jì)反思。 對(duì)于基礎(chǔ)統(tǒng)計(jì)閱讀,我喜歡所有統(tǒng)計(jì)。 對(duì)于一些更高級(jí)的回歸分析,我建議看一下Gelman和Hill。 (本文翻譯自Kevin Hannay的文章《Everything is a Regression》,參考:https:///everything-is-just-a-regression-5a3bf22c459c) |
|
來(lái)自: taotao_2016 > 《it》