小男孩‘自慰网亚洲一区二区,亚洲一级在线播放毛片,亚洲中文字幕av每天更新,黄aⅴ永久免费无码,91成人午夜在线精品,色网站免费在线观看,亚洲欧洲wwwww在线观看

分享

一切皆回歸

 taotao_2016 2020-02-20

尋找統(tǒng)計(jì)上的統(tǒng)一范式

一切皆回歸

序幕

我的記憶力很差。

在大學(xué)里,我的初戀是生物學(xué),但由于他們對(duì)記憶的重視,最終我的班級(jí)向我關(guān)上了大門。 我被數(shù)學(xué)吸引了,因?yàn)槲也恍枰涀∪魏螙|西。 在數(shù)學(xué)上,重點(diǎn)是我們?nèi)绾瘟私饽承┲R(shí)。 如果您自己無(wú)法證明結(jié)果,那么您將無(wú)法理解。

由于某些原因,仍然經(jīng)常通過(guò)列出適用于各種情況的測(cè)試來(lái)教授統(tǒng)計(jì)數(shù)據(jù)。 復(fù)雜的流程圖以及更具體的統(tǒng)計(jì)測(cè)試。

一切皆回歸

A statistical flow chart for testing hypothesis about the mean.

這導(dǎo)致統(tǒng)計(jì)測(cè)試的混亂和誤用。 沒(méi)關(guān)系,因?yàn)槲矣幸恍┖孟ⅰ?基本統(tǒng)計(jì)信息可以分為三個(gè)部分:

  • 采樣
  • 置信區(qū)間
  • 回歸

對(duì)于具有數(shù)據(jù)科學(xué)和/或機(jī)器學(xué)習(xí)背景的人來(lái)說(shuō),這是個(gè)好消息。 由于回歸是大多數(shù)機(jī)器學(xué)習(xí)研究的起點(diǎn),因此它意味著您已經(jīng)在進(jìn)行統(tǒng)計(jì)假設(shè)檢驗(yàn)(也許不知道)。 在本文中,我將通過(guò)一些示例說(shuō)明如何從回歸角度考慮常見(jiàn)的統(tǒng)計(jì)檢驗(yàn),從而著重于此的最后一步。

線性回歸快速回顧

在線性回歸中,我們?yōu)樘卣鱴和響應(yīng)變量y之間的關(guān)系建立了線性模型。

一切皆回歸

該模型是統(tǒng)計(jì)模型,因?yàn)榧僭O(shè)ε是隨機(jī)的。

一切皆回歸

The noise term, assumed to be normally distributed in ordinary least squares (OLS)

這是一個(gè)數(shù)學(xué)模型。 這是我們精確指定數(shù)據(jù)集假設(shè)的一種方法。 每當(dāng)我們構(gòu)建模型時(shí),記住著名的引用都是很有用的:

所有模型都是錯(cuò)誤的,但有些模型很有用。 —喬治·沃克斯

模型是對(duì)現(xiàn)實(shí)世界復(fù)雜性的抽象和簡(jiǎn)化。 由于它們是一種簡(jiǎn)化,因此它們始終是錯(cuò)誤的,但是它們可能會(huì)捕獲一些重要的想法。

舉例來(lái)說(shuō),我們考慮一下1991年至2018年間帶有NBA選秀權(quán)的數(shù)據(jù)集(您可以從我的網(wǎng)站下載該數(shù)據(jù)集)。 我們可能會(huì)看選秀次數(shù)和平均每場(chǎng)職業(yè)得分之間的關(guān)系。 在下面的散點(diǎn)圖中顯示了這一點(diǎn),同時(shí)顯示了與數(shù)據(jù)的最佳擬合回歸線。

一切皆回歸

Linear Regression on the NBA draft picks and their career PPG average for 737 draft picks from 1991–2018. Note the points have been randomly jittered to avoid overlaps on the scatter plots

最佳擬合回歸線如下:

一切皆回歸

Best fit linear regression model

通常通過(guò)最小化殘差平方來(lái)找到最適合線性回歸的方法。

一切皆回歸

LS cost function for N data points.

在這里,我將不討論成本函數(shù)的實(shí)際最小化。 可以說(shuō),我們可以使用線性代數(shù)的一些技巧,很快找到此成本函數(shù)的全局最小值。 這為我們提供了一些最佳的坡度和截距擬合參數(shù)。

分類變量的回歸

我們還可以對(duì)本質(zhì)上屬于分類的特征執(zhí)行回歸。 這里的竅門是對(duì)分類變量進(jìn)行所謂的熱編碼。 想法是將分類級(jí)別轉(zhuǎn)換為指標(biāo)變量(δ)。 如果輸入屬于其指定級(jí)別,則這些δ將為1,否則為零。

例如,對(duì)于' NBA選秀'數(shù)據(jù),讓我們將'簽到號(hào)碼'列分為'彩票簽'(≤14)和'非彩票簽'(NL)。

一切皆回歸

然后,我們可以尋找這兩組玩家的平均每局得分差異。

一切皆回歸

Encoded regression model. δ is zero if not a lottery pick and one otherwise.

這是此數(shù)據(jù)的圖,其中顯示了回歸線。

一切皆回歸

現(xiàn)在,斜率項(xiàng)β給出了非彩票選擇(x = 0)和彩票選擇(x = 1)之間每場(chǎng)比賽的平均得分之差。 這里的輕微上升趨勢(shì)表明,我們有一些證據(jù)表明,樂(lè)透彩票在他們的職業(yè)生涯中趨向于平均得分更高。

當(dāng)然,這種趨勢(shì)是基于對(duì)玩家的隨機(jī)抽樣得出的,因此,如果我們收集新的樣本,這種上升趨勢(shì)可能會(huì)消失。 為了解決由于隨機(jī)采樣而引起的這種變化,我們可以形成斜率的置信區(qū)間。

對(duì)于上面的彩票選擇示例,我們?yōu)閰?shù)找到以下95%的置信區(qū)間:

β∈(3.48,4.78)

α∈(6.65,7.57)

這告訴我們,職業(yè)生涯PPG彩票簽到非彩票簽的平均差很可能在3.48和4.78之間。 這使我們對(duì)效果的方向(正)和效果的大?。?.5-4.8點(diǎn))都有一個(gè)了解。

我們可以看到該斜率的間隔不包含零。 這告訴我們,如果我們重新采樣數(shù)據(jù),我們不太可能看到這種趨勢(shì)的逆轉(zhuǎn)。 如果我們將置信度從95%提高到說(shuō)99%,我們將看到間隔寬度將增加。 為了減少錯(cuò)誤,我們需要更大范圍的值。

現(xiàn)在,我們可以玩增加(100-p)%置信區(qū)間的游戲,直到該區(qū)間在左側(cè)剛剛達(dá)到0為止。 該值稱為p值。

一切皆回歸

The p-value for the null hypothesis that the slope is zero can be found by steadily increasing the width of the CI until it touches the null hypothesis region.

如果Null假設(shè)為真(即H(:β= 0),則P值賦予P(D |H?)觀察數(shù)據(jù)的可能性。

兩次樣本t檢驗(yàn)

在某些情況下,我們可能只關(guān)心效果的方向,而不關(guān)心效果的大小。 這屬于統(tǒng)計(jì)檢驗(yàn)的范疇,稱為二樣本t檢驗(yàn)。 在基礎(chǔ)統(tǒng)計(jì)學(xué)課程中,我們被教導(dǎo)使用兩個(gè)樣本的t檢驗(yàn)來(lái)評(píng)估在兩種條件下收集的數(shù)據(jù),以證明平均值存在差異。 這是經(jīng)典的對(duì)照組與實(shí)驗(yàn)組。

一切皆回歸

為了在R中執(zhí)行此測(cè)試,我首先要從相當(dāng)大的草稿數(shù)據(jù)集中制作一個(gè)較小的數(shù)據(jù)集。 下面的命令只是生成100個(gè)玩家的隨機(jī)子集供我們比較。 我還為數(shù)據(jù)集創(chuàng)建了一個(gè)彩票欄,以供參考。

一切皆回歸

Setting up our two groups for a two sample t test. Use the seed so you could get the same values as me.

現(xiàn)在我們準(zhǔn)備在R中運(yùn)行t檢驗(yàn)。

一切皆回歸

We ran a two sample t-test to look for a difference in the mean career points per game average between Lottery and Non Lottery picks in the NBA.

現(xiàn)在注意結(jié)果中的p值。 在此,相對(duì)較小的值表示在給出零假設(shè)的情況下不太可能獲得數(shù)據(jù)。

現(xiàn)在,將其作為具有分類特征的線性回歸進(jìn)行。

一切皆回歸

在這里,我將為簡(jiǎn)單的線性回歸顯示R中的summary命令的結(jié)果。

一切皆回歸

我強(qiáng)調(diào)了重要的一面。 將此與我們使用兩個(gè)樣本t檢驗(yàn)發(fā)現(xiàn)的結(jié)果進(jìn)行比較。 t值(直到符號(hào))和p值相同!

另外,在查看R中的回歸摘要時(shí),請(qǐng)注意,摘要的最后一行重復(fù)了相同的p值。 這是在整個(gè)回歸模型上進(jìn)行F檢驗(yàn)的結(jié)果。

該測(cè)試告訴我們模型中的任何特征是否以統(tǒng)計(jì)上顯著的方式偏離零。 當(dāng)然,在這種簡(jiǎn)單情況下,我們只有一個(gè)功能,因此模型上的F檢驗(yàn)和彩票功能上的t檢驗(yàn)是完全一樣的。 在多元回歸(一個(gè)以上的特征)中,這些將有所不同。

方差分析和多元回歸

假設(shè)我們要評(píng)估球員排名對(duì)其職業(yè)平均得分的影響。 首先,我們應(yīng)該清理數(shù)據(jù)集中的位置列的級(jí)別。

一切皆回歸

Using the forcats package in R to clean up the levels of the Position(Pos) column. Here we merge some categories together to get just C,F,G as the positions.

然后,我們可以按職位繪制職位職業(yè)得分的圖:

一切皆回歸

Box plot of the effect of position on career scoring numbers for our sample of nba players.

我們可能想知道這些組的均值是否真的不同,或者觀察到的差異是否也可以通過(guò)抽樣誤差來(lái)解釋。 在經(jīng)典統(tǒng)計(jì)中,我們會(huì)說(shuō)我們要進(jìn)行單向方差分析(方差分析)。 這可以在R中輕松完成:

一切皆回歸

ANOVA in R, notice the p-value is given on the far right p=0.0813.

現(xiàn)在我們也可以將此作為回歸。 我們的回歸模型具有以下形式:

一切皆回歸

現(xiàn)在,alpha截距值告訴我們中心的平均值,兩個(gè)斜率告訴我們相對(duì)于中心值的點(diǎn)。

這一切都在R的后臺(tái)完成。這是輸出:

一切皆回歸

將回歸輸出中的最后一行(F檢驗(yàn))與ANOVA輸出進(jìn)行比較。 我們?cè)俅慰吹较嗤慕Y(jié)果!

這告訴我們一種方法,方差分析只是具有分類特征的線性回歸模型,具有兩個(gè)以上的層次。 所使用的檢驗(yàn)具有零假設(shè),即所有斜率均為零。

兩向方差分析

通過(guò)兩種方差分析,我們使用兩個(gè)分類特征來(lái)預(yù)測(cè)連續(xù)響應(yīng)變量。

讓我們使用Tm(起草小組)和Pos(位置)列處理草稿數(shù)據(jù)集。 雙向方差分析需要更多數(shù)據(jù)來(lái)擬合模型,因此我們將使用完整數(shù)據(jù)集而不是精簡(jiǎn)數(shù)據(jù)集。 首先,我運(yùn)行下面的兩個(gè)命令來(lái)清理兩個(gè)分類功能級(jí)別。

一切皆回歸

Clean-up the team and position columns for the entire draft data set. These are using the forcats package

在這種情況下,我們的線性模型采用以下形式:

一切皆回歸

第一個(gè)總和是虛擬編碼的團(tuán)隊(duì)變量,第二個(gè)是職位類別。 所有這些都很好地在R中完成。要執(zhí)行分析,我們可以使用以下方法建立線性模型:

一切皆回歸

Build a two-way ANOVA linear model

唯一的變化是我們應(yīng)該在模型上使用anova()命令,而不是通常的summary()。 這將顯示以下結(jié)果:

一切皆回歸

這兩行告訴我們,我們有證據(jù)表明職位對(duì)職業(yè)分?jǐn)?shù)很重要,但是我們沒(méi)有足夠的證據(jù)得出團(tuán)隊(duì)重要的結(jié)論。 您現(xiàn)在可能會(huì)看到如何使用多元回歸執(zhí)行N向ANOVA。

ANCOVA分析

如果我們?cè)诨貧w中添加連續(xù)特征,則現(xiàn)在會(huì)使用另一個(gè)名稱(ANCOVA =協(xié)方差分析)。 這樣做的動(dòng)機(jī)可能是因?yàn)槲覀円呀?jīng)看到位置對(duì)NBA球員來(lái)說(shuō)至關(guān)重要,但這可能僅僅是因?yàn)槟承┪恢蒙系纳蠄?chǎng)時(shí)間比其他位置上的要多。

通過(guò)將其作為模型中的一項(xiàng)功能,我們可以控制上場(chǎng)時(shí)間的效果。 首先,我將重新縮放分鐘數(shù)列(MP),以使平均值為零且標(biāo)準(zhǔn)差設(shè)置為1。 這樣做的動(dòng)機(jī)是,否則我們?cè)诰€性模型中的截取實(shí)際上是無(wú)用的,因?yàn)檫@會(huì)給平均每場(chǎng)0分鐘的中鋒提供職業(yè)PPG。 現(xiàn)在,截距將解釋一個(gè)平均每場(chǎng)比賽上場(chǎng)時(shí)間的中鋒的平均PPG。 也許是一口,但更有意義。

一切皆回歸

Scale the minutes played column

這是繪制的分鐘數(shù)與每場(chǎng)比賽的積分之間的關(guān)系圖,位置以顏色顯示。

一切皆回歸

現(xiàn)在,我們建立線性模型:

一切皆回歸

這將產(chǎn)生以下結(jié)果:

一切皆回歸

第一行告訴我們,即使控制了上場(chǎng)時(shí)間,該職位對(duì)職業(yè)PPG也有統(tǒng)計(jì)學(xué)上的顯著影響。

比例和GLM

我們還可以將其他基本統(tǒng)計(jì)程序表述為回歸。 但是,我們將需要利用所謂的廣義線性模型(GLM)進(jìn)行更深入的研究。

首先,我將生成一個(gè)供我們使用的偽數(shù)據(jù)集。 下面的命令創(chuàng)建一個(gè)R數(shù)據(jù)框,用于存儲(chǔ)一個(gè)假想比賽的罰球結(jié)果和球員姓名,其中,運(yùn)動(dòng)員A和B均獲得100次罰球。

一切皆回歸

玩家B的投籃命中率僅為77%,而玩家A的投籃率則為80%,盡管這有抽樣誤差。 我們可以在R中使用table命令查看隨機(jī)繪制的結(jié)果:

一切皆回歸

在這里,我們可能要執(zhí)行兩個(gè)樣本的比例檢驗(yàn),以檢驗(yàn)兩個(gè)參與者之間百分比不同的假設(shè)。

一切皆回歸

可以使用prop.test命令在R中完成。

一切皆回歸

Results of running a two-tailed prop test in R. Here we simply test using the null hypothesis that the two proportions are equal. This could also be done as a χ2 test with the same p-value.

現(xiàn)在使用回歸方法。 如上所述,由于我們的響應(yīng)變量不再是連續(xù)的,因此我們需要調(diào)整回歸以處理二進(jìn)制輸出。 確實(shí),我們希望我們的模型產(chǎn)生概率p?

這可以使用邏輯回歸完成。 我們通常的回歸采用以下形式:

一切皆回歸

在邏輯回歸中,在給定X?特征的情況下,我們的輸出Y?應(yīng)該給出Y?取值為1的概率。 如前所述,我們有一個(gè)問(wèn)題,因?yàn)樯鲜瞿P偷挠沂謧?cè)將產(chǎn)生?=(-∞,∞)的值,而左手側(cè)將處于[0,1]。

因此,要使用這樣的模型,我們需要將輸出從[0,1]轉(zhuǎn)換為整個(gè)實(shí)線?。 logit函數(shù)為此用途,因?yàn)樗成淞薼ogit:[0,1]→?。

一切皆回歸

因此,如果將輸出視為由logit函數(shù)Y function = logit(p?)產(chǎn)生,則可以使用多元回歸技術(shù)。 這是邏輯回歸的基本思想:

一切皆回歸

最后,我們可以反轉(zhuǎn)logit函數(shù)以獲得實(shí)際概率:

一切皆回歸

logit?1:?→[0,1]由下式給出:

一切皆回歸

邏輯回歸是稱為廣義線性模型(GLM)的一系列技術(shù)中的一個(gè)示例。 GLM包含線性預(yù)測(cè)器函數(shù)α+ ∑β?X??和鏈接函數(shù)g(),該函數(shù)將線性預(yù)測(cè)器映射到響應(yīng)變量。

一切皆回歸

這在R中非常容易實(shí)現(xiàn)。我們只需將lm()函數(shù)更改為glm()并指定要使用的鏈接函數(shù)。

一切皆回歸

Using logistic regression and model comparison to perform a two sample proportion test. Notice this the p-values match our results from above.

在上述情況下,我們實(shí)際上擬合了兩個(gè)邏輯回歸。 第一個(gè)是我們實(shí)際上要構(gòu)建的模型,第二個(gè)是兩個(gè)樣本比例檢驗(yàn)的原假設(shè)的等效項(xiàng)。 通過(guò)僅設(shè)置截距(上述為?1),我們說(shuō)兩個(gè)球員的罰球百分比必須相同。

然后,我們使用anova()函數(shù)將我們的模型與原假設(shè)模型進(jìn)行比較。 我還指定了方差分析應(yīng)使用似然比檢驗(yàn)(LRT)。 當(dāng)然,通常需要注意的是,p值與上面的比例測(cè)試相同。

另外,此示例向我們展示了如何使用回歸模型和anova命令進(jìn)行模型選擇。 確實(shí),我們一直在做這件事,因?yàn)榱慵僭O(shè)一直是一個(gè)模型-我們之前在anova命令中不必指定它。 這也向我們展示了如何開(kāi)始將我們的模型與更復(fù)雜的空模型進(jìn)行比較。

通過(guò)模型選擇,我們可以比較模型并超越普通的空模型。

為什么這很重要

下面顯示了數(shù)學(xué)模型自然發(fā)展的超級(jí)幻想圖:

一切皆回歸

RIP Model. Let this be a warning to you Deep Learning!

當(dāng)我們被迫將統(tǒng)計(jì)測(cè)試識(shí)別為數(shù)學(xué)模型時(shí),它將假設(shè)推到了最前沿。 希望這可以使我們停留在模型生命周期的前兩個(gè)階段更長(zhǎng)的時(shí)間。 同樣,這意味著我們可以停止記住一些統(tǒng)計(jì)測(cè)試。

停止記憶并開(kāi)始構(gòu)建模型

如果您想繼續(xù)學(xué)習(xí)該主題,強(qiáng)烈建議您訪問(wèn)JonasLindel?v的網(wǎng)站。 對(duì)于這方面的教科書(shū),我建議進(jìn)行統(tǒng)計(jì)反思。 對(duì)于基礎(chǔ)統(tǒng)計(jì)閱讀,我喜歡所有統(tǒng)計(jì)。 對(duì)于一些更高級(jí)的回歸分析,我建議看一下Gelman和Hill。

(本文翻譯自Kevin Hannay的文章《Everything is a Regression》,參考:https:///everything-is-just-a-regression-5a3bf22c459c)

    本站是提供個(gè)人知識(shí)管理的網(wǎng)絡(luò)存儲(chǔ)空間,所有內(nèi)容均由用戶發(fā)布,不代表本站觀點(diǎn)。請(qǐng)注意甄別內(nèi)容中的聯(lián)系方式、誘導(dǎo)購(gòu)買等信息,謹(jǐn)防詐騙。如發(fā)現(xiàn)有害或侵權(quán)內(nèi)容,請(qǐng)點(diǎn)擊一鍵舉報(bào)。
    轉(zhuǎn)藏 分享 獻(xiàn)花(0

    0條評(píng)論

    發(fā)表

    請(qǐng)遵守用戶 評(píng)論公約

    類似文章 更多