在機器學(xué)習(xí)的世界中,準(zhǔn)確性是至關(guān)重要的。您努力通過調(diào)整和優(yōu)化參數(shù)使模型更加準(zhǔn)確,但始終無法使其達(dá)到100%的準(zhǔn)確性。這就是關(guān)于您的預(yù)測/分類模型的殘酷現(xiàn)實,它們永遠(yuǎn)無法是零誤差的。在本文中,我將討論為什么會發(fā)生這種情況以及其他可以減少誤差的方法。 假設(shè)我們觀察到一個響應(yīng)變量 Y(定性或定量)和輸入變量 X 具有 p 個特征或列(X1、X2.....Xp),我們假設(shè)它們之間存在關(guān)系。這種關(guān)系可以表示為 在這里,f 是一些固定但未知的 X1,…,Xp 的函數(shù),e 是一個隨機誤差項,它與 X 獨立,并且平均為零。在這個公式中,f 代表 X 關(guān)于 Y 提供的系統(tǒng)信息。對這種關(guān)系或 f(X) 的估計被稱為統(tǒng)計學(xué)習(xí)。 一般來說,我們不能對 f(X) 進(jìn)行完美估計,這導(dǎo)致產(chǎn)生一個錯誤項,稱為可減少誤差。通過更準(zhǔn)確地估計 f(X) 從而減少可減少誤差來提高模型的準(zhǔn)確性。但是,即使我們對 f(X) 進(jìn)行了100%準(zhǔn)確的估計,我們的模型也不會是無誤差的,這被稱為不可減少誤差(在上述方程中的 e)。 換句話說,不可減少誤差可以看作是 X 無法提供關(guān)于 Y 的信息。損失量 e 可能包含未測量的對預(yù)測 Y 有用的變量:由于我們不測量它們,f 無法用于預(yù)測。損失量 e 也可能包含不可測量的變化。例如,對于給定的患者在給定的一天,不良反應(yīng)的風(fēng)險可能會因藥物本身的制造變異或患者在當(dāng)天的一般感覺良好程度而有所不同。 這樣的邊界情況存在于每個問題中,它們引入的誤差是不可減少的,因為通常它們不存在于訓(xùn)練數(shù)據(jù)中。我們無法對此做任何事情。我們能做的是減少其他形式的錯誤,以獲得 f(X) 的近乎完美的估計。但首先讓我們看看機器學(xué)習(xí)中的其他重要概念,這些概念您需要了解,以便進(jìn)一步學(xué)習(xí)。 模型復(fù)雜度從數(shù)據(jù)集中學(xué)習(xí)時,輸入和響應(yīng)變量之間的關(guān)系 f(X) 的復(fù)雜性是需要考慮的一個重要因素。簡單的關(guān)系易于解釋。例如,一個線性模型看起來像這樣: 從這個關(guān)系中推斷信息是很容易的,而且它清楚地告訴了一個特定特征如何影響響應(yīng)變量。這樣的模型屬于限制性模型的范疇,因為它們只能采用特定形式,比如這種情況下是線性的。但是,一個關(guān)系可能比這更復(fù)雜,例如它可能是二次的、圓形的等。這樣的模型更加靈活,因為它們可以更緊密地擬合數(shù)據(jù)點,并且可以采用不同的形式。通常這種方法會導(dǎo)致更高的準(zhǔn)確性。但這種靈活性是以可解釋性為代價的,因為復(fù)雜的關(guān)系更難解釋。 選擇一個靈活的模型并不總是能夠保證高準(zhǔn)確性。這是因為我們的靈活的統(tǒng)計學(xué)習(xí)程序過于努力地在訓(xùn)練數(shù)據(jù)中尋找模式,可能會捕捉到一些僅僅由于隨機機會而不是未知函數(shù) f 的真實屬性而導(dǎo)致的模式。這改變了我們對 f(X) 的估計,導(dǎo)致模型不太準(zhǔn),這種現(xiàn)象也稱為過擬合。 當(dāng)推斷是目標(biāo)時,使用簡單和相對不靈活的統(tǒng)計學(xué)習(xí)方法有明顯的優(yōu)勢。然而,在某些情況下,我們只對預(yù)測感興趣,而預(yù)測模型的可解釋性根本不是重點。這時我們會使用更靈活的方法。 擬合度量為了量化對于給定觀測值,預(yù)測的響應(yīng)值與該觀測值的真實響應(yīng)值之間的接近程度,在回歸設(shè)置中最常用的度量是均方誤差(MSE)。 均方誤差是預(yù)測值與觀測值之間的誤差或差異的平方的平均值。如果使用訓(xùn)練數(shù)據(jù)計算,則稱為訓(xùn)練MSE,如果使用測試數(shù)據(jù)計算,則稱為測試MSE。 對于給定值 x0,期望的測試MSE 總是可以分解為三個基本量的和:f(x0) 的方差、f(x0) 的平方偏差和誤差項 e 的方差。其中,e 是不可減少的誤差,之前我們已經(jīng)討論過。因此,讓我們更多地了解偏差和方差。 偏差偏差指的是通過用一個簡單得多的模型來近似一個可能非常復(fù)雜的真實生活問題而引入的誤差。因此,如果真實關(guān)系是復(fù)雜的,而你嘗試使用線性回歸,那么在估計 f(X) 時肯定會產(chǎn)生一些偏差。無論你有多少觀測值,如果你在真實關(guān)系非常復(fù)雜的情況下使用簡單的算法,那么就不可能產(chǎn)生準(zhǔn)確的預(yù)測。 方差方差指的是如果我們使用不同的訓(xùn)練數(shù)據(jù)集來估計 f(X),那么您對 f(X) 的估計會發(fā)生變化的程度。由于訓(xùn)練數(shù)據(jù)用于擬合統(tǒng)計學(xué)習(xí)方法,不同的訓(xùn)練數(shù)據(jù)集將導(dǎo)致不同的估計。但理想情況下,對于 f(X) 的估計在訓(xùn)練集之間不應(yīng)該有太大變化。然而,如果一個方法具有高方差,則訓(xùn)練數(shù)據(jù)的微小變化可能導(dǎo)致 f(X) 發(fā)生很大變化。 偏差和方差的一般規(guī)則數(shù)據(jù)集的任何變化都將提供一個不同的估計值,若使用統(tǒng)計方法過度匹配訓(xùn)練數(shù)據(jù)集時,這些估計值非常準(zhǔn)確。一個一般規(guī)則是,當(dāng)統(tǒng)計方法試圖更緊密地匹配數(shù)據(jù)點,或者使用更靈活的方法時,偏差會減少,但方差會增加。 在上面的圖片中,左邊顯示了回歸設(shè)置中三種不同統(tǒng)計方法的圖表。黃色是線性模型,藍(lán)色是略微非線性模型,綠色是高度非線性/靈活(Flexibility)模型,因為它過分匹配數(shù)據(jù)點。在右邊,您可以看到這三種方法的靈活性與 MSE 之間的圖表。紅色代表測試 MSE,灰色代表訓(xùn)練 MSE。不能確定具有最低訓(xùn)練 MSE 的方法也將具有最低測試 MSE。這是因為一些方法專門估計系數(shù)以最小化訓(xùn)練 MSE,但它們可能沒有較低的測試 MSE。這個問題可以歸結(jié)為過擬合的問題。如圖所示,綠色曲線(最靈活的或復(fù)雜度最高的模型)具有最低的訓(xùn)練 MSE,但不具有最低的測試 MSE。讓我們深入探討一下這個問題。 這是一個關(guān)于測試 MSE(紅曲線)、偏差(綠曲線)和方差(黃曲線)隨著所選擇方法的靈活性而變化的圖表,針對特定數(shù)據(jù)集。最低 MSE 點對于偏差和方差的錯誤形式提出了一個有趣的觀點。它表明,隨著靈活性的增加,偏差減少的速度比方差增加的速度更快。在某一點之后,偏差不再減少,但方差由于過擬合而開始迅速增加。
偏差-方差權(quán)衡在上圖中,想象一下靶心是一個完美預(yù)測正確值的模型。隨著我們離靶心越遠(yuǎn),我們的預(yù)測變得越來越糟糕。假設(shè)我們可以重復(fù)整個模型構(gòu)建過程,以獲得多次靶子命中情況,這樣每個藍(lán)點代表基于不同數(shù)據(jù)集對同一問題的模型的不同實現(xiàn)。它顯示了四種不同情況,代表了高偏差和低偏差以及高方差和低方差的組合。高偏差是指所有點都遠(yuǎn)離靶心,高方差是指所有點都分散。這個圖示結(jié)合了前面的解釋,使得偏差和方差之間的區(qū)別非常清晰。
正如前面所述,為了最小化期望的測試誤差,我們需要選擇一種統(tǒng)計學(xué)習(xí)方法,同時實現(xiàn)低方差和低偏差。這兩個值之間總是存在著一種權(quán)衡,因為很容易獲得一個偏差極低但方差很高的方法(例如,通過繪制通過每個訓(xùn)練觀察點的曲線)或一個方差非常低但偏差很高的方法(通過將水平線擬合到數(shù)據(jù))。挑戰(zhàn)在于找到一個方差和平方偏差都很低的方法。 權(quán)衡偏差和方差是成為機器學(xué)習(xí)冠軍所必需的,也是模型開發(fā)過程中必須考慮的問題。在解決機器學(xué)習(xí)問題時應(yīng)該牢記這一概念,因為它有助于提高模型的準(zhǔn)確性。同時保持這種知識有助于您迅速決定不同情況下最佳的統(tǒng)計模型。 |
|