每個數(shù)據(jù)科學(xué)家都應(yīng)該知道的10種機器學(xué)習(xí)方法

星光閃亮圖書館 2019-09-05

展開全文

每個數(shù)據(jù)科學(xué)家都應(yīng)該知道的10種機器學(xué)習(xí)方法

作者 | CDA數(shù)據(jù)分析師
10 machine learning methods that every data scientist should know

機器學(xué)習(xí)是研究和工業(yè)中的熱門話題，新方法一直在發(fā)展。該領(lǐng)域的速度和復(fù)雜性使得即使對于專家而言也難以跟上新技術(shù) - 并且對于初學(xué)者而言可能是壓倒性的難度。

為了揭開機器學(xué)習(xí)的神秘面紗并為剛接觸核心概念的人提供學(xué)習(xí)途徑，讓我們看看十種不同的方法，包括簡單描述，可視化和每個方法的示例。

機器學(xué)習(xí)算法（也稱為模型）是表示問題上下文中的數(shù)據(jù)的數(shù)學(xué)表達式，通常是業(yè)務(wù)問題。目標(biāo)是從數(shù)據(jù)到洞察。例如，如果在線零售商想要預(yù)測下一季度的銷售額，他們可能會使用機器學(xué)習(xí)算法，根據(jù)過去的銷售額和其他相關(guān)數(shù)據(jù)預(yù)測這些銷售額。類似地，風(fēng)車制造商可以通過視覺監(jiān)控重要設(shè)備并通過訓(xùn)練識別危險裂縫的算法來提供視頻數(shù)據(jù)。

所描述的十種方法提供了一個概述 - 以及您在磨練機器學(xué)習(xí)知識和技能時可以建立的基礎(chǔ)：

1 回歸

回歸方法屬于有監(jiān)督的ML類別。它們有助于基于一組先前數(shù)據(jù)預(yù)測或解釋特定數(shù)值，例如基于類似屬性的先前定價數(shù)據(jù)來預(yù)測房產(chǎn)的價格。

每個數(shù)據(jù)科學(xué)家都應(yīng)該知道的10種機器學(xué)習(xí)方法

最簡單的方法是線性回歸，其中我們使用直線的數(shù)學(xué)方程（y = m * x + b）來模擬數(shù)據(jù)集。我們通過計算線的位置和斜率來訓(xùn)練具有許多數(shù)據(jù)對（x，y）的線性回歸模型，該直線最小化所有數(shù)據(jù)點和線之間的總距離。換句話說，我們計算最接近數(shù)據(jù)中觀測值的線的斜率（m）和y截距（b）。

讓我們考慮更多線性回歸的具體例子。我曾經(jīng)使用線性回歸來預(yù)測某些建筑物的能耗（以千瓦時為單位），將建筑物的年齡，樓層數(shù)，平方英尺和堵墻設(shè)備的數(shù)量匯總在一起。由于有多個輸入（年齡，平方英尺等），我使用了多變量線性回歸。原理與簡單的一對一線性回歸相同，但在這種情況下，我創(chuàng)建的“線”基于變量的數(shù)量發(fā)生在多維空間中。

下圖顯示了線性回歸模型與建筑物實際能耗的匹配程度?，F(xiàn)在想象一下，您可以訪問建筑物的特征（年齡，平方英尺等），但您不知道能耗。在這種情況下，我們可以使用擬合線來估算特定建筑物的能耗。

請注意，您還可以使用線性回歸來估計每個因素的權(quán)重，這有助于最終預(yù)測消耗的能量。例如，一旦有了公式，就可以確定年齡，大小或身高是否最重要。

每個數(shù)據(jù)科學(xué)家都應(yīng)該知道的10種機器學(xué)習(xí)方法

▲建筑能耗（kWh）的線性回歸模型估計

回歸技術(shù)的范圍從簡單（如線性回歸）到復(fù)雜（如正則化線性回歸，多項式回歸，決策樹和隨機森林回歸，神經(jīng)網(wǎng)絡(luò)等）。但不要陷入困境：首先研究簡單的線性回歸，掌握基礎(chǔ)，然后繼續(xù)前進。

2 分類

另一類有監(jiān)督的ML，分類方法預(yù)測或解釋類值。例如，他們可以幫助預(yù)測在線客戶是否會購買產(chǎn)品。輸出可以是是或否：買方或非買方。但分類方法不限于兩類。例如，分類方法可以幫助評估給定圖像是否包含汽車或卡車。在這種情況下，輸出將是3個不同的值：1）圖像包含汽車，2）圖像包含卡車，或3）圖像既不包含汽車也不包含卡車。

最簡單的分類算法是邏輯回歸 - 這使得它聽起來像一個回歸方法，但事實并非如此。邏輯回歸基于一個或多個輸入估計事件發(fā)生的概率。

例如，邏輯回歸可以將學(xué)生的兩個考試分?jǐn)?shù)作為輸入，以便估計學(xué)生將被錄取到特定大學(xué)的概率。因為估計是概率，所以輸出是介于0和1之間的數(shù)字，其中1表示完全確定性。對于學(xué)生，如果估計的概率大于0.5，那么我們預(yù)測他或她將被錄取。如果估計的概率小于0.5，我們預(yù)測他或她將被拒絕。

下圖顯示了之前學(xué)生的分?jǐn)?shù)以及他們是否被錄取。Logistic回歸允許我們繪制一條代表決策邊界的線。

每個數(shù)據(jù)科學(xué)家都應(yīng)該知道的10種機器學(xué)習(xí)方法

▲Logistic回歸決策邊界：是否入讀大學(xué)？

因為邏輯回歸是最簡單的分類模型，所以它是開始分類的好地方。隨著您的進步，您可以深入研究非線性分類器，例如決策樹，隨機森林，支持向量機和神經(jīng)網(wǎng)絡(luò)等。

3 聚類

使用聚類方法，我們進入無監(jiān)督ML的類別，因為它們的目標(biāo)是對具有相似特征的觀察進行分組或聚類。聚類方法不使用輸出信息進行訓(xùn)練，而是讓算法定義輸出。在聚類方法中，我們只能使用可視化來檢查解決方案的質(zhì)量。

最流行的聚類方法是K-Means，其中“K”表示用戶選擇創(chuàng)建的聚類數(shù)。（注意，有多種技術(shù)可以選擇K的值，例如彎頭法。）

粗略地說，K-Means對數(shù)據(jù)點的作用如下：

隨機選擇數(shù)據(jù)中的K個中心。
將每個數(shù)據(jù)點分配給最接近的隨機創(chuàng)建的中心。
重新計算每個群集的中心。
如果中心沒有改變（或改變很少），則該過程結(jié)束。否則，我們返回到步驟2.（如果中心繼續(xù)更改，為了防止無限循環(huán)結(jié)束，請?zhí)崆霸O(shè)置最大迭代次數(shù)。）

下一個圖將K-Means應(yīng)用于建筑物的數(shù)據(jù)集。圖中的每一列都表明了每棟建筑的效率。這四項測量涉及空調(diào)，插入式設(shè)備（微波爐，冰箱等），家用燃?xì)夂图訜釟怏w。我們選擇K = 2進行聚類，這樣可以很容易地將其中一個聚類解釋為高效建筑群，將另一個聚類解釋為低效建筑群。在左側(cè)，您可以看到建筑物的位置，在右側(cè)，您可以看到我們用作輸入的四個尺寸中的兩個：插入式設(shè)備和加熱氣體。

每個數(shù)據(jù)科學(xué)家都應(yīng)該知道的10種機器學(xué)習(xí)方法

▲將建筑物聚類為高效（綠色）和低效（紅色）組。

在探索聚類時，您將遇到非常有用的算法，例如基于密度的噪聲應(yīng)用空間聚類（DBSCAN），均值偏移聚類，凝聚層次聚類，使用高斯混合模型的期望最大化聚類等。

4 降維

顧名思義，我們使用降維來從數(shù)據(jù)集中刪除最不重要的信息（有時是冗余列）。在實踐中，我經(jīng)常看到包含數(shù)百甚至數(shù)千列（也稱為特征）的數(shù)據(jù)集，因此減少總數(shù)至關(guān)重要。例如，圖像可以包含數(shù)千個像素，而不是所有像素對您的分析都很重要?；蛘?，在制造過程中測試微芯片時，可能會對每個芯片應(yīng)用數(shù)千個測量和測試，其中許多芯片提供冗余信息。在這些情況下，您需要降維算法以使數(shù)據(jù)集易于管理。

最流行的降維方法是主成分分析（PCA），它通過找到最大化數(shù)據(jù)線性變化的新向量來減小特征空間的維數(shù)。當(dāng)數(shù)據(jù)的線性相關(guān)性很強時，PCA可以顯著減小數(shù)據(jù)的維度，而不會丟失太多信息。（事實上，您還可以衡量信息丟失的實際程度并進行相應(yīng)調(diào)整。）

另一種流行的方法是t-Stochastic Neighbor Embedding（t-SNE），它可以減少非線性維數(shù)。人們通常使用t-SNE進行數(shù)據(jù)可視化，但您也可以將其用于機器學(xué)習(xí)任務(wù)，例如減少特征空間和聚類，僅舉幾例。

下一個圖顯示了手寫數(shù)字的MNIST數(shù)據(jù)庫的分析。MNIST包含數(shù)千個從0到9的數(shù)字圖像，研究人員用它們來測試它們的聚類和分類算法。數(shù)據(jù)集的每一行是原始圖像的矢量化版本（大小28×28 = 784）和每個圖像的標(biāo)簽（零，一，二，三，......，九）。請注意，我們因此將維度從784（像素）減少到2（我們的可視化中的維度）。投影到兩個維度允許我們可視化高維原始數(shù)據(jù)集。

每個數(shù)據(jù)科學(xué)家都應(yīng)該知道的10種機器學(xué)習(xí)方法

▲MNIST手寫數(shù)字?jǐn)?shù)據(jù)庫的t-SNE迭代。

5 集成算法

想象一下，你決定制造一輛自行車，因為你對商店和網(wǎng)上的選擇感到不滿意。您可以從找到所需的每個部件的最佳部分開始。一旦你組裝了所有這些偉大的部件，最終的自行車將超越所有其他選項。

集成使用相同的想法，結(jié)合幾個預(yù)測模型（監(jiān)督ML），以獲得比每個模型本身可以提供的更高質(zhì)量的預(yù)測。例如，隨機森林算法是一種集成算法，它結(jié)合了許多用不同數(shù)據(jù)集樣本訓(xùn)練的決策樹。因此，隨機森林的預(yù)測質(zhì)量高于使用單個決策樹估計的預(yù)測質(zhì)量。

將集成算法視為減少單個機器學(xué)習(xí)模型的方差和偏差的一種方法。這很重要，因為任何給定的模型在某些條件下可能是準(zhǔn)確的，但在其他條件下可能不準(zhǔn)確。使用另一個模型，相對精度可能會相反。通過組合這兩個模型，可以平衡預(yù)測的質(zhì)量。

Kaggle比賽的絕大多數(shù)頂級獲勝者都使用某種方式的合奏方法。最流行的集成算法是隨機森林，XGBoost和LightGBM。

6 神經(jīng)網(wǎng)絡(luò)與深度學(xué)習(xí)

與被認(rèn)為是線性模型的線性和邏輯回歸相比，神經(jīng)網(wǎng)絡(luò)的目標(biāo)是通過向模型添加參數(shù)層來捕獲數(shù)據(jù)中的非線性模式。在下圖中，簡單神經(jīng)網(wǎng)絡(luò)有四個輸入，一個帶有五個參數(shù)的隱藏層和一個輸出層。

每個數(shù)據(jù)科學(xué)家都應(yīng)該知道的10種機器學(xué)習(xí)方法

實際上，神經(jīng)網(wǎng)絡(luò)的結(jié)構(gòu)足夠靈活，可以構(gòu)建我們眾所周知的線性回歸和邏輯回歸。術(shù)語深度學(xué)習(xí)來自具有許多隱藏層的神經(jīng)網(wǎng)絡(luò)（見下圖），并封裝了各種各樣的體系結(jié)構(gòu)。

特別難以跟上深度學(xué)習(xí)的發(fā)展，部分原因是研究和行業(yè)社區(qū)的深度學(xué)習(xí)成果翻了一番，每天產(chǎn)生全新的方法論。具有一個隱藏層的神經(jīng)網(wǎng)絡(luò)。

每個數(shù)據(jù)科學(xué)家都應(yīng)該知道的10種機器學(xué)習(xí)方法

▲深度學(xué)習(xí)：具有多個隱藏層的神經(jīng)網(wǎng)絡(luò)。

為了獲得最佳性能，深度學(xué)習(xí)技術(shù)需要大量數(shù)據(jù) - 以及大量計算能力，因為該方法可以在大型架構(gòu)中自我調(diào)整許多參數(shù)。很快就會清楚為什么深度學(xué)習(xí)從業(yè)者需要使用GPU（圖形處理單元）增強的非常強大的計算機。

特別是，深度學(xué)習(xí)技術(shù)在視覺（圖像分類），文本，音頻和視頻領(lǐng)域非常成功。最常見的深度學(xué)習(xí)軟件包是Tensorflow和PyTorch。

7 遷移學(xué)習(xí)

讓我們假裝您是零售行業(yè)的數(shù)據(jù)科學(xué)家。您花了幾個月的時間訓(xùn)練高質(zhì)量的模型，將圖像分類為襯衫，T恤和馬球。你的新任務(wù)是建立一個類似的模型，將服裝圖像分類為牛仔褲，貨物，休閑褲和正裝褲。您是否可以將內(nèi)置的知識轉(zhuǎn)移到第一個模型中并將其應(yīng)用到第二個模型中？是的，您可以使用遷移學(xué)習(xí)。

轉(zhuǎn)移學(xué)習(xí)是指重新使用先前訓(xùn)練的神經(jīng)網(wǎng)絡(luò)的一部分并使其適應(yīng)新的但類似的任務(wù)。具體來說，一旦您使用任務(wù)數(shù)據(jù)訓(xùn)練神經(jīng)網(wǎng)絡(luò)，您可以傳輸一小部分訓(xùn)練過的圖層，并將它們與您可以使用新任務(wù)的數(shù)據(jù)訓(xùn)練的幾個新圖層組合在一起。通過添加幾個層，新的神經(jīng)網(wǎng)絡(luò)可以快速學(xué)習(xí)并適應(yīng)新任務(wù)。

遷移學(xué)習(xí)的主要優(yōu)點是你需要更少的數(shù)據(jù)來訓(xùn)練神經(jīng)網(wǎng)絡(luò)，這一點尤為重要，因為深度學(xué)習(xí)算法的訓(xùn)練在時間和金錢（計算資源）方面都是昂貴的 - 當(dāng)然，通常很難找到足夠的標(biāo)記數(shù)據(jù)用于訓(xùn)練。

讓我們回到我們的例子，并假設(shè)對于襯衫模型，你使用一個有20個隱藏層的神經(jīng)網(wǎng)絡(luò)。經(jīng)過一些實驗后，您意識到您可以轉(zhuǎn)移18個襯衫模型層，并將它們與一個新的參數(shù)層相結(jié)合，以訓(xùn)練褲子的圖像。因此褲子模型將有19個隱藏層。兩個任務(wù)的輸入和輸出是不同的，但是可重復(fù)使用的層可以概括與兩者相關(guān)的信息，例如布料，緊固件和形狀的方面。

遷移學(xué)習(xí)變得越來越流行，現(xiàn)在有許多可靠的預(yù)訓(xùn)練模型可用于常見的深度學(xué)習(xí)任務(wù)，如圖像和文本分類。

每個數(shù)據(jù)科學(xué)家都應(yīng)該知道的10種機器學(xué)習(xí)方法

8 強化學(xué)習(xí)

想象一下，迷宮中的老鼠試圖找到隱藏的奶酪片。我們將老鼠暴露在迷宮中的次數(shù)越多，找到奶酪就越好。起初，老鼠可能會隨機移動，但經(jīng)過一段時間后，老鼠的體驗有助于它實現(xiàn)哪些動作更接近奶酪。

老鼠的過程反映了我們使用強化學(xué)習(xí)（RL）來訓(xùn)練系統(tǒng)或游戲。一般來說，RL是一種機器學(xué)習(xí)方法，可以幫助代理人從經(jīng)驗中學(xué)習(xí)。通過在設(shè)定環(huán)境中記錄操作并使用試錯法，RL可以最大化累積獎勵。在我們的示例中，老鼠是代理，迷宮是環(huán)境。老鼠的可能操作集是：前移，后移，左移或右移。獎勵是奶酪。

當(dāng)您幾乎沒有關(guān)于問題的歷史數(shù)據(jù)時，可以使用RL，因為它不需要事先提供信息（與傳統(tǒng)的機器學(xué)習(xí)方法不同）。在RL框架中，您可以隨時了解數(shù)據(jù)。毫不奇怪，RL在游戲方面尤其成功，特別是像國際象棋和圍棋這樣的“ 完美信息 ” 游戲。通過游戲，來自代理和環(huán)境的反饋很快得以實現(xiàn)，使模型能夠快速學(xué)習(xí)。RL的缺點是，如果問題很復(fù)雜，可能需要很長時間才能進行訓(xùn)練。

正如IBM的Deep Blue在1997年擊敗了最好的人類國際象棋選手一樣，基于RL算法的AlphaGo在2016年擊敗了最佳的圍棋玩家。目前RL的先驅(qū)者是英國DeepMind的團隊。更多關(guān)于AlphaGo和DeepMind的信息。

在2019年4月，OpenAI Five團隊是第一個擊敗世界冠軍電子競技Dota 2的人工智能團隊，這是一個非常復(fù)雜的視頻游戲，OpenAI Five團隊之所以選擇，因為沒有RL算法可以贏得它時間。擊敗Dota 2冠軍人類團隊的同一個AI團隊也開發(fā)了一個機器人手，可以重新定位一個塊。

你可以說強化學(xué)習(xí)是一種特別強大的人工智能形式，我們肯定會看到這些團隊取得更多進展，但同樣值得記住方法的局限性。

每個數(shù)據(jù)科學(xué)家都應(yīng)該知道的10種機器學(xué)習(xí)方法

9 自然語言處理

世界上很大一部分?jǐn)?shù)據(jù)和知識都是某種形式的人類語言。你能想象能在幾秒鐘內(nèi)閱讀和理解成千上萬的書籍，文章和博客嗎？顯然，計算機還不能完全理解人類文本，但我們可以訓(xùn)練他們完成某些任務(wù)。例如，我們可以訓(xùn)練手機自動填寫短信或糾正拼寫錯誤的單詞。我們甚至可以教一臺機器與人進行簡單的對話。

自然語言處理（NLP）本身不是一種機器學(xué)習(xí)方法，而是一種廣泛使用的技術(shù)，用于為機器學(xué)習(xí)準(zhǔn)備文本。想想各種格式的大量文本文檔（單詞，在線博客，......）。大多數(shù)這些文本文檔將充滿拼寫錯誤，缺少字符和其他需要過濾的單詞。目前，最流行的文本處理包是由斯坦福大學(xué)的研究人員創(chuàng)建的NLTK（自然語言工具包）。

將文本映射到數(shù)字表示的最簡單方法是計算每個文本文檔中每個單詞的頻率。考慮一個整數(shù)矩陣，其中每行代表一個文本文檔，每列代表一個單詞。字頻率的這種矩陣表示通常稱為術(shù)語頻率矩陣（TFM）。從那里，我們可以通過將矩陣上的每個條目除以每個單詞在整個文檔集中的重要程度的權(quán)重來創(chuàng)建文本文檔的另一種流行矩陣表示。我們將此方法稱為術(shù)語頻率反向文檔頻率（TFIDF），它通常更適用于機器學(xué)習(xí)任務(wù)。

10 詞嵌入

TFM和TFIDF是文本文檔的數(shù)字表示，它們只考慮頻率和加權(quán)頻率來表示文本文檔。相比之下，Word嵌入可以捕獲文檔中單詞的上下文。對于單詞上下文，嵌入可以量化單詞之間的相似性，這反過來又允許我們對單詞進行算術(shù)。

Word2vec是一種基于神經(jīng)網(wǎng)絡(luò)的方法，它將語料庫中的單詞映射成一個數(shù)字向量。然后，我們可以使用這些向量查找同義詞，對單詞執(zhí)行算術(shù)操作，或者表示文本文檔(取文檔中所有單詞向量的平均值)。例如，假設(shè)我們使用足夠大的文本文檔來估計單詞嵌入。我們還假設(shè)王, 皇后, 男子漢和女是語料庫的一部分。就這么說吧向量(字)表示單詞的數(shù)字向量。“字”..估計向量(“婦女”)，我們可以使用向量執(zhí)行算術(shù)操作：

向量(“King”)+向量(“婦女”) — 向量(‘man’)~向量(‘皇后’)

每個數(shù)據(jù)科學(xué)家都應(yīng)該知道的10種機器學(xué)習(xí)方法

▲用Word（向量）嵌入算術(shù)

單詞表示允許通過計算兩個單詞的向量表示之間的余弦相似性來找到單詞之間的相似性。余弦相似度測量兩個矢量之間的角度。

我們使用機器學(xué)習(xí)方法計算單詞嵌入，但這通常是在頂部應(yīng)用機器學(xué)習(xí)算法的前提步驟。例如，假設(shè)我們可以訪問數(shù)千名Twitter用戶的推文。還假設(shè)我們知道這些Twitter用戶中哪些人買了房子。為了預(yù)測新Twitter用戶購買房屋的概率，我們可以將Word2Vec與邏輯回歸結(jié)合起來。

總結(jié)

我試圖涵蓋十種最重要的機器學(xué)習(xí)方法：從最基本的到最前沿的。很好地研究這些方法并充分理解每個方法的基礎(chǔ)知識可以作為進一步研究更先進的算法和方法的堅實起點。