小男孩‘自慰网亚洲一区二区,亚洲一级在线播放毛片,亚洲中文字幕av每天更新,黄aⅴ永久免费无码,91成人午夜在线精品,色网站免费在线观看,亚洲欧洲wwwww在线观看

分享

深度 | 如何為機(jī)器學(xué)習(xí)算法找到適當(dāng)?shù)纳虡I(yè)應(yīng)用?這里有一份通俗指南

 天道酬勤YXJ1 2016-05-12

選自 acando.no

作者: Popov, Sergey

機(jī)器之心編譯

參與:吳攀、亞洲、微胖

要應(yīng)用科學(xué)方法進(jìn)行數(shù)據(jù)探索,就應(yīng)該知道可以應(yīng)用什么程度的方法。神經(jīng)網(wǎng)絡(luò)對(duì)股市預(yù)測(cè)而言是無效的。蒙特卡羅算法也不能提供太多幫助,而應(yīng)用不當(dāng)?shù)碾S機(jī)森林算法能夠真正毀掉你在東南亞的假期。如果它被 NSA(美國國家安全局)使用,后果會(huì)更嚴(yán)重。在這篇文章中,我們將簡(jiǎn)要介紹機(jī)器學(xué)習(xí)方法的分類,并了解它們是如何與不同的業(yè)務(wù)范圍關(guān)聯(lián)的。

序言

從搖籃到墳?zāi)?,我們的一生不斷地做著決定,從我們第一個(gè)吸引母親注意力的決定到要求醫(yī)生治療疼痛的最后一個(gè)決定。做決定是我們生命中的關(guān)鍵部分,而動(dòng)機(jī)(有意識(shí)或有點(diǎn)模糊)則是這一過程的背景。我們可以使用規(guī)則引擎(BRE)和一些先前的邏輯,作為我們計(jì)算機(jī)化的「決策者」,從這種意義來看,商業(yè)也沒什么不同。

不久之前,BRE 被認(rèn)為是是商業(yè)智能(BI)的最重要的組成部分。事實(shí)上,有效的 BRE 的實(shí)現(xiàn)可以非常簡(jiǎn)單,如[2]中所展現(xiàn)的那樣。使用 IoC (Java) 或 NDS (OraDB),輕權(quán)重 BRE 可被正確應(yīng)用在有需要的地方(靠近對(duì)象改變的位置,事件源),相關(guān)代碼示例和支持 DB 結(jié)構(gòu)已可供下載。

但是,很多時(shí)候外部 BRE 只會(huì)使情況復(fù)雜化——增加技術(shù)基礎(chǔ)設(shè)施的復(fù)雜性、 需要對(duì)象的序列化/反序列化、增加額外的成本(有時(shí)候相當(dāng)高)。最重要的是,經(jīng)典 BRE 只能以「是/否」的方式回答有明確定義的問題,而對(duì)問題的提出只有很少的貢獻(xiàn)。而如果該邏輯是模糊的和/或基于隨機(jī)數(shù)據(jù),那結(jié)果甚至?xí)愕?。因此,為決策構(gòu)建動(dòng)機(jī)不僅是商業(yè)智能中最重要的部分,同時(shí)也是最困難的部分,因?yàn)樗鼘⑿枰褂米赃m應(yīng)算法的預(yù)測(cè)元素和模擬進(jìn)行統(tǒng)計(jì)數(shù)據(jù)分析。

「錯(cuò)誤的問題沒有正確的答案?!埂猆rsula K. Le Guin

預(yù)測(cè)、仿真和適應(yīng)代表了學(xué)習(xí)能力的存在,可參考下表中 Arthur Samuel 的定義。意識(shí)論(Gnosiology,專注于知識(shí)理論的哲學(xué)概念)確定了三種獨(dú)特的知識(shí)獲取途徑:監(jiān)督式、無監(jiān)督式和強(qiáng)化。每一種都有解決問題的自己的一套方法和算法集合,而根據(jù)實(shí)際的問題又有不同程度的適用性。不同的方法集合之間并沒有明確的界線,而且因?yàn)榻y(tǒng)計(jì)和學(xué)習(xí)算法的總量超過 700,在這樣一篇短文章中要提及其中一半都不可能。在這里我將只會(huì)嘗試關(guān)聯(lián)和分組這些具有商業(yè)領(lǐng)域適用性的學(xué)習(xí)方法和最常見的算法——從獲取知識(shí)的機(jī)器學(xué)習(xí)方法開始。

為簡(jiǎn)單起見,我將使用經(jīng)典人工智能書籍(A. Cachko, Eureka 的《人工智能》)[3]中的一個(gè)比喻:童話故事,其中白馬王子在一個(gè)非常非常遙遠(yuǎn)的王國里尋找睡美人,給他提供幫助的只有一只只能說「是」和「否」(見上面的 BRE),卻無所不知的貓頭鷹。

監(jiān)督式學(xué)習(xí)(Supervised Learning)

通過王國的地圖和有口語障礙的貓頭鷹,白馬王子可以使用二分法,即將地圖不斷對(duì)分,然后不斷問貓頭鷹「公主在哪里」,直到最后在地圖上定位到公主所在的大約一個(gè)洞穴大小的位置。在這里,白馬王子就得到了監(jiān)督器回歸(Regression)算法類別中二分法回歸隔離(Bisection Regression Isolation)的幫助?;貧w算法是一個(gè)相當(dāng)寬泛的算法類別,其中包括帶有單個(gè)或多個(gè)變量的線性回歸(Linear Regression)。另一組常見類別是基于分類(Classification)、線性和非線性、以及向量機(jī)支持;其中向量機(jī)支持是回歸和分類方法的結(jié)合,重點(diǎn)是建立概率分類器,幫助創(chuàng)建用于尋找公主的最優(yōu)模型。

監(jiān)督式學(xué)習(xí)最驚艷的特征是神經(jīng)網(wǎng)絡(luò)(NN),我們?cè)谶@里提到它的原因是隨著現(xiàn)在硬件變得能夠支持這一概念,神經(jīng)網(wǎng)絡(luò)正變得越來越流行。用童話故事的比喻來闡釋這一方面和其實(shí)際應(yīng)用——自組織映射(SOM)是很困難的,但讓我們想象一下:在定位所在的洞穴后,白馬王子需要驗(yàn)證其中的姑娘是否是真正的美人。當(dāng)然,白馬王子對(duì)此已經(jīng)發(fā)展出了他自己的驗(yàn)證標(biāo)準(zhǔn)(由權(quán)重(W:weight)支持),并將通過光學(xué)識(shí)別頭發(fā)、臉頰、下巴、嘴唇和其它特征來應(yīng)用這一標(biāo)準(zhǔn)(即:測(cè)試更新模型)。所以,換句話說,一個(gè)樹形結(jié)構(gòu)的鏈狀神經(jīng)元總體上負(fù)責(zé)從被觀察對(duì)象中得出特定模式,并以某種形式的降維算法(dimensionality reduction algorithm)進(jìn)行特征提取。網(wǎng)絡(luò)中的神經(jīng)元越多,就越精確(權(quán)重的神經(jīng)元乘法器的神經(jīng)元樹突樹累積效應(yīng)),特征識(shí)別和組裝成一幅完整圖像(神經(jīng)元求和箱)的速度也越快。

監(jiān)督式學(xué)習(xí)中的神經(jīng)網(wǎng)絡(luò)

可能有人會(huì)問,這些權(quán)重(W)標(biāo)準(zhǔn)從何而來?當(dāng)然,王子最初是從他父親和母親那里,以及《紳士愛美人》那樣的電影(監(jiān)督器,提供了最初的模型)中學(xué)到的。這些是部分權(quán)重系數(shù),因?yàn)槔硭?dāng)然地,他們可能會(huì)產(chǎn)生部分地令人滿意的結(jié)果(過早的婚姻通常不能維持)。所以白馬王子的一生都在調(diào)整這些權(quán)重的比例,它們用滿意度閾值獲取偏導(dǎo)數(shù);如「金發(fā)真的開不好車」、「紅發(fā)太瘋狂了」。

在數(shù)學(xué)上,一些人稱之為「數(shù)學(xué)方便(mathematical convenience)」——根據(jù)對(duì)輸出的滿意度水平調(diào)整我們處理器的數(shù)學(xué)函數(shù)。在這里還應(yīng)該提及的是反向傳播(backpropagation)現(xiàn)象。神經(jīng)網(wǎng)絡(luò)可以通過每個(gè)帶有自適應(yīng)反饋的運(yùn)算放大器鏈電子地被表現(xiàn)出來。當(dāng)你帶有所有可能信號(hào)處理器的復(fù)雜音響系統(tǒng)變得過于大聲時(shí),你會(huì)扭動(dòng)末級(jí)放大器的主音量控制。

神經(jīng)網(wǎng)絡(luò)也是如此,其中你可以讓調(diào)整反向傳播,這非常適合放大器鏈——因?yàn)閲?yán)重的信號(hào)失真,在前置放大器上施加強(qiáng)勁的功率放大是很有風(fēng)險(xiǎn)的。因?yàn)槟懔私夥糯笃髦械姆答亼?yīng)該是負(fù)反饋,否則自適應(yīng)識(shí)別將徹底失敗。自我調(diào)整是我們將討論的下一個(gè)學(xué)習(xí)方法的關(guān)鍵特征。

無監(jiān)督學(xué)習(xí)(Unsupervised Learning)

讓我們假設(shè)貓頭鷹的語言障礙變得更糟糕了,白馬王子再也不能依靠監(jiān)督器了。但白馬王子仍然還有地圖和決心。他知道美人在一個(gè)洞穴中,而洞穴在山中最常見,而不是在沼澤或沙漠中。也許在數(shù)據(jù)選擇中使用更多參數(shù)會(huì)有用——例如,公主是因?yàn)橐粋€(gè)毒蘋果而陷入昏睡的,所以,蘋果林肯定不會(huì)離山坡太遠(yuǎn)等(假設(shè)爛掉的蘋果不會(huì)吸引公主的注意)。聚類(Clustering)、降維(Dimensional Reduction)、主成分分析(Principal Component Analysis)和其它貝葉斯統(tǒng)計(jì)方法,將幫助我們的王子找到地圖上最有可能的區(qū)域以進(jìn)行更為詳細(xì)的調(diào)查(在機(jī)器學(xué)習(xí)方面更多模型訓(xùn)練)。

在很多方面,我們的王子會(huì)嘗試實(shí)施最明顯的無線電定位和目標(biāo)識(shí)別方法(這時(shí)候是被動(dòng)定位):通過分析和檢測(cè)數(shù)據(jù)分布規(guī)律,尋找檢測(cè)過的分布規(guī)律的均值和標(biāo)準(zhǔn)方差,以及應(yīng)用奈曼-皮爾遜準(zhǔn)則進(jìn)行選擇——通過一個(gè)確鑿的找到公主( positive Princess detection)的固定概率(比如, 0.95 和正態(tài)分布)最小化錯(cuò)過目標(biāo)的概率。

你可能注意到,我并沒有完全正確地提出奈曼-皮爾遜準(zhǔn)則(最小化的參數(shù)通常是錯(cuò)誤的警報(bào)),但為了簡(jiǎn)單起見,我省略了我們可能有多個(gè)睡美人的情況(其中一些是誘餌,不是真正的公主或不是美人或沒有睡著或多種情況都有。讓我們希望王子是真正有決心的,不會(huì)偏離)。

所有這些知識(shí)還將在以后王子變成國王后繼續(xù)幫助他公平收稅和偵查騙稅漏稅。貝葉斯統(tǒng)計(jì)理論高度靈活,因此,我們以后的好國王(之前的王子)就將能在一定的業(yè)務(wù)范圍(蘋果酒酒廠)內(nèi)獲取申報(bào)了的納稅的分布規(guī)律,發(fā)現(xiàn)異常偏差,將這些偏差和特定酒廠在開曼群島(避稅勝地)開設(shè)商業(yè)辦公室的事實(shí)聯(lián)系起來,然后將其作為一種逃稅模式進(jìn)行處理。

一般來說,無監(jiān)督學(xué)習(xí)方法可以(且在大多數(shù)情況下應(yīng)該)支持和強(qiáng)化有監(jiān)督的方法,因?yàn)槟憧梢岳斫舛址ㄔ谇懊娴亩温渲幸驯蛔C明遠(yuǎn)不是最優(yōu)的。

強(qiáng)化學(xué)習(xí)(Reinforcement Learning)

情況越來越糟——不僅貓頭鷹走了,王子也已經(jīng)丟了王國的地圖。這是一個(gè)沉重的打擊,我們的王子現(xiàn)在并不比一個(gè)沒有監(jiān)督器(可以給出方向和虛擬的墻)的機(jī)器人真空吸塵器高明多少。這是個(gè)相當(dāng)痛苦的試錯(cuò)過程,它基于我們每一步之后所得到的反饋——正反饋或負(fù)反饋。顯然,這在統(tǒng)計(jì)學(xué)上相當(dāng)接近于馬爾可夫序列(Markov sequence)和離散決策過程。在概率上,它可以通過蒙特卡羅方法加以描述。

如前面的段落所述,顯然當(dāng)?shù)玫狡渌椒ā绕涫怯斜O(jiān)督機(jī)器學(xué)習(xí)——的支持時(shí),該學(xué)習(xí)方法將能提供最好的結(jié)果。神經(jīng)網(wǎng)絡(luò)中的通用近似(universal approximation)是該學(xué)習(xí)方法的實(shí)現(xiàn)中最常見的組合。

將問題領(lǐng)域與算法和工具關(guān)聯(lián),支持算法的方法(如下)

















定義同義詞
賦予計(jì)算機(jī)在沒有明確的編程下進(jìn)行學(xué)習(xí)的能力的研究領(lǐng)域(Arthur Samuel )數(shù)據(jù)挖掘/預(yù)測(cè)分類異常檢測(cè)
解決以下問題算法方法工具
有監(jiān)督學(xué)習(xí)有監(jiān)督學(xué)習(xí)根據(jù)有知識(shí)的外部監(jiān)督器所提供的樣本進(jìn)行學(xué)習(xí)。機(jī)器基于外部(來自分類器的)分類輸入進(jìn)行分類。參數(shù)/非參數(shù)算法有一個(gè)變量的線性回歸有多個(gè)變量的線性回歸2,3,4
向量機(jī)支持(Vapnik–Chervonenkis 理論(VC 理論)線性分類:硬間隔(Hard-margin)軟間隔(Soft-margin)非線性分類3,4
內(nèi)核(Kernel)內(nèi)核技巧:核主成分分析(圖表)3,4
神經(jīng)網(wǎng)絡(luò)成本函數(shù)和反向傳播1,3,4
無監(jiān)督學(xué)習(xí)機(jī)器沒有任何可以驗(yàn)證已有分類的分類器或監(jiān)督器,但有足夠的數(shù)據(jù)用于分析和算法以生成這些分類聚類多類分類K-均值聚類和主成分分析(PCA)3,4
降維獨(dú)立成分分析主成分分析(PCA)概率 PCA(PPCA)神經(jīng)網(wǎng)絡(luò)3,4
推薦系統(tǒng)效用矩陣構(gòu)成(Utility matrix composing)3,4
深度學(xué)習(xí)通用近似(Universal Approximation)概率解釋(Probabilistic Interpretation)3,4
強(qiáng)化學(xué)習(xí)(RLA)機(jī)器沒有分類和算法,只有數(shù)據(jù)。所以機(jī)器一開始就基于輸入構(gòu)建算法以掌握分類馬爾可夫決策過程 (MDP)基于偏好的強(qiáng)化學(xué)習(xí) (PBRL)價(jià)值函數(shù)方法3,4
梯度時(shí)間差3,4
蒙特卡洛每次訪問(所有蒙特卡洛算法的結(jié)合)3,4
隱馬爾可夫4

上面的機(jī)器學(xué)習(xí)分類沒有對(duì)應(yīng)到它們所支持的已有工具和算法,所以是不完整的。此外,該表格還將成為將已有算法鏈接到相關(guān)商業(yè)案例的資源。

支持的工具和算法(如下)

注意,F(xiàn)link 和 Kafka 是技術(shù)支持工具,為接下來的兩種工具提供事件分布(event distribution)和映射化簡(jiǎn)(map-reduce)。








編號(hào)1234
Apache Flink(ML)Apache KafkaApache SPARK MLlibApache Mahout
1用于可靠通信和數(shù)據(jù)傳輸?shù)?、帶有機(jī)器學(xué)習(xí)插入元素的流數(shù)據(jù)流引擎,(FlinkML),包括:交替最小二乘法(ALS,有監(jiān)督學(xué)習(xí))、多元線性回歸和SVM。帶有支持有監(jiān)督機(jī)器學(xué)習(xí)和推薦(一般而言)的預(yù)處理器Kafka 是高性能的 EDN,帶有強(qiáng)大的聚類支持Logistic 回歸和線性支持向量機(jī)(SVM)Logistic 回歸——通過 SGD 訓(xùn)練
2分類和回歸樹隨機(jī)主成分分析 (SPCA, DSPCA)
3隨機(jī)森林和梯度提升決策樹隨機(jī)森林(無監(jiān)督學(xué)習(xí))
4通過交替最小二乘法(ALS)的推薦分布式正則化交替最小二乘法 (DALS)在隱式反饋上使用 ALS 的矩陣分解
5通過 K-均值進(jìn)行聚類、二分 K-均值、高斯混合(GMM)K-均值聚類Canopy 聚類模糊 K-均值流 K-均值譜聚類
6使用隱含狄利克雷分布的主題建模(LDA)主題模型:隱含狄利克雷分布(主題模型)
7使用加速失效時(shí)間模型的生存分析Logistic 回歸——通過 SGD 訓(xùn)練
8奇異值分解(SVD)和 QR 分解隨機(jī)奇異值分解(SSVD,DSSVD)隨機(jī)SVD分布式喬萊斯基 QR(thinQR)
9主成分分析(PCA)PCA(通過隨機(jī) SVD)
10帶有L1、L2和彈性網(wǎng)絡(luò)正則化(elastic-net regularization)的線性回歸隱馬爾可夫模型
11保序回歸(Isotonic regression)
12多項(xiàng)/二項(xiàng)樸素貝葉斯樸素貝葉斯/互補(bǔ)樸素貝葉斯
13通過FP-增長(zhǎng)和關(guān)聯(lián)規(guī)則的頻率項(xiàng)集合挖掘(frequent item set mining )協(xié)同過濾:項(xiàng)和行相似性分布和內(nèi)核求解
14使用 PrefixSpan 的序列模式挖掘
15匯總統(tǒng)計(jì)數(shù)據(jù)和假設(shè)檢驗(yàn)
16特征轉(zhuǎn)換
17冪迭代(Power iteration)蘭克澤斯算法(Lanczos Algorithm)
18模型評(píng)估和超參數(shù)調(diào)優(yōu)(hyper-parameter tuning)多層感知器

機(jī)器學(xué)習(xí)不是靈丹妙藥。它從數(shù)學(xué)統(tǒng)計(jì)中借用了很多東西,機(jī)器學(xué)習(xí)可以被應(yīng)用在我們需要廣泛的數(shù)據(jù)準(zhǔn)備/模擬以用于預(yù)測(cè)分析和最終決策的地方。你不需要任何預(yù)測(cè)就能預(yù)見白馬王子和醒來的美人將會(huì)「從此以后幸福地生活在一起,并在同一天死去。」使用統(tǒng)計(jì)方法的無線電定位和目標(biāo)指示已經(jīng)被顯著成功地使用了數(shù)十年。這里的關(guān)鍵詞是「學(xué)習(xí)」,下表中,我們突出顯示了一些經(jīng)過選擇的對(duì)機(jī)器學(xué)習(xí)能力有很高要求的商業(yè)領(lǐng)域。

商業(yè)領(lǐng)域和其所應(yīng)用的算法的對(duì)應(yīng)(如下,數(shù)字索引來自上面的工具和算法表格)



商業(yè)領(lǐng)域機(jī)會(huì)描述算法
預(yù)測(cè)建模工廠商業(yè)假設(shè)分析需要可靠的模型用于預(yù)測(cè)客戶的忠誠度和購買行為。在對(duì)公司、新產(chǎn)品或業(yè)務(wù)線展開營銷之前,必須要分析大量的數(shù)據(jù)(如果不可能收集到這么多數(shù)據(jù),那么就應(yīng)該使用適當(dāng)?shù)碾S機(jī)分布模擬數(shù)據(jù)。預(yù)測(cè)建模工廠應(yīng)該使用多個(gè)標(biāo)準(zhǔn)的統(tǒng)計(jì)框架,以預(yù)測(cè)規(guī)劃的行動(dòng)的可能結(jié)果。4.5, 4.18, 3.6, 3.14, 4.6
廣告技術(shù)有線電視企業(yè)努力提供整體客戶體驗(yàn)(不僅是視頻點(diǎn)播)。要做到這一點(diǎn),它會(huì)通過用戶的購買歷史、觀看列表、頻道切換、社交網(wǎng)絡(luò)活動(dòng)、搜索歷史和搜索中使用過的元標(biāo)簽(語義網(wǎng)絡(luò))、來自同一目標(biāo)群體的其它用戶體驗(yàn)、即將到來的相關(guān)公共事件(展覽、演出或首映)、以及甚至光標(biāo)在公司網(wǎng)站入口的特定元素的位置上的持續(xù)時(shí)間等,來收集和匯總關(guān)于用戶偏好的信息。該任務(wù)很復(fù)雜,包含許多活動(dòng),包括依賴于新發(fā)現(xiàn)的元數(shù)據(jù)存儲(chǔ)中的元標(biāo)簽更新以用于預(yù)測(cè)趨勢(shì)等等;但我們?cè)谶@里可以(在一定程度上)忍受不被處理或不被接收的時(shí)間。在前一種情況下,我們可以對(duì)它們建模。3.4,4.4, 3.2
風(fēng)險(xiǎn)和欺詐檢測(cè)對(duì)于銀行交易監(jiān)控來說,我們沒有這樣的奢侈(上面提到的錯(cuò)過的事件)。所有的活動(dòng)都必須被以最大的速度考慮和處理。如果你信用卡的最后一筆交易是在倫敦的邦德街(ATM 現(xiàn)金提?。┒椅宸昼姾笸瑯舆@張卡又被用于在線購買昂貴的珠寶,并使用了奇怪的收貨地址,那么,就應(yīng)該有人將這張卡標(biāo)記為可能的詐騙案例并聯(lián)系卡的持有人。這是我們可以提供的最簡(jiǎn)單的案例。但涉及到在我們無國界的世界中的洗錢案例時(shí)——本章第一個(gè)圖表的決策分析樹——基于所有相關(guān)可能的事件將需要包含所有頁面的一本大書,你將需要一個(gè)強(qiáng)大的放大鏡來閱讀它;網(wǎng)絡(luò)節(jié)點(diǎn)和鏈接的計(jì)策甚至能讓最世故的設(shè)套者(spider)瘋狂。要保持清醒,實(shí)時(shí)評(píng)分應(yīng)該由機(jī)器學(xué)習(xí)算法加以強(qiáng)化,以支持響應(yīng)決策過程可靠和有效。3.4, 4.44.13
保險(xiǎn)分析事實(shí)上,現(xiàn)代保險(xiǎn)業(yè)誕生于 18 世紀(jì)初,是對(duì)收集的個(gè)人股份、已故參保人人數(shù)和總參保人人數(shù)的統(tǒng)計(jì)分析的結(jié)果(參見 Amicable Society 和后來的國民保險(xiǎn)法 1911)。現(xiàn)在類似的統(tǒng)計(jì)方法也被用于構(gòu)建最優(yōu)的保險(xiǎn)定價(jià)模式,最小化損失和提高運(yùn)營利潤。神經(jīng)網(wǎng)絡(luò)和異常檢測(cè)將能夠幫助防止保險(xiǎn)欺詐(包括硬的——有計(jì)劃或設(shè)計(jì)的損失,如分階段的汽車盜竊,和軟的——夸大而不是正當(dāng)?shù)厮髻r)。3.10,4.10,3.7, 3.12, 4.12
醫(yī)療健康類似于上面描述的任務(wù),一個(gè)合適建模的個(gè)人醫(yī)療健康計(jì)劃將幫助保險(xiǎn)公司預(yù)測(cè)保險(xiǎn)成本和讓雇主評(píng)估其潛在的損失。雇員(個(gè)人)將可以選擇最優(yōu)的保險(xiǎn)提供商和保險(xiǎn)計(jì)劃。醫(yī)生將在他的診斷中得到支持,病人也將獲得基于最佳預(yù)測(cè)模型和最優(yōu)治療的補(bǔ)充性意見(second opinion)。3.10,4.10
客戶智能減少客戶流失,增加目標(biāo)受眾的向上銷售(up-sales)需要對(duì)這種目標(biāo)受眾進(jìn)行可靠建模。它會(huì)將數(shù)以千計(jì)的模型濃縮以進(jìn)行預(yù)測(cè)分析和生成最有吸引力的個(gè)性化優(yōu)惠。這一業(yè)務(wù)領(lǐng)域的機(jī)器學(xué)習(xí)應(yīng)用與前面討論的兩個(gè)密切相關(guān)。3.5,4.5
預(yù)防犯罪這是無監(jiān)督機(jī)器學(xué)習(xí)的一個(gè)明顯應(yīng)用,上面已有過討論——光學(xué)特征識(shí)別已被廣泛應(yīng)用在了街道上和網(wǎng)絡(luò)中,這都是神經(jīng)網(wǎng)絡(luò)的功勞。抱歉,我忍不住要引用另一個(gè)名言:「你永遠(yuǎn)不要低估愚蠢的可預(yù)見性?!梗▉碜浴锻倒論岒_》中的子彈牙托尼)。社交網(wǎng)絡(luò)中個(gè)人信息的量是令人愉快的:著名政治家的女兒的照片展示了一輛她爸可能永遠(yuǎn)也買不起的新賓利車;宣稱上次納稅申報(bào)沒交很多錢的商人在一架帶有明顯可識(shí)別的登記號(hào)的 60 英尺長(zhǎng)的游艇上擺造型,等等。逃稅、洗錢和腐敗偵測(cè)——都將受益于模式檢測(cè)、分類和回歸樹算法。
恐怖活動(dòng)偵測(cè)NSA/CIA 最喜歡的隨機(jī)森林(RF)算法,是以對(duì) 80 個(gè)參數(shù)的收集和分類為基礎(chǔ)的[4],其中包括移動(dòng)電話使用、生活模式、社交網(wǎng)絡(luò)活動(dòng)和出行行為。應(yīng)該謹(jǐn)慎地說:隨機(jī)森林算法是避免套袋階段(bagging phase)過度擬合的合適且必要的隨機(jī)取樣(引導(dǎo)(bootstrapping))方法。后面是來自《偷拐搶騙》的另一條引言:「Boris,不要使用白癡來做這個(gè)工作?!?/td>

結(jié)論

如前所述,這篇分類并不追求完全覆蓋機(jī)器學(xué)習(xí)領(lǐng)域內(nèi)所可能的算法,也不會(huì)將機(jī)器學(xué)習(xí)定位為數(shù)據(jù)分析的通用方法。就像前面的童話故事力求展示的那樣,每一種算法都有自己的優(yōu)點(diǎn)和缺點(diǎn),而且使用不當(dāng)就可能會(huì)導(dǎo)致災(zāi)難性的后果[4]。例如,神經(jīng)網(wǎng)絡(luò)的訓(xùn)練往往很慢,大規(guī)模物理實(shí)現(xiàn)也很艱難,訓(xùn)練過程中出現(xiàn)的神經(jīng)網(wǎng)絡(luò)權(quán)重可能會(huì)難以理解。隨機(jī)森林訓(xùn)練更快也更容易實(shí)現(xiàn),但在森林構(gòu)建過程中不能對(duì)泛化誤差(generalisation error)進(jìn)行合適估計(jì),這可能會(huì)導(dǎo)致顯著的失敗。因此,一個(gè)半島電視臺(tái)記者可能會(huì)被誤認(rèn)為是基地組織恐怖分子。使用來自一個(gè)函數(shù)集合的所有宣稱的 80 種標(biāo)準(zhǔn)(幾乎所有標(biāo)準(zhǔn)都來自于 GSM 使用模式),可以創(chuàng)建一個(gè)不平衡決策樹(misbalanced decision tree)。

一般而言,隨機(jī)森林并不適合用來預(yù)測(cè)超出訓(xùn)練數(shù)據(jù)范圍的結(jié)果?;诖耍覀兛梢愿爬ㄕf:只有算法所基于的數(shù)據(jù)集良好、完全和有代表性時(shí),算法本身才能良好、完全和有代表性(這就是 Flink 和 Kafka 被作為數(shù)據(jù)收集和分類的關(guān)鍵組分的原因)。對(duì)于一個(gè)成功的輸出來說,對(duì)數(shù)據(jù)科學(xué)家的需求是很關(guān)鍵的。了解數(shù)據(jù)集統(tǒng)計(jì)分布規(guī)律是使用任何算法的第一步。決策應(yīng)該基于一種為檢測(cè)分布規(guī)律(并不總是高斯分布)適配過的受限奈曼皮爾森方法。我們希望現(xiàn)在你可以看到在你的技術(shù)基礎(chǔ)設(shè)施中,商業(yè)智能遠(yuǎn)比基礎(chǔ)技術(shù)架構(gòu)中的明顯規(guī)則引擎(BRE,如 Oracle)的實(shí)現(xiàn)更復(fù)雜。

參考文獻(xiàn)

1. Machine Learning, Tom Mitchell, McGraw Hill, 1997.

2. Applied SOA Patterns on the Oracle Platform, Pack Publishing, Sergey Popov – August 12, 2014.

3. Artificial Intelligence, A. Cachko, Eureka Publishing, 1978.

4. The NSA’s SKYNET program may be killing thousands of innocent people (http:///security/2016/02/the-nsas-skynet-program-may-be-killing-thousands-of-innocent-people/)

5. Levin B.R. Theoretical Foundations of Statistical Radio Engineering, 1989, Radio and Communications.

6. Tikhonov V.I. The optimal signal reception, 1983, Radio and Communications.

7. Top-banner 'Snow White and Prince Charming Check the Map' (https://www./photos/toadmahone/57834838)

    本站是提供個(gè)人知識(shí)管理的網(wǎng)絡(luò)存儲(chǔ)空間,所有內(nèi)容均由用戶發(fā)布,不代表本站觀點(diǎn)。請(qǐng)注意甄別內(nèi)容中的聯(lián)系方式、誘導(dǎo)購買等信息,謹(jǐn)防詐騙。如發(fā)現(xiàn)有害或侵權(quán)內(nèi)容,請(qǐng)點(diǎn)擊一鍵舉報(bào)。
    轉(zhuǎn)藏 分享 獻(xiàn)花(0

    0條評(píng)論

    發(fā)表

    請(qǐng)遵守用戶 評(píng)論公約

    類似文章 更多