引自:《深度學(xué)習(xí)》(作者:文龍, 李新宇) 深度學(xué)習(xí)(deep learning,DL)是近年來飛速發(fā)展的新領(lǐng)域,是機(jī)器學(xué)習(xí)的一個(gè)特定分支。為了提高機(jī)器學(xué)習(xí)系統(tǒng)的準(zhǔn)確率,將輸入數(shù)據(jù)信息轉(zhuǎn)換為有效的特征是至關(guān)重要的一步。其中的特征的一般性描述稱為表示。如果某種算法具備自動(dòng)學(xué)習(xí)特征的能力,那么這種學(xué)習(xí)方式稱為表示學(xué)習(xí)。深度學(xué)習(xí)是表示學(xué)習(xí)的經(jīng)典代表方法。 深度學(xué)習(xí)是將原始數(shù)據(jù)通過多步的特征轉(zhuǎn)換得到的一種特征表示,其“深度”指的是對(duì)原始數(shù)據(jù)進(jìn)行非線性特征轉(zhuǎn)換的次數(shù),如用于特征提取的多層網(wǎng)絡(luò)結(jié)構(gòu)。深度學(xué)習(xí)為了學(xué)習(xí)一種好的表示,通過構(gòu)建具有一定“深度”的模型,進(jìn)而自動(dòng)學(xué)習(xí)到好的特征表示(從底層特征,到中層特征,再到高層特征),最終提高整個(gè)機(jī)器學(xué)習(xí)系統(tǒng)的準(zhǔn)確性和效率,如圖1所示。 圖1 深度學(xué)習(xí)的數(shù)據(jù)處理流程 「 1. 深度學(xué)習(xí)的發(fā)展歷程 」 具體來說,人工智能、機(jī)器學(xué)習(xí)和深度學(xué)習(xí)是包含關(guān)系的幾個(gè)領(lǐng)域,如圖2所示。人工智能涵蓋的內(nèi)容非常廣,機(jī)器學(xué)習(xí)是20世紀(jì)末發(fā)展起來的一類重要人工智能技術(shù)。深度學(xué)習(xí)則是機(jī)器學(xué)習(xí)的一個(gè)分支,比傳統(tǒng)機(jī)器學(xué)習(xí)方法具有更強(qiáng)大的能力和靈活性。深度學(xué)習(xí)所具有的表示學(xué)習(xí)能力,解決了傳統(tǒng)機(jī)器學(xué)習(xí)方法面臨的難題,極大地?cái)U(kuò)展了人工智能的應(yīng)用領(lǐng)域范圍。 圖2 深度學(xué)習(xí)與神經(jīng)網(wǎng)絡(luò)和人工智能的關(guān)系 深度學(xué)習(xí)的概念是由著名學(xué)者杰弗里·辛頓(Geoffrey Hinton,神經(jīng)網(wǎng)絡(luò)之父、深度學(xué)習(xí)鼻祖,圖靈獎(jiǎng)得主)等于2006年提出的。但是深度學(xué)習(xí)的研究起源于20世紀(jì)50年代對(duì)人工神經(jīng)網(wǎng)絡(luò)的研究??v觀整個(gè)人工神經(jīng)網(wǎng)絡(luò)的發(fā)展,其發(fā)展是跌宕起伏的,經(jīng)歷了“三起兩落”。 起點(diǎn):1943年,McCulloch和Pitts發(fā)表《A Logical Calculus if Ideas Immanent in Nervous Activity》,神經(jīng)網(wǎng)絡(luò)開山之作。該文提出了神經(jīng)元計(jì)算模型,計(jì)算機(jī)使用該模型模擬人的神經(jīng)元反應(yīng)的過程。 第一起:1958年,Rosenblatt提出感知器(Perceptron),并提出一種接近于人類學(xué)習(xí)過程的學(xué)習(xí)算法。 第一落:1969年,Marvin Minsky出版《感知機(jī)》(Perceptrons),總結(jié)了感知機(jī)的兩大問題:即無法處理異或問題和計(jì)算能力不足,在往后十多年里神經(jīng)網(wǎng)絡(luò)研究一直沒有太大進(jìn)展。 第二起:1986年,Hinton等發(fā)明了適用于多層感知器(multi-layer perceptron,MLP)的反向傳播算法(backpropagation,BP),并采用Sigmoid進(jìn)行非線性映射,有效解決了非線性分類和學(xué)習(xí)的問題。由此掀起了神經(jīng)網(wǎng)絡(luò)發(fā)展的第二次熱潮。BP算法是神經(jīng)網(wǎng)絡(luò)中極為重要的學(xué)習(xí)算法,至今仍占有重要地位。 第二落:BP算法被指出存在“梯度消失”和“梯度爆炸”問題。1995—2006年計(jì)算機(jī)性能仍然無法支持大規(guī)模的神經(jīng)網(wǎng)絡(luò)訓(xùn)練,導(dǎo)致SVM和線性分類器等簡單的方法反而更流行。 第三起:2006年,Hinton等提出深度學(xué)習(xí),并給出了解決“梯度消失/梯度爆炸”問題的方案,即首先通過無監(jiān)督學(xué)習(xí)逐層預(yù)訓(xùn)練模型,再使用有監(jiān)督學(xué)習(xí)對(duì)模型進(jìn)行調(diào)優(yōu)。神經(jīng)網(wǎng)絡(luò)迎來第三次高潮。 得益于大數(shù)據(jù)的興起、計(jì)算能力的提升等推動(dòng)作用,深度學(xué)習(xí)通過學(xué)習(xí)樣本數(shù)據(jù)的內(nèi)在規(guī)律和表示層次,在語音和圖像識(shí)別等領(lǐng)域取得的效果,遠(yuǎn)超先前相關(guān)技術(shù),取得了巨大的成功,并已經(jīng)向各個(gè)其他領(lǐng)域應(yīng)用擴(kuò)展。 「 2. 深度學(xué)習(xí)的應(yīng)用 」 目前,深度學(xué)習(xí)在計(jì)算機(jī)視覺、語音識(shí)別、自然語言處理等領(lǐng)域得到了廣泛的應(yīng)用,且取得了超越了人類水平的效果。不僅如此,在智能制造領(lǐng)域中,深度學(xué)習(xí)也得到了大量的應(yīng)用,并向制造領(lǐng)域全生命周期中的各個(gè)環(huán)節(jié)滲透。隨著智能制造的發(fā)展,工業(yè)大數(shù)據(jù)以前所未有的速度發(fā)展,工業(yè)場景數(shù)據(jù)采集的廣度和深度都得到了前所未有的提高,給智能制造帶來了新的機(jī)遇。本節(jié)通過幾個(gè)不同應(yīng)用領(lǐng)域的案例來說明深度學(xué)習(xí)的典型應(yīng)用場景。 1)計(jì)算機(jī)視覺 計(jì)算機(jī)視覺是指利用攝像機(jī)或者計(jì)算機(jī)代替人眼對(duì)目標(biāo)進(jìn)行識(shí)別、跟蹤和測量,以期從圖像、視頻等信息中建立人工智能系統(tǒng)。計(jì)算機(jī)視覺得到了研究者長期、廣泛的關(guān)注,也是深度學(xué)習(xí)最早實(shí)現(xiàn)突破性進(jìn)展的領(lǐng)域。在計(jì)算機(jī)視覺的各個(gè)子任務(wù)領(lǐng)域,包括圖像分類、目標(biāo)檢測、圖像語義分割、場景文字識(shí)別、圖像生成、人體關(guān)鍵點(diǎn)檢測、視頻分類、度量學(xué)習(xí)等,深度學(xué)習(xí)都得到了廣泛應(yīng)用,并極大地推進(jìn)了相關(guān)領(lǐng)域的發(fā)展。如在人臉識(shí)別領(lǐng)域,支付寶刷臉支付已成為常態(tài),如圖3(a)所示。在新冠肺炎疫情期間,基于人臉的門禁系統(tǒng)通過刷臉出入得到了大量的推廣應(yīng)用,如圖3(b)所示。 (a) (b) 圖3 計(jì)算機(jī)視覺應(yīng)用 (a)支付寶刷臉支付;(b)人臉識(shí)別門禁系統(tǒng) 2)語音識(shí)別 自2009年深度學(xué)習(xí)被引入語音識(shí)別領(lǐng)域,深度學(xué)習(xí)取得了巨大的進(jìn)展。2015年,百度研究院開發(fā)的深度學(xué)習(xí)系統(tǒng)在中英文語言識(shí)別上的正確率超過了人類。在中文語音測試中,人類組的錯(cuò)誤率是4.0%,而深度學(xué)習(xí)僅為3.7%。谷歌、蘋果、微軟、百度、騰訊等國內(nèi)外大型IT公司提供了大量的語音相關(guān)產(chǎn)品和服務(wù)。例如騰訊公司的微信提供了語音轉(zhuǎn)文字功能,如圖4(a)所示??拼笥嶏w輸入法提供了語音輸入法,除普通話外,還有超過23種地方方言、3種民族語言等的語音輸入法,如圖4(b)所示。 (a) (b) 圖4 語音識(shí)別應(yīng)用 (a)微信的語音轉(zhuǎn)文字功能;(b)科大訊飛輸入法語音輸入 3)自然語言處理 自然語言處理(natural language processing,NLP)是指用計(jì)算機(jī)對(duì)自然語言的形、音、義等信息進(jìn)行處理,即對(duì)字、詞、句、篇章的輸入、輸出、識(shí)別、分析、理解和生成等的操作和加工,NLP研究實(shí)現(xiàn)人與計(jì)算機(jī)之間用自然語言進(jìn)行有效通信的各種理論和方法。自然語言處理的應(yīng)用包括機(jī)器翻譯、輿情監(jiān)測、自動(dòng)摘要、觀點(diǎn)提取、文本分類、問題回答、文本語義對(duì)比、中文OCR等方面。例如百度云和阿里云均提供大量NLP方面的應(yīng)用。 4)智能故障預(yù)測 智能故障預(yù)測是將人工智能技術(shù)應(yīng)用到故障診斷中,根據(jù)所采集到的各類型、多模態(tài)的數(shù)據(jù),建立相應(yīng)的故障預(yù)測模型,以推斷系統(tǒng)或部件的故障原因。隨著工業(yè)大數(shù)據(jù)的發(fā)展,深度學(xué)習(xí)為智能故障預(yù)測提供了新的思路和途徑。深度學(xué)習(xí)以其強(qiáng)大的數(shù)據(jù)特征自動(dòng)提取能力,實(shí)現(xiàn)了對(duì)設(shè)備運(yùn)行歷史數(shù)據(jù)的自動(dòng)提取與分析,進(jìn)而可以提高故障檢測與診斷的精度與效率。其應(yīng)用領(lǐng)域也覆蓋從零部件(如軸承、變速箱、往復(fù)式壓縮機(jī)等)到各類復(fù)雜裝備等(如風(fēng)力發(fā)電機(jī)、航空航天設(shè)備等)。圖5為德國Paderborn大學(xué)KAT數(shù)據(jù)中心的故障數(shù)據(jù)采集裝置,用于獲取不同軸承故障類型的實(shí)驗(yàn)數(shù)據(jù)。 圖5 德國Paderborn大學(xué)KAT數(shù)據(jù)中心的故障數(shù)據(jù)采集裝置 5)工業(yè)圖像檢測 工業(yè)圖像檢測,是指利用機(jī)器視覺對(duì)工業(yè)中產(chǎn)生的圖像進(jìn)行處理與分析,以替代人工檢測。工業(yè)圖像檢測不僅提高了生產(chǎn)的自動(dòng)化程度,讓不適合人工作業(yè)的危險(xiǎn)工作環(huán)境變成了可能,同時(shí)也讓大批量、持續(xù)生產(chǎn)變成了現(xiàn)實(shí),大大地提高了檢測效率與效果,進(jìn)而提高生產(chǎn)效率。工業(yè)圖像檢測的應(yīng)用場景十分廣泛,如表面缺陷檢測、物體分揀、視覺測量等。圖6為天池鋁型材表面缺陷數(shù)據(jù)集和北京大學(xué)發(fā)布的印刷電路板(PCB)瑕疵數(shù)據(jù)集。 (a) (b) 圖6工業(yè)圖像檢測應(yīng)用 (a)天池鋁型材表面缺陷數(shù)據(jù)集;(b)印刷電路板瑕疵數(shù)據(jù)集 當(dāng)然,深度學(xué)習(xí)的應(yīng)用領(lǐng)域還遠(yuǎn)遠(yuǎn)不止以上這些,限于篇幅,不再列舉。 |
|