小男孩‘自慰网亚洲一区二区,亚洲一级在线播放毛片,亚洲中文字幕av每天更新,黄aⅴ永久免费无码,91成人午夜在线精品,色网站免费在线观看,亚洲欧洲wwwww在线观看

分享

專訪 | 頂級(jí)語音專家、MSR首席研究員俞棟:語音識(shí)別的四大前沿研究

 jinnison 2016-10-31

機(jī)器之心原創(chuàng)

記者:老紅

編輯:吳攀


9 月中旬,微軟報(bào)告了在語音識(shí)別方面取得的新里程碑:新系統(tǒng)的識(shí)別詞錯(cuò)率降至 6.3%;一個(gè)月后,微軟又公布了在這一領(lǐng)域成功實(shí)現(xiàn)了歷史性突破:他們的語音識(shí)別系統(tǒng)實(shí)現(xiàn)了和專業(yè)轉(zhuǎn)錄員相當(dāng)甚至更低的詞錯(cuò)率(WER),達(dá)到了 5.9%!機(jī)器之心在此期間曾對(duì)微軟首席語音科學(xué)家黃學(xué)東進(jìn)行了專訪,探討了這一連串突破性背后的技術(shù)和語音識(shí)別領(lǐng)域未來的可能性。近日,機(jī)器之心又對(duì)微軟研究院首席研究員俞棟進(jìn)行了一次獨(dú)家專訪,談?wù)摿松疃葘W(xué)習(xí)與語音識(shí)別相輔相成的發(fā)展以及相關(guān)領(lǐng)域的現(xiàn)狀和未來。


俞棟簡(jiǎn)介:1998 年加入微軟公司,現(xiàn)任微軟研究院首席研究員,兼任浙江大學(xué)兼職教授和中科大客座教授。語音識(shí)別和深度學(xué)習(xí)方向的資深專家,出版了兩本專著,發(fā)表了 160 多篇論文,是 60 余項(xiàng)專利的發(fā)明人及深度學(xué)習(xí)開源軟件 CNTK 的發(fā)起人和主要作者之一。曾獲 2013 年 IEEE 信號(hào)處理協(xié)會(huì)最佳論文獎(jiǎng)?,F(xiàn)擔(dān)任 IEEE 語音語言處理專業(yè)委員會(huì)委員,曾擔(dān)任 IEEE/ACM 音頻、語音及語言處理匯刊、IEEE 信號(hào)處理雜志等期刊的編委。


以下是此次專訪的內(nèi)容:


機(jī)器之心:請(qǐng)俞老師先給我們的讀者介紹一下目前語音識(shí)別方面最值得關(guān)注的一些方向。


俞棟:在安靜環(huán)境下并使用近距麥克風(fēng)的場(chǎng)合,語音識(shí)別的識(shí)別率已越過了實(shí)用的門檻;但是在某些場(chǎng)景下效果還不是那么好,這就是我們這個(gè)領(lǐng)域的 frontier。現(xiàn)在大家主攻幾點(diǎn):


首先,是不是能夠進(jìn)一步提升在遠(yuǎn)場(chǎng)識(shí)別尤其是有人聲干擾情況下的識(shí)別率。目前一般遠(yuǎn)場(chǎng)識(shí)別的錯(cuò)誤率是近場(chǎng)識(shí)別錯(cuò)誤率的兩倍左右,所以在很多情況下語音識(shí)別系統(tǒng)還不盡如人意。遠(yuǎn)場(chǎng)識(shí)別至少目前還不能單靠后端的模型加強(qiáng)來解決?,F(xiàn)在大家的研究集中在結(jié)合多通道信號(hào)處理(例如麥克風(fēng)陣列)和后端處理從拾音源頭到識(shí)別系統(tǒng)全程優(yōu)化來增強(qiáng)整個(gè)系統(tǒng)的 表現(xiàn)。


另外,大家還在研究更好的識(shí)別算法。這個(gè)「更好」有幾個(gè)方面:一個(gè)方面是能不能更簡(jiǎn)單?,F(xiàn)在的模型訓(xùn)練過程還是比較復(fù)雜的,需要經(jīng)過很多步驟。如果沒有 HTK 和 Kaldi 這樣的開源軟件和 recipe 的話,很多團(tuán)隊(duì)都要用很長(zhǎng)時(shí)間才能搭建一個(gè)還 OK 的系統(tǒng)即使 DNN 的使用已經(jīng)大幅降低了門檻。現(xiàn)在因?yàn)橛辛碎_源軟件和 recipe,包括像 CNTK 這樣的深度學(xué)習(xí)工具包,事情已經(jīng)容易多了,但還有繼續(xù)簡(jiǎn)化的空間。這方面有很多的工作正在做,包括如何才能不需要 alignment 、或者不需要 dictionary?,F(xiàn)在的研究主要還是基于 end-to-end 的方法,就是把中間的一些以前需要人工做的步驟或者需要預(yù)處理的部分去掉。雖然目前效果還不能超越傳統(tǒng)的 hybrid system,但是已經(jīng)接近 hybrid system 的 performance 了。


另外一個(gè)方面,最近的幾年里大家已經(jīng)從一開始使用簡(jiǎn)單的 DNN 發(fā)展到了后來相對(duì)復(fù)雜的 LSTM 和 Deep CNN 這樣的模型。但在很多情況下這些模型表現(xiàn)得還不夠好。所以一個(gè)研究方向是尋找一些特殊的網(wǎng)絡(luò)結(jié)構(gòu)能夠把我們想要 model 的那些東西都放在里面。我們之前做過一些嘗試,比如說人在跟另外一個(gè)人對(duì)話的過程中,他會(huì)一直做 prediction,這個(gè) prediction 包括很多東西,不單是包括你下一句想要說什么話,還包括根據(jù)你的口音來判斷你下面說的話會(huì)是怎樣等等。我們?cè)鴩L試把這些現(xiàn)象建在模型里以期提升識(shí)別性能。很多的研究人員也在往這個(gè)方向走。


還有一個(gè)方向是快速自適應(yīng)的方法—就是快速的不需要人工干預(yù)的自適應(yīng)方法(unsupervised adaptation)?,F(xiàn)在雖然已經(jīng)有一些自適應(yīng)的算法了,但是它們相對(duì)來說自適應(yīng)的速度比較慢,或者需要較多的數(shù)據(jù)。有沒有辦法做到更快的自適應(yīng)?就好像第一次跟一個(gè)口音很重的人說話的時(shí)候,你可能開始聽不懂,但兩三句話后你就可以聽懂了。大家也在尋找像這種非??爝€能夠保證良好性能的自適應(yīng)方法??焖僮赃m應(yīng)從實(shí)用的角度來講還是蠻重要的。因?yàn)樽赃m應(yīng)確實(shí)在很多情況下能夠提升識(shí)別率。


從識(shí)別來講,我覺得目前主要是這些方向。


機(jī)器之心:Google DeepMind 最近提出了一種通過學(xué)習(xí)合成波形的方式生成語音的技術(shù) WaveNet,據(jù)說可以生成感覺更自然的語音,微軟在這方面有什么研究項(xiàng)目?


俞棟:微軟也在做類似的工作,但是因?yàn)楹铣傻难芯繄F(tuán)隊(duì)和工程團(tuán)隊(duì)都在中國(guó),我對(duì)他們具體到哪個(gè)地步不是特別清楚。有一些信息我也不能直接披露,所以就不詳細(xì)講了。


機(jī)器之心:深度學(xué)習(xí)已經(jīng)在語音識(shí)別得到了非常出色的表現(xiàn),您覺得未來語音識(shí)別還能在深度學(xué)習(xí)的哪些方面實(shí)現(xiàn)突破?


俞棟:剛才我講了,其中的一個(gè)可能性就是通過各種類型的 prediction 和 adaptation 使得深度學(xué)習(xí)模型表現(xiàn)更出色,這是有可能繼續(xù)提升的地方。另外就是 end-to-end 建模。


還有,像我們最近也在做一些特殊環(huán)境中的語音識(shí)別,比如說在高噪音環(huán)境下、或者你說話的時(shí)候有背景的音樂、或者是會(huì)議室里面有多個(gè)人同時(shí)說話——這些情況下現(xiàn)在的語音識(shí)別效果是很差的。所以我們也在研究如何用深度學(xué)習(xí)的方法在比如多說話人的情況下做得比原來傳統(tǒng)的方法好。我們現(xiàn)在已經(jīng)在 arXiv 上面發(fā)布了一個(gè)早期結(jié)果的預(yù)印本(Permutation Invariant Training of Deep Models for Speaker-Independent Multi-talker Speech Separation),含有更多實(shí)驗(yàn)結(jié)果的正式版本現(xiàn)在正在審稿中。我們的這一稱為 Permutation Invariant Training 的方法主要用于語音分離。用這種方法整個(gè) process 比較簡(jiǎn)單而效果很好。在這些方面深度學(xué)習(xí)都能帶來一定的突破。當(dāng)然,我前面也講了,完全解決這些問題需要軟硬結(jié)合,從拾音到前端和后端需要系統(tǒng)性優(yōu)化。


機(jī)器之心:在類似漢語這種多音字、多音詞比較多的語言中,語音識(shí)別方面有什么和英語這樣的拼音語言不一樣的地方?


俞棟:從語音識(shí)別的技術(shù)角度來講,沒有太大的區(qū)別。因?yàn)槟阕罱K都是將語音信號(hào),即 waveform sequence,變成字或者詞的 sequence。多音字和多音詞只是詞表里對(duì)應(yīng)的字或詞有多個(gè)發(fā)音規(guī)則而已,這在其他語言比如英語中也很常見。


不過中文是一個(gè)有音調(diào)的語言,音調(diào)對(duì)字和詞的識(shí)別是有影響的。音調(diào)信息如果用好的話,就有可能提升識(shí)別率。不過大家發(fā)現(xiàn) deep learning 模型有很強(qiáng)的非線性映射功能,很多音調(diào)里的信息可以被模型自動(dòng)學(xué)到,不需要特別處理。


唯一可能不一樣的地方是如果你用 end-to-end system,建模單元會(huì)不一樣。因?yàn)樵谟⒄Z里面你一般會(huì)選用字母、音素、或音節(jié) 作為建模單元,而不會(huì)選用詞作為建模單元。但在中文里面你可以直接用漢字作為建模單元。所以建模單元的選擇上可能會(huì)不太一樣。除此之外,基本上沒有太大區(qū)別。


機(jī)器之心:技術(shù)上沒有太大區(qū)別?


俞棟:沒有太大區(qū)別。


機(jī)器之心:具體來說,您覺得自然語言處理能夠給語音識(shí)別帶來哪些幫助?


俞棟:目前來講,自然語言處理對(duì)語音識(shí)別本身的幫助還不是很大。要說幫助比較大的方面——如果語言模型(language model)算做自然語言處理的話,語言模型還是起到了很大作用的,尤其是在有噪音的環(huán)境下,如果沒有語言模型來做約束,效果一般來說都比較差。但是除此之外,現(xiàn)在的 NLP 技術(shù)對(duì)語音識(shí)別沒有起到很大的作用。大家嘗試過很多用自然語言處理技術(shù)提升識(shí)別率的方法,但效果都不理想。


但是理論上來講它應(yīng)該是可以起到作用的。因?yàn)槲覀兝斫饩渥雍x,我們能發(fā)現(xiàn)有一些語音識(shí)別結(jié)果是不 make sense 的,比如說前面的主語跟后面的賓語根本就不搭,在這種情況下識(shí)別系統(tǒng)應(yīng)該選擇其他的 hypothesis,對(duì)話系統(tǒng)則應(yīng)該尋求澄清,但是現(xiàn)有系統(tǒng)沒有這么做。沒有這么做的原因在于它其實(shí)不理解到底用戶說了什么,也沒能充分利用遠(yuǎn)距離的 dependency 信息。這樣的錯(cuò)誤,有可能通過自然語言處理的技術(shù)發(fā)現(xiàn)并得到更正。但是語義分析是個(gè)很困難的問題,如何做還是一個(gè)未知數(shù)。


機(jī)器之心:剛才我們講到在噪音環(huán)境下,包括遠(yuǎn)距離環(huán)境下的識(shí)別,除了這個(gè),還有多個(gè)說話人一起說話的情況下的語音識(shí)別。在這三個(gè)方面,您覺得現(xiàn)在和未來可以通過什么樣的方式來解決這個(gè)問題?


俞棟:前面提到過,解決遠(yuǎn)距離識(shí)別很重要的一點(diǎn)是需要硬件的支持。至少以目前的技術(shù),僅僅通過后端處理效果還不夠好。因?yàn)樾盘?hào)在傳輸?shù)倪^程中衰減很厲害,距離越遠(yuǎn)衰減越厲害,信噪比就越差。所以遠(yuǎn)距離識(shí)別一般都需要做增強(qiáng)。比較好的增強(qiáng)需要硬件支持,比如說麥克風(fēng)陣列。深度學(xué)習(xí)方法也能提供一些幫助。當(dāng)你有多通道信息的時(shí)候,深度學(xué)習(xí)方法還可以做自動(dòng)的信息融合以提升遠(yuǎn)距離語音識(shí)別的性能。


多通道信號(hào)處理,比如麥克風(fēng)陣列,對(duì)分離含噪語音和多人混合語音也至關(guān)重要。另外,深度學(xué)習(xí)方法比如我剛才提到的 Permutation Invariant 訓(xùn)練方法也可以解決一部分語音分離問題,是整體解決方案中的重要一環(huán)。分離后的結(jié)果可以送到后端做識(shí)別。后端的識(shí)別結(jié)果反饋回來也能幫助提升分離和說話人跟蹤的效果。所以最終的系統(tǒng)應(yīng)該是前端的分離跟后端的識(shí)別融合互助的系統(tǒng)。


機(jī)器之心:從您和鄧力老師的那本書《Automatic Speech Recognition: A Deep Learning Approach》出版到現(xiàn)在,您認(rèn)為期間深度學(xué)習(xí)有了什么新的研究成果? 哪些研究成果您認(rèn)為是很重大的?


俞棟:我們寫這本書的時(shí)候,LSTM 這樣的模型才剛剛開始成功應(yīng)用于語音識(shí)別。當(dāng)時(shí)大家對(duì)其中的很多 技巧 還沒有很好的了解。所以訓(xùn)練出來的模型效果還不是那么好。最近,我的同事 Jasha Droppo 博士花了很多時(shí)間在 LSTM 模型上面,提出了一種很有意思的基于 smoothing 的 regularization 方法使得 LSTM 模型的性能有了很大的提升。他的 smoothing 方法的基本思想在我們的 human parity 文章中有介紹。


另外一個(gè)比較大的進(jìn)展是 Deep CNN。最近兩年里,很多研究組都發(fā)現(xiàn)或證實(shí)使用小 Kernel 的 Deep CNN 比我們之前在書里面提到的使用大 kernel 的 CNN 方法效果更好。Deep CNN 跟 LSTM 比有一個(gè)好處。用 LSTM 的話,一般你需要用雙向的 LSTM 效果才比較好。但是雙向 LSTM 會(huì)引入很長(zhǎng)的時(shí)延,因?yàn)楸仨氁谡麄€(gè)句子說完之后,識(shí)別才能開始。而 Deep CNN 的時(shí)延相對(duì)短很多,所以在實(shí)時(shí)系統(tǒng)里面我們會(huì)更傾向于用 Deep CNN 而不是雙向 LSTM。


還有就是端到端的訓(xùn)練方式也是在我們的書完成后才取得進(jìn)展的。這方面現(xiàn)在大家的研究工作主要集中在兩類模型上。一類就是 CTC 模型,包括 Johns Hopkins 大學(xué)的 Dan Povey 博士從 CTC 發(fā)展出來的 lattice-free MMI;還有一類是 attention-based sequence to sequence model。這些模型在我們的書里面都沒有描述,因?yàn)楫?dāng)時(shí)還沒有做成功。即便今天它們的表現(xiàn)也還是比 hybrid model 遜色,訓(xùn)練的穩(wěn)定性也更差,但是這些模型有比較大的 potential。如果繼續(xù)研究有可能取得突破。


另外一個(gè)進(jìn)展是單通道語音分離,尤其是多人混合語音的分離。這方面有兩項(xiàng)有趣的工作。一個(gè)是 MERL 的 John Hershey 博士提出的 Deep Clustering 方法,另外一個(gè)是我們提出的 Permutation Invariant Training。實(shí)現(xiàn)上,Permutation Invariant Training 更簡(jiǎn)單。John Hershey 認(rèn)為有跡象表明 deep clustering 是 permutation invariant training 的一個(gè)特例。


這些都是在我們完書之后最近兩年里比較有意義的進(jìn)展。


機(jī)器之心:也是在這個(gè)月,Google 發(fā)了神經(jīng)網(wǎng)絡(luò)翻譯系統(tǒng)(GNMT),您對(duì)這個(gè)系統(tǒng)有什么看法?微軟在這方面有沒有這樣的研究?


俞棟:微軟很早以前就在做類似的工作了。你可能知道微軟有個(gè)基于文本的翻譯系統(tǒng),在 Skype 上也有一個(gè) speech to speech translation system。在這些系統(tǒng)里我們已經(jīng)用到了 neural machine translation 的一些東西。不過翻譯主要是由另外的團(tuán)隊(duì)在做,我在這里面涉及比較少。


機(jī)器之心:語音特征參數(shù)提取與魯棒性語音識(shí)別與合成的關(guān)鍵因素,特征參數(shù)在不利的噪聲環(huán)境下,魯棒性都會(huì)急劇下降。目前有什么新的研究可以在特征提取中保持語音信號(hào)的最重要參數(shù)嗎?


俞棟:目前,一個(gè)方法是用信號(hào)處理技術(shù)對(duì)輸入信號(hào)進(jìn)行分離和增強(qiáng)。另一個(gè)方法是用 deep learning 取代人工從 waveform 直接提取特征。只要訓(xùn)練數(shù)據(jù)的 coverage 足夠大,各種各樣場(chǎng)景的訓(xùn)練數(shù)據(jù)都有,模型的結(jié)構(gòu)設(shè)計(jì)合理,那么模型的泛化能力和魯棒性就能得到提升。兩種方式結(jié)合可以得到更好結(jié)果。不過,泛化是機(jī)器學(xué)習(xí)的一個(gè)未解決的基本問題,更好的解決方案有待于機(jī)器學(xué)習(xí)理論的進(jìn)展。


機(jī)器之心:微軟在語音識(shí)別上如何解決方言帶來的口音問題,比如說「le」和「ne」?針對(duì)方言,微軟的語料庫是從何而來的?


俞棟:一個(gè)簡(jiǎn)單的方法是增加帶口音的訓(xùn)練語料。如何有效利用這些語料有些講究。大概 3、4 年前,我們發(fā)過一篇文章,研究怎么樣在 deep learning model 上做自適應(yīng)。帶口音的識(shí)別問題可以看作一個(gè)自適應(yīng)的問題。假設(shè)你已經(jīng)有標(biāo)準(zhǔn)語音的模型,帶口音的語音可以看成標(biāo)準(zhǔn)語音的某種偏離。所以我們的解決方法是做自適應(yīng)。做自適應(yīng)的時(shí)候,我們可以把有類似口音的語料聚合在一起以增加訓(xùn)練數(shù)據(jù)。我們發(fā)現(xiàn)這樣做效果挺不錯(cuò)。如果已經(jīng)有系統(tǒng)上線,收集帶口音的語料并不困難。如果你用過 Windows Phone,你就知道 Windows Phone 的 Cortana 里面有個(gè)選項(xiàng)——你想用標(biāo)準(zhǔn)的識(shí)別模型還是想用含口音的模型?用戶可以選擇。


機(jī)器之心:今年,微軟發(fā)布了 CNTK。您能說一下 CNTK 跟 Theano、TensorFlow、Torch、Caffe 這些工具的區(qū)別嗎?以及在微軟語音系統(tǒng)上是怎么樣應(yīng)用 CNTK 的?


俞棟:所有的這些開源工具現(xiàn)在都做得相當(dāng)好了,都能夠滿足一般的研究或者是工程的需要。但是每一個(gè)開源工具都有自己的長(zhǎng)處和弱點(diǎn)。CNTK 是唯一一個(gè)對(duì) Windows 和 Linux 都有比較好的支持的深度學(xué)習(xí)工具。相比較其他工具,CNTK 對(duì)多 GPU 并行訓(xùn)練有更好的支持, 不僅并行效率高,而且簡(jiǎn)單易用。CNTK 對(duì) C 的支持也是最全面的,你可以完全使用 C 來構(gòu)建、訓(xùn)練、修改、和解碼模型。CNTK 版本 1 對(duì) Python binding 支持比較弱。但是剛剛發(fā)布的版本 2.0 提供了非常強(qiáng)大的 Python binding。另外,CNTK 提供了許多運(yùn)行效率很高的并行文件閱讀模塊,大大提升了并行效率。這里我想提一下,我的很多同事都對(duì) CNTK 2.0 有很大貢獻(xiàn)。尤其值得一提的是 Amit Agarwal,他是我見過的非常難得的優(yōu)秀軟件工程師和架構(gòu)師,他主導(dǎo)設(shè)計(jì)了 CNTK2.0 的主要 API。我在他身上學(xué)到很多東西,我非常享受與他討論的時(shí)間。


我和幾個(gè)同事剛開始寫 CNTK1.0 的時(shí)候,主要用戶是語音識(shí)別研究員和工程師,所以 CNTK 對(duì)語音相關(guān)的模型、數(shù)據(jù)結(jié)構(gòu)、和文件格式支持得相對(duì)比較好。因?yàn)檎Z音識(shí)別系統(tǒng)訓(xùn)練數(shù)據(jù)很大,我們很早就在 CNTK 中實(shí)現(xiàn)了并行訓(xùn)練的算法。目前,微軟產(chǎn)品線所有的語音識(shí)別模型都是用 CNTK 訓(xùn)練的。最近我們的語音識(shí)別系統(tǒng)在 SWB 數(shù)據(jù)集上能做到比專業(yè)轉(zhuǎn)錄員錯(cuò)誤率還低,CNTK 對(duì)縮短我們達(dá)到這一里程碑所需的時(shí)間有很大貢獻(xiàn)。


機(jī)器之心:您曾說過,人工智能的成功在于將多種方法的整合到一個(gè)系統(tǒng)。在你們最近發(fā)表的論文中,我們看到目前最新的語音識(shí)別的研究用到了多任務(wù)優(yōu)化(Multitask Joint learning)以及多種模型混合(ensembles of models)的方法,能談?wù)勊麄兊膬?yōu)勢(shì)嗎?


俞棟:語音識(shí)別相對(duì)來說是一個(gè)任務(wù)比較單一而非通用的人工智能系統(tǒng)。語音識(shí)別的問題定義得也比較清晰。在這樣的系統(tǒng)里面,把深度學(xué)習(xí)模型與其他模型進(jìn)行整合的重要性相對(duì)來說比較小。這也就是為什么只要你有足夠的數(shù)據(jù)和運(yùn)算能力,即便是完全的 deep learning end-to-end system 表現(xiàn)也不錯(cuò)。不過目前來講,深度學(xué)習(xí)和 HMM 相結(jié)合的混合模型在大多數(shù)場(chǎng)景下仍然表現(xiàn)最佳。


語音識(shí)別中使用多任務(wù)優(yōu)化的主要目的是增加模型的泛化能力或利用一些不能直接利用的輔助信息。而多種模型混合(ensembles of models)的主要目的是利用模型間的差異來增強(qiáng)混合后模型的表現(xiàn)。值得指出的是,由于深度學(xué)習(xí)模型是非線性非凸的優(yōu)化問題,當(dāng)初始模型不同時(shí),最后的模型也不同。盡管這些模型的平均表現(xiàn)很接近,但因?yàn)樗麄兪諗康降狞c(diǎn)不一樣,模型之間仍有差異,融合這些模型也能提升一些性能。


但是更通用的人工智能系統(tǒng)還需要能做決策(decision-making)、要做推理、要能理解。對(duì)于這樣的系統(tǒng)來說,單靠深度學(xué)習(xí)方法遠(yuǎn)遠(yuǎn)不夠。而需要結(jié)合過去幾十年里人工智能其他分支取得的一些進(jìn)展,比如說增強(qiáng)學(xué)習(xí)、邏輯推理、知識(shí)表達(dá)、以及最優(yōu)和次優(yōu)搜索。還有如果我們想讓一群人工智能系統(tǒng)自己從與環(huán)境的交互中快速尋找答案,那么諸如蟻群算法和遺傳算法一類的算法就變得很重要了。


機(jī)器之心:今年您覺得在語音識(shí)別方面有哪些比較重量級(jí)的論文值得去讀,能否推薦幾個(gè)給我們的讀者?


俞棟:除了前面提到的 LF-MMI 、 Deep CNN(包括我們最近發(fā)表的 LACE 模型)、和 Permutation Invariant Training,另外一個(gè)比較有意思的論文是 MERL 在 arXiv 上發(fā)表的一篇文章。他們結(jié)合了 CTC 和 attention-based model,利用這兩個(gè)模型各自的長(zhǎng)處來克服對(duì)方的弱點(diǎn)。

機(jī)器之心:您是怎么看待監(jiān)督學(xué)習(xí)、半監(jiān)督學(xué)習(xí)和無監(jiān)督學(xué)習(xí)這三個(gè)學(xué)習(xí)方式呢?


俞棟:監(jiān)督學(xué)習(xí)是比較 well-defined,有比較明確的任務(wù)。目前來講,深度學(xué)習(xí)對(duì)這一類問題 效果比較好。


無監(jiān)督學(xué)習(xí)的目的是要尋找數(shù)據(jù)中的潛在規(guī)律。很多情況下,它試圖尋找某種特征變換和相對(duì)應(yīng)的生成模型來表達(dá)原始數(shù)據(jù)。但無監(jiān)督學(xué)習(xí)不僅本身困難,對(duì)無監(jiān)督學(xué)習(xí)系統(tǒng)的評(píng)價(jià)也很難。原因是通過無監(jiān)督學(xué)習(xí)找到的規(guī)律不一定對(duì)你將來的任務(wù)有幫助,或者它對(duì)某一任務(wù)有幫助,換一個(gè) 任務(wù)就沒有幫助了。當(dāng)然,如果你的目標(biāo)僅僅是數(shù)據(jù)壓縮,評(píng)價(jià)還是容易的,但我們使用無監(jiān)督學(xué)習(xí)壓縮本身往往不是主要目的。


機(jī)器之心:那半監(jiān)督學(xué)習(xí)呢?


俞棟:半監(jiān)督學(xué)習(xí)介于兩者中間。因?yàn)槟阋呀?jīng)有一部分標(biāo)注信息了,所以你 的任務(wù)是明確的,不存在不知如何評(píng)估的問題。半監(jiān)督學(xué)習(xí)在實(shí)用系統(tǒng)里還是有一定作用的。比如說我們需要標(biāo)注大量數(shù)據(jù)來訓(xùn)練語音識(shí)別系統(tǒng),但人工標(biāo)注既花時(shí)間又花錢,所以你往往有比標(biāo)注數(shù)據(jù)多得多的未標(biāo)注數(shù)據(jù)。沒有標(biāo)注過的數(shù)據(jù),也有很多可以利用的信息,雖然它們的價(jià)值遠(yuǎn)遠(yuǎn)小于標(biāo)注的數(shù)據(jù)。半監(jiān)督學(xué)習(xí)對(duì)我們的系統(tǒng)性能有一定的提升。


機(jī)器之心:最后一個(gè)問題,在整個(gè)人工智能的布局上,您認(rèn)為語音識(shí)別是一個(gè)怎樣的定位?


俞棟:在很多應(yīng)用場(chǎng)合,語音識(shí)別是一個(gè)入口。沒有這個(gè)入口的話,大家都會(huì)覺得這個(gè)智能機(jī)器不夠智能或者與這個(gè)智能機(jī)器交互會(huì)有困難。人機(jī)交互中語音識(shí)別是第一步。如果語音識(shí)別做得不夠好,那后期的自然語言理解等的錯(cuò)誤率就會(huì)大幅上升。這也是為什么語音到語音的翻譯要比文本到文本的翻譯難很多,因?yàn)樵谡Z音對(duì)語音的翻譯系統(tǒng)里語音識(shí)別產(chǎn)生的錯(cuò)誤會(huì)在后面翻譯的過程中放大。


歷史上,語音識(shí)別也為機(jī)器學(xué)習(xí)和人工智能提供了很多新的方法和解決方案。比如語音識(shí)別里的關(guān)鍵模型 Hidden Markov Model 對(duì)后來機(jī)器學(xué)習(xí)的很多分支都有幫助。深度學(xué)習(xí)也是先在語音識(shí)別上取得成功,然后才在圖像識(shí)別和其他領(lǐng)域取得成功的。





專訪 | 微軟人物志


微軟研究院人工智能首席科學(xué)家 | 鄧力

微軟首席語音科學(xué)家 | 黃學(xué)東

微軟亞洲研究院院長(zhǎng) | 洪小文

微軟(亞洲)互聯(lián)網(wǎng)工程院院長(zhǎng) | 王永東

微軟亞洲研究院首席研究員 | 霍強(qiáng)


機(jī)器之心

    本站是提供個(gè)人知識(shí)管理的網(wǎng)絡(luò)存儲(chǔ)空間,所有內(nèi)容均由用戶發(fā)布,不代表本站觀點(diǎn)。請(qǐng)注意甄別內(nèi)容中的聯(lián)系方式、誘導(dǎo)購買等信息,謹(jǐn)防詐騙。如發(fā)現(xiàn)有害或侵權(quán)內(nèi)容,請(qǐng)點(diǎn)擊一鍵舉報(bào)。
    轉(zhuǎn)藏 分享 獻(xiàn)花(0

    0條評(píng)論

    發(fā)表

    請(qǐng)遵守用戶 評(píng)論公約

    類似文章 更多