《經(jīng)濟(jì)學(xué)人》:真正能和人交流的機(jī)器人離我們有多遠(yuǎn)? AI世代2017-01-18 【AI世代編者按】《經(jīng)濟(jì)學(xué)人》近日刊登文章,稱計(jì)算機(jī)在翻譯、語音識別和語音合成上都獲得了很大的進(jìn)步,但它們?nèi)匀徊涣私庹Z言的含義。以下是原文內(nèi)容: “對不起,戴夫,恐怕我不能這樣做?!彪娪啊?001:太空遨游》里,電腦“哈爾9000”冷冰冰地說。它拒絕給冒險(xiǎn)出艙的宇航員戴夫o鮑曼開門,這個(gè)情節(jié)反應(yīng)了人們對智能計(jì)算機(jī)的擔(dān)憂。 1968年該片上映時(shí),可以與人類交流自如的計(jì)算機(jī)似乎就像人類登上木星那樣遙不可及。在那之后,我們已經(jīng)取得了巨大進(jìn)步,制造出了可以和人交談的機(jī)器,這些機(jī)器可以做出接近于自然語言的回應(yīng)。即便如此,溝通也仍然存在困難。如果《2001:太空遨游》使用的是當(dāng)前的語言技術(shù),那么對話就會是這樣:“打開艙門,哈爾?!薄拔液鼙福鞣?。我聽不懂你說的話?!薄按蜷_艙門,哈爾?!薄按鞣?,我在eBay上搜索了‘艙門’,結(jié)果如下……” 可以處理突發(fā)事件、具有創(chuàng)意,能真正進(jìn)行交談的計(jì)算機(jī)仍然距離我們很遙遠(yuǎn)。當(dāng)被問及哈爾、終結(jié)者這種機(jī)器人會帶來怎樣的影響時(shí),人工智能(AI)研究者只會付之一笑。雖然除了少數(shù)套話式的任務(wù)之外,當(dāng)前的語言技術(shù)還遠(yuǎn)遠(yuǎn)不能取代人類,但最終它們也會變得比較好用,為人類提供一些幫助,這樣我們可以把更多的時(shí)間放在自己覺得有趣的事情上了。在之前60年里,大多數(shù)這類項(xiàng)目的成果都很令人失望,但在過去幾年里,我們?nèi)〉玫倪M(jìn)展開始比較接近早期開拓者的期望了。 語音識別取得了顯著進(jìn)步。機(jī)器翻譯也從“效果滑稽”變得“很有希望”,可能不久之后,機(jī)器翻譯的結(jié)果只需要人類進(jìn)行少量的編輯就可以達(dá)到不錯(cuò)的水平。電腦個(gè)人助理,比如蘋果Siri、亞馬遜Alexa、谷歌Now和微軟小娜,它們可以理解各種各樣的問題,并且以一種自然的方式提供準(zhǔn)確而有用的回答。 蘋果在2011年推出Siri的時(shí)候,這個(gè)語音助理的效果令人失望,所以很多人都沒有使用它。咨詢公司Creative 1966年,約翰o皮爾斯(John 但皮爾斯的報(bào)告給他們潑了一盆涼水。該報(bào)告回顧了過去十年里機(jī)器翻譯和自動語音識別的進(jìn)展,然后總結(jié)說,語言技術(shù)研究的成果被夸大了,專家的信誓旦旦并不可靠。皮爾斯在1969年寫道,資助者和研究人員經(jīng)常自欺欺人,“并沒有獲得簡單、清楚、確實(shí)的成果”。在那之后,美國政府在這個(gè)領(lǐng)域投入的資金大大縮水,語言技術(shù)研究進(jìn)入了二十年的冬眠期。 賓夕法尼亞大學(xué)語言學(xué)教授、語言數(shù)據(jù)聯(lián)盟(Linguistic 逐步發(fā)展 研究人員會對一套做法達(dá)成了共識,無論是讓計(jì)算機(jī)進(jìn)行語音識別,辨別說話者的身份,對文本進(jìn)行情緒分析,還是開展語法分解、語言識別、手寫識別或是其他各種任務(wù)。他們需要列出一些需要改進(jìn)的指標(biāo),并且要共享用來訓(xùn)練軟件的數(shù)據(jù)集,讓外部人員來測試他們得出的結(jié)果。這樣一來,整個(gè)過程就變得更加透明了。資金再次涌來,語言技術(shù)開始逐步獲得改善,雖然進(jìn)展比較緩慢。 語言技術(shù)的很多早期方法(特別是翻譯)陷入了一個(gè)概念性的死胡同——基于規(guī)則的方法。在翻譯中,這意味著嘗試編寫規(guī)則來分析源語言的句子文本,將其分解成一種抽象的“語言”,并根據(jù)目標(biāo)語言的規(guī)則來重建它。這些方法最初看起來很有前景。但是語言中模糊和不規(guī)則的東西太多,所以這種翻譯系統(tǒng)就變得非常復(fù)雜,而且效果也不如人意。但是在應(yīng)用了統(tǒng)計(jì)方法(通常被稱為“蠻力”方法)之后,幾乎所有的語言技術(shù)都獲得了很大的提升。 這種方法需要軟件搜索大量的數(shù)據(jù)、尋找模式,并從先例中學(xué)習(xí)。例如,在解析語言(將其分解為語法組件)的時(shí)候,軟件需要學(xué)習(xí)人類已經(jīng)解析完成的大量文本,然后利用學(xué)到的東西,對以前沒有見過的文本如何解析做出最佳猜測。在機(jī)器翻譯中,軟件學(xué)習(xí)人類已經(jīng)翻譯過的數(shù)以百萬的例句,然后尋找模式。在語音識別中,軟件從人類的語音錄音和相應(yīng)的文字轉(zhuǎn)錄結(jié)果中進(jìn)行學(xué)習(xí)。由于處理器的性能不斷提高,存儲數(shù)據(jù)的成本下降,以及可用的數(shù)據(jù)出現(xiàn)了爆炸性增長,這種方法最終產(chǎn)生了效果。 數(shù)幾十前就已經(jīng)問世的數(shù)學(xué)技術(shù)開始大顯身手,掌握了大量數(shù)據(jù)的大公司必然可以從中受益。BabelFish這樣的在線工具給出的翻譯結(jié)果常常滑稽可笑,令人失望,但谷歌翻譯的讓人覺得很有信心,蘋果也說服了數(shù)以百萬計(jì)的iPhone用戶在手機(jī)上和Siri對話。最大的進(jìn)步是從大約五年前,由數(shù)字神經(jīng)網(wǎng)絡(luò)(DNN)加持的深度學(xué)習(xí)出現(xiàn)的時(shí)候開始的。 DNN經(jīng)常被說成具有和人類大腦類似的特質(zhì),是在軟件中相互連接的“神經(jīng)元”,在學(xué)習(xí)過程,不同的連接可以變得更強(qiáng)或者更弱。但是語言技術(shù)公司Nuance的研究主管尼爾斯o蘭科(Nils 在計(jì)算機(jī)圖像中,基本的小形狀根據(jù)相當(dāng)簡單的規(guī)則移動,但是形狀和規(guī)則的數(shù)量都很多,需要進(jìn)行大量的簡單計(jì)算。DNN搜索數(shù)據(jù)進(jìn)行學(xué)習(xí)的時(shí)候,GPU就被用來微調(diào)分配給DNN中“神經(jīng)元”的權(quán)重。這種技術(shù)已經(jīng)為各種深度學(xué)習(xí)的質(zhì)量帶來了巨大飛躍,包括手寫識別、面部識別和圖像分類?,F(xiàn)在研究者用它們來改進(jìn)各種語言技術(shù),通常會出現(xiàn)高達(dá)30%的效果提升。在這種情況下,語言技術(shù)已經(jīng)從“能用”變得“比較好用”。但是到目前為止,沒有人知道它要怎樣才能從“還不錯(cuò)”變得“一直很出色”。 能說話的機(jī)器 電影《機(jī)器人總動員》(WALL-E)描寫了在未來,所有的人類都生活在一架太空飛船里,那時(shí)候,由于環(huán)境惡化,地球已被遺棄。人類的種種需要都由機(jī)器來照顧,人類只需要躺在智能懸浮椅子享受就可以了,所以所有人都變得肥頭大耳。即使是船長也不是真的在指揮飛船,真正的飛行員是一個(gè)智能機(jī)器人,名叫Auto,它說話很尖刻。就像很多科幻小說的情節(jié)一樣,Auto最終也篡了權(quán)。 說話是人類的顯著特征之一,所以你很難想象機(jī)器可以像人類一樣真正交談,除非把它們設(shè)想為超級智能。但如果它們超級聰明,沒有人類的缺陷,那又很難想象它們不會接管一切權(quán)力了——這樣似乎不僅對它們好,而且對人類也好。即使是在一個(gè)相當(dāng)美好的未來中,比如《機(jī)器人總動員》中的未來,所有的工作都交給機(jī)器來做,你也很容易看到,如果生活太缺乏挑戰(zhàn),這對人類也是沒什么好處的。 幸運(yùn)的是,可以說話的機(jī)器可以幫助人們完成很多枯燥的任務(wù)。機(jī)器變得越來越善于處理那些例行公事型的麻煩事情。很快,用戶就可以使用語調(diào)自然的語音命令來讓機(jī)器辦理事情了。曾經(jīng)一段時(shí)間,在一戶家庭中,只有一個(gè)人知道怎么用計(jì)算機(jī)或者錄像機(jī)。后來,圖形界面(圖標(biāo)和鼠標(biāo))和觸摸屏使這樣的技術(shù)讓科技產(chǎn)品的使用變得很簡單。風(fēng)險(xiǎn)投資公司Andreessen 而1995年即將到來。這并不意味著人們以后僅僅通過交談的方式與電腦溝通。網(wǎng)站并沒有讓電話變得過時(shí),移動設(shè)備也沒有讓臺式電腦變得過時(shí)。所以,當(dāng)人們可以和機(jī)器進(jìn)行語音交互的時(shí)候,有時(shí)候還是會繼續(xù)使用文本交互方式。 不是所有人都會選擇語音交互。例如在日本,人們會避免在公眾場合進(jìn)行語音交談,因此Siri在上班時(shí)間使用率較低,但在晚上和周末比較高。語音技術(shù)的發(fā)展是件好事,用戶不用打字就可以寫作,老年人可能也會發(fā)現(xiàn)用語音輸入比在小鍵盤上打字更加容易一些。而不會打字的幼兒現(xiàn)在也可以和機(jī)器說話了。 打字困難的殘障人士也將從中受益。微軟的一款新設(shè)備可以幫助肌萎縮性側(cè)索硬化(ALS,病人身體幾乎不能動,但頭腦正常)患者用他們的眼睛在屏幕上選擇字母的方式“說話”。其中的關(guān)鍵是預(yù)測文本、學(xué)習(xí)用戶的習(xí)慣,并且改進(jìn)預(yù)測方式。有經(jīng)驗(yàn)的用戶每分鐘可以說大約15個(gè)單詞。 人們甚至?xí)で髾C(jī)器的陪伴。微軟在中國推出的聊天機(jī)器人小冰學(xué)會了如何回話可以讓交談持續(xù)得更久。沒有人會認(rèn)為小冰是人類,但它確實(shí)能讓用戶變得比較“暢所欲言”。 另一個(gè)可能從該技術(shù)中受益的是規(guī)模較小的語言社群。計(jì)算機(jī)網(wǎng)絡(luò)可能會出現(xiàn)一種“贏家通吃”的效應(yīng):如果有很多好的軟件都是英語或者中文的,那么較小的語言在網(wǎng)上就變得價(jià)值很小。因而這些語言的生存可能會受到威脅。但瀕危語言聯(lián)盟的羅斯o佩林(Ross 自然語言技術(shù)的興起存在兩個(gè)重大問題:一是影響隱私,二是會顛覆很多工種。 越來越多的設(shè)備總是處在“聆聽”狀態(tài)。數(shù)字助理(比如Alexa、小娜、Siri和谷歌助理)會被默認(rèn)設(shè)置為等待提示狀態(tài),你說“Hey,Siri”或“OK,谷歌”,就可以激活它們。但是,衣服口袋里有這樣一個(gè)永遠(yuǎn)在線的麥克風(fēng),不免會讓注重隱私的人感到困擾。而用具體某個(gè)用戶的語音、詞匯、書面文檔和習(xí)慣來訓(xùn)練語言軟件,改進(jìn)它的效果,也存在著類似的問題。 每家大公司的位置服務(wù)——就連手機(jī)中檢測微小位置變化的加速度計(jì)——都在不斷改進(jìn)它們猜測“用戶的需求是什么”的準(zhǔn)確性。如果一個(gè)數(shù)字助理的行為讓人感到驚訝(“藥劑師就在附近——你想買更多的痔瘡膏嗎,史蒂夫?”)可能很多人都想要重新思考一下,是新服務(wù)的方便性更可取呢,還是保護(hù)隱私更重要??萍脊究梢栽谶@方面發(fā)揮一些作用,為用戶提供更多的選擇;最新的iPhone面朝下放在桌子上的時(shí)候,語音助理就不會被激活。但是黑客肯定也會找到一些方法來突破這類關(guān)卡。 另一個(gè)大問題是工作崗位。只要一個(gè)工作是例行性的,它就會有可能被自動化。一個(gè)很好的例子是客戶支持服務(wù)。當(dāng)人們聯(lián)系公司,尋求幫助的時(shí)候,最初的對話常常都是一些例行問答。員工需要驗(yàn)證客戶的身份,然后按照既定程序處理問題。而語言技術(shù)現(xiàn)在已經(jīng)足夠成熟,可以承擔(dān)大量這樣的任務(wù)。 在一段很長的過渡時(shí)期中,仍然是需要人類參與這些工作的,但他們所做的事情不再是例行公事。 Datalingvo公司道德尼基塔o伊萬諾夫(Nikita 這個(gè)過程也可以反向工作:不是用自然語言輸入來產(chǎn)生數(shù)據(jù),而是用數(shù)據(jù)來產(chǎn)生語言。 牛津大學(xué)經(jīng)濟(jì)學(xué)家卡爾o貝尼迪克特o弗雷(Carl 以前也出現(xiàn)過類似的事情。谷歌搜索最初誕生的時(shí)候,幾秒鐘就會返回搜索結(jié)果。如果人工進(jìn)行搜索,可能需要幾個(gè)小時(shí)、幾天或幾年的時(shí)間。谷歌搜索幫了研究員、圖書館員或記者的大忙。這樣的創(chuàng)新并沒有摧毀這些工作崗位,只是改變了它們。 機(jī)器可以幫人們做一些苦差事,讓大家有時(shí)間和精力去做更有趣的事情,不僅如此,它們甚至可以創(chuàng)造一些額外的工作機(jī)會。但是,對于不能適應(yīng)這種變化的人來說,這也是非常痛苦的過渡。社會變革(婦女解放,勞動力市場的全球化等)帶來了動蕩,一些人因此陷入了困境。當(dāng)催生這些變化時(shí)的是機(jī)器時(shí),而且當(dāng)這些機(jī)器看起來越來越像人類的時(shí)候,事情也會變得越發(fā)艱難。人們對待沒有生命的東西已經(jīng)很擬人化了:你肯定看到過一些人對著電腦大喊大叫。機(jī)器說得越多,它們就越是給人一種善解人意的感覺,用戶就越容易將把它們當(dāng)作人來看待。 這提出了一個(gè)深層次問題:語言被廣泛視為人類最獨(dú)特的特征之一,人工智能研究人員堅(jiān)持說智能機(jī)器的思維方式和人不一樣,但如果它們能像人一樣傾聽和談話,那么它們算是什么呢?當(dāng)人類教會機(jī)器使用語言的時(shí)候,人和機(jī)器之間曾經(jīng)明顯的界限就會變得模糊。(編譯/云開) 人工智能洶涌而來,未來已變!關(guān)注“AI世代”微信號(tencentAI),關(guān)注未來 |
|