□記者 吳韜 高珊 閱讀提示 計(jì)算機(jī)能否幫助人類(lèi)打破不同語(yǔ)言的藩籬?答案是可能的。 近日,F(xiàn)acebook宣布其研究團(tuán)隊(duì)已經(jīng)開(kāi)發(fā)出一種基于卷積神經(jīng)網(wǎng)絡(luò)的新語(yǔ)言翻譯技術(shù),其翻譯速度及準(zhǔn)確度均超越了谷歌翻譯。這是繼去年9月,谷歌采用循環(huán)神經(jīng)網(wǎng)絡(luò)機(jī)器翻譯技術(shù)來(lái)支持英語(yǔ)、西班牙語(yǔ)、葡萄牙語(yǔ)、法語(yǔ)、德語(yǔ)、土耳其語(yǔ)、中文、日語(yǔ)和韓語(yǔ)等語(yǔ)言的翻譯后,機(jī)器翻譯技術(shù)取得的又一重大進(jìn)展。 一些研究人員認(rèn)為,隨著人工智能中自然語(yǔ)言處理技術(shù)的不斷進(jìn)步,能代替人類(lèi)“高翻”的機(jī)器翻譯技術(shù)很可能在未來(lái)全面普及。 綿延而曲折的 人類(lèi)機(jī)譯之夢(mèng) “機(jī)器翻譯聽(tīng)起來(lái)比較陌生,但實(shí)際上我們平時(shí)使用的一些在線翻譯工具都屬于這一技術(shù)在現(xiàn)實(shí)中的應(yīng)用?!笔】茖W(xué)院應(yīng)用數(shù)學(xué)研究所王志強(qiáng)博士表示,機(jī)器翻譯是指運(yùn)用機(jī)器,通過(guò)計(jì)算機(jī)程序,將一種以書(shū)寫(xiě)或聲音為形式的自然語(yǔ)言,翻譯成另一種以書(shū)寫(xiě)或聲音為形式的自然語(yǔ)言。 “雖然名字乍聽(tīng)起來(lái)好像只跟計(jì)算機(jī)有關(guān),但機(jī)器翻譯其實(shí)是一個(gè)交叉學(xué)科,涉及語(yǔ)言學(xué)、計(jì)算機(jī)科學(xué)和數(shù)學(xué)等多個(gè)學(xué)科領(lǐng)域。”王志強(qiáng)進(jìn)一步解釋道。 人類(lèi)的機(jī)譯之夢(mèng)很早就開(kāi)始了,而且綿延不絕。早在17世紀(jì),笛卡爾、萊布尼茨等就提出了機(jī)器字典的設(shè)想。隨著計(jì)算機(jī)的發(fā)明,1947年,美國(guó)科學(xué)家瓦倫·韋弗提出使用計(jì)算機(jī)來(lái)對(duì)自然語(yǔ)言進(jìn)行翻譯,這一年也因之被稱(chēng)為機(jī)器翻譯誕辰年。 人類(lèi)靠自己翻譯不就很好嗎,為什么還要開(kāi)發(fā)機(jī)器翻譯呢? “傳統(tǒng)的人工作業(yè)方式雖然可以很好完成一些翻譯工作,但隨著科學(xué)技術(shù)的發(fā)展和國(guó)際交流的日趨頻繁,傳統(tǒng)的人工作業(yè)方式已經(jīng)遠(yuǎn)遠(yuǎn)不能滿足需求,迫切地需要一種工具來(lái)幫助人類(lèi)從事翻譯工作,更好地實(shí)現(xiàn)交流。在此背景下,機(jī)器翻譯走上了歷史舞臺(tái)?!蓖踔緩?qiáng)稱(chēng)。 那么計(jì)算機(jī)翻譯人類(lèi)語(yǔ)言的第一句話是什么呢? “是一句俄文:我們通過(guò)語(yǔ)言傳遞思想。翻譯這句話的那個(gè)系統(tǒng)可是世界上第一個(gè)機(jī)器翻譯系統(tǒng),它實(shí)現(xiàn)了機(jī)器翻譯從科學(xué)設(shè)想到現(xiàn)實(shí)應(yīng)用的變化?!蓖踔緩?qiáng)稱(chēng),該系統(tǒng)出現(xiàn)在1954年,由IBM和喬治敦大學(xué)成功研制,是一個(gè)可以完成基于6項(xiàng)語(yǔ)法規(guī)則和250個(gè)詞匯的俄英翻譯系統(tǒng)。當(dāng)時(shí)還進(jìn)行了公開(kāi)演示,此后機(jī)器翻譯研究便開(kāi)始在美國(guó)、日本、意大利、英國(guó)、德國(guó)等國(guó)展開(kāi)。 不過(guò)機(jī)器翻譯的發(fā)展并非一路凱歌,有一度竟被判了“死刑”。 據(jù)介紹,由于早期的機(jī)器翻譯系統(tǒng)相對(duì)簡(jiǎn)單、功能有限,研究者們陷入了研發(fā)困境。1964年美國(guó)政府的自動(dòng)語(yǔ)言處理委員會(huì)在對(duì)機(jī)器翻譯研究后,發(fā)布了一份報(bào)告稱(chēng)機(jī)器翻譯速度較慢且不夠準(zhǔn)確,看不到任何前景。這讓很多人放棄了對(duì)機(jī)器翻譯的研究,機(jī)器翻譯走入低谷。 “20世紀(jì)80年代初,機(jī)器翻譯的研究開(kāi)始復(fù)蘇?!蓖踔緩?qiáng)表示,近年來(lái),隨著計(jì)算機(jī)科學(xué)、語(yǔ)言學(xué)研究的發(fā)展,特別是計(jì)算機(jī)硬件技術(shù)的大幅提高以及人工智能在自然語(yǔ)言處理上的應(yīng)用,機(jī)器翻譯的發(fā)展進(jìn)入了一個(gè)前所未有的新時(shí)期,成了人類(lèi)在翻譯活動(dòng)中不可或缺的得力幫手。 人工神經(jīng)網(wǎng)絡(luò) 助機(jī)器翻譯實(shí)現(xiàn)變革 “Facebook研究團(tuán)隊(duì)實(shí)現(xiàn)的新技術(shù)是一種基于人工神經(jīng)網(wǎng)絡(luò)的機(jī)器翻譯。”省科學(xué)院應(yīng)用數(shù)學(xué)研究所崔彥軍研究員表示,它與以往傳統(tǒng)的機(jī)器翻譯方式有明顯不同。 據(jù)了解,機(jī)器翻譯的實(shí)現(xiàn)方式有多種,傳統(tǒng)的機(jī)器翻譯方式有基于規(guī)則的機(jī)器翻譯和基于統(tǒng)計(jì)的機(jī)器翻譯,兩種翻譯方式都建立在由詞匯和語(yǔ)句構(gòu)成的龐大語(yǔ)料庫(kù)之上。 基于規(guī)則的機(jī)器翻譯在工作時(shí),會(huì)通過(guò)一定規(guī)則將句子分解成若干詞語(yǔ),再對(duì)每個(gè)詞語(yǔ)進(jìn)行一一對(duì)應(yīng)的翻譯。而基于統(tǒng)計(jì)的機(jī)器翻譯要高級(jí)一些,它通過(guò)搜集大量翻譯實(shí)例建立龐大的語(yǔ)料庫(kù),翻譯過(guò)程中計(jì)算機(jī)同樣把要翻譯的句子切分成各種詞、短語(yǔ),或者語(yǔ)法結(jié)構(gòu)的組合。不過(guò)計(jì)算機(jī)會(huì)在成千上萬(wàn)種翻譯備選方案中,根據(jù)文本間的對(duì)應(yīng)概率,找到關(guān)聯(lián)度最高的翻譯方法來(lái)完成最終的翻譯。 “傳統(tǒng)的機(jī)器翻譯模型中每個(gè)模塊都只能按各自的功能完成目標(biāo),再機(jī)械地將翻譯結(jié)果拼裝在一起。”崔彥軍稱(chēng),因?yàn)闊o(wú)法理解不同詞匯融合后產(chǎn)生的含義,所以其翻譯結(jié)果常常令人啼笑皆非、不知所云。 不滿足于這種翻譯效果,科學(xué)家決定利用其他手段開(kāi)展機(jī)器翻譯,于是人工神經(jīng)網(wǎng)絡(luò)被引入機(jī)器翻譯之中——神經(jīng)網(wǎng)絡(luò)機(jī)器翻譯出現(xiàn)了。 “神經(jīng)網(wǎng)絡(luò)機(jī)器翻譯是以數(shù)學(xué)方式粗略模擬人類(lèi)腦神經(jīng)網(wǎng)絡(luò)運(yùn)作方式,在計(jì)算機(jī)內(nèi)部建立一種人工神經(jīng)網(wǎng)絡(luò)?!贝迯┸姳硎荆斯ど窠?jīng)網(wǎng)絡(luò)具有很多獨(dú)立的層,還有相應(yīng)的數(shù)據(jù)傳導(dǎo)方向。工作時(shí),人工神經(jīng)網(wǎng)絡(luò)內(nèi)的一些小型數(shù)學(xué)函數(shù),會(huì)在計(jì)算機(jī)指令下運(yùn)算,幫助計(jì)算機(jī)來(lái)完成相應(yīng)的翻譯任務(wù)。 據(jù)介紹,神經(jīng)網(wǎng)絡(luò)機(jī)器翻譯在翻譯時(shí),人工神經(jīng)網(wǎng)絡(luò)會(huì)從基礎(chǔ)層開(kāi)始,每一層都對(duì)從上一層接收來(lái)的信息進(jìn)行抽象,自動(dòng)識(shí)別出語(yǔ)言的規(guī)則、模式,決定某一特定信息是否可以通過(guò)并傳輸?shù)较乱粚由窠?jīng)元。 “在選擇下一個(gè)翻譯的單詞時(shí),人工神經(jīng)網(wǎng)絡(luò)會(huì)考慮到目前為止所做的翻譯,通過(guò)放大某一部分的翻譯或者整體的大意,確保接下來(lái)的翻譯選擇符合語(yǔ)境。”崔彥軍解釋道,這種機(jī)制類(lèi)似于人在翻譯時(shí)的斷句,系統(tǒng)在翻譯時(shí)會(huì)回看和多次看整個(gè)句子來(lái)選擇下一個(gè)翻譯的詞語(yǔ),做出最符合的翻譯。 據(jù)了解,神經(jīng)網(wǎng)絡(luò)機(jī)器翻譯的另一個(gè)特點(diǎn)是能夠在翻譯過(guò)程中實(shí)現(xiàn)自我學(xué)習(xí)。計(jì)算機(jī)會(huì)將翻譯過(guò)的所有材料存入語(yǔ)料庫(kù),翻譯時(shí)系統(tǒng)會(huì)自動(dòng)對(duì)電子文檔進(jìn)行分析,100%匹配的句子可以自動(dòng)替換,部分匹配的句子可根據(jù)匹配度提出翻譯建議,新句子則通過(guò)系統(tǒng)提供的翻譯建議進(jìn)行人工翻譯。而且,每次翻譯又為以后積累句子,相同的句子永遠(yuǎn)不需要翻譯第二遍,從而提高了工作效率。 “區(qū)別于傳統(tǒng)的機(jī)器翻譯方式,神經(jīng)網(wǎng)絡(luò)機(jī)器翻譯模型更像一個(gè)有機(jī)體,模型里面所有的參數(shù)都是為同一個(gè)目標(biāo)來(lái)調(diào)整和優(yōu)化的,神經(jīng)網(wǎng)絡(luò)機(jī)器翻譯能把一句話中所有詞匯的語(yǔ)意融合在一起分析和理解,從而使機(jī)器翻譯的準(zhǔn)確性得到了大大提升?!蓖踔緩?qiáng)稱(chēng),從傳統(tǒng)機(jī)器翻譯到神經(jīng)網(wǎng)絡(luò)機(jī)器翻譯的變革,可以比喻成從“手工針線活兒”到“縫紉機(jī)”的變革,它帶來(lái)了機(jī)器翻譯質(zhì)量的大幅提升。 “不同于之前谷歌器翻譯系統(tǒng)采用的循環(huán)神經(jīng)網(wǎng)絡(luò),此次Facebook使用的卷積神經(jīng)網(wǎng)絡(luò)要更為復(fù)雜?!贝迯┸姺Q(chēng),循環(huán)神經(jīng)網(wǎng)絡(luò)在處理分析數(shù)據(jù)時(shí),嚴(yán)格按照句子從左到右的順序一個(gè)字一個(gè)字進(jìn)行翻譯。而卷積神經(jīng)網(wǎng)絡(luò)可以同時(shí)從不同角度捕捉數(shù)據(jù),更好地契合機(jī)器圖形處理器硬件系統(tǒng)。 種種因素 制約“完美翻譯”實(shí)現(xiàn) “雖然機(jī)器翻譯技術(shù)取得了長(zhǎng)足進(jìn)步,但在短期內(nèi)仍無(wú)法達(dá)到人工翻譯的水平。”王志強(qiáng)稱(chēng),目前的機(jī)器翻譯只限于結(jié)構(gòu)簡(jiǎn)單規(guī)范的短句子,還無(wú)法應(yīng)用篇章的連接手段來(lái)組織和安排句子,還需要后期大量的人工進(jìn)行修改和潤(rùn)色。 首先是因?yàn)樽匀徽Z(yǔ)言的復(fù)雜性。自然語(yǔ)言是人類(lèi)最偉大的發(fā)明之一,我們至今還沒(méi)有發(fā)現(xiàn)任何其他更為復(fù)雜的符號(hào)系統(tǒng)。語(yǔ)言的用法、詞的功能等就像棋子的走法一樣,是無(wú)窮多的,這種復(fù)雜性很難用嚴(yán)格的數(shù)學(xué)公式加以描述。王志強(qiáng)表示,自然語(yǔ)言“復(fù)雜特征”的形式化描述不是一朝一夕的事情,況且人類(lèi)對(duì)這種復(fù)雜性的認(rèn)識(shí)也需時(shí)日,這本身就決定了機(jī)器翻譯研究必須經(jīng)過(guò)一個(gè)漫長(zhǎng)而艱辛的過(guò)程。 障礙還來(lái)自于自然語(yǔ)言的多義處理。王志強(qiáng)介紹,自然語(yǔ)言在詞匯、句法、語(yǔ)義、語(yǔ)用等各個(gè)層面都充滿歧義,這些不同的意思需要對(duì)應(yīng)不同的語(yǔ)境來(lái)進(jìn)行翻譯?!案y的是,語(yǔ)言交流是在一定的環(huán)境中進(jìn)行的,一句‘你干得不錯(cuò)呀’,可以表示贊賞,還可以表示諷刺,這種言外之意及其背后的條件及語(yǔ)境,在目前情況下計(jì)算機(jī)是無(wú)法分析的?!边@種整體語(yǔ)境觀念目前是超出機(jī)器處理能力的。 另外,計(jì)算機(jī)難以感知文化。自然語(yǔ)言是文化的重要組成部分,也是文化賴以傳播的物質(zhì)表達(dá)形式。翻譯工作中譯者可能經(jīng)常遇到這樣的情況:如果不懂得與原文有關(guān)的文化背景知識(shí),在翻譯時(shí),會(huì)覺(jué)得原文理解起來(lái)不知所云。這就需要譯者在翻譯的過(guò)程中,結(jié)合文化、歷史、地理、風(fēng)俗習(xí)慣等背景知識(shí)對(duì)文字內(nèi)容進(jìn)行“重組”。 崔彥軍表示,機(jī)器翻譯的工作原理是建立在串行二值邏輯基礎(chǔ)上的,只能在限定的范圍內(nèi)進(jìn)行一對(duì)一的選擇,因此就不可避免地會(huì)出現(xiàn)令人費(fèi)解的譯文。要讓機(jī)器翻譯通順,就必須教會(huì)計(jì)算機(jī)盡可能詳盡的各種文化知識(shí),以目前的人工智能發(fā)展水平,這顯然是不可能的。 自然語(yǔ)言的收集也是制約機(jī)器學(xué)習(xí)發(fā)展的一個(gè)重要原因?!艾F(xiàn)今能夠?qū)崿F(xiàn)機(jī)器翻譯的自然語(yǔ)言,都是國(guó)際交流中常用語(yǔ)種,而大量小語(yǔ)種并未包含其中。”崔彥軍認(rèn)為,這主要是因?yàn)槟壳暗臋C(jī)器翻譯需要依賴于大量數(shù)據(jù)的收集、錄入、標(biāo)記學(xué)習(xí),而許多小語(yǔ)種的數(shù)據(jù)收集存在困難,因此無(wú)法實(shí)現(xiàn)翻譯范圍的全覆蓋。 “機(jī)器翻譯水平想要得到質(zhì)的提升,需要實(shí)現(xiàn)人工智能、機(jī)器認(rèn)知能力、機(jī)器模擬人腦思維等多領(lǐng)域技術(shù)的突破。”王志強(qiáng)表示,“當(dāng)然,我們也不排除在未來(lái)的某一天,計(jì)算機(jī)能夠?qū)崿F(xiàn)準(zhǔn)確的‘完美翻譯’。不過(guò)人類(lèi)也不必過(guò)分擔(dān)心,因?yàn)樗鼈兊慕巧皇禽o助人類(lèi)輕松、便捷地開(kāi)展工作,而不是取而代之。” |
|