編者按:人類認知的三大屬性包括:單語言文本(X),音頻或視覺感官信號(Y)和多語言文本(Z)。微軟通過研究 X、Y、Z 三個領域的交匯處,發(fā)現(xiàn)了實現(xiàn) AI 能力又一次飛躍的可能——以更接近人類的學習和理解方式進行多感知和多語言學習。本文編譯自微軟技術院士、微軟 Azure 認知服務首席技術官黃學東發(fā)表在微軟研究院博客的署名文章“A holistic representation toward integrative AI”。 在微軟,我們一直在尋求通過更全面、以人為本的方法去解決機器的學習和理解問題,以超越現(xiàn)有技術的限制,推進 AI 發(fā)展。作為微軟 Azure 認知服務首席技術官,我一直與一支由頂尖的科學家和工程師組成的團隊通力合作,力爭實現(xiàn)這一目標。 由于工作角色的關系,我能夠以獨特的視角觀察人類認知三大屬性之間的關系:單語言文本(X),音頻或視覺感官信號(Y)和多語言文本(Z)。在這三者的交匯處,存在著一種魔力,我們稱之為 XYZ 代碼,如圖1所示。這種聯(lián)合描述將能夠創(chuàng)造更強大的 AI,可以更好地表達、傾聽、觀察和理解人類。我們相信,XYZ 代碼將有助于我們實現(xiàn)長期的人工智能愿景:跨領域、跨模式和跨語言的遷移學習。我們的目標在于研發(fā)出共同學習表征的預訓練模型,進而為廣泛的下游 AI 任務提供支持,而這與人類今天的工作方式非常相似。 過去五年間,我們在對話式語音識別、機器翻譯、對話式問答、機器閱讀理解和圖像描述等基準測試中都取得了能夠與人類媲美的成績。這五項技術突破讓我們更加滿懷信心地渴望實現(xiàn) AI 能力的又一次飛躍——以更接近人類學習和理解的方式進行多感知和多語言學習。我相信,如果有下游 AI 任務中的外部知識作為支撐,XYZ 代碼將成為實現(xiàn)這個愿望的基本要素。 圖1:旨在實現(xiàn) AI 功能飛躍的 XYZ 代碼。我們可以通過 X、Y、Z 三個領域的交叉獲得更強大的表示形式。 X 代碼:基于大數(shù)據(jù)的文本表示X 代碼旨在實現(xiàn)單語言文本通用表示。早在2013年,我們就通過語義嵌入最大化必應搜索查詢詞和與之相關的文檔的互信息,其得到的文本表示即為 X 代碼。X 代碼很快就轉(zhuǎn)化至微軟必應搜索服務推向了市場,但當時其架構(如圖2所示)并未公布。近1-2年來,在基于 Transformer 的神經(jīng)模型(例如 BERT、圖靈和 GPT-3)的加持下,X 代碼對基于文本的單語言預訓練起到了顯著的提升作用。 X 代碼將查詢詞(字)和文檔映射到高維意圖空間中。我們以500億個無重復的查詢-文檔對作為訓練數(shù)據(jù),對這些表示的互信息加以最大化,X 代碼成功學會了大規(guī)模查詢與文檔之間的語義關系,并且在搜索排名、廣告點擊預測、查詢之間相似度以及文檔分組等各種自然語言處理任務中展現(xiàn)出了優(yōu)越的性能。 圖2:早在2013年,X 代碼通過互信息的最大化以改善大規(guī)模語義文本的表示學習。我們通過查詢及 URL 表示的聯(lián)合優(yōu)化,利用搜索引擎點擊日志對其進行訓練。在嵌入空間,X 代碼捕獲到其中單詞和 Web 文檔的相似性,進而用于各種自然語言處理任務。圖示來自2013年的原始架構。 Y 代碼:加入視覺和聽覺信號的力量我們對感知 AI 的探索及努力全都囊括在了 Y 代碼之中。我們用 Y 指代音頻或視覺信號。對 X 和 Y 屬性的聯(lián)合優(yōu)化有助于圖像描述以及語音、表格或 OCR 識別。通過 XY 聯(lián)合代碼或單純的 Y 代碼,我們旨在對文本、音頻或視覺信號進行共同優(yōu)化。 在最近的 NOCAPS 基準測試中,通過我們的努力,Y 代碼在圖像描述上的表現(xiàn)超越了人類,其架構如圖3所示。通過該架構,我們能夠從視覺信息中確定新物體,并增加一個語言理解層組成描述它們之間關系的句子。在很多情況下,這比人類寫的描述更加準確。NOCAPS 上的突破表明,X 和 Y 屬性之間的交集可以極大地幫助我們在下游 AI 任務取得額外的提升。 圖3:應用于圖像描述的 Y 代碼架構(2020年)。 為了實現(xiàn) NOCAPS 上的突破,我們預訓練了一個大型 AI 模型,用于文本和視覺模式的語義對齊。訓練使用的數(shù)據(jù)集由帶文字標簽的圖像進行增強,而不僅僅是完整的圖片描述,因為它們更易于構建,而且學習的視覺詞匯量也更加豐富。這就像教孩子們讀書一樣,向他們解讀一本圖畫書時,將蘋果的圖片與 “蘋果”這個單詞關聯(lián)起來。 在第二階段,我們對預訓練的模型進行了微調(diào),以教會這個模型如何組成句子。這個自動圖像描述功能目前已經(jīng)集成到了 Office 365、LinkedIn 等廣受歡迎的微軟產(chǎn)品中,歡迎大家使用。此外,還有一款名為 Seeing AI 的手機應用,正在為視力受損或喪失的人群提供服務。在 Office 365中,當你將一張圖像粘貼到 PowerPoint、Word 或 Outlook 中時,都會看到“替代文本”這個選項。這在易用性方面也大有裨益,因為圖像所附的替代文本可以通過屏幕閱讀器朗讀出來。 Z 代碼:利用遷移學習和語言的共同特性Z 代碼也可稱為多語言,其靈感來自于我們希望為全社會消除語言障礙的愿景。Z 代碼通過為一系列語言啟用基于文本的多語言神經(jīng)網(wǎng)絡翻譯,來擴展單語言的 X 代碼。由于進行了遷移學習,而且相似語言之間存在共同的語素,所以我們顯著地改善了質(zhì)量,降低了成本,并提高了 Azure 認知服務中機器翻譯功能的效率(更多詳細信息,見圖4)。 借助 Z 代碼,我們正在利用遷移學習的能力,提高低資源語言的質(zhì)量。低資源語言是指訓練數(shù)據(jù)中所含語句數(shù)量少于100萬的語言。我們旨在覆蓋大約1,500個低資源語言。隨著語言覆蓋范圍的擴大,這些語言可用訓練數(shù)據(jù)的缺乏所帶來的限制與日俱增。為了克服這個難題,我們通過多語言合并以及使用 BERT 式的掩碼語言模型開發(fā)出了多語言神經(jīng)網(wǎng)絡翻譯。 在 Z 代碼中,我們把 BERT 視為將掩碼語言翻譯成初始語言的另一項翻譯任務。由于進行了遷移學習以及相似語言之間的共享,因此我們可以用更少的數(shù)據(jù)極大地提升翻譯質(zhì)量,降低成本,并提高效率?,F(xiàn)在,我們可以使用 Z 代碼來改進翻譯和一般自然語言理解任務,例如多語言命名的實體抽取等。無論人們使用何種語言,Z 代碼都可以幫助我們提供嵌入其中的通用語言。Z 代碼可謂“天生就是多語言的”。 圖4:Z代碼架構圖。Z代碼以兩種方式使用遷移學習。首先,該模型使用多語言訓練,這樣知識可以在多個語言之間實現(xiàn)遷移。其次,我們使用多任務訓練,讓知識在不同任務之間遷移。例如,機器翻譯任務(MT)可以為自然語言理解任務提供幫助,而掩碼LM任務(MLM)或去噪自動編碼器任務(DAE)可以為機器翻譯任務提供幫助,以此類推。 現(xiàn)實挑戰(zhàn),激發(fā) AI 創(chuàng)新多語言語音識別或翻譯是應用 XYZ 代碼的實際情境之一,無論這涉及到的是簡單的電梯多語言語音控制,還是向歐盟議會提供支持(其成員使用24種歐洲官方語言)。我們通過開發(fā)基于 AI 的工具,努力克服語言障礙,實現(xiàn)了對歐洲議會辯論的自動實時轉(zhuǎn)錄和翻譯,并且能夠從人工的校對和編輯中進行學習。 在15世紀中期,德國發(fā)明家約翰內(nèi)斯·古騰堡(Johannes Gutenberg)造出了第一臺印刷機。古騰堡印刷機通過把金屬質(zhì)地的活字模組合成單詞,從而使大規(guī)模印刷書面材料成為了可能。這一進步讓人類能夠廣泛地傳播和分享知識。我們的團隊正是從古騰堡身上汲取了靈感,XYZ 代碼的研發(fā)工作將 AI 功能分解成了細小的“積木”,以獨特的方式進行組合,讓集成 AI 變得更加有效。 作為歷史上最重要的發(fā)明之一,古騰堡印刷機極大地改變了社會的演進方式。我相信,我們正處于與之相似的 AI 功能“復興”過程之中。在當今的數(shù)字化時代,我們的雄心壯志是開發(fā)出可以像人類一樣學習和推理的技術,也就是說,讓技術能夠更像人類在做出決策時那樣,對情境和意圖進行推斷。 盡管我們志存高遠,但對 XYZ 代碼的研究仍需腳踏實地,向著既定目標邁進。正如古騰堡印刷機徹底變革了人類信息傳播的過程一樣,我們希望研發(fā)出能夠更好地與人類能力相匹配的 AI,并不斷推動 AI 向前發(fā)展。 |
|