百度AI進(jìn)階：從生活智能到科研全景

昵稱68038279 2023-01-12 發(fā)布于北京

展開(kāi)全文

本文轉(zhuǎn)載自產(chǎn)業(yè)科技

作為一種前沿通用技術(shù)，AI對(duì)現(xiàn)實(shí)世界的滲透和改變，不止于末端的生活體驗(yàn)創(chuàng)新，更在于高階的科學(xué)研究賦能。

在一些AI實(shí)力靠前的科技公司戰(zhàn)略圖景中，可以看到它們的錨點(diǎn)已經(jīng)從生活智能向基礎(chǔ)科學(xué)研究進(jìn)階。例如百度近期舉辦的Create大會(huì)-技術(shù)開(kāi)放日媒體溝通會(huì)，向外界披露了百度最新技術(shù)進(jìn)展，分層次展示百度AI解決方案，對(duì)智能生活、產(chǎn)業(yè)智能和科學(xué)研究的助推能力。

具體來(lái)看，百度相關(guān)技術(shù)負(fù)責(zé)人輪番介紹了智慧出行的自由語(yǔ)音交互，自動(dòng)駕駛的核心技術(shù)Bev，以及人工智能科學(xué)計(jì)算與超大規(guī)模圖學(xué)習(xí)訓(xùn)練技術(shù)。這些AI黑科技已處于行業(yè)領(lǐng)先水平，而技術(shù)的終極目標(biāo)均指向“用科技讓復(fù)雜的世界更簡(jiǎn)單”的愿景。

如果說(shuō)提升衣食住行的智能體驗(yàn)，是AI技術(shù)的初級(jí)能力，那么當(dāng)AI在足夠的數(shù)據(jù)、靈活的算法和巨大算力支撐下，技術(shù)趨向成熟，也應(yīng)具備更高層次的服務(wù)能力。回歸到科學(xué)研究的基本盤(pán)，AI向技術(shù)上游滲透的趨勢(shì)顯現(xiàn)，助力科學(xué)研究成為衡量頂尖AI價(jià)值的新標(biāo)尺。

不過(guò)，要想實(shí)現(xiàn)技術(shù)生態(tài)外延，必然需要科技企業(yè)建立一支強(qiáng)大的人才團(tuán)隊(duì)，并持續(xù)投入技術(shù)研發(fā)，只有這樣才保證創(chuàng)新能力不斷迭代，產(chǎn)出更多前沿解決方案，進(jìn)而在多場(chǎng)景落地。

據(jù)了解，百度在技術(shù)研發(fā)上的累計(jì)投入已超過(guò)1000億元，開(kāi)發(fā)了大量業(yè)界領(lǐng)先的技術(shù)。在語(yǔ)音交互、自動(dòng)駕駛和科研場(chǎng)景之外，百度正在續(xù)寫(xiě)更多技術(shù)創(chuàng)新推動(dòng)增長(zhǎng)的可能性。

破解語(yǔ)音交互回聲消除

語(yǔ)音交互的回聲消除難題，一直是手機(jī)App語(yǔ)音識(shí)別服務(wù)的痛點(diǎn)。尤其在使用手機(jī)導(dǎo)航軟件時(shí)，手機(jī)一邊實(shí)時(shí)播放導(dǎo)航語(yǔ)音認(rèn)路，一邊在聽(tīng)外界語(yǔ)音信息，很可能反應(yīng)不過(guò)來(lái)，最終會(huì)出現(xiàn)識(shí)別自己說(shuō)的話及其他錯(cuò)誤信息。

對(duì)于導(dǎo)航應(yīng)用而言，信息誤判甚至?xí)P(guān)系到交通安全問(wèn)題。同時(shí)，為了安全起見(jiàn)，一些用戶往往會(huì)選擇先把車停下，待語(yǔ)音播報(bào)停止時(shí)重新發(fā)布語(yǔ)音指令，規(guī)劃行程路線等。很明顯，這樣會(huì)大大降低出行效率。

對(duì)此，百度語(yǔ)音首席架構(gòu)師賈磊說(shuō)，在世界范圍內(nèi)，很長(zhǎng)時(shí)間都沒(méi)有一個(gè)方案能普適的支持在手機(jī)上實(shí)現(xiàn)全雙工的語(yǔ)音交互。所謂全雙工語(yǔ)音交互，通俗的解釋就是在手機(jī)播放導(dǎo)航提示的同時(shí)，也能夠聽(tīng)清用戶的指令，甚至像真人對(duì)話一樣可以被用戶隨時(shí)打斷，并對(duì)新的語(yǔ)音指令給予反饋。

雖然全雙工語(yǔ)音交互方案能實(shí)現(xiàn)手機(jī)導(dǎo)航等場(chǎng)景的實(shí)時(shí)交互效果，但技術(shù)突破存在諸多難點(diǎn)。首先，就是要做到語(yǔ)音交互的回聲消除，才能避免手機(jī)終端識(shí)別自己播放的聲音。

按照軟件性質(zhì)劃分，回聲消除的落地難度也不盡相同。對(duì)于前裝軟件的音箱、車載系統(tǒng)，可以通過(guò)硬件適配算法，提前保證回聲消除的效果。

而對(duì)于手機(jī)App這種純軟件后裝方案，需要讓軟件算法適配不同型號(hào)的終端硬件。一般來(lái)講，手機(jī)上喇叭距離麥克風(fēng)的距離比較近，并且手機(jī)終端款式多樣，復(fù)雜的硬件環(huán)境決定了聲音信號(hào)的回聲消除會(huì)出現(xiàn)各種各樣的問(wèn)題。再加上手機(jī)硬件的迭代頻次高，回聲消除效果就更加難以保證。

值得一提的是，百度在手機(jī)語(yǔ)音交互場(chǎng)景中的回聲消除上率先找到了答案。百度技術(shù)團(tuán)隊(duì)融合了傳統(tǒng)信號(hào)處理和深度學(xué)習(xí)模型的優(yōu)點(diǎn)，基于語(yǔ)音識(shí)別目標(biāo)，實(shí)現(xiàn)端到端地進(jìn)行回聲消除和信號(hào)增強(qiáng)，解決了手機(jī)場(chǎng)景下的回聲消除難題。

一個(gè)形象的概括是，即使手機(jī)音量開(kāi)到最大，回聲消除量也能達(dá)到40分貝，使得手機(jī)APP的語(yǔ)音識(shí)別功能能夠正常工作。據(jù)了解，這是世界范圍內(nèi)第一個(gè)能在手機(jī)上實(shí)現(xiàn)純軟件方案回聲消除的技術(shù)。

另外，對(duì)于多場(chǎng)景下的智能語(yǔ)音識(shí)別，百度研發(fā)出的基于SMLTA2的多場(chǎng)景統(tǒng)一預(yù)訓(xùn)練模型，解決噪聲、用戶口音和回聲消除殘余吸收等難題。

在日常使用過(guò)程中，語(yǔ)音交互的使用場(chǎng)景其實(shí)非常復(fù)雜，如在交互中常常面臨音樂(lè)、閑聊、環(huán)境噪聲、內(nèi)噪殘余等與交互內(nèi)容無(wú)關(guān)的其他信息干擾，從而給傳統(tǒng)語(yǔ)音識(shí)別技術(shù)帶來(lái)極大的識(shí)別難度。有了SMLTA2大模型加持，各場(chǎng)景下識(shí)別率相對(duì)提升超過(guò)20%，在業(yè)界同類技術(shù)中準(zhǔn)確率最高。

搭配語(yǔ)音語(yǔ)義一體化的置信技術(shù)，百度的語(yǔ)音交互技術(shù)方案還可以降低錯(cuò)誤響應(yīng)，支持交互過(guò)程中的引導(dǎo)和澄清，讓人機(jī)交互更智能順暢，最大化接近真人之間的交流溝通。

目前，百度全雙工語(yǔ)音交互技術(shù)已經(jīng)應(yīng)用于手機(jī)端，真正實(shí)現(xiàn)自然流暢的全雙工語(yǔ)音交互，下一步還可能被用到更多產(chǎn)品中。

解鎖自動(dòng)駕駛“千里眼”

無(wú)論是低階智能駕駛還是高階自動(dòng)駕駛，感知技術(shù)都是最底層的邏輯支撐。汽車自動(dòng)駕駛水平的高低，關(guān)鍵在于系統(tǒng)感知識(shí)別能力的強(qiáng)弱。

在傳統(tǒng)駕駛場(chǎng)景中，駕駛員主要依靠視覺(jué)觀察道路和周邊情況，而遷移到自動(dòng)駕駛場(chǎng)景，激光雷達(dá)、毫米波雷達(dá)和高分辨率攝像頭等傳感器，逐漸代替人類的視覺(jué)，它們決定了自動(dòng)駕駛系統(tǒng)能獲得什么環(huán)境、路況信息。

因此，建立高效精準(zhǔn)的感知方案，是自動(dòng)駕駛從實(shí)驗(yàn)室走向量產(chǎn)的前提。從自動(dòng)駕駛感知路線演變來(lái)看，經(jīng)歷了一場(chǎng)從低維到高維的過(guò)程。

以往，自動(dòng)駕駛所依靠的傳統(tǒng)圖像空間感知方法，是將汽車上的雷達(dá)、攝像頭等不同傳感器采集來(lái)的數(shù)據(jù)分別進(jìn)行分析運(yùn)算，然后把分析結(jié)果融合到統(tǒng)一的空間坐標(biāo)系中，再去規(guī)劃車輛的行駛軌跡。

問(wèn)題顯而易見(jiàn)。傳統(tǒng)方案的感知過(guò)程中，每個(gè)獨(dú)立傳感器收集到的數(shù)據(jù)往往受到特定視角的局限，經(jīng)過(guò)各自的分析運(yùn)算后，融合階段容易發(fā)生誤差疊加，最終導(dǎo)致真實(shí)路況難以輸出，路線規(guī)劃決策自然存在偏差。

隨著自動(dòng)駕駛技術(shù)演進(jìn)，感知方案的痛點(diǎn)也逐漸被破解。近年來(lái)，行業(yè)中提出了BEV（Bird's Eye View，視覺(jué)為中心的俯視圖）自動(dòng)駕駛感知方案。該方案就像俯瞰全局的“上帝視角”，通過(guò)車上多個(gè)傳感器采集的數(shù)據(jù)，輸入到一個(gè)統(tǒng)一模型進(jìn)行整體分析推理生成鳥(niǎo)瞰圖，有效避免誤差疊加。

BEV感知方案還能夠做到時(shí)序融合，不僅收集分析一個(gè)時(shí)刻的數(shù)據(jù)，而且支持把過(guò)去一個(gè)時(shí)間片段中的數(shù)據(jù)都融合進(jìn)模型做環(huán)境感知建模，時(shí)序信息的引入讓感知到的結(jié)果更穩(wěn)定。感知結(jié)果越穩(wěn)定，車輛對(duì)于道路情況的判斷就會(huì)更加準(zhǔn)確，也會(huì)讓自動(dòng)駕駛成為一項(xiàng)更安全的技術(shù)。

作為全球自動(dòng)駕駛技術(shù)第一梯隊(duì)的玩家，百度在高級(jí)別自動(dòng)駕駛模型方面取得較多成果。除了BEV自動(dòng)駕駛感知方案，百度還在業(yè)內(nèi)首次提出車路一體的解決方案UniBEV，該方案集成了車端多相機(jī)、多傳感器的在線建圖、動(dòng)態(tài)障礙物感知，以及路側(cè)視角下的多路口多傳感器融合等任務(wù)。

據(jù)百度技術(shù)團(tuán)隊(duì)介紹，基于統(tǒng)一的BEV空間，UniBEV 車路一體大模型更容易實(shí)現(xiàn)多模態(tài)、多視角、多時(shí)間上的時(shí)空特征融合。百度借助大數(shù)據(jù)+大模型+小型化技術(shù)閉環(huán)，在車端路側(cè)的動(dòng)靜態(tài)感知任務(wù)上快人一步。

助推科學(xué)研究智能化

若問(wèn)AI未來(lái)的歸宿是什么？答案顯然要從AI的第一性原理出發(fā)，即作為先進(jìn)生產(chǎn)力的代表，AI有沒(méi)有場(chǎng)景限制。從手機(jī)語(yǔ)音交互到自動(dòng)駕駛感知模型再到人工智能科學(xué)計(jì)算（AI for Science），百度證明了AI的全景服務(wù)能力。

就在百度把AI解決方案輸送到科學(xué)研究領(lǐng)域，幫助科學(xué)家們加速科學(xué)研究時(shí)，AI事實(shí)上已經(jīng)在科學(xué)研究中扮演著越來(lái)越重要的角色。

例如，在氣象領(lǐng)域，AI實(shí)現(xiàn)更快更精準(zhǔn)的數(shù)值天氣預(yù)報(bào)，包括預(yù)測(cè)強(qiáng)對(duì)流天氣的短時(shí)臨近降水情況和揭示大尺度的臺(tái)風(fēng)形成和演變規(guī)律。在生命科學(xué)領(lǐng)域，傳統(tǒng)的科研方法面臨生物類型實(shí)驗(yàn)數(shù)據(jù)少、計(jì)算任務(wù)復(fù)雜、學(xué)科交叉多等挑戰(zhàn)，如今AI應(yīng)用已逐漸在藥物篩選、藥物設(shè)計(jì)、靶點(diǎn)研究、合成生物學(xué)、疾病機(jī)理研究等方面落地，幫助生命科學(xué)研究增效提質(zhì)。

AI 具備服務(wù)科研上游的能力背后，是一場(chǎng)AI技術(shù)的迭代與升級(jí)。以工具角色參與科學(xué)研究，勢(shì)必對(duì)工具的精準(zhǔn)程度和效率提出更高要求，這樣才能與嚴(yán)謹(jǐn)?shù)目蒲许?xiàng)目相適配。拆解AI助推科研場(chǎng)景下的技術(shù)底座，最核心的支撐便在于AI基礎(chǔ)軟硬件能力。

首先，深度學(xué)習(xí)平臺(tái)需要具備更加豐富的各類計(jì)算表達(dá)能力，如高階自動(dòng)微分、復(fù)數(shù)微分、高階優(yōu)化器等；其次，科學(xué)問(wèn)題求解需要超大規(guī)模的計(jì)算，這對(duì)深度學(xué)習(xí)平臺(tái)與異構(gòu)超算/智算中心適配及融合優(yōu)化，神經(jīng)網(wǎng)絡(luò)編譯器加速和大規(guī)模分布式訓(xùn)練提出了新的要求。此外，如何實(shí)現(xiàn)人工智能與傳統(tǒng)科學(xué)計(jì)算工具鏈的協(xié)同，也是需要解決的問(wèn)題。

著眼科學(xué)研究對(duì)AI的能力要求，過(guò)去幾年，百度飛槳團(tuán)隊(duì)持續(xù)攻關(guān)并取得不少成果。作為國(guó)內(nèi)首個(gè)自主研發(fā)、開(kāi)源開(kāi)放的產(chǎn)業(yè)級(jí)深度學(xué)習(xí)平臺(tái)，飛槳研發(fā)了一系列用于科學(xué)研究的工具組件，比如賽槳PaddleScience、螺旋槳PaddleHelix、量槳Paddle Quantum等，支持復(fù)雜外形障礙物繞流、結(jié)構(gòu)應(yīng)力應(yīng)變分析、材料分子模擬，廣泛應(yīng)用于AI加計(jì)算流體力學(xué)、生物計(jì)算、量子計(jì)算等前沿方向的科研探索和產(chǎn)業(yè)應(yīng)用。

對(duì)于科學(xué)領(lǐng)域大規(guī)模計(jì)算的需求，飛槳推出了超大規(guī)模圖學(xué)習(xí)訓(xùn)練技術(shù)PGLBox。這項(xiàng)技術(shù)是業(yè)界首個(gè)同時(shí)支持復(fù)雜算法+超大圖+超大離散模型的大規(guī)模圖學(xué)習(xí)訓(xùn)練技術(shù)，通過(guò)顯存、內(nèi)存、SSD三級(jí)存儲(chǔ)技術(shù)和訓(xùn)練框架的性能優(yōu)化技術(shù)，單機(jī)即可支持百億節(jié)點(diǎn)、數(shù)百億邊的圖采樣和訓(xùn)練，并可通過(guò)多機(jī)擴(kuò)展支持更大規(guī)模。

衡量一項(xiàng)技術(shù)的價(jià)值前景，關(guān)鍵標(biāo)準(zhǔn)在于產(chǎn)學(xué)研的有效落地，以及技術(shù)生態(tài)的共生共榮。目前，百度飛槳已經(jīng)與高校、科研機(jī)構(gòu)等開(kāi)展了計(jì)算流體力學(xué)、分子動(dòng)力學(xué)、動(dòng)力氣象學(xué)等方面的范例建設(shè)，并形成了一些開(kāi)放性的、多學(xué)科交叉的生態(tài)社區(qū)，包括飛槳特殊興趣小組(PPSIG)、共創(chuàng)計(jì)劃等，多方協(xié)同強(qiáng)化AI的科研創(chuàng)新底色。

押注 AI for Science 賽道，對(duì)百度飛槳而言有難度，但很值得。每一次技術(shù)突破，都加深了百度飛槳對(duì)AI的洞察力和號(hào)召力，置身科學(xué)全景，百度飛槳不做旁觀者，而是科技文明的推動(dòng)者。

本站是提供個(gè)人知識(shí)管理的網(wǎng)絡(luò)存儲(chǔ)空間，所有內(nèi)容均由用戶發(fā)布，不代表本站觀點(diǎn)。請(qǐng)注意甄別內(nèi)容中的聯(lián)系方式、誘導(dǎo)購(gòu)買(mǎi)等信息，謹(jǐn)防詐騙。如發(fā)現(xiàn)有害或侵權(quán)內(nèi)容，請(qǐng)點(diǎn)擊一鍵舉報(bào)。

轉(zhuǎn)藏 分享

QQ空間 QQ好友新浪微博微信

獻(xiàn)花（0） +1

來(lái)自：昵稱68038279 > 《待分類》

舉報(bào)/認(rèn)領(lǐng)