劍橋、騰訊AI Lab等提出大語(yǔ)言模型PandaGPT：一個(gè)模型統(tǒng)一六種模態(tài)

天承辦公室 2023-06-05 發(fā)布于江蘇

展開(kāi)全文

機(jī)器之心專(zhuān)欄

機(jī)器之心編輯部

近日，來(lái)自劍橋、NAIST 和騰訊 AI Lab 的研究者推出了一款名為 PandaGPT 的跨模態(tài)語(yǔ)言模型，展示了在人工智能領(lǐng)域的創(chuàng)新嘗試。通過(guò)結(jié)合 ImageBind 的模態(tài)對(duì)齊能力和 Vicuna 的生成能力，同時(shí)實(shí)現(xiàn)了六種模態(tài)下的指令理解與跟隨能力。雖然 PandaGPT 的效果尚有提升空間，但展示了跨模態(tài) AGI 智能的發(fā)展?jié)摿Α?/span>

來(lái)自劍橋、NAIST 和騰訊 AI Lab 的研究者近期發(fā)布了一項(xiàng)名為 PandaGPT 的研究成果，這是一種將大型語(yǔ)言模型與不同模態(tài)對(duì)齊、綁定以實(shí)現(xiàn)跨模態(tài)指令跟隨能力的技術(shù)。PandaGPT 可以完成諸如生成詳細(xì)的圖像描述、根據(jù)視頻編寫(xiě)故事以及回答關(guān)于音頻的問(wèn)題等復(fù)雜任務(wù)。它可以同時(shí)接收多模態(tài)輸入，并自然地組合它們的語(yǔ)義。

項(xiàng)目主頁(yè): https://panda-gpt./
代碼: https://github.com/yxuansu/PandaGPT
論文: http:///abs/2305.16355
線(xiàn)上 Demo 展示: https:///spaces/GMFTBY/PandaGPT

為了實(shí)現(xiàn)圖像 & 視頻、文本、音頻、熱力圖、深度圖、IMU 讀數(shù)六種模態(tài)下的指令跟隨能力，PandaGPT 將 ImageBind 的多模態(tài)編碼器與 Vicuna 大型語(yǔ)言模型相結(jié)合（如上圖所示）。

為了使 ImageBind 的多模態(tài)編碼器和 Vicuna 的大型語(yǔ)言模型的特征空間對(duì)齊，PandaGPT 使用了組合 LLaVa 和 Mini-GPT4 發(fā)布的共 160k 基于圖像的語(yǔ)言指令跟隨數(shù)據(jù)作為訓(xùn)練數(shù)據(jù)。每個(gè)訓(xùn)練實(shí)例包括一張圖像和相應(yīng)一組多輪對(duì)話(huà)。

為了避免破壞 ImageBind 本身的多模態(tài)對(duì)齊性質(zhì)和減少訓(xùn)練成本，PandaGPT 只更新了以下模塊：

在 ImageBind 的編碼結(jié)果上新增一個(gè)線(xiàn)性投影矩陣，將 ImageBind 生成的表示轉(zhuǎn)換后插入到 Vicuna 的輸入序列中；
在 Vicuna 的注意力模塊上添加了額外的 LoRA 權(quán)重。兩者參數(shù)總數(shù)約占 Vicuna 參數(shù)的 0.4%。訓(xùn)練函數(shù)為傳統(tǒng)的語(yǔ)言建模目標(biāo)。值得注意的是，訓(xùn)練過(guò)程中僅對(duì)模型輸出對(duì)應(yīng)部分進(jìn)行權(quán)重更新，不對(duì)用戶(hù)輸入部分進(jìn)行計(jì)算。整個(gè)訓(xùn)練過(guò)程在 8×A100 (40G) GPUs 上完成訓(xùn)練需要約 7 小時(shí)。

值得強(qiáng)調(diào)的是，目前的 PandaGPT 版本只使用了對(duì)齊的圖像 - 文本數(shù)據(jù)進(jìn)行訓(xùn)練，但是繼承了 ImageBind 編碼器的六種模態(tài)理解能力（圖像 / 視頻、文本、音頻、深度度、熱量圖和 IMU）和它們之間的對(duì)齊屬性，從而具備在所有模態(tài)之間跨模態(tài)能力。

在實(shí)驗(yàn)中，作者展示了 PandaGPT 對(duì)不同模態(tài)的理解能力，包括基于圖像 / 視頻的問(wèn)答，基于圖像 / 視頻的創(chuàng)意寫(xiě)作，基于視覺(jué)和聽(tīng)覺(jué)信息的推理等等，下面是一些例子：

圖像：

音頻：

視頻：

與其他多模態(tài)語(yǔ)言模型相比，PandaGPT 最突出的特點(diǎn)是它能夠理解并將不同模態(tài)的信息自然地組合在一起。

視頻 + 音頻：

圖像 + 音頻：

總結(jié)

作者們也總結(jié)了目前 PandaGPT 的諸多問(wèn)題以及未來(lái)的發(fā)展方向。盡管 PandaGPT 在處理多種模態(tài)及其組合方面具有驚人的能力，但仍有多種方法可以極大程度的提升 PandaGPT 的性能。

PandaGPT 可以通過(guò)使用其他模態(tài)對(duì)齊數(shù)據(jù)來(lái)進(jìn)一步提升圖像以外模態(tài)的理解能力，例如利用 ASR 和 TTS 數(shù)據(jù)來(lái)進(jìn)行音頻 - 文本模態(tài)的模態(tài)理解和指令跟隨能力。
文本以外的其他模態(tài)僅僅使用了一個(gè) embedding 向量進(jìn)行表示，導(dǎo)致語(yǔ)言模型無(wú)法理解文本之外模型的細(xì)粒度信息。更多關(guān)于細(xì)粒度特征提取的研究，如跨模態(tài)注意力機(jī)制，可能有助于提高性能。
PandaGPT 目前僅允許將文本之外的模態(tài)信息用作輸入。未來(lái)該模型有潛力將整個(gè) AIGC 統(tǒng)一到同一個(gè)模型之中，即一個(gè)模型同時(shí)完成圖像 & 視頻生成、語(yǔ)音合成、文本生成等任務(wù)。
需要新的基準(zhǔn)測(cè)試來(lái)評(píng)估多模態(tài)輸入的組合能力。
PandaGPT 還可能表現(xiàn)出現(xiàn)有語(yǔ)言模型的一些常見(jiàn)缺陷，包括幻覺(jué)、毒性和刻板印象。

最后，作者們強(qiáng)調(diào)，PandaGPT 僅僅是一個(gè)研究原型，暫時(shí)還不足以直接應(yīng)用于生產(chǎn)環(huán)境。

本站是提供個(gè)人知識(shí)管理的網(wǎng)絡(luò)存儲(chǔ)空間，所有內(nèi)容均由用戶(hù)發(fā)布，不代表本站觀點(diǎn)。請(qǐng)注意甄別內(nèi)容中的聯(lián)系方式、誘導(dǎo)購(gòu)買(mǎi)等信息，謹(jǐn)防詐騙。如發(fā)現(xiàn)有害或侵權(quán)內(nèi)容，請(qǐng)點(diǎn)擊一鍵舉報(bào)。

轉(zhuǎn)藏 分享

QQ空間 QQ好友新浪微博微信

獻(xiàn)花（0） +1

來(lái)自：天承辦公室 > 《022機(jī)器之心》

舉報(bào)/認(rèn)領(lǐng)