發(fā)文章
發(fā)文工具
撰寫(xiě)
網(wǎng)文摘手
文檔
視頻
思維導(dǎo)圖
隨筆
相冊(cè)
原創(chuàng)同步助手
其他工具
圖片轉(zhuǎn)文字
文件清理
AI助手
留言交流
機(jī)器之心編輯部
近日,來(lái)自劍橋、NAIST 和騰訊 AI Lab 的研究者推出了一款名為 PandaGPT 的跨模態(tài)語(yǔ)言模型,展示了在人工智能領(lǐng)域的創(chuàng)新嘗試。通過(guò)結(jié)合 ImageBind 的模態(tài)對(duì)齊能力和 Vicuna 的生成能力,同時(shí)實(shí)現(xiàn)了六種模態(tài)下的指令理解與跟隨能力。雖然 PandaGPT 的效果尚有提升空間,但展示了跨模態(tài) AGI 智能的發(fā)展?jié)摿Α?/span>
項(xiàng)目主頁(yè): https://panda-gpt./
代碼: https://github.com/yxuansu/PandaGPT
論文: http:///abs/2305.16355
線(xiàn)上 Demo 展示: https:///spaces/GMFTBY/PandaGPT
在 ImageBind 的編碼結(jié)果上新增一個(gè)線(xiàn)性投影矩陣,將 ImageBind 生成的表示轉(zhuǎn)換后插入到 Vicuna 的輸入序列中;
在 Vicuna 的注意力模塊上添加了額外的 LoRA 權(quán)重。兩者參數(shù)總數(shù)約占 Vicuna 參數(shù)的 0.4%。訓(xùn)練函數(shù)為傳統(tǒng)的語(yǔ)言建模目標(biāo)。值得注意的是,訓(xùn)練過(guò)程中僅對(duì)模型輸出對(duì)應(yīng)部分進(jìn)行權(quán)重更新,不對(duì)用戶(hù)輸入部分進(jìn)行計(jì)算。整個(gè)訓(xùn)練過(guò)程在 8×A100 (40G) GPUs 上完成訓(xùn)練需要約 7 小時(shí)。
PandaGPT 可以通過(guò)使用其他模態(tài)對(duì)齊數(shù)據(jù)來(lái)進(jìn)一步提升圖像以外模態(tài)的理解能力,例如利用 ASR 和 TTS 數(shù)據(jù)來(lái)進(jìn)行音頻 - 文本模態(tài)的模態(tài)理解和指令跟隨能力。
文本以外的其他模態(tài)僅僅使用了一個(gè) embedding 向量進(jìn)行表示,導(dǎo)致語(yǔ)言模型無(wú)法理解文本之外模型的細(xì)粒度信息。更多關(guān)于細(xì)粒度特征提取的研究,如跨模態(tài)注意力機(jī)制,可能有助于提高性能。
PandaGPT 目前僅允許將文本之外的模態(tài)信息用作輸入。未來(lái)該模型有潛力將整個(gè) AIGC 統(tǒng)一到同一個(gè)模型之中,即一個(gè)模型同時(shí)完成圖像 & 視頻生成、語(yǔ)音合成、文本生成等任務(wù)。
需要新的基準(zhǔn)測(cè)試來(lái)評(píng)估多模態(tài)輸入的組合能力。
PandaGPT 還可能表現(xiàn)出現(xiàn)有語(yǔ)言模型的一些常見(jiàn)缺陷,包括幻覺(jué)、毒性和刻板印象。
來(lái)自: 天承辦公室 > 《022機(jī)器之心》
0條評(píng)論
發(fā)表
請(qǐng)遵守用戶(hù) 評(píng)論公約
AI模型大放異彩:2023年4月發(fā)布的23個(gè)模型總結(jié)與解析
AI模型大放異彩:2023年4月發(fā)布的23個(gè)模型總結(jié)與解析。2023年4月份,業(yè)界發(fā)布的重要模型23個(gè),自然語(yǔ)言處理領(lǐng)域的模型13個(gè)、計(jì)算機(jī)視覺(jué)...
GPT-4的多模態(tài)能力是如何實(shí)現(xiàn)的?
GPT-4的多模態(tài)能力是如何實(shí)現(xiàn)的?它是基于ShareGPT數(shù)據(jù)集finetune的模型,號(hào)稱(chēng)用GPT-4來(lái)評(píng)測(cè)可以達(dá)到ChatGPT 90%的水平。它是基于LLaMA-13B進(jìn)行finetune的,所以又稱(chēng)為Vicuna-13B。MiniGPT-4的模型結(jié)構(gòu)...
【AI講壇】京東何曉冬 | 多模態(tài)智能:語(yǔ)言和視覺(jué)的感知、推理及表達(dá)
【AI講壇】京東何曉冬 | 多模態(tài)智能:語(yǔ)言和視覺(jué)的感知、推理及表達(dá)。何曉冬重點(diǎn)提到推理的難點(diǎn):“為了回答問(wèn)題,需要識(shí)別和理解物體間微妙的關(guān)系,還要能結(jié)合問(wèn)題進(jìn)行分析和推理等等?!睘榱四M推理...
中科院出手!1000億參數(shù)全模態(tài)大模型發(fā)布,能看懂視頻、繪畫(huà)作曲、分析信號(hào)
1000億參數(shù)全模態(tài)大模型發(fā)布,能看懂視頻、繪畫(huà)作曲、分析信號(hào)。綜合來(lái)看,紫東太初2.0在圖文音多模態(tài)能力的基礎(chǔ)之上,增加了對(duì)視頻、3D...
GPT-4發(fā)布,能擊敗90%的人類(lèi)
“GPT-3.5和GPT-4之間的區(qū)別可能很微妙。當(dāng)任務(wù)的復(fù)雜性達(dá)到足夠的閾值時(shí),差異就會(huì)出現(xiàn)——GPT-4比GPT-3.5更可靠、更有創(chuàng)意,并且能夠...
“大一統(tǒng)”大模型論文爆火,4種模態(tài)任意轉(zhuǎn)換,本科生5篇頂會(huì)一作
“大一統(tǒng)”大模型論文爆火,4種模態(tài)任意轉(zhuǎn)換,本科生5篇頂會(huì)一作蕭簫 發(fā)自 凹非寺量子位 | 公眾號(hào) QbitAI多模態(tài)大模型,終于迎來(lái)“大一...
淺析多模態(tài)機(jī)器學(xué)習(xí)
淺析多模態(tài)機(jī)器學(xué)習(xí)。業(yè)界有多種實(shí)現(xiàn)多模態(tài)的方式,通過(guò)多模態(tài)機(jī)器學(xué)習(xí),希望確保該空間中的相似性對(duì)應(yīng)著相應(yīng)概念的相似性,通過(guò)存在的...
AIGC(生成式AI)的行業(yè)發(fā)展趨勢(shì)(二)
文本生成產(chǎn)品多依賴(lài) GPT 系列模型,自己訓(xùn)練的模型在圖像/視頻模態(tài)產(chǎn)品中較為普遍(圖像/視頻模態(tài)產(chǎn)品通常擁有自己訓(xùn)練的模型,而不是如...
從視覺(jué)和音頻角度看多模態(tài)學(xué)習(xí)的過(guò)去與未來(lái)
從視覺(jué)和音頻角度看多模態(tài)學(xué)習(xí)的過(guò)去與未來(lái)。多模態(tài)學(xué)習(xí)是一種涉及多種感知模態(tài)(如視覺(jué)、音頻、文本等)的機(jī)器學(xué)習(xí)方法,旨在通過(guò)整合...
微信掃碼,在手機(jī)上查看選中內(nèi)容