作者:劉軒豪,劉彥楷,王延森,任侃,史涵雯,王子龍,李東勝,呂寶糧,鄭偉龍 一、研究介紹 現(xiàn)在,AI不僅會讀腦,還能用大腦信號生成視頻! 來自上海交通大學(xué),微軟亞洲研究院,和上??萍即髮W(xué)的團隊提出了一個名叫EEG2Video的AI模型,它可以根據(jù)收集的腦電(EEG)數(shù)據(jù)重建生動視頻。 他們表示,模型在40類語義分類任務(wù)中的平均準確率為15.9%(隨機水平為2.5%),在結(jié)構(gòu)相似性指數(shù) (SSIM) 中的平均準確率為0.256,是首次從EEG信號(一種高時間分辨率的神經(jīng)信號,記錄頭皮電位變化)重建視頻的研究。實驗范式如圖1所示。 相關(guān)研究成果以“EEG2Video: Towards Decoding Dynamic Visual Perception from EEG Signals”(EEG2Video: 嘗試從腦電信號中解碼動態(tài)視覺感知)為題在國際機器學(xué)習(xí)頂級會議NeurIPS 2024上發(fā)表。 二、腦電視頻對數(shù)據(jù)集(SEED-DV) 他們搭建了一個大型數(shù)據(jù)集SEED-DV,采集了20名被試觀看了1400段2秒視頻的EEG信號。1400段視頻包含了40個自然概念,如森林,滑雪,輪船等,覆蓋了9類粗粒度類別:陸地動物,水生動物,植物,鍛煉,人類,自然場景,食物,樂器,和交通工具。 圖2.所有40個自然概念,以及視頻的元信息的均值熱圖 每名被試依次觀看了7個視頻塊,每個視頻塊都有40類視頻,但順序隨機。塊與塊之間有至少30秒的休息階段。被試首先被提示接下來即將看到的類別,然后觀看5段不同的該類視頻。實驗流程如圖3所示。 圖3. 搭建SEED-DV數(shù)據(jù)集的實驗環(huán)境與流程 三、腦電重建視頻框架:EEG2Video 他們提出了一個從腦電信號重建視頻的框架EEG2Video,為了處理高時間分辨率但低空間分辨率的腦信號,EEG2Video設(shè)計了如下幾個模塊,以更好地解碼視頻:
圖4. EEG2Video框架結(jié)構(gòu),微調(diào)膨脹擴散模型 四、重建結(jié)果 他們從定性和定量兩個部分展示了從腦電重建視頻的結(jié)果,可以從圖5中看出,EEG2Video可以正確恢復(fù)跨越動物、場景、人物和活動的低動態(tài)(如山、海灘、臉)和高動態(tài)(如滑雪、煙花、跳舞)的各種視頻片段。更多的動圖例子可以點進項目網(wǎng)頁查看:EEG2Video [https://bcmi./home/eeg2video]。 圖5. EEG2Video重建結(jié)果定性展示 關(guān)于定量結(jié)果,改論文比較了以下五個指標,基于視頻的語義指標和基于幀的語義指標:2-way和40-way來驗證語義層面的重建準確率,和結(jié)構(gòu)相似性指數(shù)SSIM來驗證結(jié)構(gòu)層面的重建準確率。從表1中開出,隨著類別數(shù)量的增加,重建性能下降。當處理包含10個類的子集時,我們的框架達到了40種語義級別準確率的34.0%,當面對整個40個類時,達到了15.9%。 表1 .每種方法對不同子集大小的定量結(jié)果。標準偏差是通過隨機種子計算的。 五、結(jié)論 EEG2Video成功展示了腦電信號在視覺重建領(lǐng)域的潛力,尤其是處理高時間分辨率數(shù)據(jù)如視頻的能力。這項研究為視覺解碼技術(shù)的實際應(yīng)用提供了新的解決方案,有望推動視覺解碼接口技術(shù)在更廣泛場景中的應(yīng)用。 這項研究由鄭偉龍老師、王延森研究員和任侃老師共同指導(dǎo),博士生劉軒豪和碩士生劉彥楷擔任論文第一作者,史涵雯,王子龍,李東勝,呂寶糧等老師和同學(xué)也為論文工作做出了重要貢獻。 僅用于學(xué)術(shù)分享,若侵權(quán)請留言,即時刪侵! |
|
來自: 腦機接口社區(qū) > 《待分類》