*僅供醫(yī)學專業(yè)人士閱讀參考 實在繃不住了,這下人工智能實錘人工“智障”了。 事情是這樣的。 有群科學家試著給大預言模型測了一下蒙特利爾認知評估(MoCA),這是一種臨床上經(jīng)常用來檢測認知障礙和癡呆早期跡象的簡單測試。我得先發(fā)表一下個人觀點,用為人類患者定制的量表去測AI,多少有點欺負AI,但這群科學家的想法也有道理,畢竟很多醫(yī)學大模型在嘗試把AI帶入實際診療,如果要接觸真是的患者和醫(yī)護,那么測測它們的認知能力還是挺有必要的,你也不想碰到個聽不懂人話賊拉讓人上火只有態(tài)度很好的AI大夫吧。 簡而言之,這群科學家們給ChatGPT 4、ChatGPT 4o、Claude 3.5、Gemni 1、Gemini 1.5做了下MoCA,最終僅有ChatGPT 4o以26/30的得分勉強達標,其他大語言模型均未超過25分,表現(xiàn)出輕度認知障礙(MCI)的跡象! 另外,研究者們還發(fā)現(xiàn),AI也和人一樣,年紀越大越容易出現(xiàn)認知問題,這些模型中版本越早的,MoCA測試表現(xiàn)普遍越差。這篇論文發(fā)表在《英國醫(yī)學雜志》上。 論文題圖 不管怎么說,這個研究還是……蠻好笑的,AI們面對測試問題,有時候的表現(xiàn)確實是非常人機,我會挑選其中比較有代表性的一些測試結果給大家分享(開始詆毀 先來了解一下MoCA。MoCA在臨床上使用得非常多,它設置了一些很簡短巧妙的問題,能夠輕松合理地評估包括注意力、記憶、語言、視覺空間能力、執(zhí)行能力等多個維度的認知能力,測試滿分是30分,達到26分及以上就可以認為認知能力是正常的。研究中用到的MoCA版本是8.1英文版,有興趣的讀者也可以去官網(wǎng)自己找來試試(https:/// )。 MoCA里的畫鐘測試非常有名,就是要求被試者畫出一個完整的鐘面,鐘面上的數(shù)字要合理分布,時針和分針指向要求的時間,這個測試里要求的是11點10分。 一個認知能力沒有問題的人,畫出來的鐘面可能是這樣的↓ 表盤形狀正常線條閉合,數(shù)字均勻分布在正確位置,指針也是對的 一個晚期阿爾茨海默病患者可能會畫成這樣↓ 那么我們的AI們能畫出個啥呢?問題是這么問的↓ 這是Gemini 1↓ ……你根本不懂什么叫鐘表!下一個! 這是Gemini 1.5↓ 研究者銳評:畫得不對,指針不對,怎么還有字在上面,額葉主導認知能力下降的典型表現(xiàn)。 要求Gemini 1.5用ASCII字符重畫,它畫了個這↓ 行吧,下一個。 這是Claude用ASCII字符畫的↓ ……你和Gemini坐一桌! 這是ChatGPT 4↓ 有了前面的對比,乍看之下好很多,但細看完全不對…… ChatGPT 4o↓ 精致、寫實,大師級繪畫工藝,但可惜指針還是有點問題。 除了視覺任務,AI的執(zhí)行功能也比較差。太智障的不看了,咱們主要看優(yōu)秀學生ChatGPT。這個任務也挺簡單的,把下圖里的數(shù)字和字母按照順序從小到大依次連線,也就是1→A→2→B→……→5→E這樣。 人類做起這個得心應手↓ AI,很難評。 問題是這么問的↓ 這分別是ChatGPT 4和ChatGPT 4o給的答案,怎么說呢…… 論文原話:(盡管視覺上很吸引人)不對。 另外在畫個一樣的立方體這個任務上,AI們表現(xiàn)得也不是很好。只有ChatGPT 4o在要求使用ASCII字符后勉強算完成了(下圖H)。 研究者額外做了幾個圖像測試,發(fā)現(xiàn)大語言模型在視覺空間上的確就是完全的不行。研究者認為,這種損傷模式很類似于阿爾茨海默病患者。 其他的命名、注意力、語言等任務大語言模型完成得還是不錯的。 研究者在論文末尾著重聲明,人腦和大語言模型之間存在本質差異,文中的擬人化描述純屬比喻,畢竟你的電腦不可能得神經(jīng)退行性疾病(但CPU會退版本)。 不得不說他們還挺幽默,開篇寫俺們神經(jīng)科學家同行們好擔心要被AI取代,結尾一轉顯然短時間內這事兒不太會發(fā)生,而且說不準是咱們先給智障AI看病呢…… 參考資料: [1]Dayan R, Uliel B, Koplewitz G. Age against the machine—susceptibility of large language models to cognitive impairment: cross sectional analysis BMJ 2024; 387 :e081948 doi:10.1136/bmj-2024-081948 本文作者丨代絲雨 |
|