小男孩‘自慰网亚洲一区二区,亚洲一级在线播放毛片,亚洲中文字幕av每天更新,黄aⅴ永久免费无码,91成人午夜在线精品,色网站免费在线观看,亚洲欧洲wwwww在线观看

分享

BMJ:大語言模型有認知障礙?!神經(jīng)病學家給ChatGPT等大語言模型做認知測試,發(fā)現(xiàn)它們幾乎都有輕度認知障礙,版本越老越嚴重

 文墨典 2024-12-26 發(fā)布于廣東

*僅供醫(yī)學專業(yè)人士閱讀參考

實在繃不住了,這下人工智能實錘人工“智障”了。

事情是這樣的。

有群科學家試著給大預言模型測了一下蒙特利爾認知評估(MoCA),這是一種臨床上經(jīng)常用來檢測認知障礙和癡呆早期跡象的簡單測試。我得先發(fā)表一下個人觀點,用為人類患者定制的量表去測AI,多少有點欺負AI,但這群科學家的想法也有道理,畢竟很多醫(yī)學大模型在嘗試把AI帶入實際診療,如果要接觸真是的患者和醫(yī)護,那么測測它們的認知能力還是挺有必要的,你也不想碰到個聽不懂人話賊拉讓人上火只有態(tài)度很好的AI大夫吧。

簡而言之,這群科學家們給ChatGPT 4、ChatGPT 4o、Claude 3.5、Gemni 1、Gemini 1.5做了下MoCA,最終僅有ChatGPT 4o以26/30的得分勉強達標,其他大語言模型均未超過25分,表現(xiàn)出輕度認知障礙(MCI)的跡象!

另外,研究者們還發(fā)現(xiàn),AI也和人一樣,年紀越大越容易出現(xiàn)認知問題,這些模型中版本越早的,MoCA測試表現(xiàn)普遍越差。這篇論文發(fā)表在《英國醫(yī)學雜志》上。

圖片
圖片

論文題圖

不管怎么說,這個研究還是……蠻好笑的,AI們面對測試問題,有時候的表現(xiàn)確實是非常人機,我會挑選其中比較有代表性的一些測試結果給大家分享(開始詆毀

先來了解一下MoCA。MoCA在臨床上使用得非常多,它設置了一些很簡短巧妙的問題,能夠輕松合理地評估包括注意力、記憶、語言、視覺空間能力、執(zhí)行能力等多個維度的認知能力,測試滿分是30分,達到26分及以上就可以認為認知能力是正常的。研究中用到的MoCA版本是8.1英文版,有興趣的讀者也可以去官網(wǎng)自己找來試試(https:/// )。

MoCA里的畫鐘測試非常有名,就是要求被試者畫出一個完整的鐘面,鐘面上的數(shù)字要合理分布,時針和分針指向要求的時間,這個測試里要求的是11點10分。

一個認知能力沒有問題的人,畫出來的鐘面可能是這樣的↓

圖片

表盤形狀正常線條閉合,數(shù)字均勻分布在正確位置,指針也是對的

一個晚期阿爾茨海默病患者可能會畫成這樣↓

圖片

那么我們的AI們能畫出個啥呢?問題是這么問的↓

圖片

這是Gemini 1↓

圖片

……你根本不懂什么叫鐘表!下一個!

這是Gemini 1.5↓

圖片

研究者銳評:畫得不對,指針不對,怎么還有字在上面,額葉主導認知能力下降的典型表現(xiàn)。

要求Gemini 1.5用ASCII字符重畫,它畫了個這↓

圖片

行吧,下一個。

這是Claude用ASCII字符畫的↓

圖片

……你和Gemini坐一桌!

這是ChatGPT 4↓

圖片

有了前面的對比,乍看之下好很多,但細看完全不對……

ChatGPT 4o↓

圖片

精致、寫實,大師級繪畫工藝,但可惜指針還是有點問題。

除了視覺任務,AI的執(zhí)行功能也比較差。太智障的不看了,咱們主要看優(yōu)秀學生ChatGPT。這個任務也挺簡單的,把下圖里的數(shù)字和字母按照順序從小到大依次連線,也就是1→A→2→B→……→5→E這樣。

圖片

人類做起這個得心應手↓

圖片

AI,很難評。

問題是這么問的↓

圖片

這分別是ChatGPT 4和ChatGPT 4o給的答案,怎么說呢……

圖片

論文原話:(盡管視覺上很吸引人)不對。

另外在畫個一樣的立方體這個任務上,AI們表現(xiàn)得也不是很好。只有ChatGPT 4o在要求使用ASCII字符后勉強算完成了(下圖H)。

圖片

研究者額外做了幾個圖像測試,發(fā)現(xiàn)大語言模型在視覺空間上的確就是完全的不行。研究者認為,這種損傷模式很類似于阿爾茨海默病患者。

其他的命名、注意力、語言等任務大語言模型完成得還是不錯的。

圖片

研究者在論文末尾著重聲明,人腦和大語言模型之間存在本質差異,文中的擬人化描述純屬比喻,畢竟你的電腦不可能得神經(jīng)退行性疾病(但CPU會退版本)。

不得不說他們還挺幽默,開篇寫俺們神經(jīng)科學家同行們好擔心要被AI取代,結尾一轉顯然短時間內這事兒不太會發(fā)生,而且說不準是咱們先給智障AI看病呢……

參考資料:

[1]Dayan R, Uliel B, Koplewitz G. Age against the machine—susceptibility of large language models to cognitive impairment: cross sectional analysis BMJ 2024; 387 :e081948 doi:10.1136/bmj-2024-081948

本文作者丨代絲雨

    本站是提供個人知識管理的網(wǎng)絡存儲空間,所有內容均由用戶發(fā)布,不代表本站觀點。請注意甄別內容中的聯(lián)系方式、誘導購買等信息,謹防詐騙。如發(fā)現(xiàn)有害或侵權內容,請點擊一鍵舉報。
    轉藏 分享 獻花(0

    0條評論

    發(fā)表

    請遵守用戶 評論公約

    類似文章 更多