小男孩‘自慰网亚洲一区二区,亚洲一级在线播放毛片,亚洲中文字幕av每天更新,黄aⅴ永久免费无码,91成人午夜在线精品,色网站免费在线观看,亚洲欧洲wwwww在线观看

分享

三個大模型(ChatGPT,文心一言,Baichuan-13B),幫我生成中醫(yī)《本草綱目》的訓(xùn)練數(shù)據(jù)

 風(fēng)聲之家 2023-10-23 發(fā)布于江蘇

原創(chuàng) 別開槍-是我 萬象新說 2023-07-20 10:17 發(fā)表于北京收錄于合集#中醫(yī)1#模型8

點擊上方藍字關(guān)注萬象新說

最近想做一些中文大模型的微調(diào)實驗,于是從祖國的文化瑰寶:中醫(yī)入手,想讓大模型學(xué)一下《本草綱目》,看下有沒有什么火花出來。

說干就干,下載下來文本格式的《本草綱目》,然后做下預(yù)處理。

比如,原文是李時珍的《本草綱目》,格式是這樣的:

觀察數(shù)據(jù)后,我們發(fā)現(xiàn),本草綱目里都是一個癥狀對應(yīng)一個藥方,很容易找到規(guī)律。

因此,只要把其中以數(shù)字(1,2,3等)序號里的文本摘出來,處理成JSON格式,然后把它們變成一個問-答 對的形式,模仿病人和醫(yī)生的對話,就可以放到大模型訓(xùn)練了。

第一步我們做數(shù)據(jù)清洗,功能很簡單,就是找出數(shù)字開頭的行,同時,數(shù)字1開頭的行有可能有一些特殊的格式,可能要加“主治”這兩個字。

代碼邏輯這么簡單,我就不寫了,讓大模型幫我寫:)

一、三個大模型的生成代碼體驗

1、ChatGPT3.5:

試了下,OK,運行成功,找到了關(guān)鍵的行。

二、文心一言

試了下,這個代碼給的跟我的認知有點不符,它是用的中文名字做變量!!我不確定這個功能可不可以,于是測試了一下,可以!感謝文心一言!,學(xué)到了!

運行也成功了,贊??!

三、本地模型:百川-13B Chat

最后試下我們本地的大模型,百川-13B Chat,這里需要說明下,為了本地加載,我做了8-bit量化,可能會影響性能:

出現(xiàn)了一個問題,就是把prompt里的“和”字理解成了“與”的關(guān)系,經(jīng)過進一步提示后,改對了,輸出了正確的代碼:

也成功了,贊!

小結(jié)一下:這三個模型都能幫我們完成一些簡單的文本預(yù)處理工作,可能要把問題描述清楚后,效果會更好

、生成最終的訓(xùn)練JSON數(shù)據(jù)體驗

下面,用處理好的文本生成類似對話的JSON格式吧,先看下它們的one-shot learning能力怎么樣:

直接看百川-13B chat的效果吧

沒有問題!

但這個用大模型有點殺雞用牛刀了,直接生成一段代碼處理就好了,我這回直接問了ChatGPT,不用說,經(jīng)過一番調(diào)教,給出了可用的代碼:

用它稍加改動,生成了本次訓(xùn)練所用的數(shù)據(jù)集合,總共2000條數(shù)據(jù):

這里留一個彩蛋,看下紅框框住的某種不足為人知的病,李時珍先生給的治療方案是什么。

那么,大模型學(xué)習(xí)了這樣珍貴的《本草綱目》后,會有什么火花出來呢?歡迎關(guān)注萬象新說,下一篇更新!

    本站是提供個人知識管理的網(wǎng)絡(luò)存儲空間,所有內(nèi)容均由用戶發(fā)布,不代表本站觀點。請注意甄別內(nèi)容中的聯(lián)系方式、誘導(dǎo)購買等信息,謹防詐騙。如發(fā)現(xiàn)有害或侵權(quán)內(nèi)容,請點擊一鍵舉報。
    轉(zhuǎn)藏 分享 獻花(0

    0條評論

    發(fā)表

    請遵守用戶 評論公約

    類似文章 更多