小男孩‘自慰网亚洲一区二区,亚洲一级在线播放毛片,亚洲中文字幕av每天更新,黄aⅴ永久免费无码,91成人午夜在线精品,色网站免费在线观看,亚洲欧洲wwwww在线观看

搜索

分享

QQ空間 QQ好友新浪微博微信

三個大模型（ChatGPT,文心一言,Baichuan-13B)，幫我生成中醫(yī)《本草綱目》的訓(xùn)練數(shù)據(jù)

風(fēng)聲之家 2023-10-23 發(fā)布于江蘇

展開全文

原創(chuàng) 別開槍-是我萬象新說 2023-07-20 10:17 發(fā)表于北京收錄于合集#中醫(yī)1#模型8

點擊上方藍字關(guān)注萬象新說

最近想做一些中文大模型的微調(diào)實驗，于是從祖國的文化瑰寶：中醫(yī)入手，想讓大模型學(xué)一下《本草綱目》，看下有沒有什么火花出來。

說干就干，下載下來文本格式的《本草綱目》，然后做下預(yù)處理。

比如，原文是李時珍的《本草綱目》，格式是這樣的：

觀察數(shù)據(jù)后，我們發(fā)現(xiàn)，本草綱目里都是一個癥狀對應(yīng)一個藥方，很容易找到規(guī)律。

因此，只要把其中以數(shù)字（1，2，3等）序號里的文本摘出來，處理成JSON格式，然后把它們變成一個問-答對的形式，模仿病人和醫(yī)生的對話，就可以放到大模型訓(xùn)練了。

第一步我們做數(shù)據(jù)清洗，功能很簡單，就是找出數(shù)字開頭的行，同時，數(shù)字1開頭的行有可能有一些特殊的格式，可能要加“主治”這兩個字。

代碼邏輯這么簡單，我就不寫了，讓大模型幫我寫：）

一、三個大模型的生成代碼體驗

1、ChatGPT3.5：

試了下，OK，運行成功，找到了關(guān)鍵的行。

二、文心一言

試了下，這個代碼給的跟我的認知有點不符，它是用的中文名字做變量！！我不確定這個功能可不可以，于是測試了一下，可以！感謝文心一言！，學(xué)到了！

運行也成功了，贊??！

三、本地模型：百川-13B Chat

最后試下我們本地的大模型，百川-13B Chat，這里需要說明下，為了本地加載，我做了8-bit量化，可能會影響性能：

出現(xiàn)了一個問題，就是把prompt里的“和”字理解成了“與”的關(guān)系，經(jīng)過進一步提示后，改對了，輸出了正確的代碼：

也成功了，贊！

小結(jié)一下：這三個模型都能幫我們完成一些簡單的文本預(yù)處理工作，可能要把問題描述清楚后，效果會更好

二、生成最終的訓(xùn)練JSON數(shù)據(jù)體驗

下面，用處理好的文本生成類似對話的JSON格式吧，先看下它們的one-shot learning能力怎么樣：

直接看百川-13B chat的效果吧

沒有問題！

但這個用大模型有點殺雞用牛刀了，直接生成一段代碼處理就好了，我這回直接問了ChatGPT,不用說，經(jīng)過一番調(diào)教，給出了可用的代碼：

用它稍加改動，生成了本次訓(xùn)練所用的數(shù)據(jù)集合，總共2000條數(shù)據(jù)：

這里留一個彩蛋，看下紅框框住的某種不足為人知的病，李時珍先生給的治療方案是什么。

那么，大模型學(xué)習(xí)了這樣珍貴的《本草綱目》后，會有什么火花出來呢？歡迎關(guān)注萬象新說，下一篇更新！

本站是提供個人知識管理的網(wǎng)絡(luò)存儲空間，所有內(nèi)容均由用戶發(fā)布，不代表本站觀點。請注意甄別內(nèi)容中的聯(lián)系方式、誘導(dǎo)購買等信息，謹防詐騙。如發(fā)現(xiàn)有害或侵權(quán)內(nèi)容，請點擊一鍵舉報。

轉(zhuǎn)藏 分享

QQ空間 QQ好友新浪微博微信

獻花（0） +1

來自：風(fēng)聲之家 > 《電腦》

舉報/認領(lǐng)

0條評論

請遵守用戶評論公約

類似文章 更多

風(fēng)聲之家

關(guān)注對話

TA的最新館藏

兩味藥合65方劑】
18個驗方，人人需要，收藏好！
烏梅能去息肉
陽明大法：清腸熱三方
想學(xué)中醫(yī)？四位大師仙人指路
?20世紀80年代中國農(nóng)村的真實老照片

喜歡該文的人也喜歡更多

熱門閱讀換一換