原創(chuàng) 別開槍-是我 萬象新說 2023-07-20 10:17 發(fā)表于北京收錄于合集#中醫(yī)1#模型8 最近想做一些中文大模型的微調(diào)實驗,于是從祖國的文化瑰寶:中醫(yī)入手,想讓大模型學(xué)一下《本草綱目》,看下有沒有什么火花出來。 說干就干,下載下來文本格式的《本草綱目》,然后做下預(yù)處理。 比如,原文是李時珍的《本草綱目》,格式是這樣的: 觀察數(shù)據(jù)后,我們發(fā)現(xiàn),本草綱目里都是一個癥狀對應(yīng)一個藥方,很容易找到規(guī)律。 因此,只要把其中以數(shù)字(1,2,3等)序號里的文本摘出來,處理成JSON格式,然后把它們變成一個問-答 對的形式,模仿病人和醫(yī)生的對話,就可以放到大模型訓(xùn)練了。 第一步我們做數(shù)據(jù)清洗,功能很簡單,就是找出數(shù)字開頭的行,同時,數(shù)字1開頭的行有可能有一些特殊的格式,可能要加“主治”這兩個字。 代碼邏輯這么簡單,我就不寫了,讓大模型幫我寫:) 一、三個大模型的生成代碼體驗 1、ChatGPT3.5: 試了下,OK,運行成功,找到了關(guān)鍵的行。 二、文心一言 試了下,這個代碼給的跟我的認知有點不符,它是用的中文名字做變量!!我不確定這個功能可不可以,于是測試了一下,可以!感謝文心一言!,學(xué)到了! 運行也成功了,贊??! 三、本地模型:百川-13B Chat 最后試下我們本地的大模型,百川-13B Chat,這里需要說明下,為了本地加載,我做了8-bit量化,可能會影響性能: 出現(xiàn)了一個問題,就是把prompt里的“和”字理解成了“與”的關(guān)系,經(jīng)過進一步提示后,改對了,輸出了正確的代碼: 也成功了,贊! 小結(jié)一下:這三個模型都能幫我們完成一些簡單的文本預(yù)處理工作,可能要把問題描述清楚后,效果會更好 二、生成最終的訓(xùn)練JSON數(shù)據(jù)體驗 下面,用處理好的文本生成類似對話的JSON格式吧,先看下它們的one-shot learning能力怎么樣: 直接看百川-13B chat的效果吧 沒有問題! 但這個用大模型有點殺雞用牛刀了,直接生成一段代碼處理就好了,我這回直接問了ChatGPT,不用說,經(jīng)過一番調(diào)教,給出了可用的代碼: 用它稍加改動,生成了本次訓(xùn)練所用的數(shù)據(jù)集合,總共2000條數(shù)據(jù): 這里留一個彩蛋,看下紅框框住的某種不足為人知的病,李時珍先生給的治療方案是什么。 那么,大模型學(xué)習(xí)了這樣珍貴的《本草綱目》后,會有什么火花出來呢?歡迎關(guān)注萬象新說,下一篇更新! |
|
來自: 風(fēng)聲之家 > 《電腦》