終于！中文基座模型CPM-Bee開源了

520jefferson 2023-06-05 發(fā)布于中國臺灣

展開全文

自OpenBMB開源社區(qū)成立以來，我們就堅定不移地踐行“讓大模型飛入千家萬戶”的理念，開發(fā)模型全流程加速系統(tǒng)以高效支持大模型的預訓練、微調、應用和推理，并發(fā)起 百億大模型訓練直播項目CPM-Live。

終于！CPM-Live 第二階段的進度條終于拉到了100%，我們迎來了CPM-Live第二個里程碑：CPM-Bee 開源發(fā)布！

全新升級 ??

CPM-Ant 蝶變 CPM-Bee

—

CPM（Chinese Pretrained Model) 系列大模型是我們團隊自研模型，其中包括國內首個中文大模型 CPM-1、高效易用大模型 CPM-2、可控持續(xù)大模型 CPM-3 等。最新的百億大模型訓練直播項目 CPM-Live 的計劃書在2022年5月26日發(fā)布，第一期模型 CPM-Ant 的訓練在2022年5月29日正式啟動，并于2022年9月16日圓滿發(fā)布報告。

作為 CPM-Live 的第二期模型，CPM-Bee 在2022年10月13日開啟訓練，在基礎能力和性能表現上都在 CPM-Ant 的基礎上進行了全新升級。CPM-Bee 一網打盡多種能力，可以準確地進行語義理解，高效完成各類基礎任務，包括：文字填空、文本生成、翻譯、問答、評分預測、文本選擇題 等等。考慮到用戶使用模型的易用性，我們在預訓練階段將模型的輸入輸出設計成了 JSON 結構化形式，用戶只需調整不同任務字段，就可以完成各類任務。

"文本生成": {"input": "今天天氣很好，我和媽媽一起去公園，<mask>", "prompt": "往后寫兩句話", "<ans>": ""}"翻譯": {"input": "北京是中國的首都", "prompt": "中翻英", "<ans>": ""}"評分預測": {"input":"之前多次聚餐都選擇這里，有各種大小的包房同時能容納很多人，環(huán)境好有特色還有表演，整體聚餐氛圍一下被帶動起來?，F在由于炭火改成了電烤羊，口感真的不如從前，不過其他菜品都還是不錯，烤羊剩下的拆骨肉最后還能再加工一下椒鹽的也很好吃。","question":"評分是多少？(1-5)","<ans>":""}"選擇題": {"input": "父母都希望自己的孩子誠實、勇敢、有禮貌。要想讓孩子成為這樣的人，父母首先得從自己做起，要是連自己都做不到，又怎能要求孩子做到呢？", "options": {"<option_0>": "少提要求", "<option_1>": "降低標準", "<option_2>": "自己先做好", "<option_3>": "讓孩子拿主意"}, "question": "教育孩子時，父母應該：", "<ans>": ""}

CPM-Bee 是一個 完全開源、允許商用 的百億參數中英文基座模型。它采用 Transformer 自回歸架構（auto-regressive），使用萬億級高質量語料進行預訓練，擁有強大的基礎能力。CPM-Bee 的特點可以總結如下：

開源可商用：OpenBMB 始終秉承“讓大模型飛入千家萬戶”的開源精神，CPM-Bee 基座模型將完全開源并且可商用，以推動大模型領域的發(fā)展。如需將模型用于商業(yè)用途，只需企業(yè)實名郵件申請并獲得官方授權證書，即可商用使用。
中英雙語性能優(yōu)異：CPM-Bee 基座模型在預訓練語料上進行了嚴格的篩選和配比，同時在中英雙語上具有亮眼表現，具體可參見評測任務和結果。
超大規(guī)模高質量語料：CPM-Bee基座模型在萬億級語料上進行訓練，是開源社區(qū)內經過語料最多的模型之一。同時，我們對預訓練語料進行了嚴格的篩選、清洗和后處理以確保質量。
OpenBMB大模型系統(tǒng)生態(tài)支持：OpenBMB 大模型系統(tǒng)在高性能預訓練、適配、壓縮、部署、工具開發(fā)了一系列工具，CPM-Bee 基座模型將配套所有的工具腳本，高效支持開發(fā)者進行進階使用。
強大的對話和工具使用能力：結合OpenBMB 在指令微調和工具學習的探索，我們在 CPM-Bee 基座模型的基礎上進行微調，訓練出了具有強大對話和工具使用能力的實例模型，現已開放定向邀請內測，未來會逐步向公眾開放。

?? Github地址 https://github.com/OpenBMB/CPM-Bee

?? Hugging Face地址 https:///openbmb/cpm-bee-10b

? CPM-Bee商用申請通道 發(fā)送申請郵件至 cpm@modelbest.cn 獲取授權證書

百煉千錘 ??

零樣本評測獨占鰲頭

—

我們對 CPM-Bee 基座模型進行了全方位的中英文能力評測。在中文的 Zero-CLUE 評測基準上，CPM-Bee 可以大幅超越其他模型，穩(wěn)居中文大模型第一。

ZeroCLUE 榜單（2023.05.27）

在英文評測基準上，CPM-Bee 也 展現出了和開源模型 LLaMA 相當的效果。

英文評測

使用CPM-Bee提供的API 與 OpenBMB 和 THUNLP聯(lián)合自研的Decoder Tuning（ACL 2023）技術，可以在 不訪問和修改模型參數的情況下大幅提高下游任務的性能！

生態(tài)支持 ?

微調壓縮部署一應俱全

—

基于 OpenBMB 的大模型生態(tài)系統(tǒng)，我們在訓練 CPM-Bee 的過程中實現了全流程高效。同時提供了訓練（基于 BMTrain）、微調（基于 OpenPrompt 和 OpenDelta）、外部工具使用（基于 BMTools）、模型壓縮（基于 BMCook）低資源推理（基于 BMInf）的全套腳本，可以協(xié)助開發(fā)者快速上手和使用 CPM-Bee。

基于高效微調工具 OpenDelta，我們給出了兩種微調方案：全參數微調和增量微調，可以將 CPM-Bee 適配到各類下游場景中。

基于高效壓縮工具 BMCook，我們對原始的 CPM-Bee 基座模型進行壓縮，提供了 10B、5B、2B、1B 四種大小的 CPM-Bee 模型來適應各種不同的場景：

模型	#Attn.層	#FFN層	Attn隱狀態(tài)維度	FFN隱狀態(tài)維度
CPM-Bee-10B	48	48	4096	10240
CPM-Bee-5B	19	24	4096	10240
CPM-Bee-2B	19	24	2048	5120
CPM-Bee-1B	19	24	1280	1024

對于壓縮后的 CPM-Bee，普通的消費級顯卡即可完成快速推理，不同大小的模型所占用的推理資源如下：

模型	推理內存占用	硬件需求
CPM-Bee-10B	20GB	RTX3090（24 GB）
CPM-Bee-5B	11 GB	RTX3090（24 GB）
CPM-Bee-2B	6.7 GB	GTX 1080（8 GB）
CPM-Bee-1B	4.1 GB	GTX 1660（6 GB）