時(shí)隔兩個(gè)月,王小川組建的「百川智能」在6月15日正式推出首個(gè)70億參數(shù)中英文預(yù)訓(xùn)練大模型——baichuan-7B。 baichuan-7B不僅在C-Eval、AGIEval和Gaokao中文權(quán)威評(píng)測(cè)榜單上,以顯著優(yōu)勢(shì)全面超過了ChatGLM-6B等其他大模型,并且在MMLU英文權(quán)威評(píng)測(cè)榜單上,大幅領(lǐng)先LLaMA-7B。 目前baichuan-7B大模型已在Hugging Face、Github以及Model Scope平臺(tái)發(fā)布。 Hugging Face:https:///baichuan-inc/baichuan-7B Github:https://github.com/baichuan-inc/baichuan-7B Model Scope:https:///models/baichuan-inc/baichuan-7B/summary 多個(gè)中文評(píng)估基準(zhǔn)拿下7B最佳為了驗(yàn)證模型的各項(xiàng)能力,baichuan-7B在C-Eval、AGIEval和Gaokao三個(gè)最具影響力的中文評(píng)估基準(zhǔn)進(jìn)行了綜合評(píng)估,并且均獲得了優(yōu)異成績(jī),它已經(jīng)成為同等參數(shù)規(guī)模下中文表現(xiàn)最優(yōu)秀的原生預(yù)訓(xùn)練模型。 在AGIEval的評(píng)測(cè)里,baichuan-7B綜合評(píng)分達(dá)到34.4分,遠(yuǎn)超LLaMA-7B、Falcon-7B、Bloom-7B以及ChatGLM-6B等其他開源模型。 在中文C-EVAL的評(píng)測(cè)中,baichuan-7B的綜合評(píng)分達(dá)到了42.8分,超過了ChatGLM-6B的38.9分,甚至比某些參數(shù)規(guī)模更大的模型還要出色。 在Gaokao評(píng)測(cè)中,baichuan-7B的綜合評(píng)分達(dá)到了36.2分,顯著領(lǐng)先于同參數(shù)規(guī)模的各種其他預(yù)訓(xùn)練模型。 https:///static/leaderboard_zh.html(2023-06-15) AGIEval評(píng)測(cè)基準(zhǔn)由微軟研究院發(fā)起,旨在全面評(píng)估基礎(chǔ)模型在人類認(rèn)知和問題解決相關(guān)任務(wù)上的能力,包含了中國(guó)的高考、司法考試,以及美國(guó)的SAT、LSAT、GRE和GMAT等20個(gè)公開且嚴(yán)謹(jǐn)?shù)墓俜饺雽W(xué)和職業(yè)資格考試。 C-Eval評(píng)測(cè)基準(zhǔn)由上海交通大學(xué)、清華大學(xué)以及愛丁堡大學(xué)聯(lián)合創(chuàng)建,是面向中文語言模型的綜合考試評(píng)測(cè)集,覆蓋了52個(gè)來自不同行業(yè)領(lǐng)域的學(xué)科。 Gaokao評(píng)測(cè)基準(zhǔn)是復(fù)旦大學(xué)研究團(tuán)隊(duì)創(chuàng)建的評(píng)測(cè)框架,以中國(guó)高考題目作為數(shù)據(jù)集,用于測(cè)試大模型在中文語言理解和邏輯推理能力方面的表現(xiàn)。 MMLU基準(zhǔn)大幅領(lǐng)先LLaMA-7Bbaichuan-7B不僅在中文方面表現(xiàn)優(yōu)異,在英文上表現(xiàn)同樣亮眼。 在MMLU的評(píng)測(cè)中baichuan-7B綜合評(píng)分高達(dá)42.5分,大幅領(lǐng)先英文開源預(yù)訓(xùn)練模型LLaMA-7B的34.2分以及中文開源模型ChatGLM-6B的36.9分。 MMLU由加州大學(xué)伯克利分校等知名高校共同打造,集合了科學(xué)、工程、數(shù)學(xué)、人文、社會(huì)科學(xué)等領(lǐng)域的57個(gè)科目,主要目標(biāo)是對(duì)模型的英文跨學(xué)科專業(yè)能力進(jìn)行深入測(cè)試。其內(nèi)容廣泛,從初級(jí)水平一直涵蓋到高級(jí)專業(yè)水平。 萬億數(shù)據(jù)、4K上下文、高效穩(wěn)定訓(xùn)練訓(xùn)練語料對(duì)大模型的訓(xùn)練結(jié)果至關(guān)重要。在構(gòu)建預(yù)訓(xùn)練語料庫方面,百川智能以高質(zhì)量中文語料為基礎(chǔ),同時(shí)融合了優(yōu)質(zhì)的英文數(shù)據(jù)。 具體來說,原始數(shù)據(jù)包括自行抓取的海量中英文互聯(lián)網(wǎng)數(shù)據(jù)和部分開源的中英文數(shù)據(jù),以及大量高質(zhì)量知識(shí)性數(shù)據(jù)。 在數(shù)據(jù)質(zhì)量方面,通過質(zhì)量模型對(duì)數(shù)據(jù)進(jìn)行打分,對(duì)原始數(shù)據(jù)集進(jìn)行篇章級(jí)和句子級(jí)的精確篩選。 在內(nèi)容多樣性方面,利用自研超大規(guī)模局部敏感哈希聚類系統(tǒng)和語義聚類系統(tǒng),對(duì)數(shù)據(jù)進(jìn)行了多層次多粒度的聚類,最終構(gòu)建了包含1.2萬億token的兼顧質(zhì)量和多樣性的預(yù)訓(xùn)練數(shù)據(jù)。 相較于其他同參數(shù)規(guī)模的開源中文預(yù)訓(xùn)練模型,數(shù)據(jù)量提高了超過50%。 在萬億優(yōu)質(zhì)中英文數(shù)據(jù)的基礎(chǔ)上,為了更好地提升訓(xùn)練效率,baichuan-7B深度整合了模型算子來加快計(jì)算流程,并針對(duì)任務(wù)負(fù)載和集群配置,自適應(yīng)優(yōu)化了模型并行策略以及重計(jì)算策略。 通過高效的訓(xùn)練過程調(diào)度通信,baichuan-7B成功地實(shí)現(xiàn)了計(jì)算與通信的高效重疊,進(jìn)而達(dá)到了超線性的訓(xùn)練加速,在千卡集群上訓(xùn)練吞吐達(dá)到180+Tflops的業(yè)界領(lǐng)先水平。 同時(shí),已有的開源模型窗口長(zhǎng)度在2K以內(nèi),對(duì)于一些長(zhǎng)文本建模任務(wù),如需要引入外部知識(shí)做搜索增強(qiáng)的場(chǎng)景,更長(zhǎng)的處理長(zhǎng)度有助于模型在訓(xùn)練與推理階段捕獲越多的上下文信息,2K的處理長(zhǎng)度存在比較大的制約。 經(jīng)過優(yōu)化的分詞算法 baichuan-7B基于高效的attention算子優(yōu)化實(shí)現(xiàn)了萬級(jí)別超長(zhǎng)動(dòng)態(tài)窗口的擴(kuò)張能力,本次開源的預(yù)訓(xùn)練模型開放了4K上下文窗口,使模型應(yīng)用場(chǎng)景更加廣泛。 此外,baichuan-7B還對(duì)模型訓(xùn)練流程進(jìn)行了深度優(yōu)化,采用了更科學(xué)且穩(wěn)定的訓(xùn)練流程和超參數(shù)選擇,使得 baichuan-7B模型的收斂速度大大提升。 與同等參數(shù)規(guī)模的模型相比,baichuan-7B在困惑度(PPL)和訓(xùn)練損失(training loss)等關(guān)鍵性能指標(biāo)上表現(xiàn)更加優(yōu)秀。 開源免費(fèi)可商用,清北已搶先體驗(yàn)秉持開源精神,baichuan-7B代碼采用Apache-2.0協(xié)議,模型權(quán)重采用了免費(fèi)商用協(xié)議,只需進(jìn)行簡(jiǎn)單登記即可免費(fèi)商用。 baichuan-7B此次開源的內(nèi)容十分豐富,包含了推理代碼、INT4量化實(shí)現(xiàn)、微調(diào)代碼,以及預(yù)訓(xùn)練模型的權(quán)重。 其中,微調(diào)代碼方便用戶對(duì)模型進(jìn)行調(diào)整和優(yōu)化;推理代碼與INT4量化實(shí)現(xiàn)則有助于開發(fā)者低成本地進(jìn)行模型的部署和應(yīng)用;預(yù)訓(xùn)練模型權(quán)重開源后,用戶則可以直接使用預(yù)訓(xùn)練模型進(jìn)行各種實(shí)驗(yàn)研究。 據(jù)了解,北京大學(xué)和清華大學(xué)兩所頂尖大學(xué)已率先使用baichuan-7B模型推進(jìn)相關(guān)研究工作,并計(jì)劃在未來與百川智能深入合作,共同推動(dòng)baichuan-7B模型的應(yīng)用和發(fā)展。 清華大學(xué)互聯(lián)網(wǎng)司法研究院院長(zhǎng)、計(jì)算機(jī)系教授劉奕群認(rèn)為, baichuan-7B模型在中文上的效果表現(xiàn)十分出色,它免費(fèi)商用的開源方式展現(xiàn)出開放的態(tài)度,不僅貢獻(xiàn)社區(qū),也推動(dòng)技術(shù)發(fā)展。團(tuán)隊(duì)計(jì)劃基于baichuan-7B模型開展司法人工智能領(lǐng)域的相關(guān)研究。 北京大學(xué)人工智能研究院助理教授楊耀東認(rèn)為,baichuan-7B模型的開源將對(duì)于中文基礎(chǔ)語言模型的生態(tài)建設(shè)及學(xué)術(shù)研究產(chǎn)生重要推動(dòng)作用,同時(shí)他也表示將持續(xù)關(guān)注相關(guān)領(lǐng)域探索,并且在中文大語言模型的安全和對(duì)齊上進(jìn)行進(jìn)一步深入研究。 百川智能CEO王小川表示:「本次開源模型的發(fā)布是百川智能成立2個(gè)月后的第一個(gè)里程碑,對(duì)百川智能而言是一個(gè)良好的開局。baichuan-7B模型,不僅能為中國(guó)的AGI事業(yè)添磚加瓦,也為世界大模型開源社區(qū)貢獻(xiàn)了新的力量?!?/span> 技術(shù)團(tuán)隊(duì)專訪Q:baichuan-7B如何處理幻覺問題,未來該如何提高結(jié)果正確性? A:大模型在可見的未來還不能徹底解決幻覺問題,一方面通過強(qiáng)化學(xué)習(xí)來讓模型知道自己不知道,有效緩解幻覺,更重要的是需要靠「搜索增強(qiáng)」引入外部知識(shí)來逐步解決幻覺問題。 Q:baichuan-7B能帶來哪些商用價(jià)值? A:baichuan-7B作為在多個(gè)榜單評(píng)測(cè)效果成績(jī)最佳的7B開源可商用大模型,填補(bǔ)了市場(chǎng)上缺乏優(yōu)質(zhì)的針對(duì)中文優(yōu)化的7B大模型的空白,是開發(fā)者理想的7B大模型底座。同時(shí)在商用價(jià)值方面,能夠在例如文本生成,自動(dòng)化寫作,數(shù)據(jù)分析,知識(shí)問答,中英翻譯,個(gè)性化交互和專業(yè)領(lǐng)域個(gè)人小助手,比如醫(yī)療領(lǐng)域,給用戶帶來巨大的價(jià)值。 Q:baichuan-7B在評(píng)測(cè)榜的成績(jī)達(dá)到最初的訓(xùn)練模型預(yù)期了嗎? A:打榜并不是我們的目的,我們相信好的數(shù)據(jù)和算法能力,評(píng)測(cè)自然會(huì)有好的結(jié)果,這次baichuan-7B在多個(gè)最具影響力的評(píng)測(cè)中的優(yōu)異表現(xiàn)也驗(yàn)證了百川的這個(gè)理念。 參考資料: https://github.com/baichuan-inc/baichuan-7B |
|