打造 13 億參數(shù)小型 LLM AI模型，效果勝于千億參數(shù) GPT

黃爸爸好 2023-06-27 發(fā)布于上海

展開全文

微軟打造 13 億參數(shù)小型 LLM AI模型，效果勝于千億參數(shù) GPT-3.5

12 小時(shí)前

IT之家 6 月 27 日消息，AI 模型盲堆體積實(shí)際上效果并不見得更好，更多要看訓(xùn)練數(shù)據(jù)的質(zhì)量，微軟日前最近發(fā)布了一款 13 億參數(shù)的語言模型 phi-1，采用“教科書等級(jí)”的高品質(zhì)資料集訓(xùn)練而成，據(jù)稱“實(shí)際效果勝于千億參數(shù)的 GPT 3.5”。

微軟打造 13 億參數(shù)小型 LLM AI模型，效果勝于千億參數(shù) GPT-3.5? 由 IT之家提供

▲ 圖源 Arxiv

IT之家注意到，該模型以 Transformer 架構(gòu)為基礎(chǔ)，微軟團(tuán)隊(duì)使用了包括來自網(wǎng)絡(luò)的“教科書等級(jí)”數(shù)據(jù)和以 GPT-3.5 經(jīng)過處理的“邏輯嚴(yán)密的內(nèi)容”，以及 8 個(gè)英偉達(dá) A100 GPU，在短短 4 天內(nèi)完成訓(xùn)練。

微軟打造 13 億參數(shù)小型 LLM AI模型，效果勝于千億參數(shù) GPT-3.5? 由 IT之家提供

▲ 圖源 Arxiv

微軟團(tuán)隊(duì)表示，比起增加模型的參數(shù)量，通過提高模型的訓(xùn)練數(shù)據(jù)集質(zhì)量，也許更能強(qiáng)化模型的準(zhǔn)確率和效率，于是，他們利用高質(zhì)量數(shù)據(jù)訓(xùn)練出了 phi-1 模型。在測(cè)試中，phi-1 的分?jǐn)?shù)達(dá)到 50.6%，比起 1750 億參數(shù)的 GPT-3.5（47%）還要好。

微軟打造 13 億參數(shù)小型 LLM AI模型，效果勝于千億參數(shù) GPT-3.5? 由 IT之家提供

▲ 圖源 Arxiv

微軟表示，phi-1 接下來會(huì)在 HuggingFace 中開源，而這不是微軟第一次開發(fā)小型 LLM，此前，他們打造一款 130 億參數(shù)的 Orca，使用了 GPT-4 合成的數(shù)據(jù)訓(xùn)練而成，表現(xiàn)也同樣比 ChatGPT 更好。

本站是提供個(gè)人知識(shí)管理的網(wǎng)絡(luò)存儲(chǔ)空間，所有內(nèi)容均由用戶發(fā)布，不代表本站觀點(diǎn)。請(qǐng)注意甄別內(nèi)容中的聯(lián)系方式、誘導(dǎo)購(gòu)買等信息，謹(jǐn)防詐騙。如發(fā)現(xiàn)有害或侵權(quán)內(nèi)容，請(qǐng)點(diǎn)擊一鍵舉報(bào)。

小男孩‘自慰网亚洲一区二区,亚洲一级在线播放毛片,亚洲中文字幕av每天更新,黄aⅴ永久免费无码,91成人午夜在线精品,色网站免费在线观看,亚洲欧洲wwwww在线观看

打造 13 億參數(shù)小型 LLM AI模型，效果勝于千億參數(shù) GPT

微軟打造 13 億參數(shù)小型 LLM AI模型，效果勝于千億參數(shù) GPT-3.5

微軟打造 13 億參數(shù)小型 LLM AI模型，效果勝于千億參數(shù) GPT-3.5