飄了！本地跑72B大模型，無(wú)需GPU，速度快

風(fēng)聲之家 2024-03-01 發(fā)布于江蘇

展開全文

原創(chuàng) 渡碼渡碼 2024-03-01 08:16 北京聽全文

新年期間，通義千問發(fā)布了 Qwen1.5 大模型，包括0.5B、1.8B、4B、7B、14B和72B各個(gè)尺寸的大模型。

72B有個(gè)在線體驗(yàn)地址，我試了下，明顯比上一個(gè)版本好很多。這次發(fā)布的 Qwen1.5 最大的好處是可以在 ollama 平臺(tái)使用，我之前分享過(guò)ollama，支持很多大模型，一條命令就可以運(yùn)行，無(wú)需編程，告別 Python 環(huán)境的搭建

運(yùn)行后，模型下載速度非常快，每秒100多M，分分鐘就下載好一個(gè)大模型。ollama 默認(rèn)運(yùn)行在 CPU 上，在普通的電腦上，跑 7B 及以下的大模型，推理速度都會(huì)非?？臁Ｈ绻?GPU，ollama 會(huì)把模型放到顯存，加速推理。

我測(cè)試在本地跑 72B 大模型，模型大小 41GB，如果有 GPU ，至少 32G 顯存可以跑起來(lái)。如果沒有GPU，可以用服務(wù)器跑，CPU要強(qiáng)一些，內(nèi)存至少 64GB。畢竟 72B 模型太大了，速度不會(huì)是特別流暢，基本是一個(gè)個(gè)字蹦的級(jí)別。但，一個(gè)沒有 GPU 的服務(wù)器跑 72B 的大模型，已經(jīng)很好了。ollama 之所以快，是因?yàn)樗\(yùn)行的模型是經(jīng)過(guò) GGUF （GPT-Generated Unified Format）方式量化的。這種方式允許用戶使用CPU來(lái)運(yùn)行LLM，也可以將其某些層加載到GPU以提高速度。當(dāng)然速度提升是以損失精度為代價(jià)的。ollama 現(xiàn)在支持非常多的模型，包括最近爆火的 Gemma

渡碼公眾號(hào)持續(xù)分享AI方面的應(yīng)用、技術(shù)、資訊，歡迎關(guān)注。

人劃線

本站是提供個(gè)人知識(shí)管理的網(wǎng)絡(luò)存儲(chǔ)空間，所有內(nèi)容均由用戶發(fā)布，不代表本站觀點(diǎn)。請(qǐng)注意甄別內(nèi)容中的聯(lián)系方式、誘導(dǎo)購(gòu)買等信息，謹(jǐn)防詐騙。如發(fā)現(xiàn)有害或侵權(quán)內(nèi)容，請(qǐng)點(diǎn)擊一鍵舉報(bào)。

轉(zhuǎn)藏 分享

QQ空間 QQ好友新浪微博微信

獻(xiàn)花（0） +1

來(lái)自：風(fēng)聲之家 > 《ps》

舉報(bào)/認(rèn)領(lǐng)