原創(chuàng) 渡碼 渡碼 2024-03-01 08:16 北京 聽全文 新年期間,通義千問發(fā)布了 Qwen1.5 大模型,包括0.5B、1.8B、4B、7B、14B和72B各個(gè)尺寸的大模型。 72B有個(gè)在線體驗(yàn)地址,我試了下,明顯比上一個(gè)版本好很多。這次發(fā)布的 Qwen1.5 最大的好處是可以在 ollama 平臺(tái)使用,我之前分享過(guò)ollama,支持很多大模型,一條命令就可以運(yùn)行,無(wú)需編程,告別 Python 環(huán)境的搭建 運(yùn)行后,模型下載速度非常快,每秒100多M,分分鐘就下載好一個(gè)大模型。ollama 默認(rèn)運(yùn)行在 CPU 上,在普通的電腦上,跑 7B 及以下的大模型,推理速度都會(huì)非??臁H绻?GPU,ollama 會(huì)把模型放到顯存,加速推理。 我測(cè)試在本地跑 72B 大模型,模型大小 41GB,如果有 GPU ,至少 32G 顯存可以跑起來(lái)。如果沒有GPU,可以用服務(wù)器跑,CPU要強(qiáng)一些,內(nèi)存至少 64GB。畢竟 72B 模型太大了,速度不會(huì)是特別流暢,基本是一個(gè)個(gè)字蹦的級(jí)別。但,一個(gè)沒有 GPU 的服務(wù)器跑 72B 的大模型,已經(jīng)很好了。ollama 之所以快,是因?yàn)樗\(yùn)行的模型是經(jīng)過(guò) GGUF (GPT-Generated Unified Format)方式量化的。這種方式允許用戶使用CPU來(lái)運(yùn)行LLM,也可以將其某些層加載到GPU以提高速度。當(dāng)然速度提升是以損失精度為代價(jià)的。ollama 現(xiàn)在支持非常多的模型,包括最近爆火的 Gemma 渡碼公眾號(hào)持續(xù)分享AI方面的應(yīng)用、技術(shù)、資訊,歡迎關(guān)注。 人劃線 |
|
來(lái)自: 風(fēng)聲之家 > 《ps》