小男孩‘自慰网亚洲一区二区,亚洲一级在线播放毛片,亚洲中文字幕av每天更新,黄aⅴ永久免费无码,91成人午夜在线精品,色网站免费在线观看,亚洲欧洲wwwww在线观看

分享

飄了!本地跑72B大模型,無(wú)需GPU,速度快

 風(fēng)聲之家 2024-03-01 發(fā)布于江蘇

原創(chuàng) 渡碼 渡碼 2024-03-01 08:16 北京 聽全文

新年期間,通義千問發(fā)布了 Qwen1.5 大模型,包括0.5B、1.8B、4B、7B、14B和72B各個(gè)尺寸的大模型。

72B有個(gè)在線體驗(yàn)地址,我試了下,明顯比上一個(gè)版本好很多。這次發(fā)布的 Qwen1.5 最大的好處是可以在 ollama 平臺(tái)使用,我之前分享過(guò)ollama,支持很多大模型,一條命令就可以運(yùn)行,無(wú)需編程,告別 Python 環(huán)境的搭建

運(yùn)行后,模型下載速度非常快,每秒100多M,分分鐘就下載好一個(gè)大模型。ollama 默認(rèn)運(yùn)行在 CPU 上,在普通的電腦上,跑 7B 及以下的大模型,推理速度都會(huì)非??臁H绻?GPU,ollama 會(huì)把模型放到顯存,加速推理。

我測(cè)試在本地跑 72B 大模型,模型大小 41GB,如果有 GPU ,至少 32G 顯存可以跑起來(lái)。如果沒有GPU,可以用服務(wù)器跑,CPU要強(qiáng)一些,內(nèi)存至少 64GB。畢竟 72B 模型太大了,速度不會(huì)是特別流暢,基本是一個(gè)個(gè)字蹦的級(jí)別。但,一個(gè)沒有 GPU 的服務(wù)器跑 72B 的大模型,已經(jīng)很好了。ollama 之所以快,是因?yàn)樗\(yùn)行的模型是經(jīng)過(guò) GGUF (GPT-Generated Unified Format)方式量化的。這種方式允許用戶使用CPU來(lái)運(yùn)行LLM,也可以將其某些層加載到GPU以提高速度。當(dāng)然速度提升是以損失精度為代價(jià)的。ollama 現(xiàn)在支持非常多的模型,包括最近爆火的 Gemma

渡碼公眾號(hào)持續(xù)分享AI方面的應(yīng)用、技術(shù)、資訊,歡迎關(guān)注。

人劃線

    本站是提供個(gè)人知識(shí)管理的網(wǎng)絡(luò)存儲(chǔ)空間,所有內(nèi)容均由用戶發(fā)布,不代表本站觀點(diǎn)。請(qǐng)注意甄別內(nèi)容中的聯(lián)系方式、誘導(dǎo)購(gòu)買等信息,謹(jǐn)防詐騙。如發(fā)現(xiàn)有害或侵權(quán)內(nèi)容,請(qǐng)點(diǎn)擊一鍵舉報(bào)。
    轉(zhuǎn)藏 分享 獻(xiàn)花(0

    0條評(píng)論

    發(fā)表

    請(qǐng)遵守用戶 評(píng)論公約

    類似文章 更多