【原】阿里官方的神器，功能太強悍了 !

程序IT圈 2024-10-25 發(fā)布于福建

展開全文

自從 ChatGPT 火了以后，國內的 AI 大模型也是越來越多，各家都有不同的側重點，其中，咱們國家隊的代表就是阿里的通義千問了。就在最近，通義千問推出了新一代開源模型 Qwen2.5，下面跟大家重點介紹一下這個新模型到底有多牛逼？

Qwen2.5簡介

9月19日云棲大會上，發(fā)布了通義千問新一代開源模型Qwen2.5，旗艦模型Qwen2.5-72B性能超越Llama 405B，再登全球開源大模型王座。

Qwen2.5支持高達128K的上下文長度，可生成最多8K內容。模型擁有強大的多語言能力，支持中文、英文、法文、西班牙文、俄文、日文、越南文、阿拉伯文等 29 種以上語言。模型能夠絲滑響應多樣化的系統提示，實現角色扮演和聊天機器人等任務。在指令跟隨、理解結構化數據（如表格）、生成結構化輸出（尤其是JSON）等方面Qwen2.5都進步明顯。

Qwen2.5系列模型在語言模型方面，Qwen2.5開源了7個尺寸，0.5B、1.5B、3B、7B、14B、32B、72B，它們在同等參數賽道都創(chuàng)造了業(yè)界最佳成績，型號設定充分考慮下游場景的不同需求，3B是適配手機等端側設備的黃金尺寸；32B是最受開發(fā)者期待的“性價比之王”，可在性能和功耗之間獲得最佳平衡，Qwen2.5-32B的整體表現超越了Qwen2-72B。Qwen2.5-72B模型在MMLU-rudex基準（考察通用知識）、MBPP 基準（考察代碼能力）和MATH基準（考察數學能力）的得分高達86.8、88.2、83.1。

Qwen2.5模型詳解

1、Qwen2.5性能如何？

相比6月推出的Qwen2，Qwen2.5實現了整體性能的代際飛躍。在權威模型測評榜單OpenCompass中，開源的Qwen2.5-72B已領先于文心4.0等一眾中國閉源模型。剛剛開源的Qwen2.5-72B，整體性能相比Qwen2 又取得了大幅提升！

圖說：在MMLU-redux等十多個基準測評中，Qwen2.5-72B表現超越Llama3.1-405B

9月29日，基準測試平臺Chatbot Arena日前公布最新大模型盲測榜單，阿里通義千問開源模型Qwen2.5再次闖入全球十強，其大語言模型Qwen2.5-72B-Instruct排名LLM榜單第十，居于OpenAI的o1、GPT-4o等模型之后，是得分最高的中國大模型；同天開源的視覺語言模型Qwen2-VL-72B-Instruct闖入Vision榜單第九，略遜于GPT-4o、Gemini-1.5-Pro等閉源模型，是成績最好的開源模型。