一、競品分析目的與意義AI 大模型的英文含義是:Large AI Models。他的的定義通常指的是具有大量參數(shù)和復(fù)雜結(jié)構(gòu)的人工智能模型,這些模型利用深度學(xué)習(xí)技術(shù),通過大規(guī)模的數(shù)據(jù)訓(xùn)練,能夠在多個任務(wù)上表現(xiàn)出優(yōu)越的性能。 由于市面上涌現(xiàn)了各種各樣的大模型,對于我們用戶來說,并不知道哪種大模型比較適合我們,或者說哪種比較好用,這次我用六個維度來測評一下國內(nèi)十款大模型,讓大家可以根據(jù)自己的需求,來選擇適合自己的模型來使用。 二、在研究大模型之前,讓我們來簡單了解一下這些大模型里面的一些基本的定義 1)大語言模型(Large Language Model, LLM)是一種專門用于處理和生成自然語言文本的人工智能模型,它有大量參數(shù)和復(fù)雜結(jié)構(gòu),能夠理解、生成和翻譯自然語言。大語言模型通常通過在大規(guī)模文本數(shù)據(jù)上進(jìn)行訓(xùn)練,學(xué)習(xí)語言的各種模式和特征。 2)多模態(tài)大模型(Multimodal Models)是指能夠處理和理解多種類型數(shù)據(jù)(如文本、圖像、音頻、視頻等)的人工智能模型。這些模型通過集成不同模態(tài)的數(shù)據(jù),能夠更全面地理解和生成復(fù)雜信息。這種能力使多模態(tài)大模型在各種應(yīng)用場景中表現(xiàn)出色,例如自然語言處理、圖像識別、語音識別和生成、以及多模態(tài)交互等。 3)通用語言模型(General Language Models)是一個廣泛的術(shù)語,通常用來描述能夠處理多種語言任務(wù)的模型,而不論其規(guī)模大小。GLM可以包含從小型到大型的各種模型,關(guān)鍵在于它們具備處理自然語言的通用能力。這些模型可能專注于特定類型的任務(wù),如問答系統(tǒng)、文本分類或語言生成,但它們通常設(shè)計得足夠靈活,以適應(yīng)多種不同的應(yīng)用場景。 三、競品分析1、模型選擇本次主要分析國內(nèi)使用率比較高的通義千問、文心一言、kimi等10個左右的大模型,通過日常生活、工作流程等方式做對比和總結(jié)說明,分析出幾款相對比較好用的大模型。 2、調(diào)研維度為了更直觀測試這些模型在實際場景下的表現(xiàn),我們收集整理一套場景數(shù)據(jù)集,主要包括: 是否能夠聯(lián)網(wǎng)獲取信息、知識理解、上傳文本分析、文生圖、邏輯推理、休閑問答(多倫對話能力)等六個方向進(jìn)行調(diào)研 3、調(diào)研過程給每個分析角度一個規(guī)則,分析這些模型的回答是否能按照這些規(guī)則輸出相對穩(wěn)定的回答,并對這些回答給出一個相對合理的分?jǐn)?shù)。 基本的規(guī)則為: 由于已經(jīng)上線的大模型已經(jīng)屬于相對完善的模型,所以我根據(jù)模型的回答,分析回答后得出:回答是否“不滿足預(yù)期”、“符合預(yù)期”和“高于預(yù)期”
評分標(biāo)準(zhǔn):(滿分10分)
1)是否能夠聯(lián)網(wǎng)獲取信息 總結(jié):在進(jìn)行了一系列的測試之后,測試結(jié)果顯示,除了百小應(yīng)未能聯(lián)網(wǎng)外,其他所有模型都有聯(lián)網(wǎng)功能,豆包、文心一言、萬知在格式是也比較美觀合理。豆包在需求之外還進(jìn)行了問題拓展,所以分?jǐn)?shù)較高。 2)知識理解 總結(jié):在進(jìn)行了一系列的測試之后,測試結(jié)果顯示,所有模型均能回答出所提出的問題,但是,智普AI和萬知可以在需求滿足,分段分點有總結(jié)的情況下,全面的回答出了問題。所以分?jǐn)?shù)較高 3)上傳文本分析 總結(jié):在進(jìn)行了一系列的測試之后,測試結(jié)果顯示,除了訊飛星火、智普AI、萬知、360智腦基本都能滿足需求,而kimi大模型邏輯清晰、分段分點回答、結(jié)尾也有對全文的總結(jié),所以分?jǐn)?shù)較高。 4)文生圖 總結(jié):在進(jìn)行了一系列的測試之后,測試結(jié)果顯示,除了通義千問、文心一言、豆包和騰訊元寶其余模型均不能直接生成圖片。 5)邏輯推理 總結(jié):在進(jìn)行了一系列的測試之后,測試結(jié)果顯示,所有模型均能回答正確,通義千問、文心一言、訊飛星火、騰訊元寶的答案既滿足需求答案正確、也有推理過程格式分點、分段有合理性,所以分?jǐn)?shù)較高。 6)休閑問答(多倫對話能力) 總結(jié):在進(jìn)行了一系列的測試之后,測試結(jié)果顯示,大多數(shù)模型都能滿足需求,有很多模型都自稱AI,非常有AI感,少數(shù)模型,比如文心一言、豆包與之對話,讓人感覺對面是您的朋友,沒有AI的距離感,讓人感覺很舒適。所以得分較高。 四、總結(jié)分析總的排名為: 1、文心一言(8.2) 2、騰訊元寶(7.8) 3、豆包(7.7) 4、通義千問(7.5) 5、kimi(6.5) 6、智譜AI(5.3) 7、訊飛星火(5.2) 萬知(5.2) 9、白小應(yīng) 360智腦。(4.5) 以上排名均為本人對大模型的主觀判斷,謹(jǐn)代表自己。不代表任何官方和別人哈。 最后,我們期待國內(nèi)AI企業(yè)能持續(xù)引領(lǐng)技術(shù)創(chuàng)新,深化行業(yè)應(yīng)用,為社會創(chuàng)造更多價值。展望未來,讓我們共同期待AI技術(shù)帶來的無限可能,攜手開啟智能新時代的大門。 本文由 @貝琳_belin 原創(chuàng)發(fā)布于人人都是產(chǎn)品經(jīng)理。 題圖來自Unsplash,基于CC0協(xié)議 該文觀點僅代表作者本人,人人都是產(chǎn)品經(jīng)理平臺僅提供信息存儲空間服務(wù) |
|