?我是大全,90后寶爸,大齡碼農(nóng),前大廠架構(gòu)師? Kimi又上新!搶先實測視覺思考模型k1,甚至比o1更聰明。 國產(chǎn)大模型,正在引領(lǐng) AI 技術(shù)新方向。正在用強化學(xué)習(xí),改變大模型技術(shù)范式。 今天,月之暗面 Kimi 正式發(fā)布了 k1 視覺思考模型,并已經(jīng)上線了最新版的網(wǎng)頁版以及安卓和 iOS APP。 1、PC 網(wǎng)頁版:https://kimi./ 2、移動端:安卓和IOS 移動端打開Kimi 就會彈出更新提示到1.7.0版本 使用的時候,我們只需要在對話框中輸入 @,然后選擇「Kimi 視覺思考版」即可開始自己的 AI 視覺推理之旅。 這真的是繼上個月 k0-math 發(fā)布之后,Kimi 在推理模型上跨出的又一大步,給國人的又一大驚喜。 Kimi 相較于其它大模型,Kimi 最大的優(yōu)勢在于,超長文本輸入,支持200萬漢字,是全球范圍內(nèi)罕見的超長文本處理工具,用戶無需分段處理資料。 同時,以及強大記憶功能,可以長時間保持對話完整性和連貫性。還有其擅長超長文閱讀、資料整理、文件解讀、輔助編程和文案寫作,以及操作簡潔直觀,文件拖入或網(wǎng)址粘貼即可提問。 還有探索版的深度搜索能力、k0-math邏輯處理能力,到今天發(fā)布的視覺思考版,真可謂是國產(chǎn)頂尖大模型,它正在引領(lǐng) AI 技術(shù)新方向。 Kimi 正在用強化學(xué)習(xí),改變大模型技術(shù)范式。這也是 Kimi 一經(jīng)發(fā)布便迅速火出圈,廣受用戶好評,并自發(fā)傳播,成為2億A股股民的追捧的實力。 在我看來是ChatGPT的中文最好的平替代品。 一、視覺思維模型 k1 亮點Kimi 的最新突破在于其首個視覺思維模型 k1,這標(biāo)志著我們在人工智能領(lǐng)域邁出了重要一步。 在 k0-math 的基礎(chǔ)上,k1 不僅顯著提升了推理能力,更將其應(yīng)用范圍從數(shù)學(xué)問題擴展到了更廣泛的領(lǐng)域。 k1 模型采用了強化學(xué)習(xí)技術(shù),具備端到端的圖像理解和思維鏈技術(shù),使其能夠處理更為復(fù)雜的任務(wù)。 令人振奮的是,k1 在數(shù)學(xué)、物理和化學(xué)等基礎(chǔ)科學(xué)的基準(zhǔn)測試中,表現(xiàn)超越了 OpenAI 的 o1、GPT-4o 和 Claude 3.5 Sonnet 等全球領(lǐng)先的模型。 尤為值得一提的是,k1 的圖像理解能力在解決幾何圖形問題方面表現(xiàn)出色,這些問題是 k0-math 無法攻克的難題。 在基礎(chǔ)教育各階段的幾何和圖形問題的專項基準(zhǔn)測試中,k1-preview 的表現(xiàn)與 OpenAI 的 o1 模型不相上下,甚至在某些方面超過了后者。 除了推理能力的顯著提升,k1 的視覺能力同樣令人矚目。它能夠識別多種實際的拍攝場景,并處理各種復(fù)雜情況,如圖像不清晰、多題同拍、手寫干擾,甚至完全手寫的題目。這一能力的提升,使得 k1 在圖像理解方面更加得心應(yīng)手。 更進一步,k1 將強大的推理能力和視覺能力以端到端的方式結(jié)合,這意味著我們可以直接理解用戶輸入的圖片并進行深入推理,避免了之前多階段方法中可能出現(xiàn)的信息丟失問題。 這種端到端的有機整合,使得 k1 在實際應(yīng)用中的性能顯著優(yōu)于 OpenAI 和 Anthropic 的視覺模型。例如,在模擬環(huán)境中的數(shù)學(xué)、物理和化學(xué)問題測試中,k1 的最低正確率得分也高于其他模型的最高得分。 此外,k1 還展示了一些額外的新興能力,如分析古代文獻、理解梗圖和根據(jù)照片推斷地點等,這些能力極大地提升了其在日常生活中的實用性。 那么,Kimi它在實際場景中的表現(xiàn)如何呢?下面,衛(wèi)星通過一些實際操作來帶大家一起來檢驗 k1 的真實實力。 二、6個實測演示Kimi 從做題到梗圖理解,k1 將強大視覺推理能力悄悄帶入日常生活中,讓每一個人都能用得上。 現(xiàn)在,我們在最新版手機 APP 或網(wǎng)頁版 Kimi+ 頁面上找到「Kimi 視覺思考版」,即可拍照或傳圖體驗。 Case1: 古代文獻分析 Kimi 官方還展示了一個非常有趣的涌現(xiàn)能力,即能夠識別和分析古老的科學(xué)手稿。官方的示例中,k1 成功分析出了一份出自伽利略之手的手稿。 我們在這里找了一張《天工開物》中的圖片,再次檢驗了它的這個能力。同時此外,還讓Kimi 做了進一步的原理解析。 Case2: 數(shù)學(xué)題 我們在網(wǎng)上找到了一個手寫的高中數(shù)學(xué)題來檢驗 Kimi k1 的視覺和數(shù)學(xué)推理能力。 圖源:YouTube 題中說題 龍飛鳳舞的手寫題目讓 k1 「費了些功夫」,不過最終還是得到了正確答案: 有意思的是,k1 在解答這個數(shù)學(xué)題的過程中還展現(xiàn)出了一定的反思能力。 Case3:輔助學(xué)習(xí)化學(xué) 測了數(shù)學(xué)和物理題,化學(xué)自然也不能錯過。這一次我們不暗示任何背景信息,直接給出圖示,看看 k1 的表現(xiàn)如何。 結(jié)果可以說是有點驚喜了。 k1 不僅很快分析指出這是一個化學(xué)反應(yīng)的圖示,而且還詳細(xì)地說明了該裝置的具體實驗?zāi)康囊约皥D片中各種器皿和化學(xué)物質(zhì)的作用。 而且對于我們的進一步追問:「如果將稀鹽酸換成稀硫酸會發(fā)生什么?」k1 也給出了超出預(yù)期的解答 —— 它不僅說明了反應(yīng)過程和化學(xué)方程式,還指出了生成的硫酸鈣可能阻礙反應(yīng)充分完成的問題及相關(guān)原因。 我們還進行一些稀奇古怪的測試。比如讓它識別不熟悉的瓜果蔬菜、解讀看不懂的梗圖以及分析古代文獻等。 Case4: 物理題 我們又找了一道高一物理題。正確答案選 C。 k1 不僅可以用正確的方式完成任務(wù),還完整展示了推理思維鏈 CoT,讓我們不只看到答題結(jié)果,也能完整看到模型思索答案的全過程。 Case5: 看不懂的梗圖在推出 iPhone16 時,有一個網(wǎng)友分享了這張梗圖來嘲諷蘋果創(chuàng)新是「擠牙膏」,iPhone16 和 iPhone15 幾乎沒啥太大的區(qū)別。 接下來,我繼續(xù)讓 k1 揣摩了一張張梗圖背后的各種幽默元素,比如諷刺那些總是追求最新產(chǎn)品的人,即使這些新產(chǎn)品并不總是有顯著的改進;每年新產(chǎn)品發(fā)布時的代際差異;調(diào)侃人們對于品牌和型號的過度關(guān)注等。 對于微妙的諧音和雙關(guān)語梗,k1 也能相當(dāng)出色地把握。ki 準(zhǔn)確地理解了這張圖背后多層趣味,比如通常推崇簡樸的僧人在喝與現(xiàn)代性密切關(guān)聯(lián)的咖啡所形成的反差感、咖啡因來自咖啡果以及佛教因果觀的微妙聯(lián)系。 Case6: 不熟悉的水果把它「喂」給 k1 進行識別。k1 很快就判斷出這是非洲角瓜,但又經(jīng)過一番反思,推翻之前的答案,最終猜出是火參果。 我們繼續(xù)提問:火參果是非洲角瓜嗎?其實火參果和非洲角瓜本是同一種水果的不同稱呼而已。 這次,k1 經(jīng)過推理和驗證,終于給出正確答案。 實測下來,我們發(fā)現(xiàn),k1 的整體表現(xiàn)確實超出了我們的預(yù)期。另外,如果明確指示 k1「一步步地」執(zhí)行分析或推理,k1 往往能夠發(fā)揮自己的更大實力。感興趣的用戶在實際使用時可不要忘記這個小技巧。 三、大模型的未來機遇:強化學(xué)習(xí)最近看到一種觀點認(rèn)為“Scaling Laws 已經(jīng)過時”。Scaling Laws 指的是通過增加模型大小來提升性能的規(guī)律。如果這一觀點確實過時,那么我們該如何繼續(xù)前進呢? 之后,Ilya Sutskever 提出“預(yù)訓(xùn)練即將結(jié)束,因為互聯(lián)網(wǎng)上的數(shù)據(jù)已經(jīng)被充分利用”。這確實令人深思。如果預(yù)訓(xùn)練因為數(shù)據(jù)耗盡而不再有效,那么我們需要尋找新的方法來訓(xùn)練這些龐大的模型。 那么,大模型的未來究竟在哪里?我認(rèn)為現(xiàn)在是時候考慮替代方案或補充方法了。一個有希望的方向是利用強化學(xué)習(xí)(RL)來擴展模型的能力。 讓我進一步思考強化學(xué)習(xí)如何發(fā)揮作用。在傳統(tǒng)的預(yù)訓(xùn)練中,模型在大量數(shù)據(jù)上進行訓(xùn)練,以預(yù)測下一個詞或執(zhí)行特定任務(wù)。然而,這種方法可能無法充分探索任務(wù)的復(fù)雜性,因為模型沒有通過實際的試錯來學(xué)習(xí)。 相比之下,強化學(xué)習(xí)允許模型通過與環(huán)境的互動來學(xué)習(xí),采用獎勵系統(tǒng)引導(dǎo)模型采取理想的行為。這種試錯的方法使模型能夠在思考過程中生成新的數(shù)據(jù),從而提高其解決問題的能力。 從數(shù)學(xué)的角度來看,這種方法尤為有希望。在數(shù)學(xué)問題解決中,模型需要嘗試不同的方法,從錯誤中學(xué)習(xí),并逐步改進其策略。通過強化學(xué)習(xí),模型可以“積累經(jīng)驗”,類似于人類通過分析問題、探索解決方案、嘗試不同的方法并反思結(jié)果來解決問題。 我還記得,像 k1 這樣的模型通過結(jié)合預(yù)訓(xùn)練和強化學(xué)習(xí)取得了顯著的成果。它們首先通過預(yù)訓(xùn)練建立基礎(chǔ)模型,然后通過強化學(xué)習(xí)進行微調(diào)。這種兩階段的方法使它們在強化學(xué)習(xí)的擴展方面取得了突破,從而在各種任務(wù)上取得了行業(yè)領(lǐng)先的成績。 為了進一步驗證這一點,我考慮了基于強化學(xué)習(xí)的模型在數(shù)學(xué)問題解決等領(lǐng)域的表現(xiàn)。這些模型通過不斷嘗試和驗證不同的方法,能夠形成高質(zhì)量的思維鏈(CoT),從而顯著提高解決復(fù)雜和困難任務(wù)的成功率。 此外,基于強化學(xué)習(xí)的“思考模型”有潛力提供更強大的交互體驗。隨著模型變得更加適應(yīng)性和能夠處理更復(fù)雜的任務(wù),它們與用戶的交互將變得更加自然和高效。 綜上所述,盡管“Scaling Laws 已經(jīng)過時”的觀點引發(fā)了關(guān)于大模型未來的討論,但強化學(xué)習(xí)提供了一條有希望的前進路徑。通過結(jié)合預(yù)訓(xùn)練和強化學(xué)習(xí),模型可以超越靜態(tài)數(shù)據(jù)集的局限,發(fā)展出更強大的思考和問題解決能力。 因此,大模型的下一個方向應(yīng)該是通過強化學(xué)習(xí)進行擴展,以實現(xiàn)更動態(tài)、適應(yīng)性強和能夠處理復(fù)雜任務(wù)的 AI 系統(tǒng)。 以上就到這里了~ 關(guān)注我,讓我們一起在AI時代,成為更好的自己! |
|