由于當前大語言模型在輸入長度和記憶上的限制,對于過長的輸入以及多輪對話(很多次的對話)來說都無法很好的支持。Embeddings作為一種可以保存語義的實值向量,可以有效地緩解大語言模型的諸多限制。甚至OpenAI在官方教程中也專門出了一期教大家如何用embedding來解決大模型長輸入的問題:https://www./blog/1051681543488862 。 然而奇怪的是,相比較大量的大語言模型的開源數(shù)據(jù)集,業(yè)界并沒有很多embedding數(shù)據(jù)的開放。目前可能是最強的embedding抽取模型——OpenAI的embeddings(別奇怪,它的模型就叫這個名字)也是一個收費的模型。今天,一位年僅20歲的小哥willdepue 開源了230萬arXiv論文的標題和摘要的embedding向量數(shù)據(jù)集,完全開源。 Alexandria項目此次開源的arXiv的標題和摘要embeddings屬于Alexandria項目的一部分。這個項目的目標是將互聯(lián)網(wǎng)的數(shù)據(jù)集變成embeddings。而arXiv論文標題和摘要是第一部分。并表示未來將開源更多的數(shù)據(jù)集。 全球很多問題都可以歸納為搜索、聚類、推薦或者分類。而embeddings都可以在問題中發(fā)揮巨大的價值。在機器學習和自然語言處理中,embedding是指將高維度的數(shù)據(jù)(例如文字、圖片、音頻)映射到低維度空間的過程。embedding向量通常是一個由實數(shù)構成的向量,它將輸入的數(shù)據(jù)表示成一個連續(xù)的數(shù)值空間中的點。 簡單來說,embedding就是一個N維的實值向量,它幾乎可以用來表示任何事情,如文本、音樂、視頻等。而embedding重要的原因在于它可以表示單詞或者語句的語義。實值向量的embedding可以表示單詞的語義,主要是因為這些embedding向量是根據(jù)單詞在語言上下文中的出現(xiàn)模式進行學習的。 此外,embeddings也是一個一次性的成本投入,并且十分便宜。以OpenAI的embeddings為例, 盡管embeddings價值巨大且很便宜,但是開源的embeddings數(shù)據(jù)集卻幾乎沒有。因此,小哥做了這個項目。 Alexandria開源的arXiv論文embeddings數(shù)據(jù)集此次開源的arXiv數(shù)據(jù)集包括2個部分,一個是論文標題的embeddings,一個是論文摘要的embeddings,這個大概也是因為這兩個部分可能避免版權的問題。具體如下: 上述數(shù)據(jù)均使用Instructor XL模型抽取。這是基于Apache2.0開源的embedding模型:https:///hkunlp/instructor-xl 此外,小哥還透露下周將公開基于這個embedding數(shù)據(jù)集做的arXiv論文檢索。 總結這份arXiv的論文標題和摘要的embeddings數(shù)據(jù)集的開源在twitter上引起了很大的關注。原文發(fā)布不到24小時已經有80多萬次的查看。 小哥總結到,他覺得這個項目本身并不酷,但是也很容易語料會比較火?;谠紨?shù)據(jù)集做embeddings并不難,難得是如何一直更新。 小哥名叫Will DePue,也是一個神奇的人,看簡歷是00后,2003年出生。2021年以UCLA首屆Geffen Academy的第二名成績畢業(yè)。UCLA的Geffen Academy是一個為6-12年級學生服務的大學附屬學校。他現(xiàn)在在密歇根大學學習計算機科學(CS),并計劃在2025年畢業(yè),但現(xiàn)在暫時休學了。 他也是WebGPT的作者,這是一個3周前發(fā)布的可以基于WebGPU在瀏覽器中運行GPT模型的開源項目。 |
|
來自: 黃爸爸好 > 《數(shù)據(jù)》