小男孩‘自慰网亚洲一区二区,亚洲一级在线播放毛片,亚洲中文字幕av每天更新,黄aⅴ永久免费无码,91成人午夜在线精品,色网站免费在线观看,亚洲欧洲wwwww在线观看

分享

開源界最新力作!230萬篇arXiv的論文標題和摘要的所有embeddings向量數(shù)據(jù)集免費開放!

 黃爸爸好 2023-06-02 發(fā)布于上海

由于當前大語言模型在輸入長度和記憶上的限制,對于過長的輸入以及多輪對話(很多次的對話)來說都無法很好的支持。Embeddings作為一種可以保存語義的實值向量,可以有效地緩解大語言模型的諸多限制。甚至OpenAI在官方教程中也專門出了一期教大家如何用embedding來解決大模型長輸入的問題:https://www./blog/1051681543488862 。

Image

然而奇怪的是,相比較大量的大語言模型的開源數(shù)據(jù)集,業(yè)界并沒有很多embedding數(shù)據(jù)的開放。目前可能是最強的embedding抽取模型——OpenAI的embeddings(別奇怪,它的模型就叫這個名字)也是一個收費的模型。今天,一位年僅20歲的小哥willdepue 開源了230萬arXiv論文的標題和摘要的embedding向量數(shù)據(jù)集,完全開源。

Alexandria項目

此次開源的arXiv的標題和摘要embeddings屬于Alexandria項目的一部分。這個項目的目標是將互聯(lián)網(wǎng)的數(shù)據(jù)集變成embeddings。而arXiv論文標題和摘要是第一部分。并表示未來將開源更多的數(shù)據(jù)集。

全球很多問題都可以歸納為搜索、聚類、推薦或者分類。而embeddings都可以在問題中發(fā)揮巨大的價值。在機器學習和自然語言處理中,embedding是指將高維度的數(shù)據(jù)(例如文字、圖片、音頻)映射到低維度空間的過程。embedding向量通常是一個由實數(shù)構成的向量,它將輸入的數(shù)據(jù)表示成一個連續(xù)的數(shù)值空間中的點。

Image

簡單來說,embedding就是一個N維的實值向量,它幾乎可以用來表示任何事情,如文本、音樂、視頻等。而embedding重要的原因在于它可以表示單詞或者語句的語義。實值向量的embedding可以表示單詞的語義,主要是因為這些embedding向量是根據(jù)單詞在語言上下文中的出現(xiàn)模式進行學習的。

此外,embeddings也是一個一次性的成本投入,并且十分便宜。以OpenAI的embeddings為例,text-embedding-ada-002的價格是1美元250萬個tokens,約187.5萬個英文單詞!

盡管embeddings價值巨大且很便宜,但是開源的embeddings數(shù)據(jù)集卻幾乎沒有。因此,小哥做了這個項目。

Alexandria開源的arXiv論文embeddings數(shù)據(jù)集

此次開源的arXiv數(shù)據(jù)集包括2個部分,一個是論文標題的embeddings,一個是論文摘要的embeddings,這個大概也是因為這兩個部分可能避免版權的問題。具體如下:

Image

上述數(shù)據(jù)均使用Instructor XL模型抽取。這是基于Apache2.0開源的embedding模型:https:///hkunlp/instructor-xl

此外,小哥還透露下周將公開基于這個embedding數(shù)據(jù)集做的arXiv論文檢索。

總結

這份arXiv的論文標題和摘要的embeddings數(shù)據(jù)集的開源在twitter上引起了很大的關注。原文發(fā)布不到24小時已經有80多萬次的查看。

小哥總結到,他覺得這個項目本身并不酷,但是也很容易語料會比較火?;谠紨?shù)據(jù)集做embeddings并不難,難得是如何一直更新。

小哥名叫Will DePue,也是一個神奇的人,看簡歷是00后,2003年出生。2021年以UCLA首屆Geffen Academy的第二名成績畢業(yè)。UCLA的Geffen Academy是一個為6-12年級學生服務的大學附屬學校。他現(xiàn)在在密歇根大學學習計算機科學(CS),并計劃在2025年畢業(yè),但現(xiàn)在暫時休學了。

他也是WebGPT的作者,這是一個3周前發(fā)布的可以基于WebGPU在瀏覽器中運行GPT模型的開源項目。

    本站是提供個人知識管理的網(wǎng)絡存儲空間,所有內容均由用戶發(fā)布,不代表本站觀點。請注意甄別內容中的聯(lián)系方式、誘導購買等信息,謹防詐騙。如發(fā)現(xiàn)有害或侵權內容,請點擊一鍵舉報。
    轉藏 分享 獻花(0

    0條評論

    發(fā)表

    請遵守用戶 評論公約

    類似文章 更多