開源界最新力作！230萬篇arXiv的論文標題和摘要的所有embeddings向量數(shù)據(jù)集免費開放！

黃爸爸好 2023-06-02 發(fā)布于上海

展開全文

由于當前大語言模型在輸入長度和記憶上的限制，對于過長的輸入以及多輪對話（很多次的對話）來說都無法很好的支持。Embeddings作為一種可以保存語義的實值向量，可以有效地緩解大語言模型的諸多限制。甚至OpenAI在官方教程中也專門出了一期教大家如何用embedding來解決大模型長輸入的問題：https://www./blog/1051681543488862 。

然而奇怪的是，相比較大量的大語言模型的開源數(shù)據(jù)集，業(yè)界并沒有很多embedding數(shù)據(jù)的開放。目前可能是最強的embedding抽取模型——OpenAI的embeddings（別奇怪，它的模型就叫這個名字）也是一個收費的模型。今天，一位年僅20歲的小哥willdepue 開源了230萬arXiv論文的標題和摘要的embedding向量數(shù)據(jù)集，完全開源。

Alexandria項目

此次開源的arXiv的標題和摘要embeddings屬于Alexandria項目的一部分。這個項目的目標是將互聯(lián)網(wǎng)的數(shù)據(jù)集變成embeddings。而arXiv論文標題和摘要是第一部分。并表示未來將開源更多的數(shù)據(jù)集。

全球很多問題都可以歸納為搜索、聚類、推薦或者分類。而embeddings都可以在問題中發(fā)揮巨大的價值。在機器學習和自然語言處理中，embedding是指將高維度的數(shù)據(jù)（例如文字、圖片、音頻）映射到低維度空間的過程。embedding向量通常是一個由實數(shù)構成的向量，它將輸入的數(shù)據(jù)表示成一個連續(xù)的數(shù)值空間中的點。

簡單來說，embedding就是一個N維的實值向量，它幾乎可以用來表示任何事情，如文本、音樂、視頻等。而embedding重要的原因在于它可以表示單詞或者語句的語義。實值向量的embedding可以表示單詞的語義，主要是因為這些embedding向量是根據(jù)單詞在語言上下文中的出現(xiàn)模式進行學習的。

此外，embeddings也是一個一次性的成本投入，并且十分便宜。以OpenAI的embeddings為例，text-embedding-ada-002的價格是1美元250萬個tokens，約187.5萬個英文單詞！

盡管embeddings價值巨大且很便宜，但是開源的embeddings數(shù)據(jù)集卻幾乎沒有。因此，小哥做了這個項目。

Alexandria開源的arXiv論文embeddings數(shù)據(jù)集

此次開源的arXiv數(shù)據(jù)集包括2個部分，一個是論文標題的embeddings，一個是論文摘要的embeddings，這個大概也是因為這兩個部分可能避免版權的問題。具體如下：

上述數(shù)據(jù)均使用Instructor XL模型抽取。這是基于Apache2.0開源的embedding模型：https:///hkunlp/instructor-xl

此外，小哥還透露下周將公開基于這個embedding數(shù)據(jù)集做的arXiv論文檢索。

總結

這份arXiv的論文標題和摘要的embeddings數(shù)據(jù)集的開源在twitter上引起了很大的關注。原文發(fā)布不到24小時已經有80多萬次的查看。

小哥總結到，他覺得這個項目本身并不酷，但是也很容易語料會比較火?；谠紨?shù)據(jù)集做embeddings并不難，難得是如何一直更新。

小哥名叫Will DePue，也是一個神奇的人，看簡歷是00后，2003年出生。2021年以UCLA首屆Geffen Academy的第二名成績畢業(yè)。UCLA的Geffen Academy是一個為6-12年級學生服務的大學附屬學校。他現(xiàn)在在密歇根大學學習計算機科學（CS），并計劃在2025年畢業(yè)，但現(xiàn)在暫時休學了。

他也是WebGPT的作者，這是一個3周前發(fā)布的可以基于WebGPU在瀏覽器中運行GPT模型的開源項目。