【原】它，想給AI搜索醒醒腦

王智遠(yuǎn)同學(xué) 2024-07-20 發(fā)布于北京

展開全文

文：王智遠(yuǎn) | ID:Z201440

前兩天，有個融資新聞傳到了國內(nèi)。

地址在加利福尼亞州舊金山，日期是7月16日。一個專門研究如何在人工智能時代改進(jìn)搜索的實(shí)驗(yàn)室，Exa，宣布：融到2200美元。

這筆錢Lightspeed Venture Partners帶頭。還有英偉達(dá)（NVIDIA）的風(fēng)險投資部門和Y Combinator也參與投資；目的是幫助Exa快速發(fā)展，打造一個全新的搜索引擎,專門服務(wù)于人工智能。

什么？幫助人工智能，打造全新搜索？是的，你沒聽錯。他們要給人工智能加個“外腦”，或者說，在搜索功能上加點(diǎn)新東西，讓AI搜索更強(qiáng)進(jìn)。

這讓我很好奇，Exa到底是個什么樣的公司？有什么特別的技術(shù)？創(chuàng)始團(tuán)隊背景是怎樣的？為什么這么多資本投他們？

帶著問題，我進(jìn)行一番探索，發(fā)現(xiàn)一些不同的線索。

01

首先，你可能不信，Exa創(chuàng)始人很年輕，思想很前衛(wèi)。

首席執(zhí)行官Will Bryk現(xiàn)在27歲，聯(lián)合創(chuàng)始人Jeff Wang才26歲。不過，你可能會驚訝，這兩位好朋友在ChatGPT推出之前就已經(jīng)創(chuàng)辦了這家公司。

那么，這家公司是做什么的呢？

Exa公司位于舊金山，是Cerebral Valley AI社區(qū)的一部分。這是一個國外專注于人工智能、機(jī)器學(xué)習(xí)、自然語言處理和數(shù)據(jù)科學(xué)的社區(qū)。

最開始，Exa構(gòu)建一個工具，這個工具能讓人工智能模型做類似網(wǎng)絡(luò)搜索的事情。這主要包括了從互聯(lián)網(wǎng)上查找信息，以及幫助客戶回答問題的人工智能聊天機(jī)器人，還有一些公司希望用來策劃培訓(xùn)數(shù)據(jù)。

創(chuàng)始人早些年花100萬美元買了GPU，他們使用矢量數(shù)據(jù)庫和嵌入技術(shù)（這不是基于經(jīng)典Transformer的大型語言模型），開始建立一個機(jī)器學(xué)習(xí)模型，模型被訓(xùn)練來本能地理解鏈接，而不是單個的詞或句子。

Exa公司的創(chuàng)始人Will Bryk，解釋了他們的搜索引擎和普通搜索引擎有什么不一樣。他說：

通常AI搜索，像變形金剛，會猜你接下來可能會說什么單詞；但他們的搜索引擎不是猜單詞，而是猜鏈接，也就是你瀏覽網(wǎng)頁時可能會點(diǎn)開的下一個網(wǎng)址。

我們是看大家在網(wǎng)上分享什么鏈接，來訓(xùn)練搜索引擎，所以，是一種全新的方式，不同于一般的搜索引擎只根據(jù)關(guān)鍵詞來找東西。

就像大型語言模型通過提供最有可能的下一個單詞來完成句子一樣，Exa的系統(tǒng)會提供最有可能的鏈接（可能是十個）。但是，你不會在里面看到像在普通搜索引擎中那樣的搜索引擎優(yōu)化的垃圾信息，或者那些諷刺的、由人工智能生成的無用內(nèi)容。

Jeff Wang說：

公司最初目標(biāo)不是為了服務(wù)人工智能，而是，想探索怎樣利用人工智能來打造更好的搜索。

Exa之前有一個免費(fèi)版本，允許任何人有限地嘗試使用我們的搜索引擎，除此之外，還有幾個不同等級的付費(fèi)服務(wù)。這樣，Exa能賺一些錢，除了運(yùn)行自己的 GPU 集群外，Exa 的產(chǎn)品托管在 AWS 上。

結(jié)果，當(dāng)ChatGPT爆火之后，很多人工智能公司開始向Exa請求他們的搜索引擎API版本，以便能將用到自己的模型中去。

之后事情就一發(fā)不可收拾了，現(xiàn)在已經(jīng)有數(shù)千名開發(fā)者在使用我們的產(chǎn)品，客戶也越來越多，從那以后，Exa獲得了極大的關(guān)注。

例如：

Databricks就是Exa的一個大客戶，它主要用Exa來為自己的模型培訓(xùn)計劃尋找大型的訓(xùn)練數(shù)據(jù)集。

不難看出，這家公司并不像谷歌、Perplexity這樣基因的公司，它們專注開發(fā)針對人工智能需求的技術(shù)，一開始用戶群體是B端、針對AI搜索創(chuàng)業(yè)有需求的團(tuán)隊。

那么，Exa公司的創(chuàng)立的原因是什么呢？

創(chuàng)始人們對現(xiàn)在的互聯(lián)網(wǎng)環(huán)境很不滿意。他們覺得，互聯(lián)網(wǎng)本來是個找信息很方便的好地方，現(xiàn)在因?yàn)榇蠹覡帗屪⒁饬ψ兊迷絹碓缴虡I(yè)化，也變得扭曲了。

尤其是谷歌搜索，在谷歌，有一整個行業(yè)叫做搜索引擎優(yōu)化（SEO）。這個行業(yè)目的，是用各種技巧讓網(wǎng)頁在搜索結(jié)果里排名靠前，這樣就能吸引更多人的注意。

結(jié)果就是，哪怕你只是簡單地想知道“感冒了怎么辦？”你也會看到一大堆網(wǎng)站在爭搶排名，而不是真的提供最有用的信息。

02

嗯，的確是不錯的想法。我?guī)е闷嬉策M(jìn)行了測試。

打開官網(wǎng)，映入眼簾的幾個英文：The web, organized（AI的搜索引擎），顯然，搜索引擎不只是為個人使用，更多是為AI搜索服務(wù)的；實(shí)際上個人也可以用。

我搜的第一個問題是：Exa和Perplexity有什么不同?

它并沒有像其他AI搜索軟件那樣，直接給我答案，而是展示一堆列表；在Exa的搜索結(jié)果里，左側(cè)有固定類別的分類，我可以按照PDF、GitHub、公司、新聞、紙媒、推文、播客帖子等來篩選信息源。

當(dāng)我點(diǎn)擊“公司”類別后，就能看到來自各種公司網(wǎng)站的相關(guān)信息。

比如：

它給我顯示一條9個月前Perplexity官網(wǎng)的幫助文檔。點(diǎn)進(jìn)去后，里面有關(guān)于Perplexity的介紹，說Perplexity是獲取信息的最快方式，是一個工具，能讓全世界的人用自己的語言或在自己的水平上學(xué)習(xí)任何東西。

我也可以不點(diǎn)進(jìn)去，直接把鼠標(biāo)懸停在標(biāo)題上，右側(cè)就會出現(xiàn)一個摘要，自動形成一個總結(jié)文檔。我還可以直接與這個文檔進(jìn)行交流。和其他AI搜索一樣，下面還推薦了幾個相關(guān)問題。

圖釋：（Exa官網(wǎng)搜索截圖）

進(jìn)行多輪測試，可以肯定，只要點(diǎn)擊“新聞”，顯示出來的都是引用自各大媒體的報道，比如華爾街新聞、TechCrunch等。

如果想看博客帖子，點(diǎn)擊這一欄后，顯示的是社區(qū)論壇博主們的思考，有來自于知名平臺的，也有來自個人網(wǎng)站的。我隨機(jī)點(diǎn)擊幾個，發(fā)現(xiàn)博主們內(nèi)容質(zhì)量很高，幾乎都是各垂直領(lǐng)域的專家。

此外，Exa還可以按一天、一周、一個月、過去一年或任何時間篩選信息源的發(fā)布時間。

它還增加了域過濾器和短語過濾器：

域過濾器可以限定搜索范圍，只在特定的文檔字段或域中進(jìn)行搜索，這可以提高搜索的精確度和效率。
短語過濾器，則用于處理和匹配特定的詞組或短語，它會考慮詞序和詞之間的距離，確保搜索結(jié)果，更精確地匹配用戶的查詢意圖。

不過，一個缺點(diǎn)是并沒有給我直接的答案?？赡苁且?yàn)殛P(guān)于Exa的報道本身就較少，所以它沒法自己創(chuàng)造內(nèi)容。

這真的很技術(shù)思維，并不像谷歌、Perplexity用戶體驗(yàn)感那么強(qiáng)。

我也遇到一個問題，當(dāng)我搜“IPD是什么”時，它沒有給我想要的答案。我意識到問題太過簡單，于是我重新提問，加上IPD（Integrated Product Development集成產(chǎn)品完整表達(dá)，它才給我過濾掉那些和我意圖不一樣的內(nèi)容。

它的索引能力真的很強(qiáng)。

9年前、16年前的內(nèi)容都可以給我找出來，這些內(nèi)容也并非完全可以使用，點(diǎn)進(jìn)去看，明顯有些遜色，而且居然有一些是賣書、賣專欄的產(chǎn)品廣告，它們在廣告中加了IPD方面的內(nèi)容，外加上網(wǎng)站權(quán)重比較高，就被索引出來了。

據(jù)此，從個人使用感受來看：Exa的優(yōu)點(diǎn)在于：

一，找資料利器，索引能力強(qiáng)、篩選條件多，非常適合技術(shù)人員使用，不適合小白用戶。

二，還原過程指標(biāo)，把結(jié)論放在單篇文章上，而不是一個問題上。缺點(diǎn)則是：一，無法給出直接答案，我一個個篩選信息源，點(diǎn)擊查看；二，有些信息源不準(zhǔn)確，這可能和我選擇的篩選條件有關(guān)。

03

緊接著，我又拿Perplexity進(jìn)行測試。Perplexity更友好。

從Perplexity的介紹里，我可以明白：

Exa主要為AI系統(tǒng)和開發(fā)者設(shè)計，它的工作給AI提供需要的知識和數(shù)據(jù)。而Perplexity則是給普通人用的搜索引擎，提供問答式的搜索體驗(yàn)，所以，這兩個是完全不同的產(chǎn)品。

除此外，Exa定位為AI搜索的中間層，提供API服務(wù)，整合世界知識為AI系統(tǒng)提供數(shù)據(jù)，Perplexity是一個端到端的搜索引擎，直接給用戶提供摘要。

我詳細(xì)查閱了一下，Exa使用Embedding技術(shù)來理解語義，能搜索Twitter、GitHub、Reddit等多種數(shù)據(jù)源；而Perplexity則采用GPT-4o API和Claude-3、Sonar Large (LLaMa 3)等語言模型。

那么，它們二者有什么區(qū)別呢？

你可以想象一下，你有一堆玩具，每個玩具都有它的名字，比如“小汽車、洋娃娃、積木”?，F(xiàn)在，要把這些玩具的名字告訴一臺機(jī)器，讓機(jī)器理解并記住它們。但問題是，機(jī)器不懂我們的語言，它只懂?dāng)?shù)字。

怎么辦？

Embedding技術(shù)像一個魔法轉(zhuǎn)換器，它可以把“小汽車”這樣的名字變成一串?dāng)?shù)字，比如[1, 2]，把“洋娃娃”變成另一串?dāng)?shù)字，比如[2, 3]。

這樣，每個玩具的名字就都對應(yīng)一串?dāng)?shù)字，機(jī)器就能通過數(shù)字來“理解”和區(qū)分不同的玩具了。

更神奇的是，這個技術(shù)還可以讓相似的玩具有相近的數(shù)字。比如，“小汽車和卡車”可能都是車，所以它們的數(shù)字會比較接近，而和“洋娃娃”的數(shù)字就會遠(yuǎn)一些。

所以，Embedding技術(shù)，是幫助機(jī)器通過數(shù)字來理解和記住各種信息的一種方法。

而GPT-4o API和Claude-3不一樣，它們本意上是已經(jīng)被開發(fā)好的一個語言模型，Perplexity只是把不同的模型整合起來，去做寫文章、回答問題、聊天的動作。

所以，很明顯，Embedding技術(shù)和GPT-4o API、Claude-3的最主要區(qū)別是：

前者能把詞匯、圖片等變成一串?dāng)?shù)字，這樣更容易讓計算機(jī)學(xué)習(xí)和使用；后者更貼近用戶，幫助我在網(wǎng)上找到你需要的信息，比如新聞、圖片或視頻等。

因此，我們可以得到一個結(jié)論：Exa是一個為AI和開發(fā)者服務(wù)的高級搜索工具，它更注重于數(shù)據(jù)的深度整合和技術(shù)處理；Perplexity是面向普通用戶的搜索引擎，注重直接好用的便捷性，兩者不是一個賽道。

04

關(guān)于Embedding技術(shù)，中國也有不少研究者在討論。

我查了一下：

百度智能云的一篇文檔里，深入討論了Embedding技術(shù)在推薦系統(tǒng)中的應(yīng)用。

這包括怎樣更好地推薦用戶和商品，還有序列推薦和知識圖譜的應(yīng)用。這些技術(shù)把零散的數(shù)據(jù)變成連續(xù)的向量（就像一串串?dāng)?shù)字），提高了推薦系統(tǒng)的表現(xiàn)和準(zhǔn)確度。

還有一個技術(shù)博客的作者，在他的文章中也詳細(xì)說明Embedding技術(shù)，在58同城房產(chǎn)相關(guān)業(yè)務(wù)和推薦場景中的實(shí)際應(yīng)用[1]。

李乾坤，在GitHub博客上也詳細(xì)描述Embedding技術(shù)的原理和它在自然語言處理中的應(yīng)用。像Word2Vec和GloVe這樣的模型，就是通過把單詞變成高維的向量，來捕捉單詞之間的語義關(guān)系[2]。

我不是太懂，把它羅列出來，供你參考，相信這門技術(shù)在國內(nèi)也能很快用到其他場景上。

那么，我們是否可以說：這項技術(shù)在迭代傳統(tǒng)以整合信源為中心的AI搜索引擎呢？我不知道，至少覺得它具備一定的市場需求。

比如：

前一段時間有篇文章特別火，叫《中文互聯(lián)網(wǎng)是否會消失》，拋開爭議就整體而言，大家認(rèn)為中文互聯(lián)網(wǎng)內(nèi)容并沒有迅速消失，相反，中文內(nèi)容在全球范圍內(nèi)的比例在增長。

根據(jù)W3Techs數(shù)據(jù)，截止到2024年7月，中文內(nèi)容在全球網(wǎng)站上的使用比例為1.5%，中文和印地語內(nèi)容的比重都增加了超過10倍（注：W3Techs一家專門提供數(shù)據(jù)分析的機(jī)構(gòu)）。

這說明什么？互聯(lián)網(wǎng)數(shù)據(jù)并沒有消失，我們要特定工具把它給找出來。

國外風(fēng)險機(jī)構(gòu)Lightspeed，投資完Exa后，分享了一些關(guān)于未來智能體網(wǎng)絡(luò)的想法。他們提到：

最近，一直在思考一個全新的，支持AI智能體的網(wǎng)絡(luò)基礎(chǔ)設(shè)施，這種網(wǎng)絡(luò)會和我們?nèi)祟愑玫木W(wǎng)絡(luò)不一樣，因?yàn)锳I智能體和人類需要的東西不同。

為什么需要智能體網(wǎng)絡(luò)呢？

一，AI智能體要獲取最新且準(zhǔn)確的信息來完成任務(wù)。雖然現(xiàn)在的大型語言模型能記住很多數(shù)據(jù)，但，這些數(shù)據(jù)很快就會過時，而且不容易找到需要的信息。

二，雖然現(xiàn)在有了檢索增強(qiáng)生成（Retrieval-augmented generation）技術(shù)，它幫助大型語言模型能夠處理訓(xùn)練數(shù)據(jù)之外的信息，但這些通常都是私人或內(nèi)部的信息。

理想情況下，AI智能體應(yīng)該能通過API檢索整個公共互聯(lián)網(wǎng)的信息，這就要新的基礎(chǔ)設(shè)施——也就是智能體網(wǎng)絡(luò)。

但是，建設(shè)這樣的網(wǎng)絡(luò)，面臨很多技術(shù)和經(jīng)濟(jì)上的挑戰(zhàn)。現(xiàn)有網(wǎng)絡(luò)基礎(chǔ)設(shè)施，主要是為了服務(wù)廣告商，而不是用戶，傳統(tǒng)搜索引擎更關(guān)注廣告點(diǎn)擊和展示，這就導(dǎo)致了“SEO”產(chǎn)業(yè)興起。

內(nèi)容質(zhì)量并不總是最重要的。

比如：當(dāng)你搜“精通Go語言的軟件工程師”，理想搜索引擎，應(yīng)該給你工程師的個人網(wǎng)站或社交媒體資料，而不是一些討論Go語言的網(wǎng)頁。

好的搜索引擎應(yīng)該能理解“實(shí)體”的概念，而不只是泛泛地討論一些話題。所以，AI想要的搜索結(jié)果，可能和人類需要的不一樣。

AI用的搜索引擎不應(yīng)該顯示廣告，應(yīng)該直接顯示結(jié)果，不幸的是，現(xiàn)在人類和AI使用的是同樣的搜索結(jié)果，這種“一刀切”的方式很糟糕。

Exa 的用武之地就在這，它是一個為AI智能體，專門設(shè)計的基于嵌入技術(shù)的搜索引擎。

它獲取并索引網(wǎng)絡(luò)上的最新內(nèi)容，并通過一種獨(dú)特的“鏈接預(yù)測”模型，通過搜索API，把數(shù)據(jù)提供給基于大型語言模型的應(yīng)用程序；這個模型被專門調(diào)整，以便更好地理解搜索查詢并從索引中返回相關(guān)鏈接。

這好比：當(dāng)你向圖書管理員詢問關(guān)于某個主題的書時，他不僅迅速找到了與這個主題相關(guān)的書，還確保書正是你現(xiàn)在最需要的那一本。

有了 Exa，互聯(lián)網(wǎng)變得又新又有趣，AI需要一種新的方式來訪問信息，它正在執(zhí)行和設(shè)計適用于AI和互聯(lián)網(wǎng)信源革命的任務(wù)。

是不是很有趣？簡單講：它想給AI搜索引擎“洗個腦”，做中間部分，左手深度檢索信源后，右手投喂給大語言模型，讓它更聰明、更高效。

總結(jié)

中國，什么時候有這樣的公司？

很快了，值得期待。最起碼，這兩位年輕人的創(chuàng)新想法，讓人們看到了新的機(jī)會點(diǎn)。

參考：

[1].DataFunTalk. (2020, June 16). Embedding 技術(shù)在房產(chǎn)推薦中的應(yīng)用. from：https://www./article/hcii9dfu4aaat8se2id9

[2]. Li, Q. (2022, March 2). Embedding的原理及實(shí)踐. from：https://qiankunli./2022/03/02/embedding.html

————

贊賞

共11人贊賞

小男孩‘自慰网亚洲一区二区,亚洲一级在线播放毛片,亚洲中文字幕av每天更新,黄aⅴ永久免费无码,91成人午夜在线精品,色网站免费在线观看,亚洲欧洲wwwww在线观看

【原】它，想給AI搜索醒醒腦

【原】它，想給AI搜索醒醒腦