小男孩‘自慰网亚洲一区二区,亚洲一级在线播放毛片,亚洲中文字幕av每天更新,黄aⅴ永久免费无码,91成人午夜在线精品,色网站免费在线观看,亚洲欧洲wwwww在线观看

分享

它,想給AI搜索醒醒腦

 王智遠(yuǎn)同學(xué) 2024-07-20 發(fā)布于北京

文:王智遠(yuǎn) | ID:Z201440

前兩天,有個融資新聞傳到了國內(nèi)。

地址在加利福尼亞州舊金山,日期是7月16日。一個專門研究如何在人工智能時代改進(jìn)搜索的實(shí)驗(yàn)室,Exa,宣布:融到2200美元。

這筆錢Lightspeed Venture Partners帶頭。還有英偉達(dá)(NVIDIA)的風(fēng)險投資部門和Y Combinator也參與投資;目的是幫助Exa快速發(fā)展,打造一個全新的搜索引擎,專門服務(wù)于人工智能。

什么?幫助人工智能,打造全新搜索?是的,你沒聽錯。他們要給人工智能加個“外腦”,或者說,在搜索功能上加點(diǎn)新東西,讓AI搜索更強(qiáng)進(jìn)。

這讓我很好奇,Exa到底是個什么樣的公司?有什么特別的技術(shù)?創(chuàng)始團(tuán)隊背景是怎樣的?為什么這么多資本投他們?
帶著問題,我進(jìn)行一番探索,發(fā)現(xiàn)一些不同的線索。

01

首先,你可能不信,Exa創(chuàng)始人很年輕,思想很前衛(wèi)。

首席執(zhí)行官Will Bryk現(xiàn)在27歲,聯(lián)合創(chuàng)始人Jeff Wang才26歲。不過,你可能會驚訝,這兩位好朋友在ChatGPT推出之前就已經(jīng)創(chuàng)辦了這家公司。
那么,這家公司是做什么的呢?
Exa公司位于舊金山,是Cerebral Valley AI社區(qū)的一部分。這是一個國外專注于人工智能、機(jī)器學(xué)習(xí)、自然語言處理和數(shù)據(jù)科學(xué)的社區(qū)。
最開始,Exa構(gòu)建一個工具,這個工具能讓人工智能模型做類似網(wǎng)絡(luò)搜索的事情。這主要包括了從互聯(lián)網(wǎng)上查找信息,以及幫助客戶回答問題的人工智能聊天機(jī)器人,還有一些公司希望用來策劃培訓(xùn)數(shù)據(jù)。
創(chuàng)始人早些年花100萬美元買了GPU,他們使用矢量數(shù)據(jù)庫和嵌入技術(shù)(這不是基于經(jīng)典Transformer的大型語言模型),開始建立一個機(jī)器學(xué)習(xí)模型,模型被訓(xùn)練來本能地理解鏈接,而不是單個的詞或句子。
Exa公司的創(chuàng)始人Will Bryk,解釋了他們的搜索引擎和普通搜索引擎有什么不一樣。他說:
通常AI搜索,像變形金剛,會猜你接下來可能會說什么單詞;但他們的搜索引擎不是猜單詞,而是猜鏈接,也就是你瀏覽網(wǎng)頁時可能會點(diǎn)開的下一個網(wǎng)址。
我們是看大家在網(wǎng)上分享什么鏈接,來訓(xùn)練搜索引擎,所以,是一種全新的方式,不同于一般的搜索引擎只根據(jù)關(guān)鍵詞來找東西。
就像大型語言模型通過提供最有可能的下一個單詞來完成句子一樣,Exa的系統(tǒng)會提供最有可能的鏈接(可能是十個)。但是,你不會在里面看到像在普通搜索引擎中那樣的搜索引擎優(yōu)化的垃圾信息,或者那些諷刺的、由人工智能生成的無用內(nèi)容。
Jeff Wang說:
公司最初目標(biāo)不是為了服務(wù)人工智能,而是,想探索怎樣利用人工智能來打造更好的搜索。
Exa之前有一個免費(fèi)版本,允許任何人有限地嘗試使用我們的搜索引擎,除此之外,還有幾個不同等級的付費(fèi)服務(wù)。這樣,Exa能賺一些錢,除了運(yùn)行自己的 GPU 集群外,Exa 的產(chǎn)品托管在 AWS 上。
結(jié)果,當(dāng)ChatGPT爆火之后,很多人工智能公司開始向Exa請求他們的搜索引擎API版本,以便能將用到自己的模型中去。
之后事情就一發(fā)不可收拾了,現(xiàn)在已經(jīng)有數(shù)千名開發(fā)者在使用我們的產(chǎn)品,客戶也越來越多,從那以后,Exa獲得了極大的關(guān)注。
例如:
Databricks就是Exa的一個大客戶,它主要用Exa來為自己的模型培訓(xùn)計劃尋找大型的訓(xùn)練數(shù)據(jù)集。
不難看出,這家公司并不像谷歌、Perplexity這樣基因的公司,它們專注開發(fā)針對人工智能需求的技術(shù),一開始用戶群體是B端、針對AI搜索創(chuàng)業(yè)有需求的團(tuán)隊。
那么,Exa公司的創(chuàng)立的原因是什么呢?
創(chuàng)始人們對現(xiàn)在的互聯(lián)網(wǎng)環(huán)境很不滿意。他們覺得,互聯(lián)網(wǎng)本來是個找信息很方便的好地方,現(xiàn)在因?yàn)榇蠹覡帗屪⒁饬ψ兊迷絹碓缴虡I(yè)化,也變得扭曲了。
尤其是谷歌搜索,在谷歌,有一整個行業(yè)叫做搜索引擎優(yōu)化(SEO)。這個行業(yè)目的,是用各種技巧讓網(wǎng)頁在搜索結(jié)果里排名靠前,這樣就能吸引更多人的注意。

結(jié)果就是,哪怕你只是簡單地想知道“感冒了怎么辦?”你也會看到一大堆網(wǎng)站在爭搶排名,而不是真的提供最有用的信息。

02

嗯,的確是不錯的想法。我?guī)е闷嬉策M(jìn)行了測試。

打開官網(wǎng),映入眼簾的幾個英文:The web, organized(AI的搜索引擎),顯然,搜索引擎不只是為個人使用,更多是為AI搜索服務(wù)的;實(shí)際上個人也可以用。
我搜的第一個問題是:Exa和Perplexity有什么不同?
它并沒有像其他AI搜索軟件那樣,直接給我答案,而是展示一堆列表;在Exa的搜索結(jié)果里,左側(cè)有固定類別的分類,我可以按照PDF、GitHub、公司、新聞、紙媒、推文、播客帖子等來篩選信息源。
當(dāng)我點(diǎn)擊“公司”類別后,就能看到來自各種公司網(wǎng)站的相關(guān)信息。
比如:
它給我顯示一條9個月前Perplexity官網(wǎng)的幫助文檔。點(diǎn)進(jìn)去后,里面有關(guān)于Perplexity的介紹,說Perplexity是獲取信息的最快方式,是一個工具,能讓全世界的人用自己的語言或在自己的水平上學(xué)習(xí)任何東西。
我也可以不點(diǎn)進(jìn)去,直接把鼠標(biāo)懸停在標(biāo)題上,右側(cè)就會出現(xiàn)一個摘要,自動形成一個總結(jié)文檔。我還可以直接與這個文檔進(jìn)行交流。和其他AI搜索一樣,下面還推薦了幾個相關(guān)問題。

圖釋:Exa官網(wǎng)搜索截圖)
進(jìn)行多輪測試,可以肯定,只要點(diǎn)擊“新聞”,顯示出來的都是引用自各大媒體的報道,比如華爾街新聞、TechCrunch等。
如果想看博客帖子,點(diǎn)擊這一欄后,顯示的是社區(qū)論壇博主們的思考,有來自于知名平臺的,也有來自個人網(wǎng)站的。我隨機(jī)點(diǎn)擊幾個,發(fā)現(xiàn)博主們內(nèi)容質(zhì)量很高,幾乎都是各垂直領(lǐng)域的專家。

此外,Exa還可以按一天、一周、一個月、過去一年或任何時間篩選信息源的發(fā)布時間。

它還增加了域過濾器和短語過濾器:

域過濾器可以限定搜索范圍,只在特定的文檔字段或域中進(jìn)行搜索,這可以提高搜索的精確度和效率。

短語過濾器,則用于處理和匹配特定的詞組或短語,它會考慮詞序和詞之間的距離,確保搜索結(jié)果,更精確地匹配用戶的查詢意圖。

不過,一個缺點(diǎn)是并沒有給我直接的答案??赡苁且?yàn)殛P(guān)于Exa的報道本身就較少,所以它沒法自己創(chuàng)造內(nèi)容。


這真的很技術(shù)思維,并不像谷歌、Perplexity用戶體驗(yàn)感那么強(qiáng)。
我也遇到一個問題,當(dāng)我搜“IPD是什么”時,它沒有給我想要的答案。我意識到問題太過簡單,于是我重新提問,加上IPD(Integrated Product Development集成產(chǎn)品完整表達(dá),它才給我過濾掉那些和我意圖不一樣的內(nèi)容。
它的索引能力真的很強(qiáng)。
9年前、16年前的內(nèi)容都可以給我找出來,這些內(nèi)容也并非完全可以使用,點(diǎn)進(jìn)去看,明顯有些遜色,而且居然有一些是賣書、賣專欄的產(chǎn)品廣告,它們在廣告中加了IPD方面的內(nèi)容,外加上網(wǎng)站權(quán)重比較高,就被索引出來了。
據(jù)此,從個人使用感受來看:Exa的優(yōu)點(diǎn)在于:
一,找資料利器,索引能力強(qiáng)、篩選條件多,非常適合技術(shù)人員使用,不適合小白用戶。

二,還原過程指標(biāo),把結(jié)論放在單篇文章上,而不是一個問題上。缺點(diǎn)則是:一,無法給出直接答案,我一個個篩選信息源,點(diǎn)擊查看;二,有些信息源不準(zhǔn)確,這可能和我選擇的篩選條件有關(guān)。

03

緊接著,我又拿Perplexity進(jìn)行測試。Perplexity更友好。

從Perplexity的介紹里,我可以明白:
Exa主要為AI系統(tǒng)和開發(fā)者設(shè)計,它的工作給AI提供需要的知識和數(shù)據(jù)。而Perplexity則是給普通人用的搜索引擎,提供問答式的搜索體驗(yàn),所以,這兩個是完全不同的產(chǎn)品。
除此外,Exa定位為AI搜索的中間層,提供API服務(wù),整合世界知識為AI系統(tǒng)提供數(shù)據(jù),Perplexity是一個端到端的搜索引擎,直接給用戶提供摘要。
我詳細(xì)查閱了一下,Exa使用Embedding技術(shù)來理解語義,能搜索Twitter、GitHub、Reddit等多種數(shù)據(jù)源;而Perplexity則采用GPT-4o API和Claude-3、Sonar Large (LLaMa 3)等語言模型。
那么,它們二者有什么區(qū)別呢?
你可以想象一下,你有一堆玩具,每個玩具都有它的名字,比如“小汽車、洋娃娃、積木”?,F(xiàn)在,要把這些玩具的名字告訴一臺機(jī)器,讓機(jī)器理解并記住它們。但問題是,機(jī)器不懂我們的語言,它只懂?dāng)?shù)字。
怎么辦?
Embedding技術(shù)像一個魔法轉(zhuǎn)換器,它可以把“小汽車”這樣的名字變成一串?dāng)?shù)字,比如[1, 2],把“洋娃娃”變成另一串?dāng)?shù)字,比如[2, 3]。
這樣,每個玩具的名字就都對應(yīng)一串?dāng)?shù)字,機(jī)器就能通過數(shù)字來“理解”和區(qū)分不同的玩具了。
更神奇的是,這個技術(shù)還可以讓相似的玩具有相近的數(shù)字。比如,“小汽車和卡車”可能都是車,所以它們的數(shù)字會比較接近,而和“洋娃娃”的數(shù)字就會遠(yuǎn)一些。
所以,Embedding技術(shù),是幫助機(jī)器通過數(shù)字來理解和記住各種信息的一種方法。
而GPT-4o API和Claude-3不一樣,它們本意上是已經(jīng)被開發(fā)好的一個語言模型,Perplexity只是把不同的模型整合起來,去做寫文章、回答問題、聊天的動作。
所以,很明顯,Embedding技術(shù)和GPT-4o API、Claude-3的最主要區(qū)別是:
前者能把詞匯、圖片等變成一串?dāng)?shù)字,這樣更容易讓計算機(jī)學(xué)習(xí)和使用;后者更貼近用戶,幫助我在網(wǎng)上找到你需要的信息,比如新聞、圖片或視頻等。

因此,我們可以得到一個結(jié)論:Exa是一個為AI和開發(fā)者服務(wù)的高級搜索工具,它更注重于數(shù)據(jù)的深度整合和技術(shù)處理;Perplexity是面向普通用戶的搜索引擎,注重直接好用的便捷性,兩者不是一個賽道。

04

關(guān)于Embedding技術(shù),中國也有不少研究者在討論。

我查了一下:
百度智能云的一篇文檔里,深入討論了Embedding技術(shù)在推薦系統(tǒng)中的應(yīng)用。
這包括怎樣更好地推薦用戶和商品,還有序列推薦和知識圖譜的應(yīng)用。這些技術(shù)把零散的數(shù)據(jù)變成連續(xù)的向量(就像一串串?dāng)?shù)字),提高了推薦系統(tǒng)的表現(xiàn)和準(zhǔn)確度。
還有一個技術(shù)博客的作者,在他的文章中也詳細(xì)說明Embedding技術(shù),在58同城房產(chǎn)相關(guān)業(yè)務(wù)和推薦場景中的實(shí)際應(yīng)用[1]。
李乾坤,在GitHub博客上也詳細(xì)描述Embedding技術(shù)的原理和它在自然語言處理中的應(yīng)用。像Word2Vec和GloVe這樣的模型,就是通過把單詞變成高維的向量,來捕捉單詞之間的語義關(guān)系[2]
我不是太懂,把它羅列出來,供你參考,相信這門技術(shù)在國內(nèi)也能很快用到其他場景上。
那么,我們是否可以說:這項技術(shù)在迭代傳統(tǒng)以整合信源為中心的AI搜索引擎呢?我不知道,至少覺得它具備一定的市場需求。
比如:
前一段時間有篇文章特別火,叫《中文互聯(lián)網(wǎng)是否會消失》,拋開爭議就整體而言,大家認(rèn)為中文互聯(lián)網(wǎng)內(nèi)容并沒有迅速消失,相反,中文內(nèi)容在全球范圍內(nèi)的比例在增長。
根據(jù)W3Techs數(shù)據(jù),截止到2024年7月,中文內(nèi)容在全球網(wǎng)站上的使用比例為1.5%,中文和印地語內(nèi)容的比重都增加了超過10倍(注:W3Techs一家專門提供數(shù)據(jù)分析的機(jī)構(gòu))。
這說明什么?互聯(lián)網(wǎng)數(shù)據(jù)并沒有消失,我們要特定工具把它給找出來。
國外風(fēng)險機(jī)構(gòu)Lightspeed,投資完Exa后,分享了一些關(guān)于未來智能體網(wǎng)絡(luò)的想法。他們提到:
最近,一直在思考一個全新的,支持AI智能體的網(wǎng)絡(luò)基礎(chǔ)設(shè)施,這種網(wǎng)絡(luò)會和我們?nèi)祟愑玫木W(wǎng)絡(luò)不一樣,因?yàn)锳I智能體和人類需要的東西不同。
為什么需要智能體網(wǎng)絡(luò)呢?
一,AI智能體要獲取最新且準(zhǔn)確的信息來完成任務(wù)。雖然現(xiàn)在的大型語言模型能記住很多數(shù)據(jù),但,這些數(shù)據(jù)很快就會過時,而且不容易找到需要的信息。
二,雖然現(xiàn)在有了檢索增強(qiáng)生成(Retrieval-augmented generation)技術(shù),它幫助大型語言模型能夠處理訓(xùn)練數(shù)據(jù)之外的信息,但這些通常都是私人或內(nèi)部的信息。
理想情況下,AI智能體應(yīng)該能通過API檢索整個公共互聯(lián)網(wǎng)的信息,這就要新的基礎(chǔ)設(shè)施——也就是智能體網(wǎng)絡(luò)。
但是,建設(shè)這樣的網(wǎng)絡(luò),面臨很多技術(shù)和經(jīng)濟(jì)上的挑戰(zhàn)。現(xiàn)有網(wǎng)絡(luò)基礎(chǔ)設(shè)施,主要是為了服務(wù)廣告商,而不是用戶,傳統(tǒng)搜索引擎更關(guān)注廣告點(diǎn)擊和展示,這就導(dǎo)致了“SEO”產(chǎn)業(yè)興起。
內(nèi)容質(zhì)量并不總是最重要的。
比如:當(dāng)你搜“精通Go語言的軟件工程師”,理想搜索引擎,應(yīng)該給你工程師的個人網(wǎng)站或社交媒體資料,而不是一些討論Go語言的網(wǎng)頁。
好的搜索引擎應(yīng)該能理解“實(shí)體”的概念,而不只是泛泛地討論一些話題。所以,AI想要的搜索結(jié)果,可能和人類需要的不一樣。
AI用的搜索引擎不應(yīng)該顯示廣告,應(yīng)該直接顯示結(jié)果,不幸的是,現(xiàn)在人類和AI使用的是同樣的搜索結(jié)果,這種“一刀切”的方式很糟糕。
Exa 的用武之地就在這,它是一個為AI智能體,專門設(shè)計的基于嵌入技術(shù)的搜索引擎。
它獲取并索引網(wǎng)絡(luò)上的最新內(nèi)容,并通過一種獨(dú)特的“鏈接預(yù)測”模型,通過搜索API,把數(shù)據(jù)提供給基于大型語言模型的應(yīng)用程序;這個模型被專門調(diào)整,以便更好地理解搜索查詢并從索引中返回相關(guān)鏈接。
這好比:當(dāng)你向圖書管理員詢問關(guān)于某個主題的書時,他不僅迅速找到了與這個主題相關(guān)的書,還確保書正是你現(xiàn)在最需要的那一本。
有了 Exa,互聯(lián)網(wǎng)變得又新又有趣,AI需要一種新的方式來訪問信息,它正在執(zhí)行和設(shè)計適用于AI和互聯(lián)網(wǎng)信源革命的任務(wù)。

是不是很有趣?簡單講:它想給AI搜索引擎“洗個腦”,做中間部分,左手深度檢索信源后,右手投喂給大語言模型,讓它更聰明、更高效。

總結(jié)
中國,什么時候有這樣的公司?
很快了,值得期待。最起碼,這兩位年輕人的創(chuàng)新想法,讓人們看到了新的機(jī)會點(diǎn)。

參考:

[1].DataFunTalk. (2020, June 16). Embedding 技術(shù)在房產(chǎn)推薦中的應(yīng)用. from:https://www./article/hcii9dfu4aaat8se2id9
[2]. Li, Q. (2022, March 2). Embedding的原理及實(shí)踐. from:https://qiankunli./2022/03/02/embedding.html

————

    轉(zhuǎn)藏 分享 獻(xiàn)花(0

    0條評論

    發(fā)表

    請遵守用戶 評論公約

    類似文章 更多