小男孩‘自慰网亚洲一区二区,亚洲一级在线播放毛片,亚洲中文字幕av每天更新,黄aⅴ永久免费无码,91成人午夜在线精品,色网站免费在线观看,亚洲欧洲wwwww在线观看

分享

上萬張照片怎么找?百度網(wǎng)盤:你只管說,我們幫你找

 天承辦公室 2023-07-18 發(fā)布于江蘇

機器之心原創(chuàng)

作者:張倩
找相冊照片、視頻變成「一句話的事」,百度網(wǎng)盤正在變身「第二大腦」
「沒有 xx 的結(jié)果,請嘗試新搜索詞。」有多少人在使用手機自帶的相冊搜索功能時收到了這樣的反饋?

圖片

如今,大部分人的相冊里都有上千張圖,平時也懶得整理,需要用某張圖時就按照時間段,去某個分類里找一下。而手機自帶的「搜索」功能由于效果太差,往往被人嫌棄。比如你搜「小狗」能搜出很多圖,但搜「幼年期小狗」、「櫻花樹下的狗」就沒有結(jié)果。在人類已經(jīng)能和 AI 流暢對話的今天,這樣的搜圖體驗是落后于時代的。

圖片

但如果你有把照片存入網(wǎng)盤的習(xí)慣,這件事就變得容易很多。它不僅能幫你找到「幼年期小狗」、「櫻花樹下的狗」,還能找到你和小狗在某個時間、地點的合影。

圖片


這是百度網(wǎng)盤 2022 年上線的「高級圖搜」功能,能夠理解包含時間、地點、人物、事件等諸多要素的組合搜索語句。只要在網(wǎng)盤輸入「高級圖片搜索」,點擊「立即體驗」,就可以在主頁搜索框里,直接用各種復(fù)雜指令搜圖了。

圖片

圖片

  
今年,他們甚至還上線了視頻搜索功能,打破了傳統(tǒng)?機或?盤相冊只能搜索照?的限制,幫你迅速、精準(zhǔn)地找到自己想找的視頻。

圖片

 
值得注意的是,這些搜索結(jié)果幾乎都是在一秒鐘的時間內(nèi)給出的,查找效率極高。

這背后既離不開功能強大的 AI 大模型、海量計算調(diào)度,也離不開細致的工程努力。這篇文章將逐一科普。

存在相冊里的照片、視頻
為何總是搜不到?

很多嘗試用手機自帶搜索功能搜索照片、視頻的同學(xué)都會納悶,為什么搜索語句稍微復(fù)雜一點,手機就看不懂了呢?搜出來的東西依然是包含某個關(guān)鍵詞的所有照片,或者直接顯示搜不到。

要回答這個問題,我們先來看一張圖:  

圖片


假設(shè)你是一個給圖片打標(biāo)簽的人,你會給這張圖片打上什么樣的標(biāo)簽?「貓」、「橘貓」、「動物」都是可能的答案。但如果擴展一下角度,你還可以給它打上「春天」、「戶外」這些代表時間、環(huán)境的標(biāo)簽,旁邊還有「小草」、「土壤」和「積雪」。以此類推,你很難用有限的標(biāo)簽來概括一張圖片蘊含的所有信息。但是,當(dāng)前大部分手機都是依靠這些標(biāo)簽來完成搜索,所以搜出的內(nèi)容很難精準(zhǔn)匹配。

百度網(wǎng)盤是怎么「搜」的?

為了克服「標(biāo)簽搜索」無法全面描述圖片內(nèi)容和特征的局限,百度網(wǎng)盤用「基于向量的語義搜索」取代了「標(biāo)簽搜索」

這種搜索方式的機制如下圖所示:首先,網(wǎng)盤中的所有照片會被編碼為一組特征向量(可以理解為一組數(shù)值序列,序列中的每個元素代表圖片的某種特征或?qū)傩裕?。在搜索時,你輸入的文本信息也會被轉(zhuǎn)換為一組特征向量。接下來,這兩組向量會被映射到同一語義向量空間進行比較:圖片向量和文本向量之間的距離越近,圖片和文本的相似度就越高,該圖片就越可能是你想找的那張。

圖片

與基于標(biāo)簽的方式相比,這種基于向量的語義搜索大大提升了搜索的靈活度,因為你不需要再考慮想搜的圖到底被打上了什么標(biāo)簽,想起什么線索就輸入什么線索,就像日常說話一樣。由于向量可以全面地描述圖片的內(nèi)容和特征,(比如它不僅表示出了「狗」,還表示出了「幼年的狗」),因此搜索結(jié)果更加準(zhǔn)確和全面。

此外,借助這種方式,可以搜索的內(nèi)容也非常廣,人物、風(fēng)景、動物、地標(biāo)建筑等都能搜到。這是因為,百度網(wǎng)盤采用了自研的融合了場景圖知識的多模態(tài)預(yù)訓(xùn)練文心?CV 大模型 VIMER-ViLP,來解決語義匹配問題。這種技術(shù)使用了海量網(wǎng)絡(luò)數(shù)據(jù)進行訓(xùn)練,從而可以理解和識別廣泛的圖片內(nèi)容。

圖片

不過,語義向量也有自己的能力邊界,比如無法精準(zhǔn)地判斷時間、地點、人物等信息,需要用其他方式補充搜索。

時間和地點信息可以從照片自身攜帶的原信息中提取,其中包含的經(jīng)緯度可以被轉(zhuǎn)換成實際的街道名、場所名稱。人物信息可以通過智能分類聚合出來,然后打上標(biāo)簽。最后,這些信息的搜索可以用范圍查詢或者關(guān)鍵詞查詢來實現(xiàn)。

通過這樣的組合搜索,你就得到了想要的結(jié)果。為了讓照片(而不是文檔)排在搜索結(jié)果前面,技術(shù)人員還增加了對用戶搜索意圖的理解。如果識別出來是用戶想要找的照片,系統(tǒng)會把照片的返回結(jié)果放在最上面,解決照片位置靠后的問題。

相比之下,視頻的搜索要更難一些,算力消耗也大得多,因此百度網(wǎng)盤采用了搜索封面圖的策略(因為視頻的封面圖往往比較有代表性),把視頻轉(zhuǎn)換成圖片來做搜索,在成本和搜索準(zhǔn)確性方面達到一種平衡。

怎么把搜索速度提上去?

「我一輸入完,它啪一下就把結(jié)果返回來了,很快?。 惯@是很多人使用百度網(wǎng)盤搜圖時的共同感受。這背后其實涉及三個方面的優(yōu)化。
 

圖片


一是充分利用「云上算力大、本地設(shè)備延時小」的特點,讓云端服務(wù)器和你的手機各自承擔(dān)自己擅長的任務(wù):云端服務(wù)器對網(wǎng)盤中的圖片進行向量計算,然后通過一個實時數(shù)據(jù)同步通道,將計算結(jié)果下發(fā)到你的手機,在手機本地建立索引,向量檢索在手機本地完成。

這種做法好處非常明顯:首先,將算力需求較大的向量計算工作放到云端可以彌補個人設(shè)備算力不足的問題,讓搜圖功能在各種機型上都能充分施展;其次,向量檢索在手機本地完成避免了數(shù)據(jù)在你的設(shè)備和服務(wù)器之間公網(wǎng)傳輸?shù)难訒r,保證了搜索的效率。

圖片
百度網(wǎng)盤端 + 云向量檢索流程:1. 請求云端計算文本 Query 的特征向量和 LSH(Locality-Sensitive Hashing,局部敏感哈希)編碼;2. 計算文本和圖片 LSH 編碼相等的維數(shù),找到相等維數(shù)超過閾值的圖片子集;3. 在候選的圖片子集中,計算圖片向量與文本向量的相似度,按照相似度,從高到低返回。

二是盡可能壓縮本地索引大小,進一步減少你的設(shè)備需要承載的計算量,減少電量消耗和手機發(fā)燙的情況。在對索引進行了大量的壓縮后,即使圖片規(guī)模達到 10 萬,向量檢索速度也可以達到毫秒級別,最終返回結(jié)果的延時能控制在秒級別。

圖片

三是開發(fā)一套異構(gòu)算力調(diào)度系統(tǒng)。這套系統(tǒng)能夠統(tǒng)一管理 CPU、GPU 等異構(gòu)資源的調(diào)度,充分利用閑置資源,從而盡可能快地覆蓋更多搜索人群。

長期以來,由于圖片、視頻搜索成本太高,效率太低,很多相冊 APP 并沒有把這種功能開放給用戶。但通過以上這些舉措,百度網(wǎng)盤很好地平衡了成本和效率,因此開創(chuàng)性地將其開放了出來,在保證搜索體驗的前提下也能控制好成本。

網(wǎng)盤≠網(wǎng)絡(luò)硬盤

網(wǎng)盤是一個誕生已經(jīng)接近二十年的產(chǎn)品類型,百度網(wǎng)盤也已經(jīng)走過了 11 個年頭,但很長一段時間以來,人們只是把網(wǎng)盤當(dāng)成一種存儲工具來用,形成了「網(wǎng)盤 = 網(wǎng)絡(luò)硬盤」的刻板印象。隨著一些智能化功能的出現(xiàn),這種印象正在被打破,百度網(wǎng)盤就是最好的例子。

除了以上提到的文本搜圖外,百度網(wǎng)盤其實還支持「OCR 識圖」和「以圖搜圖」,并且能自動關(guān)聯(lián)百科信息甚至全網(wǎng)信息,極大地擴展了信息檢索的維度,讓你能夠更深入地了解圖片背后的故事,這遠遠超出了一個傳統(tǒng)存儲工具所能做的事情。

圖片

 

圖片


基于這些功能,百度網(wǎng)盤的應(yīng)用場景得以不斷擴展,比如為朋友圈文案配圖片:

圖片

圖片

圖片

在體驗這些功能時,你能深刻地體會到百度網(wǎng)盤多年以來積累的優(yōu)勢:它支持多端同時關(guān)聯(lián)同一賬號,形成了一個天然的全端數(shù)據(jù)中心,把你近十年來用不同設(shè)備記錄的生活片段構(gòu)建成了一個個人影像館、圖書館,然后在你搜索時不經(jīng)意地將其中一些展示出來,讓你恍然大悟:「原來我還有這么一張照片、這么一段記憶」。

生活之外,也有越來越多的人將百度網(wǎng)盤當(dāng)成一個生產(chǎn)力工具,借助它提供的搜圖等功能管理視覺素材以及發(fā)票等多模態(tài)文件。據(jù)統(tǒng)計,圖搜功能在百度網(wǎng)盤和一刻相冊(百度網(wǎng)盤團隊出品的云相冊 App)已經(jīng)覆蓋千萬級用戶,一年累計圖片搜索服務(wù)超過 2.5 億次。

更值得一提的是,在圖片、視頻量如此巨大的情況下,百度網(wǎng)盤始終將用戶的數(shù)據(jù)安全與隱私保護放在首位。以存儲安全為例,百度網(wǎng)盤依托百度云計算(陽泉)中心,數(shù)據(jù)可靠性高達 99.9999999999%(12 個 9),極大提升了用戶數(shù)據(jù)穩(wěn)定性和可靠性。同時,也持續(xù)通過三項 ISO 安全認(rèn)證的年度審核,全方位保障每位用戶的數(shù)據(jù)安全。

究其根本,這些應(yīng)用場景的集中爆發(fā)是因為百度網(wǎng)盤正在有意識地參與到一場變革中,也就是今年 AI 大模型所帶來的人機交互方式的變革。在這場變革中,人們正在越來越多地用自然語言跟計算機交互,以文搜圖只是其中的一種表現(xiàn)。

在今年 5 月份的「萬象大會」上,百度網(wǎng)盤還推出了基于文心大模型的「云一朵」智能助理,把文件和視頻的快速搜索、知識總結(jié)、文檔翻譯、智能創(chuàng)作都變成了「一句話的事」,未來還將實現(xiàn)多模態(tài)創(chuàng)作,并通過 IoT 設(shè)備實現(xiàn)網(wǎng)盤內(nèi)容的萬物互聯(lián)。

圖片


具體來說,「云一朵」可以做的事情非常多。一是個人知識管理:它可以把你存在網(wǎng)盤里的所有內(nèi)容轉(zhuǎn)變?yōu)榭梢杂米匀徽Z言查找的數(shù)據(jù)庫,滿足智能搜索、總結(jié)、問答、互動等需求。
 

圖片

百度網(wǎng)盤「云一朵」自動分析英文文檔并返回中文結(jié)果

二是多模態(tài)創(chuàng)作:它可以用網(wǎng)盤內(nèi)的圖片生成視頻、將視頻提煉成文本等。

圖片

百度網(wǎng)盤「云一朵」為視頻添加字幕、提煉概要。

三是通過 IoT 設(shè)備將網(wǎng)盤的內(nèi)容在多類智能硬件上互聯(lián)互通,比如用網(wǎng)盤的語音轉(zhuǎn)寫、視頻轉(zhuǎn)音頻等能力賦能智能音箱、閱讀器、聽力機、詞典筆等硬件,打破之前各類硬件工具使用時的割裂感,讓網(wǎng)盤帶來的智能體驗無處不在。

當(dāng)然,這種交互方式對于算力和大模型的能力都有著很高的要求。不過,這也正是百度網(wǎng)盤的優(yōu)勢所在:豐富的云端資源讓他們可以采用足夠強大的自研 AI 大模型,獲取足夠豐富的語義特征。此外,自研的大模型在迭代方面也更加靈活高效。

可以看到,在百度網(wǎng)盤不斷進行智能化升級的今天,這一曾被打上「網(wǎng)絡(luò)硬盤」烙印的工具正在朝著「第二大腦」的方向逐漸演變?;诖竽P偷奶幚砟芰?,它正在幫助更多人構(gòu)建與數(shù)字世界的連接,成為一款真正的生產(chǎn)力工具。

    本站是提供個人知識管理的網(wǎng)絡(luò)存儲空間,所有內(nèi)容均由用戶發(fā)布,不代表本站觀點。請注意甄別內(nèi)容中的聯(lián)系方式、誘導(dǎo)購買等信息,謹(jǐn)防詐騙。如發(fā)現(xiàn)有害或侵權(quán)內(nèi)容,請點擊一鍵舉報。
    轉(zhuǎn)藏 分享 獻花(0

    0條評論

    發(fā)表

    請遵守用戶 評論公約

    類似文章 更多