小男孩‘自慰网亚洲一区二区,亚洲一级在线播放毛片,亚洲中文字幕av每天更新,黄aⅴ永久免费无码,91成人午夜在线精品,色网站免费在线观看,亚洲欧洲wwwww在线观看

分享

****萬字探討:AI硬件的突圍方向和可能性未來

 張先民 2024-10-09
ChatGPT 推出以后,AI 硬件就成為了熱門賽道。
AI Pin、Rabbit R1、以及 Meta 的雷朋眼鏡,還有豆包即將推出的智能耳機,有成功的,也有不少失敗的。
在大模型熱潮持續(xù)一年之后,或許可以看一下,AI 硬件未來的機會到底在哪里。
本文來自科技基金 Capital O 的管理合伙人 Aaron Qian,分享了對AI硬件、XR和具身智能等行業(yè)的觀察和思考。

Founder Park 授權(quán)轉(zhuǎn)載。

硬件是中國的主場

在今年前9個月見過的108個團隊中,具身智能項目有14個,AI硬件項目8個,XR相關(guān)5個,共占25%。相較于軟件,偏硬件的賽道國內(nèi)團隊優(yōu)勢更加明顯,特別是AI硬件方向大多圍繞深圳世界領(lǐng)先的供應(yīng)鏈生態(tài)打造團隊。我們也正與兩家企業(yè)深入接洽。

圖片

點擊關(guān)注,每天更新深度 AI 行業(yè)洞察

01 

AI 硬件需要明確的基本原則

原則#1 這一波AI硬件將由軟件驅(qū)動

我在上一篇分享中提到新交互方式出現(xiàn)前現(xiàn)階段AI應(yīng)用依然是移動互聯(lián)網(wǎng)邏輯?;仡櫼苿踊ヂ?lián)網(wǎng)時代,4G/5G的成熟在底層技術(shù)架構(gòu)上為短視頻等高信息密度應(yīng)用的新形態(tài)打下了基礎(chǔ),而iPhone開創(chuàng)的觸控交互體驗真正為應(yīng)用的繁榮打開了大門。

蘋果也因為在交互模式上的創(chuàng)新獲得了移動互聯(lián)網(wǎng)時代最大的紅利,時至今日依然可以向軟件生態(tài)征收“蘋果稅”。強如Meta,幾乎盤踞了海外C端流量和廣告收入,也因為缺乏硬件設(shè)備而如鯁在喉。Zuckerberg近年來在Reality Labs上的激進投入,狂燒500億美金就是為了占據(jù)下一個時代的硬件入口/計算中心。

圖片

在當(dāng)前格局下, Google ,Meta,蘋果和字節(jié)跳動等移動互聯(lián)網(wǎng)巨頭從硬件到軟件牢牢把持了用戶生態(tài),并基于計算中心/物理空間、流量/網(wǎng)絡(luò)效應(yīng)、時間/用戶習(xí)慣這幾個核心要素形成了深厚的壁壘。如果這個局面不被打破,AI大模型技術(shù)將停留在更先進的生產(chǎn)工具('enabler”)定位,從結(jié)果上豐富了移動互聯(lián)網(wǎng)生態(tài)的內(nèi)容供給和用戶體驗,“為他人做嫁衣”。科技巨頭依然是最大受益者,過去5年強者恒強的局面將會延續(xù)。

圖片過去五年科技巨頭市場份額不斷提升

因此針對AI大模型重新設(shè)計的硬件和交互將是GenAI時代挑戰(zhàn)者必須攻克的堡壘。這也是為什么Sam Altman很早就聯(lián)系傳奇設(shè)計師Jony Ive開始在硬件方向進行探索。

事實上這樣的嘗試對挑戰(zhàn)者來說從未停止。在硬件層面,智能手表、TWS耳機成為體量可觀的新硬件品類,但沒有擺脫手機配件的定位。在軟件層面,前兩年大熱的crypto在某種意義上創(chuàng)造了新的獲客貨幣,在高企的流量紅海中提供了一種bootstrap的可能性,但因為缺乏后續(xù)承接能力而已失敗告終。直到AI大模型技術(shù)在最近兩年取得突破,特別是GPT4o在多模態(tài)領(lǐng)域的進展讓人們看到了一絲希望:軟件突破帶來的智慧和擬人感如同一道「魔法」給硬件賦予生命。

軟件帶來的變量主要體現(xiàn)在以下兩個方面

AI硬件的三層架構(gòu)

在原生多模態(tài)AI大模型出現(xiàn)后,結(jié)合硬件會出現(xiàn)新的信息交互和處理模式,大體上可以分為三個層次(為表述方便下稱“AI硬件三層架構(gòu)”):

  1. 多模態(tài)信號輸入 -> 傳感器

  2. 模型處理和計算 -> 計算中心

  3. 交互方式 -> UIUX設(shè)計

在這三層架構(gòu)中,計算中心(如手機)將為AI大模型提供端側(cè)和云端運行能力,而AI大模型技術(shù)的能力進步驅(qū)動整個閉環(huán)用戶體驗的提升,具體表現(xiàn)為讓硬件在原有功能的基礎(chǔ)上拓展能力邊界,在第三層輸出更好的效果。反過來中間層需要硬件作為傳感器獲得更多context來更好地輸出模型運算結(jié)果。

現(xiàn)階段AI硬件,特別是新品類新團隊的機會大多在第一層,即新式傳感器,但長期中如果不能將價值向第二和第三層延伸,則會陷入消費電子卷成本的深淵無限競爭(參考激光雷達(dá)之于自動駕駛)。

LUI是否能成為下一代交互方式

「The UI of AGI」是AI硬件從業(yè)者需要思考的圣杯問題。

“套殼”其實就是一種最直接的嘗試,Arc瀏覽器,Perplexity,Monica.im都在各個方向積極探索。但LUI(Language User Interface)或者基于語音的交互方式(Voice-first UI)是否能取代觸控時代主流的GUI(Graphical User Interface)是在行業(yè)內(nèi)被討論最多的問題。

我認(rèn)為GPT4o為代表的低延遲、多情感、高智能原生多模態(tài)模型雖然為LUI的落地提供了技術(shù)支持,并在某些特定場景有較好的體驗,但現(xiàn)在看起來LUI并不能獨立成為最主流的交互方式。我認(rèn)為思考這個問題的關(guān)鍵因素是I/O密度。I即input,指在人機交互中用戶向系統(tǒng)輸入信息。O即output,指系統(tǒng)向用戶反饋信息。

在I端,LUI能很好地解決當(dāng)下信息輸入門檻過高的問題,陣列麥克風(fēng)技術(shù)的發(fā)展配合AI大模型的多語言識別和總結(jié)能力,讓用戶在I端更加輕松自如(flowvoice.ai等公司已經(jīng)有產(chǎn)品落地)。

但在O端,LUI的信息密度有很大的局限,特別是與GUI相比。Vela在「Voice-first,閉關(guān)做一款語音產(chǎn)品的思考」中做了詳細(xì)的解析。

聲音在交互上的局限性主要表現(xiàn)在:

1. 輸出線性

  • 很難實現(xiàn)多線程多任務(wù)操作
  • 用戶很難通過前進倒退精準(zhǔn)定位碎片化信息點

2. 記不住 

  • LUI是線性的而思維是樹/圖結(jié)構(gòu),語音無法單獨呈現(xiàn)人腦所需要的信息組織形式
  • 結(jié)果需要簡單明確,最好用最小來回對話解決
圖片

在音頻自身限制和AI大模型現(xiàn)階段長程推理能力缺失的情況下,LUI目前只適合做目標(biāo)明確的單點任務(wù),且輸出結(jié)果信息密度不宜過高。從數(shù)據(jù)上看,天貓精靈使用最多的場景是詢問天氣和設(shè)定鬧鐘。鋼鐵俠的Javis形態(tài)目前在技術(shù)邊界之外。

因此,LUI配合GUI結(jié)合使用我認(rèn)為是能將I/O密度最大化的交互體驗。

原則#2 熟悉的陌生感:從「 AI」開始
做新的硬件產(chǎn)品一般有兩種思路:a) 定義全新的品類;b) 在已有品類上做創(chuàng)新和提升。22年裴宇剛做新銳手機品牌Nothing的時候,我和他有過一次交流。當(dāng)時Humane還沒有像今天這樣出圈,但也完成了頂級機構(gòu)領(lǐng)投的融資。我問Carl:“你已經(jīng)在手機領(lǐng)域證明了自己,現(xiàn)在創(chuàng)業(yè)為什么不像Imran一樣嘗試全新的品類?”多年之后在Sana AI Summit上他給出了更精華的回答:「Survival is the name of the game」。
Kickstarter大中華區(qū)首席戰(zhàn)略代表彭奕亨在談到AI硬件時提到了一種說法“熟悉的陌生感”,這個形容非常準(zhǔn)確?!窰ardware is hard」,與軟件開發(fā)不同,硬件的試錯成本更高,團隊需要保持敬畏心。特別是對產(chǎn)品線單薄的新團隊來說,每一款產(chǎn)品都至關(guān)重要。
Humane AI Pin和Rabbit R1在定義全新品類的路線上進行了勇敢的嘗試,但截止目前結(jié)果不佳。我認(rèn)為核心原因是對現(xiàn)有的技術(shù)邊界沒有準(zhǔn)確的認(rèn)識。短期內(nèi)基于已有成熟硬件品類,在保證優(yōu)秀的基礎(chǔ)體驗的前提下,思考如何融入AI大模型技術(shù)錦上添花(為表述方便下稱“ AI”)將是短期內(nèi)較為穩(wěn)妥的路線。

原則#3「Less is more」

在確定產(chǎn)品方向時,務(wù)必要遵守「less is more」的原則,能用一個產(chǎn)品覆蓋的功能,絕不做兩個設(shè)備,特別是在個人便攜設(shè)備品類。理想的方式是做品類和功能之間的整合,如在智能眼鏡中整合耳機和音頻功能,而不是在用戶有限的褲兜/手包里再裝進一個產(chǎn)品。

另一方面,特別是對可穿戴設(shè)備,輕量化是最重要的設(shè)計標(biāo)準(zhǔn),在現(xiàn)有電池密度和芯片功耗有限的邊界下,每添加一項功能都會造成額外的配重和續(xù)航消耗。取舍是產(chǎn)品定義中最重要的課題。

02 

方向1:

「手機 傳感器」 生態(tài)

「手機 傳感器」和「AI陪伴具身化」
在已經(jīng)需求驗證的場景中,我認(rèn)為以上兩個生態(tài)是現(xiàn)階段最大的兩個機會。
手機短期內(nèi)依然是生態(tài)位核心。
算力中心一直是消費電子生態(tài)位的核心,從個人電腦(PC)到筆電,再帶手機和平板,信息處理和運算方式很大程度上決定了硬件的物理形態(tài)。從長遠(yuǎn)來看,基于Transformer架構(gòu)的大模型從算法上進行了根本的創(chuàng)新,隨著技術(shù)的演進可能會誕生新的計算機形態(tài),但目前看來這個過程不會在5年內(nèi)完成。手機作為算力中心,短期內(nèi)依然可以覆蓋絕大部分用戶的大多數(shù)生產(chǎn)和娛樂需求。
非技術(shù)角度,從臺式個人電腦向手機演進的過程中,輕便可攜帶是明顯的用戶需求趨勢。經(jīng)過近30年的迭代,如今手機的物理形態(tài)在重量、體積、續(xù)航、交互模式上已經(jīng)高度成熟,在某種意義上手機是第一款成為人類「電子器官」的產(chǎn)品。
圖片

iPhone取代了諾基亞的歷史地位,但并沒有從本質(zhì)上改變手機的物理形態(tài)。類似的,在短期內(nèi),搭載端測模型能力后手機將繼續(xù)占據(jù)雙手的使用場景,依然是主要的核心生態(tài)位。

實踐中也有很明確的例證:

  • 高通為可穿戴設(shè)備研制的AR2芯片采用分體式設(shè)計,芯片將分為兩個部分,一部分集成在可穿戴設(shè)備上,另一部分會在手機等計算單元上

  • Meta Orion和XREAL Beam等采用算力分離式設(shè)計的XR設(shè)備,算力單元的物理設(shè)計本質(zhì)上就是手機的形態(tài)

手機在AI硬件三層架構(gòu)可以在一定程度上覆蓋所有三個維度,并占據(jù)計算中心的核心價值位。現(xiàn)階段對其他硬件設(shè)備的主要機會在于成為手機的傳感器,收集手機目前尚不能覆蓋的細(xì)分場景信息 - 主要是息屏、用戶雙手被占用無法拿起手機、無法快速開啟手機內(nèi)置傳感器(為描述方便,下文統(tǒng)稱“手機空白場景”)- 并嘗試探索新的交互體驗。 

在這樣的系統(tǒng)設(shè)定下,可穿戴設(shè)備最適合扮演傳感器的角色。而人本身的信號傳感器 – 眼、耳、鼻都集中位于頭部 – 圍繞頭部的可穿戴設(shè)備必將成為必爭之地。今年5月,我在社交媒體即刻上轉(zhuǎn)發(fā)了下面這張圖,非常生動地展示了這個事實。

圖片

但需要明確的是,由于輕量化和目前硬件技術(shù)的瓶頸,可穿戴設(shè)備都難以獨立支撐好的用戶體驗(包括眼鏡在內(nèi)),需要和手機配合使用

輕量化是穿戴設(shè)備成功的金標(biāo)準(zhǔn)。

因為要補充手機空白場景,長時間使用(“always on/available”)是對穿戴設(shè)備作為傳感器功能的核心要求。同等條件下,用手機能更快地捕獲信息并進行輸入,穿戴設(shè)備就會變成累贅。因此,輕量化無感佩戴是這類產(chǎn)品能否普及必須實現(xiàn)的目標(biāo)。在圍繞頭的穿戴品類中,主要有手表、耳機、眼鏡、掛件、戒指、手環(huán)等。這些產(chǎn)品大多都是成熟品類,在好的基礎(chǔ)體驗上創(chuàng)新也符合「 AI」的策略。

久謙咨詢對這些品類的市場規(guī)模做了如下估算:

圖片

在個人便攜式設(shè)備中,數(shù)碼相機和運動相機較難滿足長時間無感佩戴(一定程度上可以被眼鏡覆蓋),且市場集中度高。對AI硬件團隊來說,市場足夠大的品類依次是耳機、智能手表、眼鏡和配飾類設(shè)備。

整個智能穿戴設(shè)備生態(tài)都脫離不了一個主題:Survival is the name of the game

手機廠商因為占住了核心生態(tài)位,穿戴設(shè)備的新機會都在其射程之內(nèi),我們討論的所有穿戴設(shè)備品類都逃脫不了激烈的競爭。對新玩家來說有兩種現(xiàn)實的選擇:1) 在市場足夠大的賽道,爭取成為小米華為蘋果身后的第三/四名;2)在大廠看不上,小公司搞不定的賽道做差異化競爭。

第一種路線考驗的是團隊的執(zhí)行力,需要面對的競爭包括:

  •  硬件玩家

    • 第一梯隊:華為,小米,蘋果;優(yōu)勢無需贅述,且已經(jīng)有手機、耳機、眼鏡等成熟產(chǎn)品線,用戶基數(shù)大

    • 第二梯隊:Oppo/Vivo,大疆,安克等;有成熟的供應(yīng)鏈資源和分銷渠道,成熟業(yè)務(wù)可以產(chǎn)生穩(wěn)定現(xiàn)金流

    • 第三梯隊:科大訊飛、韶音、雷鳥、Rokid等;在垂類中有領(lǐng)先市場份額

  •  互聯(lián)網(wǎng)公司:字節(jié)跳動、阿里、騰訊等;擁有大量承接UIUX的場景
競爭確實激烈,但也并不是全無機會。AI硬件時代的一個重要變量是對團隊的復(fù)合型要求:即軟硬件結(jié)合的能力。正如文初提到的,這一輪AI硬件本質(zhì)上是軟件驅(qū)動的,與硬件龍頭競爭,新團隊需要具備更強的軟件能力,努力將產(chǎn)品向AI硬件三層架構(gòu)的后兩層做價值延伸。而互聯(lián)網(wǎng)公司,強如字節(jié)跳動,雖然目前在積極探索布局豆包大模型與硬件的結(jié)合,但從決心和能力上都無法與Meta相提并論。更重要的是,硬件的邏輯與字節(jié)跳動信奉的數(shù)據(jù)驅(qū)動的方法論有本質(zhì)區(qū)別,對人才的審美和組織管理形式也大相徑庭。收購PICO后的整合就是例證。PICO的鎩羽動搖了字節(jié)在這個方向投入的信心,造成了陰影(從目前的信息來看,字節(jié)可能從下一章節(jié)陪伴硬件的角度先切入)。
當(dāng)然,也可以選擇第二條路線。這就要求團隊對消費者需求有深度的洞察和提前的預(yù)判。一個可以參考的思路是將軟件功能硬件化。核心是找到一個軟件端有需求的場景,并通過極簡的設(shè)計,將多步操作壓縮到一步。Plaud就是看到Live Transcribe這個app巨大的用戶基礎(chǔ),將錄音這個本來可以在app端完成的場景硬件化。將原本需要掏出手機,解鎖,找到app,打開app,開啟錄音的一系列操作融合到簡單的一鍵到位。雖然Plaud的軟件端目前還非常拉胯,但硬件的極致設(shè)計,已經(jīng)讓它成為了我的必備用品。 

在可穿戴設(shè)備的眾多品類中,我最看好眼鏡這個品類,因此獨立一個小節(jié)進行分析。

智能眼鏡:連接人類與機器的第三只眼?

在展開討論之前,需要明確的是,這里討論的智能眼鏡主要是Rayban Meta的形態(tài)。這不是一款A(yù)I眼鏡(至少現(xiàn)在不是),而是以攝像為核心功能的智能音頻眼鏡,且需要和手機配合使用。而VST方案的眼鏡會在XR章節(jié)中展開討論。

智能眼鏡的優(yōu)勢和機會

近期Rayban Meta意外大賣,增強了Zuckerberg對智能眼鏡這個形態(tài)的信心。Connect大會上,Meta發(fā)布了研發(fā)9年之久的AR眼鏡原型機Orion。小扎對此如此篤定不無道理,因為眼鏡作為傳感器定位的智能穿戴設(shè)備確實有得天獨厚的優(yōu)勢

  • 信息密度最大:眼睛是人類的窗戶,因為視覺是人類獲取信息密度最大的渠道;同理眼鏡同樣可以便捷地獲取視覺和音頻信息

  • 第一視角POV:“see what you see” “hear what your hear”,POV視角不但可以提供了模型最需要的用戶視角的context;解放雙手的設(shè)定也適配手機空白場景

  • 在現(xiàn)有形態(tài)上創(chuàng)新空間相對最大:相比耳機和智能手表(疊加AI功能對本身形態(tài)改變不大),帶攝像頭的智能眼鏡相對是新的形態(tài),為新玩家提供空間

此外,攝像眼鏡在傳播上也有天生的優(yōu)勢,從目前用戶的行為來看,攝影攝像是主要的使用場景。Rayban Meta在內(nèi)容創(chuàng)作者和大V中非常受歡迎,他們創(chuàng)作的POV視角的內(nèi)容在社交媒體傳播容易形成潮流效應(yīng),從而形成自傳播。

在Rayban Meta取得成功后,海外大廠已經(jīng)形成共識:Google決定與硬件合作伙伴三星探索類似形態(tài),落地在Google I/O上驚鴻一瞥的Project Astra,蘋果也開始重新審視自己的Vision產(chǎn)品線。

Rayban Meta:偶然的爆款,這一次不一樣?

這并不是科技公司在眼鏡上的第一次嘗試,實際上這是一個命途多舛的品類。從Magic Leap,HoloLens一直到Meta Orion,鋼鐵俠Javis形態(tài)的智能眼鏡一直是大家心目中的終極形態(tài)。

在諸多落地挑戰(zhàn)中,最核心的問題是無法達(dá)到輕量化要求。具體到眼鏡,行業(yè)普遍認(rèn)為超過60g的眼鏡(普通眼鏡20g左右)無法提供長時間無感的舒適體驗,而Rayban Meta在保持足夠好的基礎(chǔ)體驗的前提下,將重量控制在50g左右。 

圖片

另外,近年來TikTok和Instagram等視覺系社交軟件的風(fēng)靡也為智能眼鏡的普及掃清了障礙:在公共場景使用攝像頭拍攝變得司空見慣。這曾是阻礙Google Glass普及的最大原因(Google Glass也極致輕量化)。

然而與Rayban的聯(lián)名更像是一個計劃外的產(chǎn)物,更準(zhǔn)確地說是Orion做減法得到的產(chǎn)物。Meta負(fù)責(zé)研發(fā)硬件的Reality Labs由CTO Andrew 'Boz' Bosworth負(fù)責(zé),這是一個超過15,000人的龐大部門。Boz是Zuckerburg最信任的親信之一,但在產(chǎn)品方向上Zuckerburg兩次親自做出了與Boz意見相左的決定,一次是在早期決定Quest走無線的一體機頭顯方案,另一次則是在2019年在評估Orion短期內(nèi)無法量產(chǎn)后,要求轉(zhuǎn)變方向與Rayban合作探索新的產(chǎn)品形態(tài)。

從科技角度來說,Rayban Meta是Orion技術(shù)的一次下放,但這樣的功能取舍和組合,卻意外地在重量、功能、設(shè)計和成本之間達(dá)到了消費者能接受的平衡。

從產(chǎn)品定義上,這與傳統(tǒng)意義上通過視覺顯示增強現(xiàn)實(“AR”)的定位不同,這是一款定位“l(fā)iving in the moment”,以攝影攝像為主要功能的產(chǎn)品。Rayban Meta是第二代產(chǎn)品,相比第一代產(chǎn)品Rayban Stories(第一代產(chǎn)品并沒有AI功能),由于高通AR1芯片升級,在攝像(5MP提升至12MP)和音頻上(3陣列到5陣列麥克風(fēng),加入空間音頻;音量提升50%)都有明顯的提升,并加入AI功能。此外,EssilorLuxottica也為Rayban Meta提供了更多的線下渠道覆蓋。

圖片
圖片

智能眼鏡形態(tài)的主要劃分和優(yōu)劣勢

智能眼鏡根據(jù)功能組合和視場角(“FOV”)大致可以分為以下幾類:

圖片

1. 不帶顯示的智能眼鏡(已經(jīng)能將重量控制在50g以內(nèi),符合輕量化要求)

  • 音頻眼鏡:因為前文分析LUI的局限性,在用戶端提供的功能非常有限

  • 攝像 音頻眼鏡:Rayban Meta取得階段性成功,價位$300

2. 帶顯示的智能眼鏡(能控制在100g以內(nèi),但在輕量化上還有提升空間)

  • 40-50度FOV(雷鳥X2):輕顯示,價位$500-1,000

  • 50-70度FOV(Orion):現(xiàn)實增強,有原型機,無法量產(chǎn)

  • 100度FOV:接近VR視覺體驗,但采用OST方案;在目前技術(shù)邊界之外
不帶顯示的智能眼鏡在輕量化和成本控制上已經(jīng)相對成熟。但目前只覆蓋AI硬件三層架構(gòu)的第一層,并通過LUI提供有限的交互。純音頻眼鏡收集信號密度有限,同時受制于系統(tǒng)權(quán)限,產(chǎn)品功能單薄,且與TWS耳機重合度高。另外電子消費品追求標(biāo)準(zhǔn)化的模式,并不能滿足消費者對眼鏡個性化多SKU的需求。從華為和小米的實際銷量上看,只搭載音頻帶來的功能增強并沒有提供足夠強的說服力。
而帶有攝像頭的智能眼鏡,在保留音頻功能的同時,通過與手機配合使用,能解鎖更多延伸場景,提供較好的基礎(chǔ)體驗。
在帶顯示方案的眼鏡產(chǎn)品中,現(xiàn)有的成熟量產(chǎn)方案只能提供40-50度FOV的輕顯示,定位雞肋。一方面需要搭載光機帶來額外的重量和成本,另一方面視場角有限,實際上只起到了通知中心(push center)和widget看板的功能。運用新一代技術(shù)的Even Realities G1等產(chǎn)品,雖然在輕量化上更進一步,但這類產(chǎn)品的落地場景目前集中于:實時翻譯、導(dǎo)航、提詞器等場景。這些場景中確實有不錯的體驗,但可以試想一下普通人使用上述三個場景的頻次。
AI功能目前也僅限基于識圖的任務(wù)延伸(類似Apple 16展示的功能)。除此之外,不少人幻想的使用場景,在OST方案中都在目前的技術(shù)邊界之外。Orion也只能勉強提供幾個雞肋的場景。在某種程度上智能眼鏡除攝影攝像和音頻之外的功能都可以被智能手表覆蓋。
選擇比努力重要。對試錯成本更高的硬件創(chuàng)業(yè)公司來說更是如此,雖然上海顯耀等Micro LED公司近年取得一些技術(shù)突破,但顯示方案受制于FOV,即使落地也無法獨立支撐太多的應(yīng)用場景,現(xiàn)在看來并不是最優(yōu)的技術(shù)路線。
而Rayban Meta則為智能眼鏡指明了方向,短期內(nèi)取代不了手機,但眼鏡保有量大,若出現(xiàn)類似汽車電動化的眼鏡智能化趨勢,市場體量也相當(dāng)可觀。但目前的主要缺陷是因為輕量化無法搭載高容量電池的情況下,如何控制芯片功耗從而實現(xiàn)更長續(xù)航。

03 

方向2:

硬件為AI陪伴提供物理載體

各類AI陪伴和助手產(chǎn)品已經(jīng)在軟件層面驗證了用戶需求。在上一篇文章中已有詳細(xì)論述。這里簡單提三個可以硬件化的品類:AI語音秘書、AI智能玩具和陪伴機器人(電子寵物)。這幾個方向同樣需要軟硬件結(jié)合的團隊,同時理解AI大模型能力的邊界,也能調(diào)動供應(yīng)鏈資源投入量產(chǎn)。
AI語音秘書
基于AI大模型在長文本理解和信息提取上的優(yōu)勢,一些團隊開始在將長音頻信息通過硬件收集并結(jié)合軟件處理的AI語音秘書/第二大腦的方向進行探索。Rewind最先提出這個概念,并在軟件場景得到需求驗證后推出智能掛件Limitless(并將公司改名)。Plaud也在第一款產(chǎn)品Note在通話錄音方向取得成功后,推出面向更長時長更廣泛場景的NotePin。這些產(chǎn)品都有類似的特點:輕便隨身且長時間待機,隨時隨地收集用戶所處環(huán)境的音頻信息。
Humane AI Pin雖然在功能和交互上慘敗,但在硬件形態(tài)和佩戴方式上不無可取之處。離嘴和耳近且能方便觸發(fā)功能是核心的用戶需求,在外觀上還不能太有侵略性。胸針、項鏈等配件是更加合適的選項。這其中Plaud NotePin的設(shè)計非常聰明,類似小米手環(huán)的設(shè)計不但容易適配多種場景,同時可以復(fù)用供應(yīng)鏈資源。
如何在有限的空間內(nèi)通過陣列麥克風(fēng)組合實現(xiàn)空間音頻適配,以及低功耗長續(xù)航是這類產(chǎn)品在硬件端需要攻克的難題。而在軟件端,如何在海量的信息中,萃取信息價值是體現(xiàn)產(chǎn)品價值差異化的關(guān)鍵。 
圖片

AI智能玩具

玩具是搭載LUI的理想硬件載體。一方面,小朋友需要的信息密度和精度要求相對不高,且語音的流式交互也可以被硬件一部分承載。另一方面,相比于純軟件的形態(tài),通過硬件具象化也更方便用戶代入情感寄托,提供更高的情緒價值。這個品類也符合“熟悉的陌生感”邏輯,用戶教育門檻低,基本上手即可使用。

需要注意的是玩具的使用者和購買決策者分離,團隊需要在軟件后臺針對家長的訴求(主要是安全控制和成長記錄)有相對應(yīng)的設(shè)計。 

國內(nèi)的躍然創(chuàng)新Haivivi和海外的Curio都陸續(xù)推出了產(chǎn)品,且獲得不錯的市場反響。Haivivi的第一款產(chǎn)品Bubble Pal取巧地采用了掛件的設(shè)計,一方面硬件形態(tài)相對簡單容易快速量產(chǎn),另一方面“蹭”了用戶現(xiàn)有玩具的形象設(shè)計,規(guī)避了冷啟動時外形設(shè)計的風(fēng)險。但長期中,IP的授權(quán)和綁定將是這個品類的核心競爭力。 

圖片
陪伴機器人

同樣,針對成年人類似豆包的AI個人助理也可以被賦予硬件的“肉身”,將情緒和陪伴價值進一步延伸和固化。Looi是一款可移動手機支架形態(tài)的桌面機器人,在搭載基礎(chǔ)AI大模型交互功能的基礎(chǔ)上,團隊還開發(fā)了配合物理移動的表情設(shè)計及世界觀設(shè)定。這類產(chǎn)品在軟件AI個人助理的基礎(chǔ)上更進一步,通過與用戶的物理交互建立更深層的情感連接。本質(zhì)上這類產(chǎn)品是對桌面智能音箱、時鐘等硬件的整合和體驗提升。同時Looi的設(shè)計巧妙的將攝像傳感器轉(zhuǎn)移給手機,在一定程度上規(guī)避了這個品類中潛在的數(shù)據(jù)收集和隱私風(fēng)險。

同樣的思路也可以延伸至家庭地面機器人。三星的Ballie就是這個方向的一個代表,這個形態(tài)的產(chǎn)品可以結(jié)合掃地機器人和智能音箱的功能,甚至在某種程度上分擔(dān)了寵物的部分情感陪伴功能。

圖片

04 

XR:頭號玩家是否ready?

影視作品「頭號玩家 Ready Player One」生動地描繪了人類對XR產(chǎn)品的想象。從早期的Oculus Rift,HTC Vive到Magic Leap, HoloLens,再到現(xiàn)在的Quest,Vision Pro和Pico。XR產(chǎn)品的發(fā)展在過去10年,已經(jīng)走過了“10個元年”,在技術(shù)程度曲線(the hype curve)上經(jīng)過了從「過高期望的峰值」跌落「去泡沫的谷底」的過程,目前正處于線性穩(wěn)步向前的階段,但離大規(guī)模普及實現(xiàn)指數(shù)性增長的階段尚有距離。除了軟件和硬件的技術(shù)邊界之外,XR設(shè)備本身具有單次使用門檻/儀式感高、佩戴和使用體驗高度個人化且不易分享的特性,使得產(chǎn)品入門閾值一直較高。

總的來說,VR方向硬件產(chǎn)業(yè)鏈、光學(xué)方案和軟件生態(tài)的方向都已經(jīng)基本確定,在Vision Pro指明OS和交互邏輯后,未來3年行業(yè)將持續(xù)穩(wěn)步打磨產(chǎn)品。而在AR方向,光學(xué)方案尚未收斂,產(chǎn)業(yè)鏈也處在早期階段,雖然夢想美好,但現(xiàn)實很殘酷。就算是天頂星的Orion,在3-5年之內(nèi)都不會量產(chǎn)。

行業(yè)在AR領(lǐng)域的迷茫,一部分原因是現(xiàn)階段硬件技術(shù)邊界的限制,但我認(rèn)為也有很大一部分原因是從業(yè)者被對顯示的執(zhí)念束縛。AR(augmented reality)現(xiàn)實增強的定義簡單可以概括為:增強能力,解放雙手。視頻顯示固然能帶來最強的現(xiàn)實增強,但人有五感(即多模態(tài)),通過音頻等其他形式帶來的能力增強,雙手解放,廣義上也是AR。Rayban Meta因為不帶顯示不被部分從業(yè)者認(rèn)為是AR眼鏡(包括Meta CTO Boz一度也這么認(rèn)為),但在廣義下,卻實現(xiàn)了AR的目標(biāo)。

蘋果和Meta無疑是過去5年為爭奪「頭號玩家」投入最多的兩家廠商。兩家分別采用了不同的戰(zhàn)略路徑,這里做一個簡要的總結(jié)和現(xiàn)狀的分析。

圖片

蘋果

戰(zhàn)略側(cè)重VST的MR方向,閉源路徑,高端定位,希望從效率場景切入。

從目前的情況來看,萬眾期待的首款產(chǎn)品Vision Pro已經(jīng)失敗,失敗的核心點不在于銷量(本身也沒有很高的預(yù)期),而是沒有在先鋒人群中形成時尚效應(yīng)。在過往新品類發(fā)布中,無論是Apple Watch還是AirPods,蘋果都能通過頂尖的廣告和推廣在最酷的人群中產(chǎn)生示范效應(yīng)從而帶動后續(xù)更大眾系列的普及,但在Vision Pro上并沒有成功。 

但這款產(chǎn)品也并非一無是處,其出色的交互設(shè)計和空間定位,為行業(yè)指明方向。

Meta

同時布局OST方向AR產(chǎn)品(Orion)和VST方向VR產(chǎn)品(Quest)

Quest以游戲主機定位起步,無論從定價還是內(nèi)容供給都進行強錨定以帶動銷量和用戶覆蓋。Quest2取得階段性成功步入千萬量級銷量。從Quest3開始加入彩透功能開始向MR結(jié)合的更多場景拓展,在Vision Pro發(fā)布后,明確OS和交互模式將會向蘋果靠攏。Quest4的主要定位預(yù)計是無限靠近Vision Pro的體驗,但有明顯價格優(yōu)勢。

AR方向產(chǎn)品Orion 3-5年內(nèi)不會量產(chǎn)落地。

比較可惜的是國內(nèi)的PICO,在被字節(jié)收購后被沒有得到應(yīng)有的整合。砸出100億人民幣后,便戰(zhàn)略收縮。最可惜的是研發(fā)并未占投入大頭,且沒有像蘋果和Meta一樣形成技術(shù)體系(研發(fā)成果可以在多款產(chǎn)品繼承)。

總的來說,未來3年的主力機型(Meta Quest3/3s/4和Apple Vision/Pro)都無法將用戶基數(shù)帶過指數(shù)級增長的拐點,而只能在千萬級別線性增長。這個級別的用戶體量可能對游戲之外的應(yīng)用品類來說相對有限,但在XR用戶的價值在于對低齡用戶的滲透:無論是海外的Gorilla Tag,VRChat還是國內(nèi)的輕世界都有比例相當(dāng)大的低齡用戶。隨著這個年齡XR原生用戶的發(fā)展壯大和購買力增強,長期滲透率的拐點將可能出現(xiàn)。

另外,AI大模型技術(shù)的出現(xiàn)可能也會在VST方案的設(shè)備中引入新的趨勢。在內(nèi)容生產(chǎn)端,AI多模態(tài)內(nèi)容生成工具將有效降低VR內(nèi)容制作門檻(特別是3D內(nèi)容),長期中可能會出現(xiàn)Roblox、蛋仔派對形態(tài)的UGC平臺。更為重要的是在交互端,顯示渲染系統(tǒng)與AI內(nèi)容生成技術(shù)天然易結(jié)合,可能出現(xiàn)一個重要的交互場景變化,即將內(nèi)容創(chuàng)作者的攝像頭向另一端投射 - 「POV視角」- 的創(chuàng)作,而AI內(nèi)容生成技術(shù)將讓「世界濾鏡」成為可能,從而衍生出更多的玩法,在真正意義上實現(xiàn)現(xiàn)實增強 ('AR') 的體驗。Snapchat Spectacles的宣傳片中已經(jīng)demo了這種場景,蘋果內(nèi)部對這個方向的確定性也非常篤定。

目前已有一些GenAI公司嘗試在這條路線探索,AI圖像生成公司Midjourney因為創(chuàng)始團隊Magic Leap的背景更是對此深信不疑,據(jù)我了解團隊目前在同時研發(fā)VR設(shè)備在內(nèi)的多條技術(shù)路線。但目前的主要挑戰(zhàn)是:

  1. AI內(nèi)容生成的速度和渲染成本: 目前AI渲染的延時明顯,離實時渲染還有很遠(yuǎn)的差距,同時成本極高。

  2. 硬件輕量化和續(xù)航: 頭戴設(shè)備的重量是影響長時間/戶外使用的核心因素,如何平衡算力 續(xù)航和重量也是目前的一大瓶頸。

05 

具身智能:更近還是更遠(yuǎn)?

受篇幅限制,不在這里展開討論現(xiàn)階段具身智能方向的投資價值。主要談一談兩個問題:1) 造成目前行業(yè)投資熱情的原因;2)當(dāng)下需要面對的主要技術(shù)挑戰(zhàn)

具身智能同時在中美兩個市場掀起熱潮,無疑是今年國內(nèi)市場融資最活躍的賽道。背后的核心原因是資本需求和項目供給的關(guān)系。

在資本需求端,海外市場明星項目Tesla Optimus,F(xiàn)igure,1X等在市場制造聲量,一定程度上起到示范科普作用,黃仁勛在英偉達(dá)GTC大會上和一眾機器人的同框亮相更是將市場的熱情拉滿。另一方面,我國的政策也十分支持機器人相關(guān)的高端制造業(yè)。結(jié)果上導(dǎo)致美元和人民幣背景的基金都有配置的興趣和需求。

圖片

在項目供給端,具身智能主要包括大腦、小腦和本體三個系統(tǒng),分別要求團隊在機器視覺、AI大模型、通用移動、運動控制、硬件機械等多個跨學(xué)科交叉領(lǐng)域都有深厚的技術(shù)儲備。根據(jù)我們對人才庫的梳理,在具身智能創(chuàng)業(yè)方向可以獨當(dāng)一面的頂級華人人才不超過30人。具身智能是最近幾年興起的前沿研究方向,更多的人才還在學(xué)界和業(yè)界做研究,或者對產(chǎn)業(yè)缺乏經(jīng)營上的認(rèn)識和經(jīng)驗。而從機器視覺、自動駕駛等領(lǐng)域跨界創(chuàng)業(yè)的團隊還在學(xué)習(xí)適應(yīng)中。

雖然與自動駕駛相比,具身智能資本投入需求相對可控,但機器人自由度之多控制之復(fù)雜,讓實現(xiàn)更擬人的智能這件事的難度不亞于任何一項復(fù)雜的系統(tǒng)工程。

高質(zhì)量團隊稀缺和資本配置興趣旺盛之間供不應(yīng)求的關(guān)系直接造成了目前行業(yè)火熱的氛圍。

大語言和多模態(tài)模型的技術(shù)突破,讓具身智能在大腦和小腦控制上得到大幅提升,但我們也應(yīng)該正視需要攻克的技術(shù)難點:

數(shù)據(jù)采集的成本和質(zhì)量
相較于專機專用的傳統(tǒng)機器人,具身智能的核心技術(shù)進步是跨場景任務(wù)的通用性。通用性包括兩個方面:
  1. 形態(tài)通用:可適配不同形態(tài)本體

  2. 場景通用:針對不同場景,執(zhí)行多樣化任務(wù)
為了實現(xiàn)通用性,參考AI大語音模型的scaling law,就需要大規(guī)模高質(zhì)量的訓(xùn)練數(shù)據(jù)來提升智能。相較于語言模型的數(shù)據(jù)語料,具身智能要求的訓(xùn)練數(shù)據(jù)維度更高。除了常見的用于物體識別的視頻信息之外,具身智能的訓(xùn)練還需要涉及力反饋的交互信息和空間位置等高維度高質(zhì)量的數(shù)據(jù)集。在現(xiàn)有的技術(shù)架構(gòu)下,只能通過工程手段解決剛性物體低精度通用操作。更高階的柔性物體高精度通用操作還屬于待攻克的科學(xué)問題。
具身智能公司能否像特斯拉賣車一樣找到可持續(xù)收集大規(guī)模高質(zhì)量訓(xùn)練數(shù)據(jù)的方式是長期核心競爭力。如若不然,可能將重走L4自動駕駛初創(chuàng)公司的老路:數(shù)據(jù)采集成本高企,但規(guī)模和質(zhì)量都達(dá)不到scale up的門檻。
具體在場景選擇上,我并不看好工業(yè)場景。以汽車生產(chǎn)線為例,大部分工序都高度流程化并可以通過機械臂為主的流水線嚴(yán)格完成,也就是說這類場景數(shù)據(jù)并不具備很好的通用泛化性。而具有泛化可能的場景(如座椅裝配)現(xiàn)階段對機器人來說難度過高。
在家庭和服務(wù)場景雖然數(shù)據(jù)通用泛化性理論上來說更好,但也充滿挑戰(zhàn)。具體到家庭場景,目前的具身智能方案在魯棒性和效率上離商用還有明顯距離,而在服務(wù)和陪伴場景中與人和物體的物理交互有限,很難收集力反饋信息。

此外,合成數(shù)據(jù)在具身智能訓(xùn)練上的有效性和通用性也需要進一步證明。

硬件的選型和適配

現(xiàn)階段具身智能公司的產(chǎn)品主要以demo性質(zhì)為主,因此硬件選型上同質(zhì)化高。但進入具體落地階段,需要面對「一腦多形」的挑戰(zhàn),如何針對場景設(shè)計機器人的形態(tài),并進行傳感器、零部件和電機的選型適配也需要通過實踐進行打磨。
同時,傳感器排布和硬件配置改變后,訓(xùn)練數(shù)據(jù)是否還能復(fù)用等問題都需要在時間中進行驗證。
團隊長期融資能力
機器人單價相比汽車來說相對可控,但批量收集數(shù)據(jù)依然需要千臺以上的機器部署,在短期很難實現(xiàn)單機盈利的情況下,如何在規(guī)?;统杀究刂浦g找到平衡也是團隊需要面臨的調(diào)整。Figure等過于強調(diào)demo和敘事的公司已經(jīng)在業(yè)內(nèi)引起警覺,其CTO Jerry Pratt也于今年離職。當(dāng)市場情緒回歸理性,明星公司交付不及預(yù)期時,如何持續(xù)保持融資能力也是具身智能團隊需要具備的能力。
最后非常感謝你耐心地讀到這里。如果這篇文章能讓你記住一句話,我希望是:
Hardware is hard. Survival is the name of the game. 相比于軟件,其實制約AI硬件、XR設(shè)備和具身智能發(fā)展的最大卡點是電池能量密度,如果電池材料取得突破將在這些領(lǐng)域都帶來一次大的飛躍。

圖片


    本站是提供個人知識管理的網(wǎng)絡(luò)存儲空間,所有內(nèi)容均由用戶發(fā)布,不代表本站觀點。請注意甄別內(nèi)容中的聯(lián)系方式、誘導(dǎo)購買等信息,謹(jǐn)防詐騙。如發(fā)現(xiàn)有害或侵權(quán)內(nèi)容,請點擊一鍵舉報。
    轉(zhuǎn)藏 分享 獻花(0

    0條評論

    發(fā)表

    請遵守用戶 評論公約

    類似文章 更多