小男孩‘自慰网亚洲一区二区,亚洲一级在线播放毛片,亚洲中文字幕av每天更新,黄aⅴ永久免费无码,91成人午夜在线精品,色网站免费在线观看,亚洲欧洲wwwww在线观看

分享

為什么號(hào)稱模擬世界的Sora處理不好一些簡(jiǎn)單的物理規(guī)律?

 昵稱49485892 2024-02-27

龍年伊始,Sora橫空出世,舉世震驚。Sora聲稱“作為世界模擬的視頻生成模型”,豪氣干云。有人悲觀預(yù)言很多傳統(tǒng)領(lǐng)域可能被顛覆,其中最為岌岌可危的可能是計(jì)算機(jī)圖形學(xué),短視頻和影視娛樂(lè)行業(yè)。依隨OpenAI透露出更多技術(shù)細(xì)節(jié),很多Sora生成的物理悖謬的視頻流傳于網(wǎng)絡(luò)。

這里筆者依據(jù)現(xiàn)代數(shù)學(xué)特別是整體微分幾何領(lǐng)域的一些觀點(diǎn)來(lái)解釋目前Sora技術(shù)路線中的缺陷,希望能夠拋磚引玉,為廣大AI研究和工程人員拓寬思路,共同促進(jìn)提高。這里主要用流形嵌入理論、災(zāi)變理論(臨界態(tài)理論)、纖維叢示性類理論、熱擴(kuò)散方程和最優(yōu)傳輸方程(蒙日-安培方程)的正則性理論來(lái)解釋。

流形分布定則

在深度學(xué)習(xí)領(lǐng)域,一個(gè)自然的數(shù)據(jù)集被視為一個(gè)流形上的概率分布,這被稱為是流形分布定則。我們將觀察到的一個(gè)樣本看成是原始數(shù)據(jù)空間中的一個(gè)點(diǎn),大量的樣本構(gòu)成原始數(shù)據(jù)空間中的一個(gè)稠密點(diǎn)云,這片點(diǎn)云在某個(gè)低維流形附近,這個(gè)流形被稱為是數(shù)據(jù)流形。點(diǎn)云在數(shù)據(jù)流形上的分布并不均勻,而是滿足特定的分布規(guī)律,被表示成數(shù)據(jù)概率分布

那么,我們自然產(chǎn)生如下的疑問(wèn):1. 為什么數(shù)據(jù)點(diǎn)云是低維的,而非占滿整個(gè)原始數(shù)據(jù)空間?2. 為什么點(diǎn)云集合是流形,即局部是連續(xù)光滑的?

關(guān)于第一個(gè)疑問(wèn)的回答是:因?yàn)樽匀滑F(xiàn)象滿足大量的自然規(guī)律,這些規(guī)律的限制降低了數(shù)據(jù)樣本點(diǎn)云的維數(shù),而無(wú)法占滿整個(gè)空間。比如,我們考察所有自然人臉照片構(gòu)成的數(shù)據(jù)集,每個(gè)采樣點(diǎn)是一張圖片,像素的個(gè)數(shù)乘以3就是原始圖像空間的維數(shù)。原始圖像空間中的任意一點(diǎn),都是一幅圖片,但是極少的圖片才是人臉圖片,才會(huì)落在人臉圖片流形上,因此人臉圖片流形不可能占滿整個(gè)原始圖像空間。

人臉需要滿足很多自然的生理學(xué)規(guī)律,每個(gè)規(guī)律都會(huì)降低數(shù)據(jù)流形的維數(shù),例如左右對(duì)稱,就減少了近一半的像素,都有五官等確定的幾何與紋理區(qū)域,每個(gè)器官的形狀類似,描述的參數(shù)不多,因此進(jìn)一步降低維數(shù)。最終控制人臉的基因非常有限,由此人臉圖片流形的維數(shù)遠(yuǎn)遠(yuǎn)低于圖片像素個(gè)數(shù)。

再如,我們觀察平面區(qū)域的穩(wěn)恒態(tài)溫度分布,由物理熱擴(kuò)散定理,穩(wěn)定函數(shù)滿足經(jīng)典的Laplace方程,由其邊界值所唯一確定。如果我們?cè)趨^(qū)域內(nèi)部有n平方個(gè)采樣點(diǎn),在區(qū)域邊界有n個(gè)采樣點(diǎn),那么每個(gè)觀察到的溫度函數(shù)被表示為維數(shù)為n平方的向量,即原始數(shù)據(jù)空間維數(shù)為n平方,但是實(shí)際的流形維數(shù)為邊界函數(shù)的維數(shù)n。由此可見(jiàn),滿足物理定律的觀察樣本構(gòu)成的數(shù)據(jù)流形維數(shù)遠(yuǎn)遠(yuǎn)低于原始數(shù)據(jù)空間維數(shù)。

關(guān)于第二個(gè)問(wèn)題的回答是:絕大多數(shù)情形下,物理系統(tǒng)是適定的,但在臨界狀態(tài)下,物理系統(tǒng)會(huì)發(fā)生突變(由災(zāi)變理論或者臨界態(tài)理論來(lái)描述)物理定律多由偏微分方程系統(tǒng)來(lái)描述,微分方程的解由初始值和邊界值來(lái)控制,系統(tǒng)是適定的,意味著由于能量守恒、質(zhì)量守恒、能量傳遞小于光速等物理限制,初邊值逐漸變化時(shí),解也隨之逐漸變化。在偏微分方程的正則性理論中,這意味著邊值的索伯列夫范數(shù)控制解的索伯列夫范等等。我們將解視為數(shù)據(jù)流形上的點(diǎn),邊值視為其對(duì)應(yīng)的局部坐標(biāo)(即隱空間中的對(duì)應(yīng)隱特征向量)。

從數(shù)據(jù)流形到隱空間的映射被稱為是編碼映射,從隱空間到數(shù)據(jù)流形的映射被稱為是解碼映射。正則性理論保證編碼映射和解碼映射是連續(xù)的乃至光滑的,解的唯一性保證這些映射是拓?fù)渫呋蛘呶⒎滞摺_呏悼梢匀我饩植繑_動(dòng),即隱變量存在一個(gè)開(kāi)歐式圓盤(pán)的鄰域。這意味著滿足特定物理定則的觀察樣本構(gòu)成了數(shù)據(jù)流形。

為什么號(hào)稱模擬世界的Sora處理不好一些簡(jiǎn)單的物理規(guī)律?

圖1. Sora 將視頻編碼映射到隱空間,再切割成時(shí)空補(bǔ)丁,被稱為時(shí)空令牌(time-space token)。(openai.com)

如圖1. 所示,Sora的訓(xùn)練集為短視頻集,每個(gè)樣本是一個(gè)短視頻,同類的短視頻構(gòu)成一個(gè)數(shù)據(jù)流形。Sora將其編碼到隱空間進(jìn)行降維,然后在隱空間中將隱特征向量切割成補(bǔ)丁,加上時(shí)間順序,構(gòu)成時(shí)空補(bǔ)丁,亦即時(shí)空令牌(time-space token)。這里時(shí)空的概念是比較關(guān)鍵的,每個(gè)令牌在短視頻的幀序列號(hào)(時(shí)間),在當(dāng)前幀的行列序號(hào)(空間)都被記錄在令牌里。

概率分布變換

我們可以進(jìn)一步問(wèn)如下問(wèn)題:3. 數(shù)據(jù)流形上的概率分布如何表示?

關(guān)于第三個(gè)問(wèn)題的回答是:用傳輸變換,將數(shù)據(jù)概率分布變成計(jì)算機(jī)可以生成的高斯分布這個(gè)傳輸變換可以在原始數(shù)據(jù)空間中進(jìn)行,也可以在隱空間中進(jìn)行。常用的傳輸變換包括最優(yōu)傳輸變換和熱擴(kuò)散。我們用流體力學(xué)的觀點(diǎn)來(lái)解釋。假設(shè)整個(gè)隱空間是一個(gè)水箱,里面有某種溶劑,其密度為概率密度。我們擾動(dòng)水箱,使得液體流動(dòng)起來(lái),使得溶劑密度發(fā)生變化。我們計(jì)算每個(gè)水分子的流向和流速,使得概率密度的熵一直增加,最后就得到高斯分布。

例如,我們考慮人臉數(shù)據(jù)分布,這里每個(gè)水分子就是一張人臉圖片。我們?yōu)槿四槇D片不斷添加噪聲,得到一系列圖片,直至變成一張白噪聲圖片。這一系列圖片就是水分子的運(yùn)動(dòng)軌跡。最后每張人臉圖片變成白噪聲,所有這些白噪聲分布滿足高斯分布。這一過(guò)程被稱為是郎之萬(wàn)的動(dòng)力學(xué)。

反過(guò)來(lái),給定一張白噪聲,我們沿著水分子軌跡倒溯源頭,就得到一張人臉圖片。這就是擴(kuò)散生成模型的原理(diffusion model)。當(dāng)然,也可以直接用最有傳輸理論求解隱空間到自身的同胚,將數(shù)據(jù)分布變成高斯分布,這需要求解蒙日-安培方程。由此可見(jiàn),數(shù)據(jù)分布的所有信息都由傳輸映射所包含,而傳輸映射被一個(gè)深度網(wǎng)絡(luò)來(lái)表達(dá)。

為什么號(hào)稱模擬世界的Sora處理不好一些簡(jiǎn)單的物理規(guī)律?

圖2. Sora用擴(kuò)散模型從白噪聲時(shí)空令牌生成數(shù)據(jù)時(shí)空令牌。(openai.com)

如圖2所示,Sora在隱空間將數(shù)據(jù)令牌的概率分布通過(guò)擴(kuò)散過(guò)程(郎之萬(wàn)動(dòng)力系統(tǒng)-每個(gè)令牌上逐漸添加噪聲)傳輸變換成高斯分布,再通過(guò)傳輸變換的逆變換將隱空間中的白噪聲令牌變成隱數(shù)據(jù)令牌。

大語(yǔ)言模型的加持

Sora結(jié)合了大語(yǔ)言模型ChatGPT,這極大地提升了系統(tǒng)的性能。首先,Soar的訓(xùn)練樣本是(文本,視頻)對(duì),有些視頻對(duì)應(yīng)的標(biāo)題過(guò)于簡(jiǎn)短,字幕缺少,Sora采用了Dall-E的重新標(biāo)題技術(shù)。

Sora的訓(xùn)練集包含一些優(yōu)質(zhì)的樣本,(高度描述性字幕,短視頻),由此訓(xùn)練了短視頻數(shù)據(jù)流形(包括時(shí)空令牌流形),每個(gè)流形用其字幕(標(biāo)題)來(lái)標(biāo)識(shí)。對(duì)于缺乏標(biāo)題或者字幕含混的劣質(zhì)短視頻,Sora將其編碼到隱空間,在隱空間中尋找臨近優(yōu)質(zhì)視頻的隱特征向量,然后將優(yōu)質(zhì)視頻的字幕(標(biāo)題)拷貝給劣質(zhì)視頻。用這種方法,Sora可以為所有的訓(xùn)練視頻數(shù)據(jù)添加高度描述性的字幕,從而提高了訓(xùn)練集的質(zhì)量,進(jìn)一步提升系統(tǒng)性能。

同時(shí)大語(yǔ)言模型可以將用戶輸入的提示進(jìn)行擴(kuò)充,變得更加精準(zhǔn),更加具有描述性,從而使得生成視頻與用戶需求更好契合。這使得Sora如虎添翼。但是Soar依然存在著很多缺陷,我們可以通過(guò)如下例子進(jìn)行分析。

相關(guān)性與因果律的矛盾

ChatGPT將語(yǔ)句分解成令牌,然后用Transformer學(xué)習(xí)在上下文中令牌間連接的概率分布。與此類似,Sora將視頻分解成時(shí)空令牌,然后學(xué)習(xí)上下文中令牌間連接的概率分布,并且依據(jù)這一概率分布由白噪聲生成令牌,連接令牌,解碼成短視頻。

每個(gè)令牌表達(dá)圖像或者視頻中的一個(gè)局部區(qū)域,不同局部區(qū)域間的拼接成為問(wèn)題的關(guān)鍵。Sora相對(duì)獨(dú)立地學(xué)習(xí)每個(gè)令牌,將令牌間的空間關(guān)系用訓(xùn)練集中體現(xiàn)的概率來(lái)表達(dá),從而無(wú)法精準(zhǔn)表達(dá)令牌間時(shí)空的因果關(guān)系

視頻1. Sora生成的老奶奶吹生日蠟燭視頻。(openai.com)

如視頻1所示,在Sora生成的視頻中,每一幀都異常逼真,但是當(dāng)老奶奶吹了生日蠟燭的時(shí)候,蠟燭的火苗紋絲不動(dòng)。如果我們將視野縮小到每一個(gè)令牌的區(qū)域,我們看到美輪美奐的真實(shí)畫(huà)面,令牌之間的銜接也非常平滑自然,但是當(dāng)相距較遠(yuǎn)的令牌之間有因果聯(lián)系的時(shí)候,即吹出的空氣影響火苗的跳動(dòng)時(shí),兩個(gè)令牌之間的物理因果沒(méi)有體現(xiàn)出來(lái)。

這意味著Transformer用以表達(dá)令牌之間的統(tǒng)計(jì)相關(guān)性,無(wú)法精確表達(dá)物理因果律。雖然transformer可以在一定程度上操縱自然語(yǔ)言,但自然語(yǔ)言無(wú)法準(zhǔn)確表達(dá)物理定律,而物理定律目前只有偏微分方程才能精密表達(dá)。這反應(yīng)了基于概率的世界模型的某種局限性。

局部合理與整體荒謬的矛盾

目前Sora相鄰令牌間的拼接做得很合理,但是整體拼接的視頻卻可能出現(xiàn)各種悖謬。這意味著局部拼接與整體拓展之間的鴻溝。

視頻2. Sora生成的“幽靈椅子”視頻。(openai.com)

我們觀察“幽靈椅子”視頻,如果我們將視野限制在屏幕中間的一個(gè)局部區(qū)域,則視頻非常合理。仔細(xì)檢測(cè)不同令牌區(qū)間直接的連接,也非常連續(xù)光滑。但是整個(gè)椅子如鬼魅般懸空,這與日常經(jīng)驗(yàn)相悖。

這種“局部合理,整體荒謬”的生成視頻,意味著Transformer學(xué)會(huì)了Token間局部的連接概率,但是缺乏時(shí)空上下文的大范圍整體觀念。在這個(gè)視頻中,整體觀念來(lái)自于物理中的重力場(chǎng),雖然局部看不出來(lái),但是整體上無(wú)時(shí)不在。

視頻3. Sora 生成的四足螞蟻。(openai.com)

再如Sora生成的“四足螞蟻的視頻,螞蟻的動(dòng)作栩栩如生,宛如行云流水。局部上非常流暢自然,令人不禁聯(lián)想或許在某個(gè)星球上存在這種四足螞蟻。但是整體上,地球的自然界并沒(méi)有四足螞蟻。這里局部的合理無(wú)法保證整體的合理,這里的全局觀念來(lái)自于生物學(xué)的事實(shí)

視頻4. Sora 生成的南轅北轍跑步機(jī)。(openai.com)

再如Soar生成的“南轅北轍跑步機(jī)”視頻,如果我們觀察每一個(gè)局部區(qū)域,看到的視頻都是合理的,視頻令牌間的連接也是自然的,但是整體視頻卻是荒謬的,跑步機(jī)與跑步者的方向相反。這個(gè)視頻的全局觀與來(lái)自于人體工程學(xué)的事實(shí)相悖。

這些例子表明,目前的Transformer雖然可以學(xué)習(xí)局部的上下文,但無(wú)法學(xué)習(xí)更加全局的上下文,這里的全局可能是物理中的重力場(chǎng),也可以是人體工程學(xué),或者生物中的物種分類。這種全局觀點(diǎn),恰是朱松純教授提出的AI世界中的暗物質(zhì)思想。雖然每個(gè)訓(xùn)練樣本視頻都隱含地表達(dá)了全局的觀念,但是令牌化的過(guò)程卻割裂了全局的觀念,有限地保留了臨近令牌間的連接概率,從而導(dǎo)致局部合理,整體荒謬的結(jié)果。

現(xiàn)代整體微分幾何非常重視整體和局部的矛盾,為此發(fā)明了多種理論工具。比如,我們可以在拓?fù)淞餍蔚木植繕?gòu)造光滑標(biāo)架場(chǎng),但是無(wú)法將其全局推廣,全局推廣的障礙就是纖維叢的示性類。復(fù)流形上,我們可以局部構(gòu)造亞純函數(shù),但是整體上無(wú)法將局部的函數(shù)拼接成整體的亞純函數(shù),這種局部推廣到整體的差異用層的上同調(diào)理論來(lái)精確刻畫(huà)。

很多物理理論都表示成特定纖維叢的示性類理論,例如拓?fù)浣^緣體理論。這種局部容易構(gòu)造,整體推廣出現(xiàn)實(shí)質(zhì)性困難的數(shù)學(xué)理論,實(shí)際上是人類深層次探索自然的智慧結(jié)晶。這種整體的拓?fù)?、幾何觀點(diǎn)目前還沒(méi)有推廣到AI領(lǐng)域,如果Transformer能夠自行學(xué)會(huì)這種上下文中的整體障礙,那么AI將會(huì)更加有效地探索自然界。

臨界狀態(tài)的缺失

自然界的絕大多數(shù)物理過(guò)程都是穩(wěn)恒態(tài)與臨界態(tài)的交替變化。在穩(wěn)恒態(tài)中,系統(tǒng)參數(shù)緩慢變化,容易獲取觀察數(shù)據(jù);在臨界態(tài)中(災(zāi)變態(tài)),系統(tǒng)驟然突變,令人猝不及防,很難抓拍到觀察數(shù)據(jù)。因此,臨界態(tài)的數(shù)據(jù)樣本非常稀少,幾乎在訓(xùn)練集中零測(cè)度。

由此,Sora系統(tǒng)學(xué)習(xí)到的數(shù)據(jù)流形,絕大多數(shù)都是由穩(wěn)恒態(tài)的樣本所構(gòu)成。物理過(guò)程中的臨界態(tài)樣本多分布在數(shù)據(jù)流形的邊界。因此,在生成過(guò)程中,Sora非常容易生成穩(wěn)恒態(tài)的視頻片段,但是往往跳過(guò)臨界態(tài)。但是在人類認(rèn)知中,最為關(guān)鍵的觀察恰恰是概率幾乎為零的臨界態(tài)。

視頻5. Sora 生成的果汁潑濺。(openai.com)

Sora生成的果汁潑濺視頻中,有兩個(gè)穩(wěn)定狀態(tài),水杯直立的狀態(tài),和果汁已經(jīng)潑濺出來(lái)的狀態(tài),但是最為關(guān)鍵的臨界狀態(tài):果汁從杯中流灑出來(lái)的過(guò)程卻沒(méi)有生成出來(lái)。雖然只有短暫的幾幀,但是對(duì)于人類感知整個(gè)過(guò)程卻是非常重要。Sora無(wú)法生成關(guān)鍵臨界態(tài)的圖像可能有如下原因:

物理過(guò)程中的不同穩(wěn)衡態(tài)樣本生成數(shù)據(jù)流形的不同聯(lián)通分支,臨界態(tài)樣本在穩(wěn)恒態(tài)流形邊界附近,在兩個(gè)穩(wěn)衡態(tài)流形邊界之間。熱力學(xué)擴(kuò)散過(guò)程將流形的邊界變得模糊,從而混淆了流形邊界,生成了過(guò)程含混的視頻。換言之,臨近態(tài)對(duì)應(yīng)著數(shù)據(jù)流形的邊界,學(xué)習(xí)過(guò)程中應(yīng)該保持邊界情形,而不應(yīng)產(chǎn)生模式混淆。

為什么號(hào)稱模擬世界的Sora處理不好一些簡(jiǎn)單的物理規(guī)律?

圖3. 模式混淆(mode mixture)。

如圖3所示,我們用MNIST訓(xùn)練了一個(gè)編碼解碼器,在隱空間畫(huà)出了數(shù)據(jù)集的隱空間分布,10個(gè)手寫(xiě)體數(shù)字對(duì)應(yīng)著10個(gè)團(tuán)簇,每個(gè)團(tuán)簇是一個(gè)模式(mode),即數(shù)據(jù)流形的一個(gè)聯(lián)通分支。團(tuán)簇的邊界就是數(shù)據(jù)隱空間分布支集的邊界。我們?cè)陔[空間生成了100個(gè)采樣點(diǎn),通過(guò)解碼生成100個(gè)手寫(xiě)體數(shù)字圖像。如果采樣點(diǎn)落在某個(gè)團(tuán)簇內(nèi)部,則其生成的圖像就非常清晰;如果采樣點(diǎn)落在團(tuán)簇邊界的外部,其生成的圖像就非常模糊,往往是兩個(gè)手寫(xiě)體數(shù)字的融合。因此,識(shí)別數(shù)據(jù)流形的邊界對(duì)于識(shí)別臨界狀態(tài)非常重要。

Sora采用的目前最為熱門(mén)的擴(kuò)散模型,在計(jì)算傳輸映射的時(shí)候,必然會(huì)光滑化數(shù)據(jù)流形的邊界,從而混淆不同的模式,直接跳過(guò)臨界態(tài)圖像的生成。因此視頻看上去從一個(gè)狀態(tài)突然跳躍到另外一個(gè)狀態(tài),中間最為關(guān)鍵的傾倒過(guò)程缺少,導(dǎo)致物理上的荒謬。

視頻6. Sora 生成的小狗。(openai.com)

視頻6顯示了另外一種由于橫跨流形邊界而出錯(cuò)的情形。Sora生成小狗群在嬉笑斗鬧,時(shí)而相互遮擋,時(shí)而散開(kāi)。在視頻的某一剎那,屏幕中的3只小狗突然變成4只小狗。我們?nèi)绱私忉專?只小狗的圖片構(gòu)成一個(gè)流形(或者連通分支),3只小狗的圖片構(gòu)成另一個(gè)分支,在4只小狗圖片流形的邊界處,有個(gè)臨界事件:四只小狗彼此遮擋,圖片中只能看到3只小狗。

Sora的擴(kuò)散模型沒(méi)有識(shí)別出流形的邊界,而是沖破這邊界,在3只小狗圖片的流形和4只小狗圖片的流形間跨越。正確的做法應(yīng)該是先識(shí)別流形的邊界,然后在物理無(wú)法跨越的情形下(如3只邊4只),在邊界處返折回原來(lái)流形。

為什么號(hào)稱模擬世界的Sora處理不好一些簡(jiǎn)單的物理規(guī)律?

為什么號(hào)稱模擬世界的Sora處理不好一些簡(jiǎn)單的物理規(guī)律?

圖4. 基于幾何方法的最優(yōu)傳輸映射可以精確檢測(cè)到數(shù)據(jù)流形的邊界,精確得到臨界態(tài)。

擴(kuò)散模型的弊端可以被基于幾何方法的最優(yōu)傳輸模型所克服。如圖4所示,假設(shè)我們計(jì)算從圓盤(pán)內(nèi)部的均勻分布到右側(cè)海馬形狀區(qū)域內(nèi)的均勻分布的最優(yōu)傳輸映射,根據(jù)相應(yīng)的Brenier定理,最優(yōu)傳輸映射由某個(gè)凸勢(shì)能函數(shù)的梯度映射給出。這一勢(shì)能函數(shù)滿足蒙日-安培方程,勢(shì)能函數(shù)并非處處可導(dǎo),其連續(xù)、非可導(dǎo)的集合投影到圓盤(pán)區(qū)域的奇異集合(黑色曲線),規(guī)則點(diǎn)映射到目標(biāo)區(qū)域的規(guī)則點(diǎn),奇異集合映射到目標(biāo)區(qū)域的邊界(每個(gè)奇異點(diǎn)同時(shí)映射到左右兩個(gè)邊界點(diǎn))。

當(dāng)我們跨越奇異集合的時(shí)候,就意味著我們跨越了兩個(gè)穩(wěn)衡態(tài),必然有臨界(災(zāi)變)事件發(fā)生,即穩(wěn)恒態(tài)被打破的物理事件。由此可見(jiàn),精確找到傳輸映射的奇異集合,探測(cè)臨界(災(zāi)變)狀態(tài),對(duì)于物理世界建模具有根本的重要性。

小結(jié)

由此可見(jiàn),雖然Sora聲稱是“作為世界模擬的視頻生成模型”,目前的技術(shù)路線無(wú)法正確模擬世界的物理規(guī)律。

首先,用概率統(tǒng)計(jì)的相關(guān)性無(wú)法精確表達(dá)物理定律的因果性,自然語(yǔ)言的上下文相關(guān)無(wú)法達(dá)到偏微分方程的精密程度;其次,雖然Transformer可以學(xué)習(xí)臨近時(shí)空令牌間的連接概率,但是無(wú)法判斷全局的合理性,整體的合理性需要更高層次的數(shù)學(xué)理論觀點(diǎn)、或者更為隱蔽而深厚的自然科學(xué)和人文科學(xué)的背景,目前的Transformer無(wú)法真正悟出這些全局觀點(diǎn);

另外,Sora忽略了物理過(guò)程中最為關(guān)鍵的臨界(災(zāi)變)態(tài),一方面因?yàn)榕R界態(tài)樣本的稀缺,另一方面因?yàn)閿U(kuò)散模型將穩(wěn)恒態(tài)數(shù)據(jù)流形的邊界模糊化,消弭了臨界態(tài)的存在,生成的視頻出現(xiàn)了不同穩(wěn)恒態(tài)之間的跳躍。

而基于幾何方法的最優(yōu)傳輸理論框架,可以精確檢測(cè)到穩(wěn)恒態(tài)數(shù)據(jù)流形的邊界,從而強(qiáng)調(diào)了臨界態(tài)事件的生成,避免了不同穩(wěn)恒態(tài)之間的橫跳,更加接近物理的真實(shí)。

目前,由Sora為代表的數(shù)據(jù)驅(qū)動(dòng)世界模擬模型,和由第一性原理建立起來(lái)的物理定律和偏微分方程的世界模擬模型開(kāi)始進(jìn)入了酣戰(zhàn)狀態(tài)。這或許是人類歷史的偉大轉(zhuǎn)折點(diǎn)。希望年輕的讀者們都能踴躍躋身到時(shí)代的洪流之中,用自己的聰明才智推動(dòng)科技與社會(huì)的發(fā)展!

作者: 顧險(xiǎn)峰

原文鏈接:Sora物理悖謬的幾何解釋


    本站是提供個(gè)人知識(shí)管理的網(wǎng)絡(luò)存儲(chǔ)空間,所有內(nèi)容均由用戶發(fā)布,不代表本站觀點(diǎn)。請(qǐng)注意甄別內(nèi)容中的聯(lián)系方式、誘導(dǎo)購(gòu)買等信息,謹(jǐn)防詐騙。如發(fā)現(xiàn)有害或侵權(quán)內(nèi)容,請(qǐng)點(diǎn)擊一鍵舉報(bào)。
    轉(zhuǎn)藏 分享 獻(xiàn)花(0

    0條評(píng)論

    發(fā)表

    請(qǐng)遵守用戶 評(píng)論公約

    類似文章 更多