為什么號(hào)稱模擬世界的Sora處理不好一些簡(jiǎn)單的物理規(guī)律？

昵稱49485892 2024-02-27

展開(kāi)全文

龍年伊始，Sora橫空出世，舉世震驚。Sora聲稱“作為世界模擬的視頻生成模型”，豪氣干云。有人悲觀預(yù)言很多傳統(tǒng)領(lǐng)域可能被顛覆，其中最為岌岌可危的可能是計(jì)算機(jī)圖形學(xué)，短視頻和影視娛樂(lè)行業(yè)。依隨OpenAI透露出更多技術(shù)細(xì)節(jié)，很多Sora生成的物理悖謬的視頻流傳于網(wǎng)絡(luò)。

這里筆者依據(jù)現(xiàn)代數(shù)學(xué)特別是整體微分幾何領(lǐng)域的一些觀點(diǎn)來(lái)解釋目前Sora技術(shù)路線中的缺陷，希望能夠拋磚引玉，為廣大AI研究和工程人員拓寬思路，共同促進(jìn)提高。這里主要用流形嵌入理論、災(zāi)變理論（臨界態(tài)理論）、纖維叢示性類理論、熱擴(kuò)散方程和最優(yōu)傳輸方程（蒙日-安培方程）的正則性理論來(lái)解釋。

流形分布定則

在深度學(xué)習(xí)領(lǐng)域，一個(gè)自然的數(shù)據(jù)集被視為一個(gè)流形上的概率分布，這被稱為是流形分布定則。我們將觀察到的一個(gè)樣本看成是原始數(shù)據(jù)空間中的一個(gè)點(diǎn)，大量的樣本構(gòu)成原始數(shù)據(jù)空間中的一個(gè)稠密點(diǎn)云，這片點(diǎn)云在某個(gè)低維流形附近，這個(gè)流形被稱為是數(shù)據(jù)流形。點(diǎn)云在數(shù)據(jù)流形上的分布并不均勻，而是滿足特定的分布規(guī)律，被表示成數(shù)據(jù)概率分布。

那么，我們自然產(chǎn)生如下的疑問(wèn)：1. 為什么數(shù)據(jù)點(diǎn)云是低維的，而非占滿整個(gè)原始數(shù)據(jù)空間？2. 為什么點(diǎn)云集合是流形，即局部是連續(xù)光滑的？

關(guān)于第一個(gè)疑問(wèn)的回答是：因?yàn)樽匀滑F(xiàn)象滿足大量的自然規(guī)律，這些規(guī)律的限制降低了數(shù)據(jù)樣本點(diǎn)云的維數(shù)，而無(wú)法占滿整個(gè)空間。比如，我們考察所有自然人臉照片構(gòu)成的數(shù)據(jù)集，每個(gè)采樣點(diǎn)是一張圖片，像素的個(gè)數(shù)乘以3就是原始圖像空間的維數(shù)。原始圖像空間中的任意一點(diǎn)，都是一幅圖片，但是極少的圖片才是人臉圖片，才會(huì)落在人臉圖片流形上，因此人臉圖片流形不可能占滿整個(gè)原始圖像空間。

人臉需要滿足很多自然的生理學(xué)規(guī)律，每個(gè)規(guī)律都會(huì)降低數(shù)據(jù)流形的維數(shù)，例如左右對(duì)稱，就減少了近一半的像素，都有五官等確定的幾何與紋理區(qū)域，每個(gè)器官的形狀類似，描述的參數(shù)不多，因此進(jìn)一步降低維數(shù)。最終控制人臉的基因非常有限，由此人臉圖片流形的維數(shù)遠(yuǎn)遠(yuǎn)低于圖片像素個(gè)數(shù)。

再如，我們觀察平面區(qū)域的穩(wěn)恒態(tài)溫度分布，由物理熱擴(kuò)散定理，穩(wěn)定函數(shù)滿足經(jīng)典的Laplace方程，由其邊界值所唯一確定。如果我們?cè)趨^(qū)域內(nèi)部有n平方個(gè)采樣點(diǎn)，在區(qū)域邊界有n個(gè)采樣點(diǎn)，那么每個(gè)觀察到的溫度函數(shù)被表示為維數(shù)為n平方的向量，即原始數(shù)據(jù)空間維數(shù)為n平方，但是實(shí)際的流形維數(shù)為邊界函數(shù)的維數(shù)n。由此可見(jiàn)，滿足物理定律的觀察樣本構(gòu)成的數(shù)據(jù)流形維數(shù)遠(yuǎn)遠(yuǎn)低于原始數(shù)據(jù)空間維數(shù)。

關(guān)于第二個(gè)問(wèn)題的回答是：絕大多數(shù)情形下，物理系統(tǒng)是適定的，但在臨界狀態(tài)下，物理系統(tǒng)會(huì)發(fā)生突變（由災(zāi)變理論或者臨界態(tài)理論來(lái)描述）。物理定律多由偏微分方程系統(tǒng)來(lái)描述，微分方程的解由初始值和邊界值來(lái)控制，系統(tǒng)是適定的，意味著由于能量守恒、質(zhì)量守恒、能量傳遞小于光速等物理限制，初邊值逐漸變化時(shí)，解也隨之逐漸變化。在偏微分方程的正則性理論中，這意味著邊值的索伯列夫范數(shù)控制解的索伯列夫范等等。我們將解視為數(shù)據(jù)流形上的點(diǎn)，邊值視為其對(duì)應(yīng)的局部坐標(biāo)（即隱空間中的對(duì)應(yīng)隱特征向量）。

從數(shù)據(jù)流形到隱空間的映射被稱為是編碼映射，從隱空間到數(shù)據(jù)流形的映射被稱為是解碼映射。正則性理論保證編碼映射和解碼映射是連續(xù)的乃至光滑的，解的唯一性保證這些映射是拓?fù)渫呋蛘呶⒎滞摺＿呏悼梢匀我饩植繑_動(dòng)，即隱變量存在一個(gè)開(kāi)歐式圓盤(pán)的鄰域。這意味著滿足特定物理定則的觀察樣本構(gòu)成了數(shù)據(jù)流形。

為什么號(hào)稱模擬世界的Sora處理不好一些簡(jiǎn)單的物理規(guī)律？

圖1. Sora 將視頻編碼映射到隱空間，再切割成時(shí)空補(bǔ)丁，被稱為時(shí)空令牌（time-space token）。(openai.com)

如圖1. 所示，Sora的訓(xùn)練集為短視頻集，每個(gè)樣本是一個(gè)短視頻，同類的短視頻構(gòu)成一個(gè)數(shù)據(jù)流形。Sora將其編碼到隱空間進(jìn)行降維，然后在隱空間中將隱特征向量切割成補(bǔ)丁，加上時(shí)間順序，構(gòu)成時(shí)空補(bǔ)丁，亦即時(shí)空令牌（time-space token）。這里時(shí)空的概念是比較關(guān)鍵的，每個(gè)令牌在短視頻的幀序列號(hào)（時(shí)間），在當(dāng)前幀的行列序號(hào)（空間）都被記錄在令牌里。

概率分布變換

我們可以進(jìn)一步問(wèn)如下問(wèn)題：3. 數(shù)據(jù)流形上的概率分布如何表示？

關(guān)于第三個(gè)問(wèn)題的回答是：用傳輸變換，將數(shù)據(jù)概率分布變成計(jì)算機(jī)可以生成的高斯分布。這個(gè)傳輸變換可以在原始數(shù)據(jù)空間中進(jìn)行，也可以在隱空間中進(jìn)行。常用的傳輸變換包括最優(yōu)傳輸變換和熱擴(kuò)散。我們用流體力學(xué)的觀點(diǎn)來(lái)解釋。假設(shè)整個(gè)隱空間是一個(gè)水箱，里面有某種溶劑，其密度為概率密度。我們擾動(dòng)水箱，使得液體流動(dòng)起來(lái)，使得溶劑密度發(fā)生變化。我們計(jì)算每個(gè)水分子的流向和流速，使得概率密度的熵一直增加，最后就得到高斯分布。

例如，我們考慮人臉數(shù)據(jù)分布，這里每個(gè)水分子就是一張人臉圖片。我們?yōu)槿四槇D片不斷添加噪聲，得到一系列圖片，直至變成一張白噪聲圖片。這一系列圖片就是水分子的運(yùn)動(dòng)軌跡。最后每張人臉圖片變成白噪聲，所有這些白噪聲分布滿足高斯分布。這一過(guò)程被稱為是郎之萬(wàn)的動(dòng)力學(xué)。

反過(guò)來(lái)，給定一張白噪聲，我們沿著水分子軌跡倒溯源頭，就得到一張人臉圖片。這就是擴(kuò)散生成模型的原理（diffusion model）。當(dāng)然，也可以直接用最有傳輸理論求解隱空間到自身的同胚，將數(shù)據(jù)分布變成高斯分布，這需要求解蒙日-安培方程。由此可見(jiàn)，數(shù)據(jù)分布的所有信息都由傳輸映射所包含，而傳輸映射被一個(gè)深度網(wǎng)絡(luò)來(lái)表達(dá)。

為什么號(hào)稱模擬世界的Sora處理不好一些簡(jiǎn)單的物理規(guī)律？

圖2. Sora用擴(kuò)散模型從白噪聲時(shí)空令牌生成數(shù)據(jù)時(shí)空令牌。（openai.com）

如圖2所示，Sora在隱空間將數(shù)據(jù)令牌的概率分布通過(guò)擴(kuò)散過(guò)程（郎之萬(wàn)動(dòng)力系統(tǒng)-每個(gè)令牌上逐漸添加噪聲）傳輸變換成高斯分布，再通過(guò)傳輸變換的逆變換將隱空間中的白噪聲令牌變成隱數(shù)據(jù)令牌。

大語(yǔ)言模型的加持

Sora結(jié)合了大語(yǔ)言模型ChatGPT，這極大地提升了系統(tǒng)的性能。首先，Soar的訓(xùn)練樣本是（文本，視頻）對(duì)，有些視頻對(duì)應(yīng)的標(biāo)題過(guò)于簡(jiǎn)短，字幕缺少，Sora采用了Dall-E的重新標(biāo)題技術(shù)。

Sora的訓(xùn)練集包含一些優(yōu)質(zhì)的樣本，（高度描述性字幕，短視頻），由此訓(xùn)練了短視頻數(shù)據(jù)流形（包括時(shí)空令牌流形），每個(gè)流形用其字幕（標(biāo)題）來(lái)標(biāo)識(shí)。對(duì)于缺乏標(biāo)題或者字幕含混的劣質(zhì)短視頻，Sora將其編碼到隱空間，在隱空間中尋找臨近優(yōu)質(zhì)視頻的隱特征向量，然后將優(yōu)質(zhì)視頻的字幕（標(biāo)題）拷貝給劣質(zhì)視頻。用這種方法，Sora可以為所有的訓(xùn)練視頻數(shù)據(jù)添加高度描述性的字幕，從而提高了訓(xùn)練集的質(zhì)量，進(jìn)一步提升系統(tǒng)性能。

同時(shí)大語(yǔ)言模型可以將用戶輸入的提示進(jìn)行擴(kuò)充，變得更加精準(zhǔn)，更加具有描述性，從而使得生成視頻與用戶需求更好契合。這使得Sora如虎添翼。但是Soar依然存在著很多缺陷，我們可以通過(guò)如下例子進(jìn)行分析。

相關(guān)性與因果律的矛盾

ChatGPT將語(yǔ)句分解成令牌，然后用Transformer學(xué)習(xí)在上下文中令牌間連接的概率分布。與此類似，Sora將視頻分解成時(shí)空令牌，然后學(xué)習(xí)上下文中令牌間連接的概率分布，并且依據(jù)這一概率分布由白噪聲生成令牌，連接令牌，解碼成短視頻。

每個(gè)令牌表達(dá)圖像或者視頻中的一個(gè)局部區(qū)域，不同局部區(qū)域間的拼接成為問(wèn)題的關(guān)鍵。Sora相對(duì)獨(dú)立地學(xué)習(xí)每個(gè)令牌，將令牌間的空間關(guān)系用訓(xùn)練集中體現(xiàn)的概率來(lái)表達(dá)，從而無(wú)法精準(zhǔn)表達(dá)令牌間時(shí)空的因果關(guān)系。

視頻1. Sora生成的老奶奶吹生日蠟燭視頻。（openai.com）

如視頻1所示，在Sora生成的視頻中，每一幀都異常逼真，但是當(dāng)老奶奶吹了生日蠟燭的時(shí)候，蠟燭的火苗紋絲不動(dòng)。如果我們將視野縮小到每一個(gè)令牌的區(qū)域，我們看到美輪美奐的真實(shí)畫(huà)面，令牌之間的銜接也非常平滑自然，但是當(dāng)相距較遠(yuǎn)的令牌之間有因果聯(lián)系的時(shí)候，即吹出的空氣影響火苗的跳動(dòng)時(shí)，兩個(gè)令牌之間的物理因果沒(méi)有體現(xiàn)出來(lái)。

這意味著Transformer用以表達(dá)令牌之間的統(tǒng)計(jì)相關(guān)性，無(wú)法精確表達(dá)物理因果律。雖然transformer可以在一定程度上操縱自然語(yǔ)言，但自然語(yǔ)言無(wú)法準(zhǔn)確表達(dá)物理定律，而物理定律目前只有偏微分方程才能精密表達(dá)。這反應(yīng)了基于概率的世界模型的某種局限性。

局部合理與整體荒謬的矛盾

目前Sora相鄰令牌間的拼接做得很合理，但是整體拼接的視頻卻可能出現(xiàn)各種悖謬。這意味著局部拼接與整體拓展之間的鴻溝。

視頻2. Sora生成的“幽靈椅子”視頻。（openai.com）

我們觀察“幽靈椅子”視頻，如果我們將視野限制在屏幕中間的一個(gè)局部區(qū)域，則視頻非常合理。仔細(xì)檢測(cè)不同令牌區(qū)間直接的連接，也非常連續(xù)光滑。但是整個(gè)椅子如鬼魅般懸空，這與日常經(jīng)驗(yàn)相悖。

這種“局部合理，整體荒謬”的生成視頻，意味著Transformer學(xué)會(huì)了Token間局部的連接概率，但是缺乏時(shí)空上下文的大范圍整體觀念。在這個(gè)視頻中，整體觀念來(lái)自于物理中的重力場(chǎng)，雖然局部看不出來(lái)，但是整體上無(wú)時(shí)不在。

視頻3. Sora 生成的四足螞蟻。（openai.com）

再如Sora生成的“四足螞蟻”的視頻，螞蟻的動(dòng)作栩栩如生，宛如行云流水。局部上非常流暢自然，令人不禁聯(lián)想或許在某個(gè)星球上存在這種四足螞蟻。但是整體上，地球的自然界并沒(méi)有四足螞蟻。這里局部的合理無(wú)法保證整體的合理，這里的全局觀念來(lái)自于生物學(xué)的事實(shí)。

視頻4. Sora 生成的南轅北轍跑步機(jī)。（openai.com）

再如Soar生成的“南轅北轍跑步機(jī)”視頻，如果我們觀察每一個(gè)局部區(qū)域，看到的視頻都是合理的，視頻令牌間的連接也是自然的，但是整體視頻卻是荒謬的，跑步機(jī)與跑步者的方向相反。這個(gè)視頻的全局觀與來(lái)自于人體工程學(xué)的事實(shí)相悖。

這些例子表明，目前的Transformer雖然可以學(xué)習(xí)局部的上下文，但無(wú)法學(xué)習(xí)更加全局的上下文，這里的全局可能是物理中的重力場(chǎng)，也可以是人體工程學(xué)，或者生物中的物種分類。這種全局觀點(diǎn)，恰是朱松純教授提出的AI世界中的暗物質(zhì)思想。雖然每個(gè)訓(xùn)練樣本視頻都隱含地表達(dá)了全局的觀念，但是令牌化的過(guò)程卻割裂了全局的觀念，有限地保留了臨近令牌間的連接概率，從而導(dǎo)致局部合理，整體荒謬的結(jié)果。

現(xiàn)代整體微分幾何非常重視整體和局部的矛盾，為此發(fā)明了多種理論工具。比如，我們可以在拓?fù)淞餍蔚木植繕?gòu)造光滑標(biāo)架場(chǎng)，但是無(wú)法將其全局推廣，全局推廣的障礙就是纖維叢的示性類。復(fù)流形上，我們可以局部構(gòu)造亞純函數(shù)，但是整體上無(wú)法將局部的函數(shù)拼接成整體的亞純函數(shù)，這種局部推廣到整體的差異用層的上同調(diào)理論來(lái)精確刻畫(huà)。

很多物理理論都表示成特定纖維叢的示性類理論，例如拓?fù)浣^緣體理論。這種局部容易構(gòu)造，整體推廣出現(xiàn)實(shí)質(zhì)性困難的數(shù)學(xué)理論，實(shí)際上是人類深層次探索自然的智慧結(jié)晶。這種整體的拓?fù)?、幾何觀點(diǎn)目前還沒(méi)有推廣到AI領(lǐng)域，如果Transformer能夠自行學(xué)會(huì)這種上下文中的整體障礙，那么AI將會(huì)更加有效地探索自然界。

臨界狀態(tài)的缺失

自然界的絕大多數(shù)物理過(guò)程都是穩(wěn)恒態(tài)與臨界態(tài)的交替變化。在穩(wěn)恒態(tài)中，系統(tǒng)參數(shù)緩慢變化，容易獲取觀察數(shù)據(jù)；在臨界態(tài)中（災(zāi)變態(tài)），系統(tǒng)驟然突變，令人猝不及防，很難抓拍到觀察數(shù)據(jù)。因此，臨界態(tài)的數(shù)據(jù)樣本非常稀少，幾乎在訓(xùn)練集中零測(cè)度。

由此，Sora系統(tǒng)學(xué)習(xí)到的數(shù)據(jù)流形，絕大多數(shù)都是由穩(wěn)恒態(tài)的樣本所構(gòu)成。物理過(guò)程中的臨界態(tài)樣本多分布在數(shù)據(jù)流形的邊界。因此，在生成過(guò)程中，Sora非常容易生成穩(wěn)恒態(tài)的視頻片段，但是往往跳過(guò)臨界態(tài)。但是在人類認(rèn)知中，最為關(guān)鍵的觀察恰恰是概率幾乎為零的臨界態(tài)。

視頻5. Sora 生成的果汁潑濺。（openai.com）

Sora生成的果汁潑濺視頻中，有兩個(gè)穩(wěn)定狀態(tài)，水杯直立的狀態(tài)，和果汁已經(jīng)潑濺出來(lái)的狀態(tài)，但是最為關(guān)鍵的臨界狀態(tài)：果汁從杯中流灑出來(lái)的過(guò)程卻沒(méi)有生成出來(lái)。雖然只有短暫的幾幀，但是對(duì)于人類感知整個(gè)過(guò)程卻是非常重要。Sora無(wú)法生成關(guān)鍵臨界態(tài)的圖像可能有如下原因：

物理過(guò)程中的不同穩(wěn)衡態(tài)樣本生成數(shù)據(jù)流形的不同聯(lián)通分支，臨界態(tài)樣本在穩(wěn)恒態(tài)流形邊界附近，在兩個(gè)穩(wěn)衡態(tài)流形邊界之間。熱力學(xué)擴(kuò)散過(guò)程將流形的邊界變得模糊，從而混淆了流形邊界，生成了過(guò)程含混的視頻。換言之，臨近態(tài)對(duì)應(yīng)著數(shù)據(jù)流形的邊界，學(xué)習(xí)過(guò)程中應(yīng)該保持邊界情形，而不應(yīng)產(chǎn)生模式混淆。

為什么號(hào)稱模擬世界的Sora處理不好一些簡(jiǎn)單的物理規(guī)律？

圖3. 模式混淆(mode mixture)。

如圖3所示，我們用MNIST訓(xùn)練了一個(gè)編碼解碼器，在隱空間畫(huà)出了數(shù)據(jù)集的隱空間分布，10個(gè)手寫(xiě)體數(shù)字對(duì)應(yīng)著10個(gè)團(tuán)簇，每個(gè)團(tuán)簇是一個(gè)模式（mode），即數(shù)據(jù)流形的一個(gè)聯(lián)通分支。團(tuán)簇的邊界就是數(shù)據(jù)隱空間分布支集的邊界。我們?cè)陔[空間生成了100個(gè)采樣點(diǎn)，通過(guò)解碼生成100個(gè)手寫(xiě)體數(shù)字圖像。如果采樣點(diǎn)落在某個(gè)團(tuán)簇內(nèi)部，則其生成的圖像就非常清晰；如果采樣點(diǎn)落在團(tuán)簇邊界的外部，則其生成的圖像就非常模糊，往往是兩個(gè)手寫(xiě)體數(shù)字的融合。因此，識(shí)別數(shù)據(jù)流形的邊界對(duì)于識(shí)別臨界狀態(tài)非常重要。

Sora采用的目前最為熱門(mén)的擴(kuò)散模型，在計(jì)算傳輸映射的時(shí)候，必然會(huì)光滑化數(shù)據(jù)流形的邊界，從而混淆不同的模式，直接跳過(guò)臨界態(tài)圖像的生成。因此視頻看上去從一個(gè)狀態(tài)突然跳躍到另外一個(gè)狀態(tài)，中間最為關(guān)鍵的傾倒過(guò)程缺少，導(dǎo)致物理上的荒謬。

視頻6. Sora 生成的小狗。（openai.com）

視頻6顯示了另外一種由于橫跨流形邊界而出錯(cuò)的情形。Sora生成小狗群在嬉笑斗鬧，時(shí)而相互遮擋，時(shí)而散開(kāi)。在視頻的某一剎那，屏幕中的3只小狗突然變成4只小狗。我們?nèi)绱私忉專?只小狗的圖片構(gòu)成一個(gè)流形（或者連通分支），3只小狗的圖片構(gòu)成另一個(gè)分支，在4只小狗圖片流形的邊界處，有個(gè)臨界事件：四只小狗彼此遮擋，圖片中只能看到3只小狗。

Sora的擴(kuò)散模型沒(méi)有識(shí)別出流形的邊界，而是沖破這邊界，在3只小狗圖片的流形和4只小狗圖片的流形間跨越。正確的做法應(yīng)該是先識(shí)別流形的邊界，然后在物理無(wú)法跨越的情形下（如3只邊4只），在邊界處返折回原來(lái)流形。

為什么號(hào)稱模擬世界的Sora處理不好一些簡(jiǎn)單的物理規(guī)律？

圖4. 基于幾何方法的最優(yōu)傳輸映射可以精確檢測(cè)到數(shù)據(jù)流形的邊界，精確得到臨界態(tài)。

擴(kuò)散模型的弊端可以被基于幾何方法的最優(yōu)傳輸模型所克服。如圖4所示，假設(shè)我們計(jì)算從圓盤(pán)內(nèi)部的均勻分布到右側(cè)海馬形狀區(qū)域內(nèi)的均勻分布的最優(yōu)傳輸映射，根據(jù)相應(yīng)的Brenier定理，最優(yōu)傳輸映射由某個(gè)凸勢(shì)能函數(shù)的梯度映射給出。這一勢(shì)能函數(shù)滿足蒙日-安培方程，勢(shì)能函數(shù)并非處處可導(dǎo)，其連續(xù)、非可導(dǎo)的集合投影到圓盤(pán)區(qū)域的奇異集合（黑色曲線），規(guī)則點(diǎn)映射到目標(biāo)區(qū)域的規(guī)則點(diǎn)，奇異集合映射到目標(biāo)區(qū)域的邊界（每個(gè)奇異點(diǎn)同時(shí)映射到左右兩個(gè)邊界點(diǎn)）。

當(dāng)我們跨越奇異集合的時(shí)候，就意味著我們跨越了兩個(gè)穩(wěn)衡態(tài)，必然有臨界（災(zāi)變）事件發(fā)生，即穩(wěn)恒態(tài)被打破的物理事件。由此可見(jiàn)，精確找到傳輸映射的奇異集合，探測(cè)臨界（災(zāi)變）狀態(tài)，對(duì)于物理世界建模具有根本的重要性。

小結(jié)

由此可見(jiàn)，雖然Sora聲稱是“作為世界模擬的視頻生成模型”，目前的技術(shù)路線無(wú)法正確模擬世界的物理規(guī)律。

首先，用概率統(tǒng)計(jì)的相關(guān)性無(wú)法精確表達(dá)物理定律的因果性，自然語(yǔ)言的上下文相關(guān)無(wú)法達(dá)到偏微分方程的精密程度；其次，雖然Transformer可以學(xué)習(xí)臨近時(shí)空令牌間的連接概率，但是無(wú)法判斷全局的合理性，整體的合理性需要更高層次的數(shù)學(xué)理論觀點(diǎn)、或者更為隱蔽而深厚的自然科學(xué)和人文科學(xué)的背景，目前的Transformer無(wú)法真正悟出這些全局觀點(diǎn)；

另外，Sora忽略了物理過(guò)程中最為關(guān)鍵的臨界（災(zāi)變）態(tài)，一方面因?yàn)榕R界態(tài)樣本的稀缺，另一方面因?yàn)閿U(kuò)散模型將穩(wěn)恒態(tài)數(shù)據(jù)流形的邊界模糊化，消弭了臨界態(tài)的存在，生成的視頻出現(xiàn)了不同穩(wěn)恒態(tài)之間的跳躍。

而基于幾何方法的最優(yōu)傳輸理論框架，可以精確檢測(cè)到穩(wěn)恒態(tài)數(shù)據(jù)流形的邊界，從而強(qiáng)調(diào)了臨界態(tài)事件的生成，避免了不同穩(wěn)恒態(tài)之間的橫跳，更加接近物理的真實(shí)。

目前，由Sora為代表的數(shù)據(jù)驅(qū)動(dòng)世界模擬模型，和由第一性原理建立起來(lái)的物理定律和偏微分方程的世界模擬模型開(kāi)始進(jìn)入了酣戰(zhàn)狀態(tài)。這或許是人類歷史的偉大轉(zhuǎn)折點(diǎn)。希望年輕的讀者們都能踴躍躋身到時(shí)代的洪流之中，用自己的聰明才智推動(dòng)科技與社會(huì)的發(fā)展！

作者：顧險(xiǎn)峰

原文鏈接：Sora物理悖謬的幾何解釋

本站是提供個(gè)人知識(shí)管理的網(wǎng)絡(luò)存儲(chǔ)空間，所有內(nèi)容均由用戶發(fā)布，不代表本站觀點(diǎn)。請(qǐng)注意甄別內(nèi)容中的聯(lián)系方式、誘導(dǎo)購(gòu)買等信息，謹(jǐn)防詐騙。如發(fā)現(xiàn)有害或侵權(quán)內(nèi)容，請(qǐng)點(diǎn)擊一鍵舉報(bào)。

轉(zhuǎn)藏 分享

QQ空間 QQ好友新浪微博微信

獻(xiàn)花（0） +1

來(lái)自：昵稱49485892 > 《技術(shù)》

舉報(bào)/認(rèn)領(lǐng)