自拍偷在线精品自拍偷无码专区_又污又爽又黄的网站_无码制服丝袜国产另类_中文无码字幕一区到五区免费

Sora本質上是一個“世界模型”嗎？

發布時間： 2024-04-07 18:42首頁： > 科技 > 閱讀()

Sora的技術文章發布之后，OpenAI用的一個詞卻在學界引發了不少的爭議，這就是“世界模擬器”（World Simulator）。

目前(qian)，很多外(wai)界的輿論將OpenAI稱Sora為的這(zhe)個“世(shi)界模(mo)(mo)擬器”和(he)“世(shi)界模(mo)(mo)型”相關聯(lian)起來。

那么(me)，什么(me)是世界(jie)模型？為什么(me)大家的期待這么(me)熱烈呢？

世界(jie)模(mo)型(xing)的概念最早也最常出現(xian)在機器(qi)人領(ling)域的論文(wen)中。2018年，兩位名為David Ha和(he)Jürgen Schmidhuber的學(xue)者(zhe)發(fa)布了(le)一(yi)篇名為World Models的文(wen)章，這篇文(wen)章也被Sora的技術(shu)解釋論文(wen)所引(yin)用(yong)。

Sora本質上是一個“世界模型”嗎？

在這篇文章里，作者并沒有對World Models給出一個明確的定義，但是卻引用了一篇系統動力學之父Jay Wright Forrester發布于1971年的有關人腦mental model的文獻來進行類比。Forrester指出，人類使用有限的感官感知世界，并基于這些感知建立起一個內部的、簡化的世界模型。我(wo)們所做的決(jue)策和行動都(dou)是(shi)基于(yu)這個內部(bu)模型。

Sora本質上是一個“世界模型”嗎？

在(zai)這個(ge)(ge)mental model中(zhong)，并(bing)不(bu)包含世(shi)界(jie)上的(de)所有信息或(huo)細節(jie)，而只是(shi)包含了被我(wo)們選中(zhong)的(de)某些互(hu)相(xiang)關聯的(de)概念(nian)。換句話說(shuo)，人們在(zai)頭腦中(zhong)構建的(de)世(shi)界(jie)圖像是(shi)現實世(shi)界(jie)的(de)一個(ge)(ge)簡化版，這個(ge)(ge)簡化的(de)模型(xing)不(bu)僅(jin)幫助我(wo)們理解世(shi)界(jie)，更重要的(de)，我(wo)們還會根據這個(ge)(ge)頭腦中(zhong)的(de)簡化世(shi)界(jie)決定(ding)預(yu)測未來(lai)走向。

而世界模型也采用了類似的思維模式：在有限的、有選擇性的信息基礎上進行有效的決策和預測。更重(zhong)要的是，和人腦一樣，世界模型不(bu)僅(jin)需(xu)要預測(ce)立即的結果，還要能夠預測(ce)更長(chang)時間序列的后(hou)果，這對于理(li)解復雜(za)環(huan)境和規劃長(chang)期策略(lve)至關重(zhong)要。

Sora本質上是一個“世界模型”嗎？

具體到模型架(jia)構上(shang)，根(gen)據(ju)圖(tu)靈獎獲得者(zhe)、Meta的首席AI科(ke)學家Yann LeCun的定義，一個世界模型應該包含以下元素：

1）觀察 x(t)：這是你在給定(ding)時刻對世界的看法或(huo)感(gan)知。想(xiang)象你在玩視頻游戲，看到你的角色站在一個(ge)平臺上。那就是你的觀測。

2）狀態估計 s(t)：模型對當前世(shi)界狀態的(de)估計。就像你在游(you)戲中有(you)一個關于一切(qie)所在位置的(de)心理地圖，即使你現(xian)在看不到全(quan)部(bu)。

3）動作建議 a(t)：模(mo)型可(ke)能提出(chu)的行(xing)動方(fang)案。這是對下一步要(yao)做(zuo)什么的建議，比如(ru)決定(ding)跳躍(yue)到另外一個(ge)臺(tai)階上。

4）潛在變量建議 z(t)：用于表示當前觀察不能完全解釋的未知信息。這就有點棘手了。它代表所有未知因素，這些因素可能影響你行動的結果。想象游戲中有風，當跳躍時風可能會把你的角色吹偏。你看不到風（它是(shi)未知的），但你(ni)知道它可能影(ying)響(xiang)你(ni)的(de)跳躍(yue)。

Sora本質上是一個“世界模型”嗎？

Yann LeCun認為，世界模型有兩個組成部分：編碼器（這個函數接(jie)受你的(de)觀測(ce)并將其轉換成模型可以更有效工作的(de)格式(shi)或表示），和隱藏狀態預測器【利用(yong)編碼后(hou)的觀測、當前的世界(jie)狀(zhuang)(zhuang)態、你(ni)正在考慮(lv)的行(xing)動(dong)和未知因素（潛在變量）來(lai)(lai)猜(cai)測接下來(lai)(lai)會發生什么，以此(ci)來(lai)(lai)預測世界(jie)的未來(lai)(lai)狀(zhuang)(zhuang)態】。

Yann LeCun定義下的世界模型之所以強大，是因為它試圖模仿智能生物與世界的互動方式：觀察、理解、預測和行動，同時也考慮未知的事物和因素。它是一個綜合框架，可以應用于從玩視頻游戲到導航現實世界環境的各種問題，目標是創建能夠學習以對未知因素具有適應性和魯棒性（在異常和危險情(qing)況下系統生存的(de)能力）的方式(shi)導航(hang)和與復雜環(huan)境交(jiao)互的模型。

是(shi)不是(shi)覺得以上的解釋非常(chang)復雜很難(nan)懂？沒關系，AI生成(cheng)視頻公司runway在去年年底出了一個還挺有趣的視頻，更簡單易懂的解釋了世界模型(xing)。

Sora本質上是一個“世界模型”嗎？

也就是(shi)說，世界(jie)模(mo)(mo)型就像狗(gou)狗(gou)一(yi)樣，對所有的視覺，聽覺和一(yi)切數據的關系(xi)，這(zhe)個模(mo)(mo)型能弄清(qing)楚如何預(yu)測(ce)結果，以及調整它(ta)(ta)的行為。而(er)更重(zhong)要的是(shi)，世界(jie)模(mo)(mo)型要能和狗(gou)狗(gou)一(yi)樣，對新的、沒有見(jian)過(guo)的數據也能形(xing)成(cheng)泛化的理解，也根據它(ta)(ta)對世界(jie)的理解，從而(er)對未來做出預(yu)測(ce)。

也就是說，我(wo)家狗不僅會(hui)對(dui)它愛吃的零(ling)食(shi)流(liu)口(kou)水也會(hui)拽我(wo)去(qu)它最愛的狗公(gong)園(yuan)，同(tong)時，它會(hui)對(dui)它從來(lai)沒吃過(guo)的東西(xi)流(liu)口(kou)水，或(huo)者，去(qu)拽著我(wo)去(qu)一(yi)家它從來(lai)沒去(qu)過(guo)的寵物零(ling)食(shi)店。

Sora本質上是一個“世界模型”嗎？

所以，在理想狀態下，訓練出的世界模型不僅能夠復制它看到的數據，更能夠理解數據背后的因果關系，并在新的情況下做出有效的預測。如果把世界模型的概念套用到視頻生成領域則可以理解為，這個模型能夠讓機器像人類一樣，對世界產生一個全面而準確的認知，從而生成更流暢、更符合邏輯、時間更長的視頻。

所以，就在此前GPT和diffusion等模(mo)型路線無法(fa)達(da)到能讓(rang)業界商用的標(biao)準時，很多(duo)行(xing)業人士是對“世界模(mo)型”抱有極大期待的，包括了好(hao)萊塢等影視特效團隊。

Sora本質上是一個“世界模型”嗎？

陸貝珂(ke)，電視劇《三體》視覺導演：

世(shi)界(jie)(jie)模型的(de)開發應(ying)該接下來(lai)是一(yi)個(ge)很好的(de)方向，因(yin)為(wei)世(shi)界(jie)(jie)模型最(zui)大(da)(da)的(de)一(yi)個(ge)核心其實(shi)是，讓(rang)它(ta)真正地認識到(dao)那些不可約化(hua)的(de)東西，還有(you)你(ni)認識到(dao)自身的(de)邊界(jie)(jie)在哪(na)。因(yin)為(wei)你(ni)做任(ren)何(he)的(de)事情它(ta)是有(you)一(yi)種(zhong)框(kuang)架性，對(dui)吧？你(ni)真實(shi)的(de)世(shi)界(jie)(jie)就(jiu)是這(zhe)樣的(de)，真實(shi)世(shi)界(jie)(jie)它(ta)的(de)框(kuang)架來(lai)自于大(da)(da)量的(de)物理事實(shi)和人(ren)際(ji)關系的(de)情緒事實(shi)，這(zhe)個(ge)世(shi)界(jie)(jie)運轉時候的(de)一(yi)種(zhong)這(zhe)種(zhong)政治邏輯，對(dui)吧？

這(zhe)(zhe)是(shi)幾種很多(duo)東(dong)西(xi)，這(zhe)(zhe)是(shi)你的(de)(de)(de)世(shi)界的(de)(de)(de)框(kuang)架，你如(ru)果只是(shi)從語言(yan)的(de)(de)(de)角度去理解(jie)世(shi)界的(de)(de)(de)時(shi)候，你就發現不了這(zhe)(zhe)個世(shi)界真實的(de)(de)(de)那一個框(kuang)架。這(zhe)(zhe)部分現在我(wo)覺得在GPT4的(de)(de)(de)這(zhe)(zhe)個級別上，因為(wei)它是(shi)屬于語言(yan)模(mo)(mo)型，它還沒有達到說后(hou)面的(de)(de)(de)開(kai)放(fang)式的(de)(de)(de)世(shi)界模(mo)(mo)型的(de)(de)(de)這(zhe)(zhe)種級別，那看起(qi)來OpenAI一直在這(zhe)(zhe)方(fang)面努力。

以Yann Lecun的定義，Sora目前是遠不能達到世界模型的標準，而(er)更多(duo)的學(xue)界大佬則認(ren)為OpenAI有夸大宣傳的嫌(xian)疑。Yann LeCun本人就曾多(duo)次(ci)公開“狠(hen)批”Sora，表示“生成視頻的過程與(yu)基于世界模型的因果預(yu)測完(wan)全(quan)不同”。

Sora本質上是一個“世界模型”嗎？

Keras之父Fran?ois Chollet也持有相似觀點。他認為僅僅通過讓AI觀看視頻是無法完全學習到世界模型的。盡管像Sora這樣的視頻生成模型確實融入了物理模型，問題在于這些模型的準確性及其泛化能力——即它們是否能夠適應新的、非訓練數據插值的情況。而目前，因為完全不(bu)(bu)清楚Sora的(de)(de)(de)demo視頻與訓(xun)練(lian)數據的(de)(de)(de)差異(yi)有多大(da)，Sora的(de)(de)(de)泛化能(neng)力(li)(li)到底有多強尚不(bu)(bu)可知。而在已經發布(bu)的(de)(de)(de)demo里，已經有人指出了(le)不(bu)(bu)符(fu)合(he)物(wu)理規(gui)律(lv)之處(chu)，這就(jiu)表(biao)明，不(bu)(bu)論(lun)如何Sora物(wu)理模型(xing)的(de)(de)(de)生(sheng)成(cheng)能(neng)力(li)(li)還(huan)未達到令人信服(fu)的(de)(de)(de)可靠水平。

Sora本質上是一個“世界模型”嗎？

南京大學人工智能學院教授俞揚也反對將Sora歸類于世界模型。他提出，世界模型的核心在于反事實推理（Counterfactual reasoning），即便對于數據中沒有見過的決策，在世界模型中都能推理出決策的結果。Sora生(sheng)成的視(shi)頻(pin)，僅(jin)能通過模糊的提示詞引導(dao)，而(er)難以進行準確的操控(kong)。因此(ci)Sora就是一個(ge)視(shi)頻(pin)工具，難以作為反事實推理的工具去準確地回答what if問題。

Sora本質上是一個“世界模型”嗎？

至于OpenAI未來(lai)究竟能(neng)不能(neng)推出(chu)真正(zheng)的(de)世(shi)界(jie)模(mo)型(xing)，Yann LeCun和(he)Chollet都(dou)表達了質疑態度(du)。Chollet提(ti)到，如果按照目前OpenAI所(suo)采(cai)用的(de)“大(da)數(shu)據、大(da)模(mo)型(xing)、大(da)算力”的(de)暴力美學路線，是不可能(neng)構建出(chu)能(neng)廣泛適(shi)用于現實(shi)世(shi)界(jie)所(suo)有情況的(de)模(mo)型(xing)，因為現實(shi)世(shi)界(jie)的(de)復雜度(du)和(he)多樣性遠遠超出(chu)了任何模(mo)型(xing)通過有限數(shu)據所(suo)能(neng)學習到的(de)范圍。

Sora本質上是一個“世界模型”嗎？

然而，業界(jie)(jie)也有(you)一些積(ji)極的聲音。在英偉達(da)研究(jiu)(jiu)院(yuan)高級研究(jiu)(jiu)員Jim Fan看來，Sora已經是(shi)一個世(shi)界(jie)(jie)模(mo)(mo)型(xing)，包含了(le)世(shi)界(jie)(jie)模(mo)(mo)型(xing)所需要的所有(you)元素。Jim Fan在LinkedIn上轉(zhuan)發了(le)Yann LeCun對(dui)世(shi)界(jie)(jie)模(mo)(mo)型(xing)的定(ding)義，并(bing)評論說：

Sora本質上是一個“世界模型”嗎？

Sora本質上是一個世界模型，“無操作”是唯一允許的操作。您可以設置世界的初始狀態，在潛在空間中運行模擬，并被動觀察發生的情況。現在沒辦法主動干預。

但(dan)能(neng)(neng)否主(zhu)動(dong)干預，OpenAI官(guan)方似乎是有一些不同的(de)(de)說(shuo)法。但(dan)無論如何，Jim Fan對Sora能(neng)(neng)成為世(shi)界模(mo)型的(de)(de)樂(le)觀是可(ke)以(yi)(yi)理解的(de)(de)。AI視頻生成的(de)(de)用途絕不僅僅在(zai)娛樂(le)和(he)藝術創(chuang)作上，視頻數(shu)(shu)據(ju)可(ke)以(yi)(yi)捕(bu)捉到難以(yi)(yi)用語言(yan)表達的(de)(de)物理世(shi)界中(zhong)的(de)(de)重要(yao)信(xin)息(xi)和(he)數(shu)(shu)據(ju)，這將在(zai)AI智能(neng)(neng)體、AI機器人、計(ji)算引(yin)擎、環(huan)境模(mo)擬器、生成游戲環(huan)境等(deng)等(deng)科(ke)學和(he)工程(cheng)(cheng)研究中(zhong)，極大程(cheng)(cheng)度推動(dong)相關科(ke)研的(de)(de)發展。

最近英偉(wei)達(da)宣布，Jim Fan將在(zai)英偉(wei)達(da)內(nei)部領導組(zu)建一個新(xin)研究小組(zu)，GEAR，是“Generalist Embodied Agent Research”的(de)簡稱(cheng)，中文是“通用具(ju)身智能(neng)體研究”。

Sora本質上是一個“世界模型”嗎？

Jim Fan在(zai)推(tui)特上寫到，“2024年(nian)將是屬于機(ji)器人、游(you)戲AI和(he)模擬的一年(nian)。”

如(ru)果大家去(qu)看看硅谷101之前推出的(de)(de)《AI機器人(ren)》那期節目，在(zai)結(jie)尾(wei)的(de)(de)時候就說(shuo)到(dao)：具身(shen)智能(neng)機器人(ren)在(zai)現(xian)實(shi)世界訓練太(tai)困難，采集(ji)數據太(tai)慢太(tai)昂貴，而在(zai)模擬器中訓練將(jiang)是(shi)重要的(de)(de)研究方向(xiang)，包括斯(si)(si)坦福著名的(de)(de)人(ren)工智能(neng)學者(zhe)李(li)飛飛教授就是(shi)這一流派的(de)(de)倡導者(zhe)，而Jim Fan在(zai)斯(si)(si)坦福時正是(shi)李(li)飛飛的(de)(de)博(bo)士生。

Sora本質上是一個“世界模型”嗎？

順便(bian)說一(yi)句，現在蘋果的Vision Pro也出來了，業內(nei)人士認為這將是很好的采集現實空(kong)間(jian)數據的儀器。

因此，“模擬”Simulation對機器人和智能體行業都將有著重要的意義，而Sora，如果成為“現實世界模擬器”，將極大地助力這個行業的發展。這一(yi)點，我(wo)們也從(cong)斯(si)坦(tan)福(fu)非(fei)常熱門的炒菜機器人團(tuan)隊Aloha的創始團(tuan)隊那里得到(dao)了肯定(ding)。

Sora本質上是一個“世界模型”嗎？

Tony Z.Zhao，斯坦福大學開源機器人(ren)Mobile ALOHA項(xiang)目聯合負責人(ren)：

這肯定會很有幫助，或者說任何一種更大規模的pre-training（預訓練）都會(hui)大有幫助。例(li)如，在(zai)這種情況下，杯子就像是半透明的。在(zai)測試時(shi)，如果我扔一個藍(lan)色(se)的杯子，它就不會(hui)工作(zuo)。

但是，如果我們期待一個正確實施的互聯網pre-training（預(yu)訓練(lian)），與這個數(shu)據集相結合，或者在藍色杯子上工作，也不是沒(mei)有道(dao)理的。

因為也許(xu)世界(jie)模(mo)型(xing)(xing)中捕(bu)捉到了一些常識，它會告訴你，無論(lun)杯子是藍(lan)色(se)、紅色(se)還是半(ban)透明的(de)(de)(de)，處理(li)它的(de)(de)(de)方(fang)法(fa)都(dou)是一樣的(de)(de)(de)。因此，我會期待這樣的(de)(de)(de)世界(jie)模(mo)型(xing)(xing)能在(zai)泛化(hua)方(fang)面帶來進展。

近期，來自Google DeepMind的研究科學家 Sherry Yang及其團隊，聯合業界資深研究員在一篇題為“Video as the New Language for Real-World Decision Making”的論文中，探索了視頻生成技術在機器人，自動駕駛和各類科學領域研究的重大用途，并總結說：視頻生成之于物理世界，就如同語言建模之于數字世界。

Sora本質上是一個“世界模型”嗎？

所以，到這里我們總結一下，Sora可能并不是一個成熟的產品，它還沒有到ChatGPT時刻，現在可能算得上是GPT3時刻，但OpenAI對Sora的官宣讓我們看到了生成式AI視頻最前沿的技術流派進步，以及用高算力和大參數也能達到“涌現”的技術突破。同時(shi)，在AI機器人和具身(shen)智(zhi)能(neng)等(deng)學(xue)術和研究領(ling)域，大家很(hen)期待(dai)Sora能(neng)助力更多(duo)更高效的研發，而至(zhi)于Sora距離商用(yong)還有多(duo)遠，我(wo)們得先等(deng)Sora正式發布，大家都用(yong)起來，才能(neng)知道了。

但同(tong)時，生成式AI視(shi)頻(pin)大模(mo)型的(de)競爭才(cai)剛剛開(kai)始，雖然OpenAI目前展示(shi)了絕(jue)對的(de)領先地位，遠超runway和pika等一(yi)眾創業公司，但谷(gu)歌也緊追其后。就在2月28日，谷(gu)歌Deepmind發(fa)布了新的(de)可交互視(shi)頻(pin)生成模(mo)型Genie。

Sora本質上是一個“世界模型”嗎？

這(zhe)款名為 Genie 的(de)新模型可(ke)以接受簡短(duan)的(de)文字(zi)描(miao)述、手繪草圖或圖片(pian)，并將其變成(cheng)一(yi)款可(ke)玩的(de)電子(zi)游(you)戲(xi)，游(you)戲(xi)風格類似于超(chao)級(ji)馬里奧等經典的(de) 2D 平臺游(you)戲(xi)。雖然Genie只是一(yi)個內部研究項目也暫時(shi)不(bu)會(hui)對(dui)外界發布，但(dan)業內人士認(ren)為，我們(men)可(ke)能很(hen)快會(hui)看(kan)到(dao)Genie的(de)3D版本，也會(hui)有基(ji)于視頻生(sheng)成(cheng)的(de)游(you)戲(xi)引擎，而(er)這(zhe)也清楚地向外界透(tou)露，和OpenAI一(yi)樣(yang)，谷歌(ge)等一(yi)眾科(ke)技巨頭(tou)在生(sheng)成(cheng)式AI視頻上(shang)的(de)野心絕不(bu)僅限于視頻用于娛樂，而(er)在虛(xu)擬環境中訓(xun)練機器人，才(cai)是更(geng)重要的(de)星辰大海。

特別聲明：文章內容僅供參考，不造成任何投資建議。投資者據此操作，風險自擔。

隨機閱讀

最新資訊
熱門資訊

首頁 - 國內 - 國際 - 科技 - 社會 - 汽車 - 體育 - 金融 - 綜合 - 游戲

未(wei)經本站書面(mian)特別授權，請勿(wu)轉載或建立鏡像

Copyright ? 2024 綠中資訊站版權所有 |網站地圖

<tfoot id='6053k'></tfoot>

<legend id='6053k'><style id='6053k'><dir id='6053k'><q id='6053k'></q></dir></style></legend>

<i id='6053k'><tr id='6053k'><dt id='6053k'><q id='6053k'><span id='6053k'><b id='6053k'><form id='6053k'><ins id='6053k'></ins><ul id='6053k'></ul><sub id='6053k'></sub></form><legend id='6053k'></legend><bdo id='6053k'><pre id='6053k'><center id='6053k'></center></pre></bdo></b><th id='6053k'></th></span></q></dt></tr></i><div id='6053k'><tfoot id='6053k'></tfoot><dl id='6053k'><fieldset id='6053k'></fieldset></dl></div>