自拍偷在线精品自拍偷无码专区_又污又爽又黄的网站_无码 制服 丝袜 国产 另类_中文无码字幕一区到五区免费

  • 首頁
  • 國內
  • 國際
  • 科技
  • 社會
  • 汽車
  • 體育
  • 金融
  • 綜合
  • 游戲
  • Sora本質上是一個“世界模型”嗎?

    發布時間: 2024-04-07 18:42首頁: > 科技 > 閱讀()

    Sora的技術文章發布之后,OpenAI用的一個詞卻在學界引發了不少的爭議,這就是“世界模擬器”(World Simulator)


    目前(qian),很多外(wai)界的輿論將OpenAI稱Sora為的這(zhe)個“世(shi)界模(mo)(mo)擬器”和(he)“世(shi)界模(mo)(mo)型”相關聯(lian)起來。


    那么(me),什么(me)是世界(jie)模型?為什么(me)大家的期待這么(me)熱烈呢?


    世界(jie)模(mo)型(xing)的概念最早也最常出現(xian)在機器(qi)人領(ling)域的論文(wen)中。2018年,兩位名為David Ha和(he)Jürgen Schmidhuber的學(xue)者(zhe)發(fa)布了(le)一(yi)篇名為World Models的文(wen)章,這篇文(wen)章也被Sora的技術(shu)解釋論文(wen)所引(yin)用(yong)。


    Sora本質上是一個“世界模型”嗎?


    在這篇文章里,作者并沒有對World Models給出一個明確的定義,但是卻引用了一篇系統動力學之父Jay Wright Forrester發布于1971年的有關人腦mental model的文獻來進行類比。Forrester指出,人類使用有限的感官感知世界,并基于這些感知建立起一個內部的、簡化的世界模型。我(wo)們所做的決(jue)策和行動都(dou)是(shi)基于(yu)這個內部(bu)模型。


    Sora本質上是一個“世界模型”嗎?


    在(zai)這個(ge)(ge)mental model中(zhong),并(bing)不(bu)包含世(shi)界(jie)上的(de)所有信息或(huo)細節(jie),而只是(shi)包含了被我(wo)們選中(zhong)的(de)某些互(hu)相(xiang)關聯的(de)概念(nian)。換句話說(shuo),人們在(zai)頭腦中(zhong)構建的(de)世(shi)界(jie)圖像是(shi)現實世(shi)界(jie)的(de)一個(ge)(ge)簡化版,這個(ge)(ge)簡化的(de)模型(xing)不(bu)僅(jin)幫助我(wo)們理解世(shi)界(jie),更重要的(de),我(wo)們還會根據這個(ge)(ge)頭腦中(zhong)的(de)簡化世(shi)界(jie)決定(ding)預(yu)測未來(lai)走向。


    世界模型也采用了類似的思維模式:在有限的、有選擇性的信息基礎上進行有效的決策和預測。更重(zhong)要的是,和人腦一樣,世界模型不(bu)僅(jin)需(xu)要預測(ce)立即的結果,還要能夠預測(ce)更長(chang)時間序列的后(hou)果,這對于理(li)解復雜(za)環(huan)境和規劃長(chang)期策略(lve)至關重(zhong)要。


    Sora本質上是一個“世界模型”嗎?


    具體到模型架(jia)構上(shang),根(gen)據(ju)圖(tu)靈獎獲得者(zhe)、Meta的首席AI科(ke)學家Yann LeCun的定義,一個世界模型應該包含以下元素:


    1)觀察 x(t):這是你在給定(ding)時刻對世界的看法或(huo)感(gan)知。想(xiang)象你在玩視頻游戲,看到你的角色站在一個(ge)平臺上。那就是你的觀測。


    2)狀態估計 s(t):模型對當前世(shi)界狀態的(de)估計。就像你在游(you)戲中有(you)一個關于一切(qie)所在位置的(de)心理地圖,即使你現(xian)在看不到全(quan)部(bu)。


    3)動作建議 a(t):模(mo)型可(ke)能提出(chu)的行(xing)動方(fang)案。這是對下一步要(yao)做(zuo)什么的建議,比如(ru)決定(ding)跳躍(yue)到另外一個(ge)臺(tai)階上。


    4)潛在變量建議 z(t):用于表示當前觀察不能完全解釋的未知信息。這就有點棘手了。它代表所有未知因素,這些因素可能影響你行動的結果。想象游戲中有風,當跳躍時風可能會把你的角色吹偏。你看不到風(它是(shi)未知的),但你(ni)知道它可能影(ying)響(xiang)你(ni)的(de)跳躍(yue)。


    Sora本質上是一個“世界模型”嗎?


    Yann LeCun認為,世界模型有兩個組成部分:編碼器(這個函數接(jie)受你的(de)觀測(ce)并將其轉換成模型可以更有效工作的(de)格式(shi)或表示),和隱藏狀態預測器【利用(yong)編碼后(hou)的觀測、當前的世界(jie)狀(zhuang)(zhuang)態、你(ni)正在考慮(lv)的行(xing)動(dong)和未知因素(潛在變量)來(lai)(lai)猜(cai)測接下來(lai)(lai)會發生什么,以此(ci)來(lai)(lai)預測世界(jie)的未來(lai)(lai)狀(zhuang)(zhuang)態】


    Yann LeCun定義下的世界模型之所以強大,是因為它試圖模仿智能生物與世界的互動方式:觀察、理解、預測和行動,同時也考慮未知的事物和因素。 它是一個綜合框架,可以應用于從玩視頻游戲到導航現實世界環境的各種問題,目標是創建能夠學習以對未知因素具有適應性和魯棒性(在異常和危險情(qing)況下系統生存的(de)能力)的方式(shi)導航(hang)和與復雜環(huan)境交(jiao)互的模型。


    是(shi)不是(shi)覺得以上的解釋非常(chang)復雜很難(nan)懂?沒關系,AI生成(cheng)視頻公司runway在去年年底出了一個還挺有趣的視頻,更簡單易懂的解釋了世界模型(xing)。


    Sora本質上是一個“世界模型”嗎?


    也就是(shi)說,世界(jie)模(mo)(mo)型就像狗(gou)狗(gou)一(yi)樣,對所有的視覺,聽覺和一(yi)切數據的關系(xi),這(zhe)個模(mo)(mo)型能弄清(qing)楚如何預(yu)測(ce)結果,以及調整它(ta)(ta)的行為。而(er)更重(zhong)要的是(shi),世界(jie)模(mo)(mo)型要能和狗(gou)狗(gou)一(yi)樣,對新的、沒有見(jian)過(guo)的數據也能形(xing)成(cheng)泛化的理解,也根據它(ta)(ta)對世界(jie)的理解,從而(er)對未來做出預(yu)測(ce)。


    也就是說,我(wo)家狗不僅會(hui)對(dui)它愛吃的零(ling)食(shi)流(liu)口(kou)水也會(hui)拽我(wo)去(qu)它最愛的狗公(gong)園(yuan),同(tong)時,它會(hui)對(dui)它從來(lai)沒吃過(guo)的東西(xi)流(liu)口(kou)水,或(huo)者,去(qu)拽著我(wo)去(qu)一(yi)家它從來(lai)沒去(qu)過(guo)的寵物零(ling)食(shi)店。


    Sora本質上是一個“世界模型”嗎?


    所以,在理想狀態下,訓練出的世界模型不僅能夠復制它看到的數據,更能夠理解數據背后的因果關系,并在新的情況下做出有效的預測。如果把世界模型的概念套用到視頻生成領域則可以理解為,這個模型能夠讓機器像人類一樣,對世界產生一個全面而準確的認知,從而生成更流暢、更符合邏輯、時間更長的視頻


    所以,就在此前GPT和diffusion等模(mo)型路線無法(fa)達(da)到能讓(rang)業界商用的標(biao)準時,很多(duo)行(xing)業人士是對“世界模(mo)型”抱有極大期待的,包括了好(hao)萊塢等影視特效團隊。


    Sora本質上是一個“世界模型”嗎?


    陸貝珂(ke),電視劇《三體》視覺導演:


    世(shi)界(jie)(jie)模型的(de)開發應(ying)該接下來(lai)是一(yi)個(ge)很好的(de)方向,因(yin)為(wei)世(shi)界(jie)(jie)模型最(zui)大(da)(da)的(de)一(yi)個(ge)核心其實(shi)是,讓(rang)它(ta)真正地認識到(dao)那些不可約化(hua)的(de)東西,還有(you)你(ni)認識到(dao)自身的(de)邊界(jie)(jie)在哪(na)。因(yin)為(wei)你(ni)做任(ren)何(he)的(de)事情它(ta)是有(you)一(yi)種(zhong)框(kuang)架性,對(dui)吧?你(ni)真實(shi)的(de)世(shi)界(jie)(jie)就(jiu)是這(zhe)樣的(de),真實(shi)世(shi)界(jie)(jie)它(ta)的(de)框(kuang)架來(lai)自于大(da)(da)量的(de)物理事實(shi)和人(ren)際(ji)關系的(de)情緒事實(shi),這(zhe)個(ge)世(shi)界(jie)(jie)運轉時候的(de)一(yi)種(zhong)這(zhe)種(zhong)政治邏輯,對(dui)吧?


    這(zhe)(zhe)是(shi)幾種很多(duo)東(dong)西(xi),這(zhe)(zhe)是(shi)你的(de)(de)(de)世(shi)界的(de)(de)(de)框(kuang)架,你如(ru)果只是(shi)從語言(yan)的(de)(de)(de)角度去理解(jie)世(shi)界的(de)(de)(de)時(shi)候,你就發現不了這(zhe)(zhe)個世(shi)界真實的(de)(de)(de)那一個框(kuang)架。這(zhe)(zhe)部分現在我(wo)覺得在GPT4的(de)(de)(de)這(zhe)(zhe)個級別上,因為(wei)它是(shi)屬于語言(yan)模(mo)(mo)型,它還沒有達到說后(hou)面的(de)(de)(de)開(kai)放(fang)式的(de)(de)(de)世(shi)界模(mo)(mo)型的(de)(de)(de)這(zhe)(zhe)種級別,那看起(qi)來OpenAI一直在這(zhe)(zhe)方(fang)面努力。


    以Yann Lecun的定義,Sora目前是遠不能達到世界模型的標準,而(er)更多(duo)的學(xue)界大佬則認(ren)為OpenAI有夸大宣傳的嫌(xian)疑。Yann LeCun本人就曾多(duo)次(ci)公開“狠(hen)批”Sora,表示“生成視頻的過程與(yu)基于世界模型的因果預(yu)測完(wan)全(quan)不同”。


    Sora本質上是一個“世界模型”嗎?


    Keras之父Fran?ois Chollet也持有相似觀點。他認為僅僅通過讓AI觀看視頻是無法完全學習到世界模型的。盡管像Sora這樣的視頻生成模型確實融入了物理模型,問題在于這些模型的準確性及其泛化能力——即它們是否能夠適應新的、非訓練數據插值的情況。而目前,因為完全不(bu)(bu)清楚Sora的(de)(de)(de)demo視頻與訓(xun)練(lian)數據的(de)(de)(de)差異(yi)有多大(da),Sora的(de)(de)(de)泛化能(neng)力(li)(li)到底有多強尚不(bu)(bu)可知。而在已經發布(bu)的(de)(de)(de)demo里,已經有人指出了(le)不(bu)(bu)符(fu)合(he)物(wu)理規(gui)律(lv)之處(chu),這就(jiu)表(biao)明,不(bu)(bu)論(lun)如何Sora物(wu)理模型(xing)的(de)(de)(de)生(sheng)成(cheng)能(neng)力(li)(li)還(huan)未達到令人信服(fu)的(de)(de)(de)可靠水平。


    Sora本質上是一個“世界模型”嗎?


    南京大學人工智能學院教授俞揚也反對將Sora歸類于世界模型。他提出,世界模型的核心在于反事實推理(Counterfactual reasoning),即便對于數據中沒有見過的決策,在世界模型中都能推理出決策的結果。Sora生(sheng)成的視(shi)頻(pin),僅(jin)能通過模糊的提示詞引導(dao),而(er)難以進行準確的操控(kong)。因此(ci)Sora就是一個(ge)視(shi)頻(pin)工具,難以作為反事實推理的工具去準確地回答what if問題。


    Sora本質上是一個“世界模型”嗎?


    至于OpenAI未來(lai)究竟能(neng)不能(neng)推出(chu)真正(zheng)的(de)世(shi)界(jie)模(mo)型(xing),Yann LeCun和(he)Chollet都(dou)表達了質疑態度(du)。Chollet提(ti)到,如果按照目前OpenAI所(suo)采(cai)用的(de)“大(da)數(shu)據、大(da)模(mo)型(xing)、大(da)算力”的(de)暴力美學路線,是不可能(neng)構建出(chu)能(neng)廣泛適(shi)用于現實(shi)世(shi)界(jie)所(suo)有情況的(de)模(mo)型(xing),因為現實(shi)世(shi)界(jie)的(de)復雜度(du)和(he)多樣性遠遠超出(chu)了任何模(mo)型(xing)通過有限數(shu)據所(suo)能(neng)學習到的(de)范圍。


    Sora本質上是一個“世界模型”嗎?


    然而,業界(jie)(jie)也有(you)一些積(ji)極的聲音。在英偉達(da)研究(jiu)(jiu)院(yuan)高級研究(jiu)(jiu)員Jim Fan看來,Sora已經是(shi)一個世(shi)界(jie)(jie)模(mo)(mo)型(xing),包含了(le)世(shi)界(jie)(jie)模(mo)(mo)型(xing)所需要的所有(you)元素。Jim Fan在LinkedIn上轉(zhuan)發了(le)Yann LeCun對(dui)世(shi)界(jie)(jie)模(mo)(mo)型(xing)的定(ding)義,并(bing)評論說:


    Sora本質上是一個“世界模型”嗎?


    Sora本質上是一個世界模型,“無操作”是唯一允許的操作。 您可以設置世界的初始狀態,在潛在空間中運行模擬,并被動觀察發生的情況。現在沒辦法主動干預。


    但(dan)能(neng)(neng)否主(zhu)動(dong)干預,OpenAI官(guan)方似乎是有一些不同的(de)(de)說(shuo)法。但(dan)無論如何,Jim Fan對Sora能(neng)(neng)成為世(shi)界模(mo)型的(de)(de)樂(le)觀是可(ke)以(yi)(yi)理解的(de)(de)。AI視頻生成的(de)(de)用途絕不僅僅在(zai)娛樂(le)和(he)藝術創(chuang)作上,視頻數(shu)(shu)據(ju)可(ke)以(yi)(yi)捕(bu)捉到難以(yi)(yi)用語言(yan)表達的(de)(de)物理世(shi)界中(zhong)的(de)(de)重要(yao)信(xin)息(xi)和(he)數(shu)(shu)據(ju),這將在(zai)AI智能(neng)(neng)體、AI機器人、計(ji)算引(yin)擎、環(huan)境模(mo)擬器、生成游戲環(huan)境等(deng)等(deng)科(ke)學和(he)工程(cheng)(cheng)研究中(zhong),極大程(cheng)(cheng)度推動(dong)相關科(ke)研的(de)(de)發展。


    最近英偉(wei)達(da)宣布,Jim Fan將在(zai)英偉(wei)達(da)內(nei)部領導組(zu)建一個新(xin)研究小組(zu),GEAR,是“Generalist Embodied Agent Research”的(de)簡稱(cheng),中文是“通用具(ju)身智能(neng)體研究”。


    Sora本質上是一個“世界模型”嗎?


    Jim Fan在(zai)推(tui)特上寫到,“2024年(nian)將是屬于機(ji)器人、游(you)戲AI和(he)模擬的一年(nian)。”


    如(ru)果大家去(qu)看看硅谷101之前推出的(de)(de)《AI機器人(ren)》那期節目,在(zai)結(jie)尾(wei)的(de)(de)時候就說(shuo)到(dao):具身(shen)智能(neng)機器人(ren)在(zai)現(xian)實(shi)世界訓練太(tai)困難,采集(ji)數據太(tai)慢太(tai)昂貴,而在(zai)模擬器中訓練將(jiang)是(shi)重要的(de)(de)研究方向(xiang),包括斯(si)(si)坦福著名的(de)(de)人(ren)工智能(neng)學者(zhe)李(li)飛飛教授就是(shi)這一流派的(de)(de)倡導者(zhe),而Jim Fan在(zai)斯(si)(si)坦福時正是(shi)李(li)飛飛的(de)(de)博(bo)士生。


    Sora本質上是一個“世界模型”嗎?


    順便(bian)說一(yi)句,現在蘋果的Vision Pro也出來了,業內(nei)人士認為這將是很好的采集現實空(kong)間(jian)數據的儀器。


    因此,“模擬”Simulation對機器人和智能體行業都將有著重要的意義,而Sora,如果成為“現實世界模擬器”,將極大地助力這個行業的發展。這一(yi)點,我(wo)們也從(cong)斯(si)坦(tan)福(fu)非(fei)常熱門的炒菜機器人團(tuan)隊Aloha的創始團(tuan)隊那里得到(dao)了肯定(ding)。


    Sora本質上是一個“世界模型”嗎?


    Tony Z.Zhao,斯坦福大學開源機器人(ren)Mobile ALOHA項(xiang)目聯合負責人(ren):


    這肯定會很有幫助,或者說任何一種更大規模的pre-training(預訓練)都會(hui)大有幫助。例(li)如,在(zai)這種情況下,杯子就像是半透明的。在(zai)測試時(shi),如果我扔一個藍(lan)色(se)的杯子,它就不會(hui)工作(zuo)。


    但是,如果我們期待一個正確實施的互聯網pre-training(預(yu)訓練(lian)),與這個數(shu)據集相結合,或者在藍色杯子上工作,也不是沒(mei)有道(dao)理的。


    因為也許(xu)世界(jie)模(mo)型(xing)(xing)中捕(bu)捉到了一些常識,它會告訴你,無論(lun)杯子是藍(lan)色(se)、紅色(se)還是半(ban)透明的(de)(de)(de),處理(li)它的(de)(de)(de)方(fang)法(fa)都(dou)是一樣的(de)(de)(de)。因此,我會期待這樣的(de)(de)(de)世界(jie)模(mo)型(xing)(xing)能在(zai)泛化(hua)方(fang)面帶來進展。


    近期,來自Google DeepMind的研究科學家 Sherry Yang及其團隊,聯合業界資深研究員在一篇題為“Video as the New Language for Real-World Decision Making”的論文中,探索了視頻生成技術在機器人,自動駕駛和各類科學領域研究的重大用途,并總結說:視頻生成之于物理世界,就如同語言建模之于數字世界


    Sora本質上是一個“世界模型”嗎?


    所以,到這里我們總結一下,Sora可能并不是一個成熟的產品,它還沒有到ChatGPT時刻,現在可能算得上是GPT3時刻,但OpenAI對Sora的官宣讓我們看到了生成式AI視頻最前沿的技術流派進步,以及用高算力和大參數也能達到“涌現”的技術突破。同時(shi),在AI機器人和具身(shen)智(zhi)能(neng)等(deng)學(xue)術和研究領(ling)域,大家很(hen)期待(dai)Sora能(neng)助力更多(duo)更高效的研發,而至(zhi)于Sora距離商用(yong)還有多(duo)遠,我(wo)們得先等(deng)Sora正式發布,大家都用(yong)起來,才能(neng)知道了。


    但同(tong)時,生成式AI視(shi)頻(pin)大模(mo)型的(de)競爭才(cai)剛剛開(kai)始,雖然OpenAI目前展示(shi)了絕(jue)對的(de)領先地位,遠超runway和pika等一(yi)眾創業公司,但谷(gu)歌也緊追其后。就在2月28日,谷(gu)歌Deepmind發(fa)布了新的(de)可交互視(shi)頻(pin)生成模(mo)型Genie。


    Sora本質上是一個“世界模型”嗎?


    這(zhe)款名為 Genie 的(de)新模型可(ke)以接受簡短(duan)的(de)文字(zi)描(miao)述、手繪草圖或圖片(pian),并將其變成(cheng)一(yi)款可(ke)玩的(de)電子(zi)游(you)戲(xi),游(you)戲(xi)風格類似于超(chao)級(ji)馬里奧等經典的(de) 2D 平臺游(you)戲(xi)。雖然Genie只是一(yi)個內部研究項目也暫時(shi)不(bu)會(hui)對(dui)外界發布,但(dan)業內人士認(ren)為,我們(men)可(ke)能很(hen)快會(hui)看(kan)到(dao)Genie的(de)3D版本,也會(hui)有基(ji)于視頻生(sheng)成(cheng)的(de)游(you)戲(xi)引擎,而(er)這(zhe)也清楚地向外界透(tou)露,和OpenAI一(yi)樣(yang),谷歌(ge)等一(yi)眾科(ke)技巨頭(tou)在生(sheng)成(cheng)式AI視頻上(shang)的(de)野心絕不(bu)僅限于視頻用于娛樂,而(er)在虛(xu)擬環境中訓(xun)練機器人,才(cai)是更(geng)重要的(de)星辰大海。

    特別聲明:文章內容僅供參考,不造成任何投資建議。投資者據此操作,風險自擔。

    首頁 - 國內 - 國際 - 科技 - 社會 - 汽車 - 體育 - 金融 - 綜合 - 游戲

    未(wei)經本站書面(mian)特別授權,請勿(wu)轉載或建立鏡像

    Copyright ? 2024 綠中資訊站 版權所有 |網站地圖