最新videosfree性另类,精品中文字幕一区二区三区四区,国模无码一区二区三区不卡

Sora要徹底取代人類，還差什么？

2024-02-22 14:26

商隱社

關(guān)注

“世界模型”是關(guān)鍵。

作者 | 浩然

本文為商隱社原創(chuàng)文章，轉(zhuǎn)載請聯(lián)系后臺

OpenAI在2月16日凌晨發(fā)布了文生視頻大模型Sora，在科技圈、媒體和朋友圈引起一連串的震驚和感嘆。

一時(shí)間，OpenAI官網(wǎng)公布的由Sora生成的炸裂般視頻在網(wǎng)上廣為流傳。

利用Sora，只需要輸入一段文字提示語，就能得到一段長達(dá)60秒的視頻，其中包含精細(xì)復(fù)雜的場景、生動的角色表情以及復(fù)雜的鏡頭運(yùn)動，幾可亂真。

網(wǎng)友紛紛驚呼AI要讓電影、短視頻、游戲等行業(yè)變天，更有人夸張地驚呼“現(xiàn)實(shí)世界不存在了！”。

Sora生成的視頻截圖

人類被AI替代似乎又近了一步。

這件事讓我們驚嘆Sora掀起的新一輪技術(shù)變革浪潮，或許不久之后，普通人制作視頻的門檻大大降低，復(fù)雜的拍攝、剪輯等工作都會被略掉，人們的想象力和創(chuàng)造力成為視頻內(nèi)容競爭力的最核心來源。

于是，“一人公司”和極小規(guī)模團(tuán)隊(duì)也有機(jī)會完成以往投入巨大人力、成本的電影和視頻內(nèi)容。

技術(shù)浪潮卷起千堆雪，我們有驚嘆和期待，也有被替代和拍碎的擔(dān)憂。

但這幾天我觀察到，站在技術(shù)制高點(diǎn)上的科學(xué)家和很多業(yè)內(nèi)人士討論最多的還是Sora的“世界模型”問題。

Sora生成視頻具有極其逼真的畫面和連貫性，有的不仔細(xì)看幾乎看不出是AI生成的，這并不簡單，需要機(jī)器懂現(xiàn)實(shí)世界的結(jié)構(gòu)、細(xì)節(jié)、運(yùn)動足跡、光影變幻等規(guī)律，不違反人的認(rèn)知，之前一些大模型生成讓人啼笑皆非的圖片，就是明顯不符合現(xiàn)實(shí)世界事物的運(yùn)行規(guī)律。

所以有人認(rèn)為Sora懂物理世界，有了“世界模型”的雛形。

AI的世界模型其實(shí)可以看作是其心智模型，反映了人工智能系統(tǒng)對自身和外部世界的認(rèn)知和期望。

拿人類的世界模型來說，“模型”這個(gè)詞意味著我們了解的所有知識不是以一堆事實(shí)的形式儲存起來的，而是以一種能夠體現(xiàn)世界和它所包含的一切這種結(jié)構(gòu)組織起來的。

我們不會記住關(guān)于每件物品的一系列事實(shí)，而是在大腦中構(gòu)建了無數(shù)個(gè)模型，像“城門樓子”“胯骨軸子”的模型，就不是一回事，各自是什么形狀、怎么排布以及不同的部分是如何移動和配合工作的。

而為了認(rèn)出某樣?xùn)|西，我們會知道它的外觀和觸感；為了實(shí)現(xiàn)目標(biāo)，我們會了解世界上的事物在與我們互動時(shí)的典型表現(xiàn)，比如咬了一口蘋果，會有什么樣的咬痕。

但很多科學(xué)家認(rèn)為Sora并不懂物理世界，沒有“世界模型”。

比如圖靈獎(jiǎng)得主楊立昆（Yann LeCun）就認(rèn)為，僅根據(jù)prompt生成逼真視頻并不能代表一個(gè)模型理解了物理世界，生成視頻的過程與基于世界模型的因果預(yù)測完全不同。

而深度學(xué)習(xí)框架“Keras”的作者、谷歌人工智能研究員弗朗索瓦·肖萊（François Chollet）認(rèn)為，像Sora這樣的視頻生成模型確實(shí)嵌入了「物理模型」，但問題是：這個(gè)物理模型是否準(zhǔn)確？它能否泛化到新的情況，即那些不僅僅是訓(xùn)練數(shù)據(jù)插值的情形？

Sora生成視頻也確實(shí)出現(xiàn)了不少瑕疵，比如“螞蟻巢穴內(nèi)爬行”的POV鏡頭，仔細(xì)看只有4條腿；“人在跑步機(jī)跑步”的視頻是反方向；“一只大鴨子走過波士頓的街道”中鴨子把人踩沒了。

對此，英偉達(dá)高級研究科學(xué)家范麟熙（Jim Fan)表示，我們可以從兩個(gè)角度來解釋這個(gè)問題：

（1）可能是因?yàn)檫@個(gè)模型根本沒有掌握物理知識，它僅僅是在無序地拼湊圖像像素；

（2）模型確實(shí)嘗試構(gòu)建了一個(gè)內(nèi)部的物理引擎，但這個(gè)引擎的表現(xiàn)還不盡人意。

業(yè)內(nèi)人士認(rèn)為，Sora用了“大力出奇跡”的方法，用大量數(shù)據(jù)、大模型和大量算力，底層采用了游戲、無人駕駛和機(jī)器人領(lǐng)域驗(yàn)證的世界模型，構(gòu)建文生視頻模型，達(dá)到模擬世界的能力。

但這就像通過大量“讀圖”學(xué)習(xí)世界運(yùn)行的規(guī)律，雖然也是合理的，但類比人，僅“睜眼看世界”是學(xué)不會牛頓定律等物理學(xué)可以演繹的世界規(guī)律的。

人類最終不是通過模仿鳥類，而是通過理解空氣動力學(xué)而發(fā)明了飛機(jī)。

Sora確實(shí)是AI的又一個(gè)里程碑時(shí)刻，必將大力簡化人的勞動，減少人的“工具人”屬性，可以用來輔助甚至部分擔(dān)綱某些工作，但真正替代人或者說顛覆現(xiàn)實(shí)似乎還為時(shí)尚早。

所以關(guān)鍵或許還是在“世界模型”，那問題來了，我們自己是怎么構(gòu)建世界模型的？

前段時(shí)間讀了一本書——計(jì)算機(jī)科學(xué)家與神經(jīng)科學(xué)家杰夫·霍金斯寫的《千腦智能》，恰好回答了人類是怎么建立起世界模型的，而他認(rèn)為AI要真正實(shí)現(xiàn)智能，還是得從人的大腦中探尋。

一般來說，復(fù)雜動物的大腦會隨著時(shí)間推移不斷進(jìn)化，在舊部分基礎(chǔ)上進(jìn)化出新部分，從而能操縱越來越復(fù)雜的行為。

舊腦部分控制著更原始的行為，比如呼吸、饑餓、反射反應(yīng)。而新腦部分也就是“新皮質(zhì)”則創(chuàng)造出更復(fù)雜的行為，大多是有智能成分的，比如視覺、語言、音樂、數(shù)學(xué)、科學(xué)和工程。

我們思考問題時(shí)，主要也是新皮質(zhì)在思考。

新皮質(zhì)雖然展開像桌布那么大，厚度大約2.5毫米，但卻有著非常復(fù)雜的皮質(zhì)算法——

它有幾十個(gè)區(qū)域，分別負(fù)責(zé)視覺、聽覺、觸覺、語言、計(jì)劃等，而且各區(qū)域通過神經(jīng)纖維束連接；

1平方毫米的新皮質(zhì)中就有大約10萬個(gè)神經(jīng)元，5億個(gè)神經(jīng)元之間的連接（稱為突觸），以及幾千米長的軸突和樹突；

新皮質(zhì)中隨處可見精確且極其復(fù)雜的神經(jīng)回路。

新皮質(zhì)中的連接

新皮質(zhì)的基本單位，也可以稱為是“智能單位”是“皮質(zhì)柱”，大約有15萬根皮質(zhì)柱像樂高積木一樣并排堆疊在一起，每個(gè)都可以計(jì)算任何刺激或感覺（聽覺、嗅覺、觸覺、味覺和視覺）

它能分析和處理輸入信號，無論信號類型如何。因此，每個(gè)也可以預(yù)測一個(gè)輸出。這意味著每個(gè)瞬間有15萬個(gè)預(yù)測。大腦皮層以連續(xù)時(shí)間步長預(yù)測了數(shù)以千計(jì)的現(xiàn)實(shí)。

我們目光移動時(shí)，皮質(zhì)柱就對它將要看到的東西進(jìn)行預(yù)測；

要拿起東西，皮質(zhì)柱就會預(yù)測每個(gè)手指應(yīng)該有什么感覺；

想做一個(gè)動作時(shí)，皮質(zhì)柱也會預(yù)測將發(fā)生什么。

新皮質(zhì)能預(yù)測最小的刺激物，如杯子把手的質(zhì)地，而且每根皮質(zhì)柱，都在進(jìn)行預(yù)測。

但預(yù)測是前提是新皮質(zhì)要知道什么才是準(zhǔn)確的。這主要基于過去的經(jīng)驗(yàn)中進(jìn)行的學(xué)習(xí)。

新皮質(zhì)學(xué)習(xí)的就是世界模型，這種模型是感官輸入、參考系和位置的組合。

感官輸入就像是我們喂給機(jī)器的海量數(shù)據(jù)，不過人的輸入是通過眼耳鼻舌身，基于兩種變化：世界在不斷變化，各種風(fēng)吹草動都是新的輸入；人在不斷移動，每次移動輸入到大腦的信息會完全改變。

新皮質(zhì)在事件和感覺之間建立聯(lián)系。此外，它將能學(xué)習(xí)它產(chǎn)生的動作的效果。這是感知運(yùn)動學(xué)習(xí)。

感知運(yùn)動之中，皮質(zhì)柱也在一刻不停地預(yù)測，預(yù)測得到驗(yàn)證時(shí)，就意味著大腦中的世界模型是準(zhǔn)確的。如果有任何信息輸入與新皮質(zhì)的預(yù)測不一致，那就會提醒新皮質(zhì)，它需要更新這部分世界模型。這是在錯(cuò)誤中分析學(xué)習(xí)。

還有很重要的一點(diǎn)就是，模型一定要有參考系和位置，皮質(zhì)柱如果要預(yù)測下一個(gè)輸入，也必須知道感官的移動方式。

而人的大腦也有對參考系和位置的感知，比如我們把手放在一個(gè)物體上，就能大體知道手相對于物體的大體位置，往上碰可能就是杯口，然后意識里有杯口的形狀、觸感，往下的一系列結(jié)構(gòu)、細(xì)節(jié)也有意識。

假如沒有參考系和位置的感知，完全不知道相對于物體的位置，就很難預(yù)測下一段輸入。

數(shù)學(xué)中我們用x、y和z坐標(biāo)軸來定義某物在空間中的位置，而地理上用經(jīng)緯度定義地球表面的位置，大腦也會把類似參考系的東西附著在接觸和感知的物體上。

參考系和位置能給大腦帶來三點(diǎn)，一是使大腦了解某物的結(jié)構(gòu)，各部分在空間中怎么排列。

二是利用參考系來定義一個(gè)物體，大腦便可以一次性操縱整個(gè)物體。比如一旦我們了解了一輛汽車，就能想象它從不同的角度看是什么樣子，也能辨別出它在某個(gè)維度上是否被拉長了。

三是提供了下一步計(jì)劃和移動的方向。比如拿著手機(jī)，想按下手機(jī)的電源按鈕，大腦知道當(dāng)前位置和電源按鈕的位置，它就可以計(jì)算出手指需要怎樣從當(dāng)前位置移到新位置。這種計(jì)算需要一個(gè)與手機(jī)位置相關(guān)的參考系。

大腦自帶的參考系可能與位置細(xì)胞和網(wǎng)格細(xì)胞有關(guān)，位置細(xì)胞能讓人知道身在何處，網(wǎng)格細(xì)胞就像紙質(zhì)地圖上的行和列，覆蓋在所處環(huán)境上，兩者一起為人所處環(huán)境創(chuàng)建一個(gè)完整的模型。

大腦不會保存每個(gè)事物的圖像，而是保存興趣點(diǎn)。這就像你的腦海中有世界的多重網(wǎng)格。對于大腦來說，世界是一系列記憶（動態(tài)）。需要位置來關(guān)聯(lián)位置和記憶，因?yàn)樗梢宰屇阏业阶约旱穆凡⒁苿印?/strong>

大腦中的連接存儲著我們通過經(jīng)驗(yàn)學(xué)習(xí)的世界模型。每天我們都會經(jīng)歷新的事物，并通過形成新的突觸來為模型添加新的知識片段。

15萬根皮質(zhì)柱每根都是一個(gè)完整的系統(tǒng)，它們可能會對同一個(gè)動作同時(shí)做出成千上萬種預(yù)測，每根皮質(zhì)柱的感知都會進(jìn)行傳播，同時(shí)接收來自其他皮質(zhì)柱的預(yù)測，最常見的猜測會勝過最不常見的猜測，直到整個(gè)網(wǎng)絡(luò)確定一個(gè)答案。有種類似“票選”的機(jī)制。

所以依據(jù)人腦的原理，作者認(rèn)為智能系統(tǒng)可以用四個(gè)標(biāo)準(zhǔn)來構(gòu)成：

一是機(jī)器需要不斷學(xué)習(xí)。機(jī)器需要從錯(cuò)誤中學(xué)習(xí)以更新其世界模型。

二是機(jī)器需要通過運(yùn)動來學(xué)習(xí)。運(yùn)動可以表征位置。如果缺少的話，對世界的表示將有偏差。

三是機(jī)器需要?jiǎng)?chuàng)建很多模型。新皮質(zhì)的每個(gè)皮質(zhì)柱學(xué)習(xí)一個(gè)包含數(shù)千個(gè)對象的模型，解決綁定問題（一個(gè)獨(dú)特的感知）的過程是通過投票進(jìn)行的。一臺機(jī)器需要獲取相同的進(jìn)程。

四是機(jī)器需要使用參考系來存儲知識。思考是一種運(yùn)動。它是通過連接參考系中的點(diǎn)而出現(xiàn)的。如果機(jī)器不能使用運(yùn)動，它就不能思考。

可能在未來幾十年里，我們不用擔(dān)心人類被徹底替代，更不用擔(dān)心科幻小說里那種AI產(chǎn)生意識、奴役人類的噩夢。但我們可能會越來越依賴機(jī)器和算法為我們提供便利，甚至做決定。

杰夫·霍金斯在他的書中反復(fù)提及人其實(shí)對自己的大腦知之甚少，有很多未解之謎，對人的研究太少，這才是我們更應(yīng)該擔(dān)心的。因?yàn)榕c跟發(fā)展人工智能的熱情相比，我們不太注重研究人的意識，那么計(jì)算機(jī)有了極先進(jìn)的人工智能之后，可能只會增強(qiáng)人類的“自然愚蠢”。

當(dāng)先進(jìn)的算法更了解我們，更會觸發(fā)我們的情緒，并且運(yùn)用這種神奇的能力找到我們深層次的焦慮、恐懼來推銷，甚至操縱。當(dāng)我們沉浸于Sora為我們打造的視覺盛宴和奇幻世界而不再對現(xiàn)實(shí)和自然進(jìn)行感知運(yùn)動學(xué)習(xí)，不再豐富我們自己的世界模型。這才是最危險(xiǎn)的。

事實(shí)上，人工智能還沒來操縱我們，就有很多賣課人僅利用人工智能的概念就捕獲了幾十萬人的焦慮，賺得盆滿缽滿。

Sora還沒讓我們沉浸于視覺盛宴和虛擬世界難以自拔，我們就被直播和短視頻撩得難以脫身。

大家都在玩手機(jī)，只有人工智能在翻資料，啃數(shù)據(jù)。

參考資料：

1、[美] 杰夫·霍金斯《千腦智能》，浙江教育出版社

2、機(jī)器之心《Sora到底懂不懂物理世界？一場頭腦風(fēng)暴正在AI圈大佬間展開》

3、新智元《Sora不懂物理世界，翻車神圖全網(wǎng)爆笑！LeCun馬斯克激辯世界模型》

4、尤瓦爾·赫拉利《今日簡史：人類命運(yùn)大議題》，中信出版社

5、賽博禪心《中學(xué)生能看懂：Sora 原理解讀》

原文標(biāo)題 : Sora要徹底取代人類，還差什么？

Sora AI 世界模型

相關(guān)閱讀
Sora AI 世界模型

AI大模型讓智慧交通“更聰明” 海信亮相2024世界人工智能大會 2024-07-08

科大訊飛市值再破千億，大模型Sora引爆AI概念 2024-02-21

Sora后觀察：AI大模型產(chǎn)業(yè)落地的八個(gè)錨點(diǎn) 2024-02-20

Sora“拯救”元宇宙，世界模型的潛力才剛釋放 2024-02-20

OpenAI首個(gè)AI視頻模型Sora的顛覆與爭議 2024-02-18

分享
新浪微博騰訊QQ QQ空間微信

本地收藏打印推薦給朋友

聲明： 本文由入駐維科號的作者撰寫，觀點(diǎn)僅代表作者本人，不代表OFweek立場。如有侵權(quán)或其他問題，請聯(lián)系舉報(bào)。

發(fā)表評論

共0條評論，0人參與

登錄登錄即可訪問所有OFweek服務(wù)

用戶名/郵箱/手機(jī)：

密碼：

忘記密碼？

用其他賬號登錄： QQ | 微信 | 新浪微博

請輸入評論內(nèi)容...

請輸入評論/評論長度6~500個(gè)字

您提交的評論過于頻繁，請輸入驗(yàn)證碼繼續(xù)

驗(yàn)證碼：刷新

最新評論

熱門評論

暫無評論

暫無評論

圖片新聞

傳富士康欲截胡收購日產(chǎn)，本田急了

眼紅臺積電，韓國將成立“韓積電”

博通市值破萬億刀，定制AI芯片劍指英偉達(dá)GPU

又一AI公司原地解散！

江蘇半導(dǎo)體精密制造龍頭今日IPO

清華系創(chuàng)企好進(jìn)賬！融資數(shù)億元

傳瑞薩電子裁撤蘇州 MCU 研發(fā)團(tuán)隊(duì)

智能制造升級之旅，華為是企業(yè)最佳“同路人”