亚洲一区二区三区高清在线观看,国产男生夜间福利免费网站

Sora的突破，再次證明AI是一個(gè)大型系統(tǒng)工程。OpenAI靠的不是蠻力，國(guó)內(nèi)人工智能圈還需要方方面面的補(bǔ)足。

文｜趙艷秋

編｜牛慧

在春節(jié)開(kāi)工后這一周，國(guó)內(nèi)人工智能圈以及與Sora技術(shù)相關(guān)的大廠，對(duì)OpenAI公布Sora后的反應(yīng)，與媒體上的熱烈程度形成鮮明反差。

OpenAI越來(lái)越閉源，幾乎沒(méi)有任何具體信息，國(guó)內(nèi)還處于拆盲盒階段。不得不承認(rèn)，Sora是算法組合、數(shù)據(jù)選擇、訓(xùn)練策略、算力優(yōu)化等多種能力的結(jié)合，雖然這些技術(shù)可能不是OpenAI的原創(chuàng)，但OpenAI對(duì)它們的深刻洞察，以及精巧的系統(tǒng)構(gòu)思設(shè)計(jì)能力，才做出“顛覆性”突破，而非簡(jiǎn)單的蠻力。

在這樣的大系統(tǒng)工程面前，國(guó)內(nèi)人工智能圈還需要方方面面的補(bǔ)足。

大廠的反應(yīng)

這一周，字節(jié)、百度、阿里、騰訊、華為、浪潮等企業(yè)未對(duì)外發(fā)聲。一些相關(guān)大廠的研發(fā)團(tuán)隊(duì)則在“拆盲盒”，信息也絕對(duì)保密，“Sora將影響今年公司產(chǎn)品的研發(fā)計(jì)劃。”

值得關(guān)注的是，對(duì)Sora的積極關(guān)注度和洞察程度，在大廠的中高層，總體不像去年ChatGPT推出后那么緊迫和深入。

在各大廠內(nèi)網(wǎng)上，核心研發(fā)團(tuán)隊(duì)之外的“吃瓜群眾”，在零星發(fā)帖討論，“談不上討論熱度”，甚至有國(guó)內(nèi)人工智能大廠內(nèi)網(wǎng)是“零貼”。這種狀況與媒體上的熱搜新聞，甚至對(duì)中美AI差距加大的哀嚎，大相徑庭。

不過(guò)，一些較快的動(dòng)作，也能窺見(jiàn)業(yè)界的一些緊迫感。Sora發(fā)布第二天，2月17日，阿里摩搭社區(qū)推出對(duì)Sora技術(shù)路徑的分析，文章很熱；2月18日，百度的度學(xué)堂推出Sora系列解讀課程；春節(jié)后剛開(kāi)工，浪潮相關(guān)業(yè)務(wù)已對(duì)Sora給出分析報(bào)告。不少大廠相關(guān)業(yè)務(wù)線紛紛布置調(diào)研匯報(bào)作業(yè)，其中有些企業(yè)將在本周做出Sora分析調(diào)研。

由于OpenAI透露的信息很少，與ChatGPT推出后，對(duì)技術(shù)的一些具體分析不同，對(duì)Sora的分析猜測(cè)成分更多，具體依據(jù)更少。

從各大廠內(nèi)部的員工討論看，大家集中在幾個(gè)方向：Sora的技術(shù)機(jī)理，包括Sora能不能成為真實(shí)世界的模擬器；算力；商用方向和時(shí)間。目前，技術(shù)機(jī)理還有不少”謎團(tuán)“；對(duì)算力消耗的推測(cè)也較混亂；在Sora商用時(shí)間上，預(yù)測(cè)從一個(gè)月到半年不等，普遍認(rèn)為速度會(huì)很快。

有大廠員工發(fā)文分析，從OpenAI的動(dòng)作，包括發(fā)布Sora、ChatGPT、DALLE以及一直強(qiáng)調(diào)的agent看，今年下半年OpenAI可能發(fā)布的GPT5，將是第一版真正意義的Agent。有了這個(gè)Agent，比如未來(lái)要做一個(gè)App，GPT5可自動(dòng)生成代碼、圖片、視頻、打包部署，包括申請(qǐng)、配置域名，最終生成可訪問(wèn)的App。這些推測(cè)也預(yù)示著，每位員工未來(lái)的工作方式正在被重塑。

雖然大廠論壇鮮有對(duì)技術(shù)差距的哀嚎，但員工在交流中都有抱怨和無(wú)奈。不過(guò)，也有人士認(rèn)為，Sora反而對(duì)國(guó)內(nèi)AI超級(jí)有利，原因是在全球短視頻市場(chǎng)上，字節(jié)、騰訊、快手占前三，而Sora原理基礎(chǔ)大家也都知道，以國(guó)內(nèi)現(xiàn)有的GPU算力，推測(cè)“快的話一年”，國(guó)內(nèi)將有類(lèi)似產(chǎn)品推出。

OpenAI不靠蠻力

業(yè)界都關(guān)注到，Sora 的驚艷效果得益于新的算法組合和訓(xùn)練策略。然而，類(lèi)似ChatGPT，單純從具體算法來(lái)說(shuō)，都不是 OpenAI的原創(chuàng)。

“Sora 在算法組織和數(shù)據(jù)訓(xùn)練策略上下了很大功夫，充分挖掘了算法和數(shù)據(jù)的潛力，學(xué)到更深層知識(shí)。”云知聲董事長(zhǎng)梁家恩說(shuō)，通過(guò)架構(gòu)設(shè)計(jì)和訓(xùn)練策略，而非單純算法改進(jìn)，OpenAI 繼續(xù)刷新了業(yè)界的認(rèn)知。這體現(xiàn)了OpenAI對(duì)算法和數(shù)據(jù)潛力的深刻洞察，以及精巧的系統(tǒng)構(gòu)思設(shè)計(jì)能力，而非簡(jiǎn)單使用“蠻力”，才能做出這種“顛覆性”的突破。

在Sora官宣后，紐約大學(xué)謝賽寧對(duì)其進(jìn)行了技術(shù)推測(cè)。由于謝賽寧與Sora團(tuán)隊(duì)關(guān)系較近，他的推測(cè)影響很廣，尤其是他猜測(cè)“Sora參數(shù)可能是30億”。

一些人士認(rèn)為30億參數(shù)有一定道理。一位資深人士分析，Sora生成的視頻效果驚艷，但細(xì)節(jié)問(wèn)題較多，應(yīng)該是OpenAI拿出來(lái)先秀肌肉的，OpenAI會(huì)進(jìn)一步擴(kuò)展模型；另一位資深人士則從算力角度直觀分析，視頻是三維的，單位處理需要的算力非常大，如果Sora參數(shù)太大，算力會(huì)不夠。

不過(guò)，也有一些行業(yè)人士認(rèn)為“不止30億”。

“30億參數(shù)，我認(rèn)為是有誤導(dǎo)性的。”一位短視頻人工智能資深人士告訴數(shù)智前線，“Sora背后依賴了OpenAI最強(qiáng)大的語(yǔ)言模型來(lái)生成Caption（字幕、說(shuō)明文字）。”而在Sora提供的技術(shù)報(bào)告中，簡(jiǎn)要描述了，他們針對(duì)視頻如何設(shè)計(jì)自動(dòng)化技術(shù)，生成文本描述，或?qū)⒑?jiǎn)短的用戶提示轉(zhuǎn)換為更長(zhǎng)的詳細(xì)描述，用來(lái)提高視頻的整體質(zhì)量。

而從OpenAI一直在摸索人工智能邊界的風(fēng)格來(lái)看，一些人士也認(rèn)為，30億太小了。“這不符合它一貫的做法，他們都是‘大力出奇跡’。”中科深智CTO宋健對(duì)數(shù)智前線說(shuō)，實(shí)際上，理論上已指明了道路，有不少企業(yè)也去嘗試了，目前來(lái)看，真正意義上能執(zhí)行下去的只有Sora。

一位浪潮人士稱，Sora的突破再次證明了AI是一個(gè)系統(tǒng)工程，單純靜態(tài)的推測(cè)參數(shù)可能沒(méi)有意義。

在視頻生成上，過(guò)去大家的困難在于，很難保持視頻的連貫性或一致性，因?yàn)橹虚g有很多反常識(shí)的東西，如光影不對(duì)、空間變形，所以業(yè)界搞不定長(zhǎng)視頻。

“OpenAI 最終是否采用了更大規(guī)模的參數(shù)，根據(jù)目前公開(kāi)信息還無(wú)法判斷，但我估計(jì)以他們風(fēng)格肯定會(huì)嘗試的。”梁家恩說(shuō)，此前，OpenAI 從 GPT2 做到 GPT3 時(shí)，就是堅(jiān)信只要算法架構(gòu)合理，通過(guò)超大規(guī)模的無(wú)監(jiān)督學(xué)習(xí)，是可以通過(guò)小樣本甚至零樣本學(xué)習(xí)，擊敗有監(jiān)督學(xué)習(xí)，這是 OpenAI 對(duì)規(guī)模效應(yīng)的堅(jiān)定信念。“這次Sora通過(guò)算法組合和數(shù)據(jù)設(shè)計(jì)，學(xué)到更多符合物理規(guī)律的‘知識(shí)’，符合 OpenAI 這些年來(lái)的一貫風(fēng)格。”

不過(guò)，Sora尚不能稱為一個(gè)合格的物理世界的模擬器。在它生成的視頻中，存在大量錯(cuò)誤。OpenAI自己也在技術(shù)報(bào)告中提出，這是一個(gè)有希望的方向。

人們對(duì)Sora的需求不同。“如果你現(xiàn)在做數(shù)字孿生，還不如直接用物理引擎作為底層來(lái)構(gòu)建，就像英偉達(dá)的Omniverse，雖然不完全是物理的，但已經(jīng)很精確了。”宋健說(shuō)，“但對(duì)于視覺(jué)藝術(shù)來(lái)講，講的是視覺(jué)感受力，反物理也沒(méi)關(guān)系，只要視覺(jué)上給大家足夠好的沖擊力就可以。”

算力猜想

“現(xiàn)在大家對(duì)算力的推測(cè)非�；靵y。”一位英偉達(dá)人士告訴數(shù)智前線。由于OpenAI這次公布的信息非常少，業(yè)界很難評(píng)估。

“視覺(jué)模型或多模態(tài)模型跟大語(yǔ)言模型算力的評(píng)估方式不太一樣。”一位人工智能算力資深人士告訴數(shù)智前線，即便Sora可能只有幾十億參數(shù)，其算力與幾百億或上千億的大語(yǔ)言模型估計(jì)差不多。

他進(jìn)一步分析，可以參考文生圖模型Stable Diffusion，參數(shù)大概只有10億，但訓(xùn)練算力用了幾十臺(tái)服務(wù)器，花了將近一個(gè)月時(shí)間。他估計(jì)Sora的訓(xùn)練算力可能比前者至少大一個(gè)數(shù)量級(jí)，也就是數(shù)百臺(tái)服務(wù)器，而后面OpenAI肯定會(huì)進(jìn)一步去做scaling，把Sora模型做的更大。

另一方面，這種模型的推理算力也比大語(yǔ)言要大很多，有數(shù)據(jù)曾顯示，Stable Diffusion的推理算力消耗，與Llama 70b（700億）參數(shù)模型差不多。也就是說(shuō)，推理算力上，一個(gè)10億的文生圖模型，與千億量級(jí)的大語(yǔ)言模型差不多。而Sora這種視頻生成模型的推理算力，肯定比圖片生成模型還要大很多。

“文本是一維的，視頻是三維的，視頻的單位計(jì)算量大很多。”一位人工智能專家告訴數(shù)智前線，他認(rèn)為需要大幾千卡才有機(jī)會(huì)。

由于Sora推動(dòng)的文生視頻方向的發(fā)展，今年國(guó)內(nèi)算力總體仍會(huì)非常緊張。有算力基礎(chǔ)設(shè)施企業(yè)人士稱，在人工智能算力上，北美幾家巨頭的算力，現(xiàn)在已是國(guó)內(nèi)總算力的十幾倍，甚至還要更多。

但在某些局部上，國(guó)內(nèi)算力已經(jīng)出現(xiàn)了閑置。這包含了幾種情況，比如一些去年上半年開(kāi)始訓(xùn)練大模型的企業(yè)，放棄開(kāi)發(fā)大模型或改為使用開(kāi)源模型；去年大語(yǔ)言模型的落地應(yīng)用遭遇挑戰(zhàn)，還沒(méi)有大量的推理應(yīng)用落地，這些會(huì)導(dǎo)致一些企業(yè)出現(xiàn)幾十臺(tái)或幾百臺(tái)的空閑。

宋健也發(fā)現(xiàn)了局部算力閑置的問(wèn)題。他觀察，尤其是2023年11月份左右開(kāi)始，算力的租賃變得容易，而且價(jià)格可能是原來(lái)的2/3甚至1/2。