國內(nèi)版Sora的秘密,藏在生數(shù)科技大模型團(tuán)隊(duì)里
前言:
在眾多長視頻生成算法中,Sora的技術(shù)革新具有劃時(shí)代的意義。
相較于傳統(tǒng)的 Stable Diffusion,Sora采納了創(chuàng)新的 Diffusion 與Transformer架構(gòu)。
不僅彌補(bǔ)了Stable Diffusion在擴(kuò)展性方面的不足,更在生成內(nèi)容的精確度和靈活性上實(shí)現(xiàn)了顯著的突破。
作者 | 方文三
圖片來源 | 網(wǎng) 絡(luò)
[國產(chǎn)Sora]發(fā)布,全面對(duì)標(biāo)Sora
近日,生數(shù)科技與清華大學(xué)攜手推出國內(nèi)首個(gè)基于自主研發(fā)的U-ViT架構(gòu)的視頻大模型——Vidu。
能迅速生成16秒、高清1080p分辨率的視頻內(nèi)容,展現(xiàn)了與Sora相當(dāng)?shù)男阅,尤其在多鏡頭生成、時(shí)空一致性、模擬真實(shí)物理世界以及創(chuàng)新能力等方面。
Vidu在視頻生成時(shí)長方面具有顯著優(yōu)勢(shì),突破了長期以來國產(chǎn)Sora的十秒閾值。
生數(shù)科技采用單一模型的完全端到端生成方式,實(shí)現(xiàn)連續(xù)、絲滑的視頻內(nèi)容生成,無需插幀處理。
具體而言,Vidu能夠生成細(xì)節(jié)復(fù)雜的場(chǎng)景,符合真實(shí)物理規(guī)律,展現(xiàn)合理光影效果和細(xì)膩人物表情。
同時(shí),它還能生成真實(shí)世界不存在的虛構(gòu)畫面,創(chuàng)造超現(xiàn)實(shí)主義內(nèi)容。
在鏡頭語言方面,不再局限于簡單鏡頭,而是能實(shí)現(xiàn)遠(yuǎn)景、近景、中景、特寫等不同鏡頭的切換,生成長鏡頭、追焦、轉(zhuǎn)場(chǎng)等效果。
值得一提的是,Vidu采用[一步到位]的生成方式,與Sora一樣,文本到視頻的轉(zhuǎn)換直接且連續(xù)。
在底層算法實(shí)現(xiàn)上,Vidu基于單一模型完全端到端生成,不涉及中間插幀和其他多步驟處理。
這一創(chuàng)新技術(shù)為視頻生成領(lǐng)域帶來了新的突破和可能性。
清華系創(chuàng)業(yè),兩條路走路模式
Vidu之名,不僅與[Video]諧音,更富含[We do]之寓意,彰顯著行動(dòng)與實(shí)踐的精神。
公開資料顯示,生數(shù)科技成立于2023年3月,其核心成員均來自于清華大學(xué)人工智能研究院,致力于獨(dú)立研發(fā)全球領(lǐng)先的可控多模態(tài)通用大模型。
生數(shù)科技的首席科學(xué)家朱軍,不僅是清華大學(xué)計(jì)算機(jī)系的教授,還是人工智能研究院的副院長。
同時(shí),生數(shù)科技的CEO唐家渝,其本碩學(xué)歷均來自于清華大學(xué)計(jì)算機(jī)系;
CTO鮑凡則是清華大學(xué)計(jì)算機(jī)系的博士生,并作為朱軍教授課題組的成員,共同推進(jìn)研發(fā)工作。
生數(shù)科技當(dāng)前采取的是模型層和應(yīng)用層并行的戰(zhàn)略。
一方面,他們正致力于構(gòu)建涵蓋文本、圖像、視頻、3D模型等多模態(tài)能力的底層通用大模型,為B端提供模型服務(wù)能力;
另一方面,他們也在圖像生成、視頻生成等場(chǎng)景上打造專業(yè)應(yīng)用,通過訂閱等方式進(jìn)行收費(fèi)。
這些應(yīng)用主要面向游戲制作、影視后期等內(nèi)容創(chuàng)作場(chǎng)景,展現(xiàn)出生數(shù)科技在技術(shù)和市場(chǎng)應(yīng)用上的雙重實(shí)力。
走對(duì)技術(shù)路線,融合框架優(yōu)勢(shì)顯現(xiàn)
生數(shù)科技近日發(fā)布的Vidu與Sora視頻生成技術(shù),顯著區(qū)別于市場(chǎng)主流基于U-Net卷積架構(gòu)的傳統(tǒng)擴(kuò)散模型,采用了前沿的融合架構(gòu),即U-ViT與DiT。
這種融合架構(gòu)是Diffusion(擴(kuò)散模型)與Transformer的有機(jī)結(jié)合,旨在發(fā)揮Transformer在可擴(kuò)展性方面的優(yōu)勢(shì);
同時(shí)保留Diffusion模型在處理視覺數(shù)據(jù)時(shí)的天然強(qiáng)項(xiàng),從而在視覺任務(wù)中展現(xiàn)出卓越的性能。
回顧生數(shù)科技在視頻生成技術(shù)領(lǐng)域的研發(fā)歷程,早在2017年,團(tuán)隊(duì)便發(fā)布了貝葉斯概率機(jī)器學(xué)習(xí)平臺(tái)[珠算]。
這一平臺(tái)在國際上屬于最早面向深度概率模型的編程庫之一,支持包括GAN、VAE、Flow等在內(nèi)的多種深度生成式模型的概率建模。
2022年初,團(tuán)隊(duì)提出了無訓(xùn)練推理框架Analytic-DPM,通過直接估計(jì)最優(yōu)方差,大幅提升了采樣效率,相較于傳統(tǒng)模型DDPM,加速近20倍。
該成果被評(píng)選為ICLR 2022杰出論文,并得到了OpenAI在DALL·E 2模型處理策略中的應(yīng)用。
同年6月,團(tuán)隊(duì)再次創(chuàng)新,提出了采樣算法DPM-Solver,僅需10到15步就能獲得高質(zhì)量的采樣。
該成果入選NeurIPS 2022 Oral,并被Stable Diffusion等大量開源項(xiàng)目所采納,至今仍是全球最快的圖像生成算法之一。
在技術(shù)的不斷推進(jìn)中,2022年9月,團(tuán)隊(duì)發(fā)表了U-ViT論文,首次提出了將擴(kuò)散模型與Transformer融合的架構(gòu)思路。
隨后推出的DiT架構(gòu)也沿用了這一創(chuàng)新理念,并最終被Sora所采用。
與傳統(tǒng)的Transformer相比,U-ViT通過引入[長連接]技術(shù),顯著提升了訓(xùn)練收斂速度。
2023年3月,團(tuán)隊(duì)基于U-ViT架構(gòu)在大規(guī)模圖文數(shù)據(jù)集LAION-5B上訓(xùn)練出了近10億參數(shù)量模型UniDiffuser,并將其開源。
UniDiffuser不僅支持圖文模態(tài)間的任意生成和轉(zhuǎn)換,而且其實(shí)現(xiàn)驗(yàn)證了融合架構(gòu)在大規(guī)模訓(xùn)練任務(wù)中的可擴(kuò)展性(Scaling Law),標(biāo)志著融合架構(gòu)在大規(guī)模訓(xùn)練任務(wù)中的所有環(huán)節(jié)流程均得到了有效驗(yàn)證。
值得一提的是,相較于最近才轉(zhuǎn)向DiT架構(gòu)的Stable Diffusion 3,UniDiffuser在圖文模型領(lǐng)域領(lǐng)先了一年。
基于資源等方面的考慮,Sora團(tuán)隊(duì)選擇了高強(qiáng)度的工作模式,全力以赴投入長視頻的研發(fā),而生數(shù)科技則選擇從2D圖像入手,逐步拓展至3D和視頻領(lǐng)域。
今年1月,生數(shù)科技正式上線了4秒短視頻生成功能,隨后在2月Sora發(fā)布后,公司迅速攻堅(jiān),于3月實(shí)現(xiàn)了8秒視頻生成的突破,4月更是達(dá)到了16秒長度的突破,生成質(zhì)量與時(shí)長均取得了全面性的提升。
完成三輪融資,成為國內(nèi)估值頭部
經(jīng)過多輪嚴(yán)謹(jǐn)?shù)馁Y本運(yùn)作,生數(shù)科技在2023年6月成功完成首輪融資,由螞蟻集團(tuán)主導(dǎo),并得到BV百度風(fēng)投和卓源資本的跟投。
經(jīng)過此次融資,公司的估值已達(dá)到1億美金。
這些資金將被投入到核心研發(fā)團(tuán)隊(duì)的建設(shè)和產(chǎn)品研發(fā)中,以推動(dòng)公司的持續(xù)發(fā)展。
值得一提的是,自ChatGPT于去年11月發(fā)布以來,生數(shù)科技成為螞蟻集團(tuán)投資的首個(gè)AIGC項(xiàng)目,同時(shí)也是百度風(fēng)投在AI內(nèi)容生成領(lǐng)域的第三個(gè)重要投資項(xiàng)目。
在2023年8月,生數(shù)科技再次獲得了錦秋基金的獨(dú)家投資,完成了數(shù)千萬元的天使+輪融資。
這筆資金將主要用于算法研發(fā)、產(chǎn)品開發(fā)和團(tuán)隊(duì)擴(kuò)充,為生數(shù)科技的未來發(fā)展注入新的動(dòng)力。
到了2024年3月,生數(shù)科技成功完成了數(shù)億元人民幣的A輪融資。
此次融資得到了啟明創(chuàng)投、達(dá)泰資本、智譜AI等新機(jī)構(gòu)的支持,同時(shí)也得到了BV百度風(fēng)投和卓源亞洲兩位老股東的繼續(xù)跟投。
經(jīng)過三輪融資,生數(shù)科技累計(jì)獲得了數(shù)億元人民幣的投資,這使得公司成為目前國內(nèi)多模態(tài)大模型中估值最高的初創(chuàng)公司之一。
同時(shí),生數(shù)科技團(tuán)隊(duì)還推出了基于統(tǒng)一的多模態(tài)多任務(wù)框架的產(chǎn)業(yè)級(jí)通用基礎(chǔ)大模型(閉源版),展現(xiàn)了公司在AI領(lǐng)域的深厚實(shí)力和創(chuàng)新精神。
生數(shù)科技的核心團(tuán)隊(duì)不僅是最早布局多模態(tài)大模型的團(tuán)隊(duì)之一,而且在擴(kuò)散概率模型的基礎(chǔ)理論和算法研究方面也有著豐富的經(jīng)驗(yàn)和突出的成果。
目前,生數(shù)科技是國內(nèi)在擴(kuò)散概率模型領(lǐng)域發(fā)表論文成果最多的團(tuán)隊(duì)之一,這充分證明了公司在AI領(lǐng)域的領(lǐng)先地位和強(qiáng)大的研發(fā)能力。
結(jié)尾:市場(chǎng)前景廣闊,有待持續(xù)開發(fā)
文生視頻技術(shù)有望引領(lǐng)視頻創(chuàng)作領(lǐng)域的生產(chǎn)力變革,顯著降低生產(chǎn)成本和創(chuàng)作難度,有望在短視頻和動(dòng)漫領(lǐng)域率先實(shí)現(xiàn)應(yīng)用落地。
建銀國際指出,文生視頻模型在多個(gè)行業(yè)中具有廣泛的應(yīng)用前景,包括但不限于營銷廣告、研發(fā)培訓(xùn)、電商零售以及文娛游戲等領(lǐng)域。
根據(jù)彭博行業(yè)研究的數(shù)據(jù),全球AIGC市場(chǎng)規(guī)模預(yù)計(jì)將從2023年的670億美元大幅提升至2030年的8970億美元,這表明該領(lǐng)域的復(fù)合年增長率將達(dá)到驚人的45%。
對(duì)于中國市場(chǎng)而言,艾瑞咨詢預(yù)測(cè)其產(chǎn)業(yè)規(guī)模將可能從2023年的143億元人民幣迅猛增長至2030年的11441億元人民幣,復(fù)合年增長率高達(dá)87%。
這一趨勢(shì)顯示出文生視頻在中國市場(chǎng)的巨大潛力和廣闊前景。
部分資料參考:極客公園:《國產(chǎn) Sora 的秘密,藏在這個(gè)清華系大模型團(tuán)隊(duì)中》,機(jī)器之心:《國內(nèi)公司有望做出Sora嗎?這支清華系大模型團(tuán)隊(duì)給出了希望》,中國新聞網(wǎng):《中國首個(gè)!全面對(duì)標(biāo)Sora》,獵云精選:《背靠清華,[國產(chǎn)最強(qiáng)]Sora來了》,算力豹:《[應(yīng)戰(zhàn)]Sora,清華朱軍「生數(shù)科技」又融數(shù)億元,啟明創(chuàng)投領(lǐng)投》
原文標(biāo)題 : AI芯天下丨科創(chuàng)丨國內(nèi)版Sora的秘密,藏在生數(shù)科技大模型團(tuán)隊(duì)里
發(fā)表評(píng)論
請(qǐng)輸入評(píng)論內(nèi)容...
請(qǐng)輸入評(píng)論/評(píng)論長度6~500個(gè)字
最新活動(dòng)更多
-
即日-12.26立即報(bào)名>>> 【在線會(huì)議】村田用于AR/VR設(shè)計(jì)開發(fā)解決方案
-
1月8日火熱報(bào)名中>> Allegro助力汽車電氣化和底盤解決方案優(yōu)化在線研討會(huì)
-
即日-1.14火熱報(bào)名中>> OFweek2025中國智造CIO在線峰會(huì)
-
即日-1.24立即參與>>> 【限時(shí)免費(fèi)】安森美:Treo 平臺(tái)帶來出色的精密模擬
-
即日-2025.8.1立即下載>> 《2024智能制造產(chǎn)業(yè)高端化、智能化、綠色化發(fā)展藍(lán)皮書》
-
精彩回顧立即查看>> 【線下會(huì)議】OFweek 2024(第九屆)物聯(lián)網(wǎng)產(chǎn)業(yè)大會(huì)
推薦專題
-
2
- 1 人形機(jī)器人核心零部件,誰是盈利最強(qiáng)企業(yè)?
- 2 AI Agent現(xiàn)狀如何?聊聊近期國內(nèi)的智能體市場(chǎng)動(dòng)向
- 3 5nm重大突破,研祥智能助力半導(dǎo)體企業(yè)高效發(fā)展!
- 4 人形機(jī)器人引爆“PEEK材料”!概念股梳理(名單)
- 5 馬云沒回牌桌,但重注全壓在了
- 6 7 豆包AI登頂國內(nèi)第一!概念股梳理(名單)
- 8 押注AI王者歸來,歌爾股份“智能體”在下一盤“大棋”
- 9 AI超級(jí)應(yīng)用什么時(shí)候才能出現(xiàn)?
- 10 英偉達(dá)迎來當(dāng)頭一棒
- 高級(jí)軟件工程師 廣東省/深圳市
- 自動(dòng)化高級(jí)工程師 廣東省/深圳市
- 光器件研發(fā)工程師 福建省/福州市
- 銷售總監(jiān)(光器件) 北京市/海淀區(qū)
- 激光器高級(jí)銷售經(jīng)理 上海市/虹口區(qū)
- 光器件物理工程師 北京市/海淀區(qū)
- 激光研發(fā)工程師 北京市/昌平區(qū)
- 技術(shù)專家 廣東省/江門市
- 封裝工程師 北京市/海淀區(qū)
- 結(jié)構(gòu)工程師 廣東省/深圳市
OFweek人工智能網(wǎng)
獲取更多精彩內(nèi)容