訂閱
糾錯(cuò)
加入自媒體

國內(nèi)版Sora的秘密,藏在生數(shù)科技大模型團(tuán)隊(duì)里

前言:

在眾多長視頻生成算法中,Sora的技術(shù)革新具有劃時(shí)代的意義。

相較于傳統(tǒng)的 Stable Diffusion,Sora采納了創(chuàng)新的 Diffusion 與Transformer架構(gòu)。

不僅彌補(bǔ)了Stable Diffusion在擴(kuò)展性方面的不足,更在生成內(nèi)容的精確度和靈活性上實(shí)現(xiàn)了顯著的突破。

作者 | 方文三

圖片來源 |  網(wǎng) 絡(luò) 

[國產(chǎn)Sora]發(fā)布,全面對(duì)標(biāo)Sora

近日,生數(shù)科技與清華大學(xué)攜手推出國內(nèi)首個(gè)基于自主研發(fā)的U-ViT架構(gòu)的視頻大模型——Vidu。

能迅速生成16秒、高清1080p分辨率的視頻內(nèi)容,展現(xiàn)了與Sora相當(dāng)?shù)男阅,尤其在多鏡頭生成、時(shí)空一致性、模擬真實(shí)物理世界以及創(chuàng)新能力等方面。

Vidu在視頻生成時(shí)長方面具有顯著優(yōu)勢(shì),突破了長期以來國產(chǎn)Sora的十秒閾值。

生數(shù)科技采用單一模型的完全端到端生成方式,實(shí)現(xiàn)連續(xù)、絲滑的視頻內(nèi)容生成,無需插幀處理。

具體而言,Vidu能夠生成細(xì)節(jié)復(fù)雜的場(chǎng)景,符合真實(shí)物理規(guī)律,展現(xiàn)合理光影效果和細(xì)膩人物表情。

同時(shí),它還能生成真實(shí)世界不存在的虛構(gòu)畫面,創(chuàng)造超現(xiàn)實(shí)主義內(nèi)容。

在鏡頭語言方面,不再局限于簡單鏡頭,而是能實(shí)現(xiàn)遠(yuǎn)景、近景、中景、特寫等不同鏡頭的切換,生成長鏡頭、追焦、轉(zhuǎn)場(chǎng)等效果。

值得一提的是,Vidu采用[一步到位]的生成方式,與Sora一樣,文本到視頻的轉(zhuǎn)換直接且連續(xù)。

在底層算法實(shí)現(xiàn)上,Vidu基于單一模型完全端到端生成,不涉及中間插幀和其他多步驟處理。

這一創(chuàng)新技術(shù)為視頻生成領(lǐng)域帶來了新的突破和可能性。

清華系創(chuàng)業(yè),兩條路走路模式

Vidu之名,不僅與[Video]諧音,更富含[We do]之寓意,彰顯著行動(dòng)與實(shí)踐的精神。

公開資料顯示,生數(shù)科技成立于2023年3月,其核心成員均來自于清華大學(xué)人工智能研究院,致力于獨(dú)立研發(fā)全球領(lǐng)先的可控多模態(tài)通用大模型。

生數(shù)科技的首席科學(xué)家朱軍,不僅是清華大學(xué)計(jì)算機(jī)系的教授,還是人工智能研究院的副院長。

同時(shí),生數(shù)科技的CEO唐家渝,其本碩學(xué)歷均來自于清華大學(xué)計(jì)算機(jī)系;

CTO鮑凡則是清華大學(xué)計(jì)算機(jī)系的博士生,并作為朱軍教授課題組的成員,共同推進(jìn)研發(fā)工作。

生數(shù)科技當(dāng)前采取的是模型層和應(yīng)用層并行的戰(zhàn)略。

一方面,他們正致力于構(gòu)建涵蓋文本、圖像、視頻、3D模型等多模態(tài)能力的底層通用大模型,為B端提供模型服務(wù)能力;

另一方面,他們也在圖像生成、視頻生成等場(chǎng)景上打造專業(yè)應(yīng)用,通過訂閱等方式進(jìn)行收費(fèi)。

這些應(yīng)用主要面向游戲制作、影視后期等內(nèi)容創(chuàng)作場(chǎng)景,展現(xiàn)出生數(shù)科技在技術(shù)和市場(chǎng)應(yīng)用上的雙重實(shí)力。

走對(duì)技術(shù)路線,融合框架優(yōu)勢(shì)顯現(xiàn)

生數(shù)科技近日發(fā)布的Vidu與Sora視頻生成技術(shù),顯著區(qū)別于市場(chǎng)主流基于U-Net卷積架構(gòu)的傳統(tǒng)擴(kuò)散模型,采用了前沿的融合架構(gòu),即U-ViT與DiT。

這種融合架構(gòu)是Diffusion(擴(kuò)散模型)與Transformer的有機(jī)結(jié)合,旨在發(fā)揮Transformer在可擴(kuò)展性方面的優(yōu)勢(shì);

同時(shí)保留Diffusion模型在處理視覺數(shù)據(jù)時(shí)的天然強(qiáng)項(xiàng),從而在視覺任務(wù)中展現(xiàn)出卓越的性能。

回顧生數(shù)科技在視頻生成技術(shù)領(lǐng)域的研發(fā)歷程,早在2017年,團(tuán)隊(duì)便發(fā)布了貝葉斯概率機(jī)器學(xué)習(xí)平臺(tái)[珠算]。

這一平臺(tái)在國際上屬于最早面向深度概率模型的編程庫之一,支持包括GAN、VAE、Flow等在內(nèi)的多種深度生成式模型的概率建模。

2022年初,團(tuán)隊(duì)提出了無訓(xùn)練推理框架Analytic-DPM,通過直接估計(jì)最優(yōu)方差,大幅提升了采樣效率,相較于傳統(tǒng)模型DDPM,加速近20倍。

該成果被評(píng)選為ICLR 2022杰出論文,并得到了OpenAI在DALL·E 2模型處理策略中的應(yīng)用。

同年6月,團(tuán)隊(duì)再次創(chuàng)新,提出了采樣算法DPM-Solver,僅需10到15步就能獲得高質(zhì)量的采樣。

該成果入選NeurIPS 2022 Oral,并被Stable Diffusion等大量開源項(xiàng)目所采納,至今仍是全球最快的圖像生成算法之一。

在技術(shù)的不斷推進(jìn)中,2022年9月,團(tuán)隊(duì)發(fā)表了U-ViT論文,首次提出了將擴(kuò)散模型與Transformer融合的架構(gòu)思路。

隨后推出的DiT架構(gòu)也沿用了這一創(chuàng)新理念,并最終被Sora所采用。

與傳統(tǒng)的Transformer相比,U-ViT通過引入[長連接]技術(shù),顯著提升了訓(xùn)練收斂速度。

2023年3月,團(tuán)隊(duì)基于U-ViT架構(gòu)在大規(guī)模圖文數(shù)據(jù)集LAION-5B上訓(xùn)練出了近10億參數(shù)量模型UniDiffuser,并將其開源。

UniDiffuser不僅支持圖文模態(tài)間的任意生成和轉(zhuǎn)換,而且其實(shí)現(xiàn)驗(yàn)證了融合架構(gòu)在大規(guī)模訓(xùn)練任務(wù)中的可擴(kuò)展性(Scaling Law),標(biāo)志著融合架構(gòu)在大規(guī)模訓(xùn)練任務(wù)中的所有環(huán)節(jié)流程均得到了有效驗(yàn)證。

值得一提的是,相較于最近才轉(zhuǎn)向DiT架構(gòu)的Stable Diffusion 3,UniDiffuser在圖文模型領(lǐng)域領(lǐng)先了一年。

基于資源等方面的考慮,Sora團(tuán)隊(duì)選擇了高強(qiáng)度的工作模式,全力以赴投入長視頻的研發(fā),而生數(shù)科技則選擇從2D圖像入手,逐步拓展至3D和視頻領(lǐng)域。

今年1月,生數(shù)科技正式上線了4秒短視頻生成功能,隨后在2月Sora發(fā)布后,公司迅速攻堅(jiān),于3月實(shí)現(xiàn)了8秒視頻生成的突破,4月更是達(dá)到了16秒長度的突破,生成質(zhì)量與時(shí)長均取得了全面性的提升。

完成三輪融資,成為國內(nèi)估值頭部

經(jīng)過多輪嚴(yán)謹(jǐn)?shù)馁Y本運(yùn)作,生數(shù)科技在2023年6月成功完成首輪融資,由螞蟻集團(tuán)主導(dǎo),并得到BV百度風(fēng)投和卓源資本的跟投。

經(jīng)過此次融資,公司的估值已達(dá)到1億美金。

這些資金將被投入到核心研發(fā)團(tuán)隊(duì)的建設(shè)和產(chǎn)品研發(fā)中,以推動(dòng)公司的持續(xù)發(fā)展。

值得一提的是,自ChatGPT于去年11月發(fā)布以來,生數(shù)科技成為螞蟻集團(tuán)投資的首個(gè)AIGC項(xiàng)目,同時(shí)也是百度風(fēng)投在AI內(nèi)容生成領(lǐng)域的第三個(gè)重要投資項(xiàng)目。

在2023年8月,生數(shù)科技再次獲得了錦秋基金的獨(dú)家投資,完成了數(shù)千萬元的天使+輪融資。

這筆資金將主要用于算法研發(fā)、產(chǎn)品開發(fā)和團(tuán)隊(duì)擴(kuò)充,為生數(shù)科技的未來發(fā)展注入新的動(dòng)力。

到了2024年3月,生數(shù)科技成功完成了數(shù)億元人民幣的A輪融資。

此次融資得到了啟明創(chuàng)投、達(dá)泰資本、智譜AI等新機(jī)構(gòu)的支持,同時(shí)也得到了BV百度風(fēng)投和卓源亞洲兩位老股東的繼續(xù)跟投。

經(jīng)過三輪融資,生數(shù)科技累計(jì)獲得了數(shù)億元人民幣的投資,這使得公司成為目前國內(nèi)多模態(tài)大模型中估值最高的初創(chuàng)公司之一。

同時(shí),生數(shù)科技團(tuán)隊(duì)還推出了基于統(tǒng)一的多模態(tài)多任務(wù)框架的產(chǎn)業(yè)級(jí)通用基礎(chǔ)大模型(閉源版),展現(xiàn)了公司在AI領(lǐng)域的深厚實(shí)力和創(chuàng)新精神。

生數(shù)科技的核心團(tuán)隊(duì)不僅是最早布局多模態(tài)大模型的團(tuán)隊(duì)之一,而且在擴(kuò)散概率模型的基礎(chǔ)理論和算法研究方面也有著豐富的經(jīng)驗(yàn)和突出的成果。

目前,生數(shù)科技是國內(nèi)在擴(kuò)散概率模型領(lǐng)域發(fā)表論文成果最多的團(tuán)隊(duì)之一,這充分證明了公司在AI領(lǐng)域的領(lǐng)先地位和強(qiáng)大的研發(fā)能力。

結(jié)尾:市場(chǎng)前景廣闊,有待持續(xù)開發(fā)

文生視頻技術(shù)有望引領(lǐng)視頻創(chuàng)作領(lǐng)域的生產(chǎn)力變革,顯著降低生產(chǎn)成本和創(chuàng)作難度,有望在短視頻和動(dòng)漫領(lǐng)域率先實(shí)現(xiàn)應(yīng)用落地。

建銀國際指出,文生視頻模型在多個(gè)行業(yè)中具有廣泛的應(yīng)用前景,包括但不限于營銷廣告、研發(fā)培訓(xùn)、電商零售以及文娛游戲等領(lǐng)域。

根據(jù)彭博行業(yè)研究的數(shù)據(jù),全球AIGC市場(chǎng)規(guī)模預(yù)計(jì)將從2023年的670億美元大幅提升至2030年的8970億美元,這表明該領(lǐng)域的復(fù)合年增長率將達(dá)到驚人的45%。

對(duì)于中國市場(chǎng)而言,艾瑞咨詢預(yù)測(cè)其產(chǎn)業(yè)規(guī)模將可能從2023年的143億元人民幣迅猛增長至2030年的11441億元人民幣,復(fù)合年增長率高達(dá)87%。

這一趨勢(shì)顯示出文生視頻在中國市場(chǎng)的巨大潛力和廣闊前景。

部分資料參考:極客公園:《國產(chǎn) Sora 的秘密,藏在這個(gè)清華系大模型團(tuán)隊(duì)中》,機(jī)器之心:《國內(nèi)公司有望做出Sora嗎?這支清華系大模型團(tuán)隊(duì)給出了希望》,中國新聞網(wǎng):《中國首個(gè)!全面對(duì)標(biāo)Sora》,獵云精選:《背靠清華,[國產(chǎn)最強(qiáng)]Sora來了》,算力豹:《[應(yīng)戰(zhàn)]Sora,清華朱軍「生數(shù)科技」又融數(shù)億元,啟明創(chuàng)投領(lǐng)投》

       原文標(biāo)題 : AI芯天下丨科創(chuàng)丨國內(nèi)版Sora的秘密,藏在生數(shù)科技大模型團(tuán)隊(duì)里

聲明: 本文由入駐維科號(hào)的作者撰寫,觀點(diǎn)僅代表作者本人,不代表OFweek立場(chǎng)。如有侵權(quán)或其他問題,請(qǐng)聯(lián)系舉報(bào)。

發(fā)表評(píng)論

0條評(píng)論,0人參與

請(qǐng)輸入評(píng)論內(nèi)容...

請(qǐng)輸入評(píng)論/評(píng)論長度6~500個(gè)字

您提交的評(píng)論過于頻繁,請(qǐng)輸入驗(yàn)證碼繼續(xù)

  • 看不清,點(diǎn)擊換一張  刷新

暫無評(píng)論

暫無評(píng)論

    人工智能 獵頭職位 更多
    掃碼關(guān)注公眾號(hào)
    OFweek人工智能網(wǎng)
    獲取更多精彩內(nèi)容
    文章糾錯(cuò)
    x
    *文字標(biāo)題:
    *糾錯(cuò)內(nèi)容:
    聯(lián)系郵箱:
    *驗(yàn) 證 碼:

    粵公網(wǎng)安備 44030502002758號(hào)