AI視頻模型大混戰(zhàn),誰是你的 No.1?
自從Sora發(fā)布以來,AI視頻模型的“魔盒”被徹底打開。今年上半年,AI視頻模型遍地開花,Viggle、Genmo、即夢、Dream Machine、可靈輪番炸場。
這么多的AI視頻模型,在讓人眼花繚亂的同時,也帶來了一個疑問:誰才是AI視頻模型的No.1?
烏鴉君也非常好奇各款產(chǎn)品表現(xiàn)優(yōu)劣。剛好上周三Runaway宣布Gen-3 Alpha向所有用戶開放測試,借著這個契機,烏鴉君就把市面上開放的AI視頻模型都拉過來測一測。
參與此次測試的選手有7位,涵蓋了AI視頻領(lǐng)域的國內(nèi)外名將、新星,其中國外的包括Gen-3 Alpha、Dream Machine、Genmo、Pika 1.0,國內(nèi)AI視頻的代表則是愛詩科技的PixVerse、快手的可靈和字節(jié)跳動的即夢。
結(jié)合測試結(jié)果和個人體感,烏鴉君得到以下三個結(jié)論:
1.可靈的綜合體驗最好,信息準(zhǔn)確度高、視頻時長和質(zhì)量穩(wěn)定性上都有著不錯的表現(xiàn),偶有瑕疵。
2.即夢、PixVerse、Gen-3 Alpha和Dream Machine四家普遍在人物一致性和物理邏輯上會有問題,繼續(xù)迭代一下,未來可期。
3. Genmo和Pika1.0則受限于發(fā)布時間較早,在語義理解能力、畫面平滑度、運動一致性等方面明顯落后于其他競品,足見AI視頻迭代速度之快。
/ 01 / 三組Prompt,6個測評維度
測評會使用同一個Prompt,對不同AI視頻模型生成的結(jié)果進(jìn)行評判?紤]到AI視頻模型的表現(xiàn)可能會有波動,烏鴉君給出以下三組文生視頻提示詞,綜合評判表現(xiàn)效果。
考題1:我用《愛樂之城》的經(jīng)典畫面為基準(zhǔn),設(shè)定一個Prompt:Under the night sky, a girl in the yellow skirt are dancing with a man.(在夜空下,一位穿著黃色裙子的女人在和一個男人跳舞。)
考點:對Prompt中提到的“夜空”“黃色裙子”“跳舞”等元素進(jìn)行生成,描繪出雙人跳舞的畫面,對人物動作的協(xié)調(diào)性有一定要求。
考題2:我用Sora公布的一條視頻提示詞:Beautiful, snowy Tokyo city is bustling. The camera moves through the bustling city street, following several people enjoying the beautiful snowy weather and shopping at nearby stalls. Gorgeous sakura petals are flying through the wind along with snowflakes. (在熙熙攘攘的東京,白雪皚皚。鏡頭跟隨幾個人穿過城市街道,他們正享受美麗的下雪天,并在附近的攤位購物,絢麗的櫻花伴隨著雪花隨風(fēng)飄揚。)
考點:描繪鏡頭、人物和街道商販的動態(tài),并保持著雪花和櫻花一同飄落的效果。
考題3:我改寫了一條Sora公布的電影預(yù)告片風(fēng)格提示詞:A movie trailer featuring the adventures of the 20 year old space man wearing a transparent fish tank, blue sky, desert, cinematic style, shot on 35mm film, vivid colors. (影片講述了20歲太空人的冒險經(jīng)歷,他戴著透明的魚缸,背后是藍(lán)天、沙漠,電影風(fēng)格,35毫米膠片拍攝,色彩鮮艷。)
考點:消化電影預(yù)告片的風(fēng)格,細(xì)膩描畫人物,還原藍(lán)天、沙漠等場景,也考驗AI對于科幻故事的想象力。
測試方法
評判的維度包括六個層面,分別是語義理解、圖像質(zhì)量、物理邏輯、一致性、風(fēng)格創(chuàng)意、易用性。每個層面根據(jù)視頻表現(xiàn)來評分,總分6分。
1、【語義理解】視頻結(jié)果和Prompt的描述是否一致,一致得1分。
2、【圖像質(zhì)量】圖像質(zhì)量的考量包括清晰度、分辨率、色彩準(zhǔn)確性和動態(tài)范圍,表現(xiàn)較佳得1分。
3、【物理邏輯】視頻內(nèi)容符合基本的物理常識,得1分。
4、【一致性】保持物體和場景的一致性和連續(xù)性,得1分。
5、【風(fēng)格創(chuàng)意】畫面有風(fēng)格或創(chuàng)意,得1分。
6、【易用性】產(chǎn)品體驗友好,得1分。
以下評測基于我個人主觀判斷,結(jié)果僅供參考,有不同看法歡迎討論。
/ 02 / 測評結(jié)果和簡單分析
1、Gen-3 Alpha,綜合得分:4分
和上一代Gen-2相比,Gen-3 Alpha面對復(fù)雜指令的敏感度更高,能夠處理更復(fù)雜的場景。
從視頻畫面來看,Gen-3 Alpha整體控制得很好,具備很高的保真度,能夠生成逼真的人類角色和動態(tài)場景。
畫面準(zhǔn)確展示了雙人舞動的動態(tài)、東京街頭紛飛的雪景,質(zhì)感很接近影視效果,在畫面紋理、鏡頭視角控制等方面的表現(xiàn)也很突出。
在風(fēng)格和創(chuàng)意上,Gen-3 Alpha明顯超越其他AI視頻,風(fēng)格堪稱大片級。
值得注意的是,Gen-3 Alpha在物理邏輯上存在瑕疵,比如,第1題中的人物在跳舞時手部動作相對失真;同時,女人在跳舞轉(zhuǎn)身后,腦袋上出現(xiàn)了男人的臉,bug明顯。
易用性方面, Gen-3 Alpha可以進(jìn)行細(xì)節(jié)控制,支持多種視頻生成和控制工具,F(xiàn)在Runaway已將Gen-3 Alpha開放給所有C端用戶,月費會員15美元,每月只能生成約60秒的視頻,相當(dāng)于4s視頻就要消耗1美元。
2、 Dream Machine,綜合得分:4分
Dream Machine是Luma AI在6月中旬發(fā)布的產(chǎn)品,目前只能生成5秒的視頻,且生成的過程很漫長,但這不妨礙網(wǎng)友排隊用這個免費AI來二創(chuàng)梗圖的熱情。
從視頻畫面上看,除了第一個視頻沒有展示夜空外,Dream Machine的表現(xiàn)基本與Prompt的描述相符,勉強可以算合格,人物一致性也沒有問題。
圖像質(zhì)量整體控制的不錯,Dream Machine在后兩個視頻也展示了其專業(yè)的拍攝角度,鏡頭模擬幾乎達(dá)到電影級水準(zhǔn)。
美中不足的是,Dream Machine在物理邏輯上表現(xiàn)很差。無論是第一個視頻里毫無美感的舞蹈,還是第三個視頻里怪異的走路姿勢,都說明Dream Machine當(dāng)下很難理解物理邏輯,甚至連簡單動作的動態(tài)輸出都有問題。
在使用便利性上,用戶只需前往官網(wǎng)點擊“Try Now”按鈕,按要求登錄谷歌賬號,然后在提示欄中輸入文字或圖片,靜靜等待即可。如果用戶一時半會想不到提示詞,還可以在系統(tǒng)預(yù)先準(zhǔn)備的六條中進(jìn)行選擇,十分好操作。
3、 Genmo,綜合得分:2分
作為去年11月發(fā)布的一款免費AI視頻工具,Genmo的表現(xiàn)就相對遜色許多。
先說語義理解,就基本不合格。在第一個視頻里,畫面顯示的是夕陽西下,日照金山,并不符合指令中“夜空下”的要求。而在第二個視頻里,Genmo也完全沒有呈現(xiàn)Prompt里的“白雪皚皚”和“下雪天”,反而把環(huán)境變成了粉色的櫻花。
在物理邏輯和一致性上,Genmo同樣表現(xiàn)不佳。這一點在其作答第1題時體現(xiàn)得很清晰,畫面開始女生的長頭發(fā)出現(xiàn)在男生的頭上,跳舞過程中,雙方的手在運動過程中也出現(xiàn)了多次瞬移。
要說優(yōu)點,Genmo在圖像質(zhì)量上的表現(xiàn)勉強合格,在第1題中做了比較多的光影渲染。易用方面,Genmo也做到了保姆級別,提供了直觀清晰的界面,不僅可以調(diào)整視頻片段的持續(xù)長度、平滑度、變化程度等,還可以模擬相機運動,比如進(jìn)行畫面放大/縮小、順/逆時針旋轉(zhuǎn)、平移、傾斜等操作,簡化了視頻生成過程。
4、 Pika1.0,綜合得分:1分
說真的,烏鴉君對這款明星產(chǎn)品此次的表現(xiàn)非常失望。
首先,Pika很難理解復(fù)雜的指令。比如,Pika在第3題直接給我個大魚缸,甚至連“太空人”、“沙漠”等元素都不見了。同時,現(xiàn)在Pika只能生成3秒的視頻,是參評工具生成的視頻中最短的。
在畫面質(zhì)量上,無論是東京雪景還是雙人舞蹈,紋理較差,Pika的畫面都簡陋得像動畫建模的初學(xué)作品。
另外,Pika在物理邏輯和一致性上也同樣存在問題,例如第1題中的人物動作模糊、肢體粘連,人物的臉部沒有細(xì)節(jié),甚至右側(cè)的男生在跳舞時就干脆一動不動,像個木頭人。
Pika唯一的優(yōu)勢在于,創(chuàng)作相對方便,單次文生成視頻的過程大約消耗30s,算是比較快的。用戶可以選擇視頻尺寸和幀率,并對鏡頭的運動方向和物體的運動速度進(jìn)行控制。今年3月,Pika還上線了無縫生成音效的Sound Effects功能,提高了工具便捷性。
5、 PixVerse,綜合得分:4分
由字節(jié)前視覺技術(shù)負(fù)責(zé)人王長虎創(chuàng)立的愛詩科技,在今年1月推出了PixVerse。到今年3月,PixVerse的月訪問量超百萬。PixVerse基本能夠準(zhǔn)確理解Prompt的意思,并給出相應(yīng)的畫面。
從視頻質(zhì)量上來看,PixVerse始終表現(xiàn)得很穩(wěn)定,畫面整體和諧,也不乏亮點。比如,作答第3題時,PixVerse生成的視頻出現(xiàn)大多數(shù)AI視頻里沒有的運動鏡頭,而背景畫面依舊保持著較高的質(zhì)量。
另外,PixVerse也很擅長對人物面部細(xì)節(jié)的刻畫,第3題的視頻中,太空人擁有“緊皺的眉頭”和“思索的神情”,看起來十分靈動。
不足的地方在于,PixVerse幾乎沒有任何人物動作的畫面。在第1題中,除了手部輕微的動作外,根本看不到任何舞蹈的動作,而且女人似乎也只有一只腿。而且,在第2題中,PixVerse生成視頻的行人走路動作也相對模糊,說明其在物理邏輯存在問題。
易用性方面,PixVerse的“Upscale”功能,讓用戶不用花錢,就能提高視頻分辨率。用戶也可以瀏覽熱門作品,查看它們的詳細(xì)參數(shù)信息,包括關(guān)鍵詞、種子、畫面的縱橫比、運動幅度、風(fēng)格以及原始圖片,學(xué)習(xí)和模仿優(yōu)秀作品。
6、可靈,綜合得分:5分
快手推出的可靈大模型采用了與Sora相似的技術(shù)路線。從視頻畫面來看,可靈的表現(xiàn)非常穩(wěn)定,能準(zhǔn)確完成指令,整段30秒視頻沒有出現(xiàn)太大的偏差,只是遺漏了第2題中的“飄雪”指令。
可靈的畫面質(zhì)量超出了我的預(yù)期。它對樹木、星空、雪景等自然景觀模擬得很到位,還在第2題中努力做出人臉等細(xì)節(jié),看得出可靈是想做出接近實拍的效果,它的一致性也沒什么問題。在風(fēng)格和創(chuàng)意方面,與其他AI中較夸張的動漫、電影藝術(shù)風(fēng)格相比,可靈的實拍風(fēng)格算是獨樹一幟。
但是,可靈在理解物理世界方面仍然存在一些小瑕疵。例如,第1題中的女孩在跳舞抬腿動作時,出現(xiàn)了模糊和瞬移,不過相比其他模型,可靈在物理理解上的表現(xiàn)得算是優(yōu)秀了。
在易用性方面,可靈的優(yōu)勢比較明顯,它現(xiàn)在有了更加清晰的高畫質(zhì)版,以及首尾幀控制、鏡頭控制等新功能,且創(chuàng)作者單次生成的文生視頻時長增加至10秒,官方還上線了加快生成模式,提供給會員使用。
7、即夢,綜合得分:4分
即夢是抖音前CEO張楠親自掛帥的剪映所推出的產(chǎn)品,它在時長上比別的AI要高一截,單次可以生成12秒視頻,是這次參評工具中最長的。
即夢基本能準(zhǔn)確識別Prompt中的關(guān)鍵詞;畫面質(zhì)量,比較細(xì)膩。
例如,第2題中的東京街景描畫得非常優(yōu)美。在風(fēng)格創(chuàng)意方面,即夢也能做到讓人眼前一亮的效果,比如在第3題中,即夢對透明魚缸頭盔、宇航服的描畫很有科幻色彩。
與很多AI視頻模型一樣,對物理世界的理解是即夢的短板,完成運動幅度較大的視頻時,即夢會出現(xiàn)較為明顯的崩壞,例如作答第1題時的表現(xiàn)。從一致性上來看,即夢也存在問題,比如第2題的東京街頭,不少人在轉(zhuǎn)身之后都出現(xiàn)了另一張臉。
在易用性方面,即夢視頻支持各種變焦、搖鏡等運鏡控制,還有更多的尺寸選擇,操作上也很簡單,非常適合愛玩視頻的抖友們。
/ 03 / 最終的測試結(jié)果:
高分組:可靈
中分組:即夢、PixVerse、Gen-3 Alpha、Dream Machine
低分組:Genmo、Pika1.0
原文標(biāo)題 : AI視頻模型大混戰(zhàn),誰是你的 No.1?
請輸入評論內(nèi)容...
請輸入評論/評論長度6~500個字
最新活動更多
-
即日-12.26立即報名>>> 【在線會議】村田用于AR/VR設(shè)計開發(fā)解決方案
-
1月8日火熱報名中>> Allegro助力汽車電氣化和底盤解決方案優(yōu)化在線研討會
-
即日-1.14火熱報名中>> OFweek2025中國智造CIO在線峰會
-
即日-1.24立即參與>>> 【限時免費】安森美:Treo 平臺帶來出色的精密模擬
-
即日-2025.8.1立即下載>> 《2024智能制造產(chǎn)業(yè)高端化、智能化、綠色化發(fā)展藍(lán)皮書》
-
精彩回顧立即查看>> 【線下會議】OFweek 2024(第九屆)物聯(lián)網(wǎng)產(chǎn)業(yè)大會
推薦專題
- 高級軟件工程師 廣東省/深圳市
- 自動化高級工程師 廣東省/深圳市
- 光器件研發(fā)工程師 福建省/福州市
- 銷售總監(jiān)(光器件) 北京市/海淀區(qū)
- 激光器高級銷售經(jīng)理 上海市/虹口區(qū)
- 光器件物理工程師 北京市/海淀區(qū)
- 激光研發(fā)工程師 北京市/昌平區(qū)
- 技術(shù)專家 廣東省/江門市
- 封裝工程師 北京市/海淀區(qū)
- 結(jié)構(gòu)工程師 廣東省/深圳市
OFweek人工智能網(wǎng)
獲取更多精彩內(nèi)容