午夜理论片2019理论琪琪,四虎影视在线884a,亚洲欧美日韩三级

注入AI的靈魂后，數(shù)字人將成為所有人的“門戶”

2023-06-27 16:20

PC時(shí)代，門戶是一個(gè)個(gè)網(wǎng)頁；移動(dòng)互聯(lián)網(wǎng)時(shí)代，變成了一個(gè)個(gè)APP、公眾號(hào)、短視頻；在AI時(shí)代，則是經(jīng)過大模型強(qiáng)化后的數(shù)字人。

自古以來，人類就有著對自我影像的追求和渴望。影像是人類的延伸、記憶，也是人類的表達(dá)。

過去的兩百多年里，人類為了留住自我的影像，創(chuàng)造了各種手段和工具。從最初的畫像，到后來的攝像機(jī)，再到今天的數(shù)字人，都是人類為了留住畫像，解放人類的軀體，而進(jìn)行一次次技術(shù)革新。

盡管數(shù)字人從誕生那天起，就一直在試圖模仿和復(fù)制真實(shí)的人類，但由于時(shí)代的局限，以往的數(shù)字人，離人們想象中那栩栩如生的形象，總是差了點(diǎn)氣候，

其在商業(yè)上的應(yīng)用，也總是難免被人視作“雞肋”。

然而，AI時(shí)代的到來，似乎為這一曾經(jīng)“聊勝于無”的技術(shù)，注入了新的靈魂。憑借愈發(fā)逼真的形象，數(shù)字人開始在更多的場景、行業(yè)中進(jìn)行賦能。

01 “前浪”艱難探索

很多人在談到數(shù)字人的過去時(shí)，往往都會(huì)陷入一個(gè)誤區(qū)，認(rèn)為最初的數(shù)字人僅僅是個(gè)被炒起來的概念，是個(gè)像VR那樣，看似潛力無限，實(shí)則可有可無的“雞肋”。

實(shí)際上，這樣的看法，忽略了一個(gè)重要的現(xiàn)實(shí)，那就是：

在數(shù)字人誕生的早期，不是人們沒有對數(shù)字人的需求，而是當(dāng)時(shí)的技術(shù)、成本，根本滿足不了這樣的需求。

具體來說，早期的數(shù)字人，主要存在著成本高昂、技術(shù)標(biāo)準(zhǔn)不統(tǒng)一、形象難以與真人媲美等缺陷。

據(jù)國內(nèi)領(lǐng)先的數(shù)字人企業(yè)風(fēng)平智能介紹，在數(shù)字人處于2D卡通時(shí)代時(shí)，雖然也有部分企業(yè)，出于營銷時(shí)增加新奇感的需要，訂購了一些數(shù)字人，但其中99%的數(shù)字人，在訂購之后半年就再無人問津。

究其原因，是當(dāng)時(shí)數(shù)字人的成本太高，而應(yīng)用場景卻又太窄了。

試想一下，花費(fèi)數(shù)十萬制作出來的卡通數(shù)字人，除了在部分需要增加“新奇感”的應(yīng)用場景外，還能用在什么地方呢？

你不能指望人們在上課、開會(huì)或講座這些嚴(yán)肅的場景里，看著一個(gè)卡通形象滔滔不絕吧？

后來，雖然隨著技術(shù)的進(jìn)步，數(shù)字人的形象開始逐漸朝著寫實(shí)、3D的方向發(fā)展，可居高不下的成本，仍然讓許多企業(yè)望而卻步。

一般來說，數(shù)字人的制作主要包括了數(shù)據(jù)采集、處理和應(yīng)用等方面，而根據(jù)數(shù)據(jù)處理的復(fù)雜度和效率，以及數(shù)據(jù)應(yīng)用的規(guī)模和質(zhì)量的不同，一個(gè)3D化的寫實(shí)數(shù)字人，成本可達(dá)到數(shù)十萬到百萬元不等。

這還是剔除了后期運(yùn)營成本的情況下。

以抖音美妝達(dá)人“柳夜熙”為例，其制作企業(yè)創(chuàng)壹科技CEO梁子康曾對媒體表示，“柳夜熙”僅制作投入就在百萬元級(jí)別，而第一條“柳夜熙”的短視頻成本約幾十萬元。超寫實(shí)虛擬人視頻每秒的成本都在萬元區(qū)間。

因?yàn)橄胍寯?shù)字人“動(dòng)”起來，就需要讓AI驅(qū)動(dòng)數(shù)字人的語音表達(dá)、面部表情、動(dòng)作生成等等，這都是巨大的投入。

而花費(fèi)了如此巨大的數(shù)字人，最后還是只能局限在娛樂、直播、內(nèi)容IP等領(lǐng)域；

這是因?yàn)�，�?dāng)時(shí)的數(shù)字人，交互能力還不夠強(qiáng)大和智能，無法理解復(fù)雜語境、也無法處理多輪對話，導(dǎo)致用戶的溝通和服務(wù)效率很低。

即便有的數(shù)字人，可以通過真人的方式驅(qū)動(dòng)，可這類數(shù)字人的交互能力，也要受限于真人操作者的水平和風(fēng)格，這使其很難滿足不同用戶和場景的多元化需求。

因此，只有在娛樂、直播等更加看重“門面”和“顏值”的場景中，數(shù)字人才能占據(jù)一席之地。

然而，所有這一切的限制，都隨著當(dāng)今AI革命的到來，而被紛紛打破了。

02 成本暴降、井噴來臨

2020年，隨著元宇宙概念的火熱，市場對于提高數(shù)字人生產(chǎn)效率和提升商業(yè)化的訴求日益高漲。同時(shí)，5G、AI等新技術(shù)更新?lián)Q代，也讓數(shù)字人得到了煥發(fā)新生的機(jī)會(huì)。

其中幾項(xiàng)關(guān)鍵的技術(shù)，讓數(shù)字人極大地提升了與真人的接近度。

例如，人像驅(qū)動(dòng)引擎，可以通過4D掃描、智能綁定等AI技術(shù)，實(shí)現(xiàn)數(shù)字人的唇形驅(qū)動(dòng)、肢體驅(qū)動(dòng)、表情驅(qū)動(dòng)、手勢感知等，同時(shí)減少動(dòng)作捕捉、CG合成的制作流程，大幅降低了成本。

而智能對話引擎，通過自然語言處理技術(shù)，為數(shù)字人快速定制對話能力、持續(xù)提升對話效果。

這些技術(shù)，讓數(shù)字人在表現(xiàn)力、智慧度、交互能力上都得到了大幅提升。

也就是在這一階段，包括百度、騰訊在內(nèi)的國內(nèi)各大企業(yè)，開始在數(shù)字人領(lǐng)域八仙過海，各顯神通。

例如，百度推出的曦靈數(shù)字人平臺(tái)，通過自然語言處理、語音識(shí)別、計(jì)算機(jī)視覺等技術(shù)的提升，讓數(shù)字人在視覺表現(xiàn)力上有了顯著提升。

雖然形象仍然是3D人物，但從五官細(xì)節(jié)，神態(tài)動(dòng)作等方面，都明顯在朝著更寫實(shí)的方向進(jìn)行發(fā)展。

以前需要兩三個(gè)月時(shí)間做出來的3D數(shù)字人，現(xiàn)在可以壓縮到小時(shí)級(jí)。

同時(shí)，通過在線語音交互注意力模型，數(shù)字人也終于變得“音畫同步”了，逐字口型準(zhǔn)確率達(dá)到了98.5%。

而得益于新一代數(shù)字更生動(dòng)的表現(xiàn)力，曦靈平臺(tái)推出的數(shù)字人，也從單一的娛樂領(lǐng)域，擴(kuò)展到了更多元的行業(yè)。例如在2B端擔(dān)任數(shù)字理財(cái)專員、數(shù)字客服、虛擬培訓(xùn)師等角色，或是新聞播報(bào)員等。

騰訊在數(shù)字人方面，也發(fā)布了智能小樣本數(shù)智人生產(chǎn)平臺(tái)。

騰訊方面稱，該平臺(tái)可實(shí)現(xiàn)“自助式”數(shù)智人生產(chǎn)制作，只需經(jīng)過3分鐘真人口播視頻、100句語音素材的訓(xùn)練，便可在輸入音頻、文本等多模態(tài)數(shù)據(jù)后，實(shí)時(shí)建模并生成高清人像，在24小時(shí)內(nèi)制作出與真人近似的“數(shù)智人”，其使用成本也將被降至千元級(jí)別。

可以說是BAT三巨頭中，最早實(shí)現(xiàn)真人級(jí)數(shù)字人的企業(yè)。

小樣本“數(shù)智人”從直觀上感受是2D視頻，但背后其實(shí)是3D人像技術(shù)在支撐。通過3D人臉結(jié)構(gòu)的先驗(yàn)信息引入，使數(shù)智人口型、表情更到位，讓小樣本“數(shù)智人”形象實(shí)現(xiàn)“皺紋級(jí)”還原。

除了百度、騰訊這些大廠外，一些默默耕耘于數(shù)字人垂直賽道的企業(yè)，也憑借日益精湛的技術(shù)，打造出了更逼真和生動(dòng)的數(shù)字人。

在數(shù)字人領(lǐng)域鉆研已久的風(fēng)平智能，就是一個(gè)這樣的代表。

其獨(dú)特的XGen智造系統(tǒng)，和豐富、可定制的知識(shí)庫，在低成本高質(zhì)量生產(chǎn)數(shù)字人的同時(shí)，還能使每一個(gè)數(shù)字人都擁有獨(dú)一無二的“智能大腦”。從而擴(kuò)展了其多元化的場景應(yīng)用能力。

同時(shí)，通過深度學(xué)習(xí)技術(shù)建模，風(fēng)平智能的數(shù)字人還能支持129種語種，實(shí)現(xiàn)了跨國互動(dòng)無障礙的交流。其制造的數(shù)字人，已應(yīng)用在了新東方的課堂直播中。

在這一階段，數(shù)字人所呈現(xiàn)出的總體趨勢，是制作成本的大幅度下降，以及表現(xiàn)力的突飛猛進(jìn)。

而這些技術(shù)進(jìn)步，所帶來的直接的后果，就是數(shù)字人技術(shù)的不斷下沉和趨同。

03 當(dāng)AI的靈魂注入數(shù)字人

從概念提出到場景落地，AIGC加持下的數(shù)字人，已經(jīng)從原先幾十萬、上百萬的制作成本，數(shù)個(gè)月的制作周期，降低到了現(xiàn)在數(shù)千元，十幾個(gè)小時(shí)的制作門檻。

數(shù)字人的應(yīng)用場景，早已從單一的B端逐漸向C端擴(kuò)散。而這樣的擴(kuò)散，必將會(huì)重塑人類信息的輸出端口。

縱觀數(shù)字時(shí)代的每一次變革，人類信息的輸出端口，一直在不停變化。

在傳統(tǒng)的PC時(shí)代，這樣的端口是屏幕上的一個(gè)個(gè)網(wǎng)頁；

到了移動(dòng)互聯(lián)網(wǎng)時(shí)代，這樣的端口則變成了一個(gè)個(gè)APP；

自媒體興起后，這樣的端口又變成了一個(gè)個(gè)公眾號(hào)、短視頻；

而在AIGC時(shí)代，經(jīng)過AI大模型強(qiáng)化后的數(shù)字人，則注定會(huì)擁有以往各類端口所不具備的知識(shí)量和交互能力。

到了那一天，也許人類真的會(huì)像比爾蓋茨所說的那樣：“再也不會(huì)去使用搜索引擎，不會(huì)去生產(chǎn)力網(wǎng)站，也不會(huì)再去使用亞馬遜。”

在蓋茨的設(shè)想中，這個(gè)“AI助理”將有能力理解人類的需求和習(xí)慣，同時(shí)會(huì)幫助人類“讀他們沒有時(shí)間讀的書。”

如此一來，AI加持下的數(shù)字人，就成為了人類更終極、更先進(jìn)的輸出端口。

此外，在每一具數(shù)字生成的皮囊下，人們?nèi)阅芸吹讲灰粯拥撵`魂。

這也是今天GPT-4等先進(jìn)的大模型，與數(shù)字人進(jìn)行結(jié)合的最大意義。

通過大模型豐富的知識(shí)，純熟的語義理解和交互能力，和相應(yīng)行業(yè)、個(gè)人不同的需求，每一個(gè)數(shù)字人，都可以“因地制宜”、“因人制宜”地幻化出各種不同性格、思想和技能，進(jìn)而真正做到了“千人千面”的效果。

由此可見，在必將到來的AGI時(shí)代，真正決定數(shù)字人高下的，就是其獨(dú)一無二的靈魂。

原文標(biāo)題 : 注入AI的靈魂后，數(shù)字人將成為所有人的“門戶”

本地收藏打印推薦給朋友

聲明： 本文由入駐維科號(hào)的作者撰寫，觀點(diǎn)僅代表作者本人，不代表OFweek立場。如有侵權(quán)或其他問題，請聯(lián)系舉報(bào)。

發(fā)表評論

共0條評論，0人參與

登錄登錄即可訪問所有OFweek服務(wù)

用戶名/郵箱/手機(jī)：
密碼：
忘記密碼？
用其他賬號(hào)登錄： QQ | 微信 | 新浪微博

請輸入評論內(nèi)容...

請輸入評論/評論長度6~500個(gè)字

暫無評論

圖片新聞