字節(jié)豆包SeedEdit上線,AI修圖成大廠AI應(yīng)用新焦點(diǎn)?
首先,小雷是對設(shè)計(jì)一竅不通的,畢竟我不是干設(shè)計(jì)這一行的。
但是嘛,這只要浸淫在互聯(lián)網(wǎng)上的人,多少應(yīng)該都會對傳說中設(shè)計(jì)行業(yè)里那幾道百年難得一遇的亙古難題,還有各種奇葩甲方才會提出的變態(tài)要求有所耳聞。
有道是,你的圖片做得很好,那讓畫面里的大象轉(zhuǎn)個(gè)身應(yīng)該沒有什么困難吧。
有道是,你的黑色有些單調(diào),我希望能夠看到一種五彩斑斕的黑色呢。
就不說設(shè)計(jì)師們看到這些會不會氣血上涌了,我一個(gè)負(fù)責(zé)文字工作的人,看到這種批注都有點(diǎn)難頂。
重點(diǎn)是你也不能說些什么,要知道畫面另一頭就是金主爸爸,而且他們對這些是真的不懂。
到頭來,工作就是工作,不管甲方要求有多離譜都得去做,哪怕客戶要你把他照片里的拉鏈給拉上,你能做到的也只有截個(gè)圖發(fā)到社交媒體上給大伙樂一樂,然后為了生活想盡辦法去解決問題。
(圖源:新浪微博)
不過,凡是問題,終究是會有解決辦法的,只是這次的解決辦法可能有點(diǎn)特殊。
昨天,字節(jié)跳動的豆包大模型團(tuán)隊(duì),在公眾號上秀出了最新的通用圖像編輯模型SeedEdit。
官方表示,這款模型主打的就是「讓一句話輕松P圖成為現(xiàn)實(shí)」,用戶只需輸入簡單的自然語言,便可對圖像進(jìn)行多樣化編輯操作,包括修圖、換裝、美化、風(fēng)格轉(zhuǎn)化以及在指定區(qū)域添加或刪除元素等。
聽起來很不可思議?其實(shí)我也是這么覺得的。
讓大象轉(zhuǎn)個(gè)身
想體驗(yàn)這個(gè)功能的話,其實(shí)還蠻簡單的就是了。
根據(jù)官方的說法,目前該模型已經(jīng)在豆包PC端及即夢網(wǎng)頁端開啟測試,豆包手機(jī)端暫時(shí)還用不了這個(gè)功能。
接下來,只要點(diǎn)擊側(cè)邊欄的「圖片生成」,應(yīng)該就能看到上傳參考圖的選項(xiàng)了,這里就是SeedEdit模型的入口。
要做的事情很簡單,上傳圖片,然后輸入我們想要改變的內(nèi)容。
比方說,像畫面里面這種大象背對我們喝水的照片,如果我想讓它轉(zhuǎn)身的話,那應(yīng)該怎么做呢?
答案是,輸入「讓大象面對我」。
(圖源:雷科技)
對比一下兩張圖片。
可以看到,SeedEdit生成的大象正面是非常合乎邏輯的,耳朵的形狀、腳部的位置、身體的顏色都做得相當(dāng)不錯(cuò),周圍的環(huán)境也保持了高度的一致,當(dāng)然部分石頭形狀存在差異這點(diǎn),細(xì)心點(diǎn)還是能看出來的。
(圖源:雷科技)
生成后的圖片還可以再次編輯,這點(diǎn)真的很棒。
(圖源:雷科技)
不過進(jìn)一步的操作,似乎就無法實(shí)現(xiàn)了。
我在豆包修改過的圖片基礎(chǔ)上,繼續(xù)提出圖片編輯的要求,但不論是「讓大象跑起來」、「讓大象用鼻子噴水」或者是「讓大象側(cè)過身子」,基本上很難得到令人滿意的結(jié)果。
叫它噴水,結(jié)果這水確實(shí)是噴出來了,但卻不是從鼻子里噴出來的,而是從象牙的部分噴出來的。
想讓大模型理解啥叫作常識,確實(shí)不是件容易的事情。
(圖源:雷科技)
再換個(gè)人像,或者說模型的照片試試。
因?yàn)槲壹依锃h(huán)境有限嘛,所以一般來說,拍手辦的背景就比較湊合,沒有時(shí)間也沒有啥精力去造景拍攝。
不過現(xiàn)在嘛,我讓它「把背景換成城市」。
(圖源:雷科技)
效果有點(diǎn)平?那就改成「夕陽西下的光照質(zhì)感」。
你還真別說,這感覺馬上就到位了,整個(gè)過程中,我只對豆包說了簡單的兩句要求,體驗(yàn)起來真的很絲滑。
對貧困的膠佬來說,布景和打光的繁瑣步驟或許真的能省略掉了。
(圖源:雷科技)
當(dāng)然,這些都是在原圖上的小打小鬧,如果我想直接更換畫面主體呢?
比如「指鹿為馬」。
(圖源:雷科技)
實(shí)際生成的效果確實(shí)很不錯(cuò),不僅草地背景保留得挺完整,連馬身上的紋理之類的都進(jìn)行了替換。
如果不看原圖,基本很難察覺比例上的問題。
換衣服也沒啥問題,連光影和褶皺都改得挺到位的。
(圖源:雷科技)
試了一下汽車,目前SeedEdit是不認(rèn)識小米SU7的。
不過我隨便傳了一張五菱宏光Mini EV的照片上去,然后輸入了一個(gè)異常復(fù)雜的編輯指令。
(圖源:雷科技)
最后生成的車子,雖然不像瑪莎拉蒂,但起碼也有個(gè)跑車形狀了。
AI修圖,爆發(fā)在即
事實(shí)上,如今AI在繪畫這塊兒,已經(jīng)能讓我們眼前一亮了。
但是在圖像編輯領(lǐng)域,AI技術(shù)其實(shí)是相對落后的,無法進(jìn)行精準(zhǔn)編輯,一直是行業(yè)的老大難問題。
在今年以前,這類需求一般通過Stable Diffusion的ControlNet插件來實(shí)現(xiàn)。
它可以獲取額外的輸入圖像,通過不同的預(yù)處理器轉(zhuǎn)換為控制圖,進(jìn)而作為Stable Diffusion擴(kuò)散的額外條件,只需使用文本提示詞,就可以在保持圖像主體特征的前提下任意修改圖像細(xì)節(jié)。
(圖源:新浪微博,識別特征并進(jìn)行重新繪制)
本地部署AI應(yīng)用這事,和大部分小白是基本無緣的。
所以在進(jìn)入今年后,包括ChatGPT/DALLE3、Midjourney、百度超能畫布都推出了局部重繪應(yīng)用,試圖充當(dāng)在線編輯圖片的功能。
不過這類應(yīng)用,大多數(shù)時(shí)候還得咱們手動涂抹,選定你要修改的對象,然后輸入各種提示詞來做修改。
(圖源:雷科技)
需要掌握正確的AI話術(shù),才能獲得理想的修圖質(zhì)量,門檻還是有點(diǎn)高了。
如果,我是說如果,我們只需要給定輸入圖像和告訴模型要做什么的文本描述,然后模型就能遵循描述指令來編輯圖像,那得多省事兒啊。
字節(jié)端出的SeedEdit,確實(shí)是朝著這個(gè)方向努力的。
不過圖修多了,問題也就出來了,目前這款模型在生成圖片時(shí)還是有一些問題存在的。
首先,缺乏人像前后的一致性。
只要涉及到人物面部的修圖,那么最終出來的圖像和原圖的差異會很夸張,基本上看不出來原來的樣子。
(圖源:雷科技)
其次,缺乏圖片內(nèi)容的方向性。
對于元素較多的圖像,目前SeedEdit很難判斷你要修改的是圖片里的哪個(gè)元素,即便偶然識別對了,出來的圖片效果也會異常扭曲。
(圖源:雷科技)
最后,文字處理能力依然不行。
就像早期AI繪畫那樣,目前SeedEdit會編造文字內(nèi)容,下面這三行小字看似有點(diǎn)邏輯,我看了半天,愣是沒認(rèn)出來寫的是個(gè)啥。
(圖源:雷科技)
在我看來,SeedEdit的出現(xiàn),算是彌補(bǔ)了國產(chǎn)大模型在語義AI修圖應(yīng)用這塊的空白。
可以預(yù)見的是,隨著AI圖像編輯技術(shù)的不斷發(fā)展,未來手機(jī)、電腦都可能會集成這項(xiàng)功能,就像AI消除、AI擴(kuò)圖那樣走進(jìn)尋常百姓家。無論是小白還是大咖,每個(gè)人都有機(jī)會輕松上手使用,讓自己對美的理解可以更直觀地展現(xiàn)出來。
修圖有手就行?或許真的不是夢。
來源:雷科技
原文標(biāo)題 : 字節(jié)豆包SeedEdit上線,AI修圖成大廠AI應(yīng)用新焦點(diǎn)?
請輸入評論內(nèi)容...
請輸入評論/評論長度6~500個(gè)字
最新活動更多
推薦專題
- 高級軟件工程師 廣東省/深圳市
- 自動化高級工程師 廣東省/深圳市
- 光器件研發(fā)工程師 福建省/福州市
- 銷售總監(jiān)(光器件) 北京市/海淀區(qū)
- 激光器高級銷售經(jīng)理 上海市/虹口區(qū)
- 光器件物理工程師 北京市/海淀區(qū)
- 激光研發(fā)工程師 北京市/昌平區(qū)
- 技術(shù)專家 廣東省/江門市
- 封裝工程師 北京市/海淀區(qū)
- 結(jié)構(gòu)工程師 廣東省/深圳市