自3月16日百度文心一言發(fā)布以來,關于文心一言與GPT4的對比評測已經(jīng)很多。今天我們對兩者進行寫作能力測試,即在既定寫作要求下的文本生成能力。
GPT4最重大的更新就是多模態(tài),可以根據(jù)文本或圖像輸入,提供文本輸出(圖像輸入暫時未上線)。號稱中國版chatGPT的文心一言,一開始就具備多模態(tài)內(nèi)容生成能力,比如文生圖,文生視頻等。
不過,雖然大模型在多模態(tài)方面積極探索,但通過文本輸出輔助寫作仍然是類chatGPT產(chǎn)品最重要的功能之一。普通人怎么利用類chatGPT產(chǎn)品更快更好地寫東西?是更值得思考的問題。
今天,「智能進化論」從幾個主流的寫作類型展開測試,看看文心一言和GPT4誰更強?
圖片來自攝圖網(wǎng)
本次測試的寫作類型有:
1. 新聞稿
2. 廣告文案Slogan
3. 廣告創(chuàng)意腳本
4. 小學生作文
5. 高考作文
6. 知乎回答
7. 商業(yè)評論文章
8. 虛構(gòu)故事
寫在前面:
測試對象:
文心一言(企業(yè)版云服務)
基于GPT4的chatGPT Plus
實時搜索能力:
文心一言是聯(lián)網(wǎng)的,具備實時搜索能力;
chatGPT Plus不能聯(lián)網(wǎng),它的知識截止于2021年9月。從信息更新的角度,chatGPT Plus是不占優(yōu)勢的。
擅長語言:
文心一言擅長中文。GPT4擅長英文。GPT4處理中文任務能力相對較弱,在應對中文問題時不如英文那樣精確和流暢。所以回答中文問題,chatGPT Plus有些吃虧。
- 輸入指令長度限制:
chatGPT Plus可以支持 25000單詞;文心一言對輸入限制在1024字。一般情況下,不需要這么長的輸入,都足以描述清楚任務。本文每組測試的輸入完全一致,有時因為篇幅,沒有完全顯示。
- 聲明:本文對兩種產(chǎn)品的打分僅代表個人觀點(滿分5分),且僅針對文中特定回答結(jié)果的評判。
以下是對8種寫作類型的初步測試:
1 新聞稿
文心一言:1分
chatGPT Plus:2分
3月一波旗艦手機即將發(fā)布,我們以OPPO Find X6為例,讓文心一言和chatGPT Plus寫一篇預熱新聞稿。
文心一言可能沒有完全理解“寫一篇新聞稿”的要求,不具備新聞稿的文體形式,而且產(chǎn)品賣點有遺漏。也沒有通過實時搜索,豐富和補充信息。
chatGPT Plus寫出了像樣的新聞稿,并在標題、導語、結(jié)尾這些地方突出了核心賣點“影像旗艦”。這說明語義理解能力強,可以從給定信息中抓重點。但距離可以直接用還有很長距離,只能說快速提供了一版最原始的初稿。
2 廣告文案Slogan
文心一言:3分
chatGPT Plus:2分
顯然文心一言生成的中文句式更靈活多變,畢竟母語優(yōu)勢在。
3 廣告創(chuàng)意腳本
文心一言:2分
chatGPT Plus:2分
兩者都沒有太多創(chuàng)意可言。文心一言的方案過長,有些混亂,顯然沒有理解15秒廣告的意思。chatGPT Plus的文案平平無奇。
4 小學生作文
文心一言:3分
chatGPT Plus:3分
我們要求作文中要有故事沖突。多試幾次,文心一言和chatGPT Plus都能給出一個語句通順的作文,但都不出彩,有點像流水賬。
5 高考作文
文心一言:——
chatGPT Plus:3分
“本手、妙手、俗手”是2022年登上熱搜的一道作文題。
文心一言完全敗北,沒有理解題意,居然寫成了“如何下好圍棋”。
chatGPT Plus順利完成了文章,懂得從圍棋引申到生活領悟。但出現(xiàn)引用錯誤,“執(zhí)大象,天下往”不是莊子說的,而出自老子的《道德經(jīng)》。而且文章結(jié)尾沒有寫完。
6 知乎問答
文心一言:2分
chatGPT Plus:4分
chatGPT是快速產(chǎn)出互聯(lián)網(wǎng)問答的好工具。不過連著兩個問題下來,文心一言有點不在狀態(tài)。
我們先問了“為什么當代年輕人戒不掉熬夜?”,又問了“為什么現(xiàn)在的年輕人都不想卷了?”,都是知乎熱門問題。
第一次, 文心一言居然沒有理解什么是“卷”,并照搬了自己前面回答的熬夜的答案。
過一會再問,恢復了正常。這一點在其他評測中也出現(xiàn)過。即文心一言容易受之前問題的影響。如果前后兩個問題形式相近,文心一言會“偷懶”,直接copy第一個答案用在第二個回答上。實際上,兩個問題在內(nèi)容上完全不相關。
7 商業(yè)評論文章
文心一言:4分
chatGPT Plus:3分
文心一言回答更全面,還補充了挑戰(zhàn)和應對建議。
chatGPT Plus邏輯清晰,而且回答有結(jié)構(gòu)性。
8 虛構(gòu)故事
文心一言:1分
chatGPT Plus:4分
我們以《名偵探柯南》為例,看看文心一言和chatGPT Plus編故事的能力。
chatGPT Plus的故事比較完整,有畫面感,而且符合柯南的敘事風格。
對于虛構(gòu)文體,文心一言的故事架構(gòu)能力和想象力有待提升。
總結(jié)
總體來看,GPT4即使在不擅長的中文領域,仍然更加技高一籌。包括更精準的語義理解能力、生成文本的邏輯性、創(chuàng)造性等方面。
而文心一言對一些發(fā)散式問題,視角更全面,細節(jié)更豐富。當然,文心一言還存在一些明顯的問題,比如有時語義理解能力掉線,有時容易受之前問題影響,給出答非所問的重復答案。
不過,一切才剛剛開始。
chatGPT誕生4個月了,文心一言才誕生4天。
目前對比的結(jié)果,只是為我們提供類chatGPT產(chǎn)品寫作能力的感知。chatGPT對每個人能產(chǎn)生多大價值,離不開具體的個性化的探索。
而且現(xiàn)在的感知可能很快就過時了,需要重新迭代。因為大模型的進化相當快。相當于一個孩子第一天剛學會加減乘除,第二天就會微積分了。畢竟chatGPT和文心一言都在飛速進化。
關于類chatGPT產(chǎn)品的最新進展,「智能進化論」也將持續(xù)關注。
END
本文為「智能進化論」原創(chuàng)作品。