ChatGPT升級后亂殺老師傅,百度文心一言能抗住壓力嗎?
一夜之間,ChatGPT「開眼了」。
4 個月前發(fā)布 ChatGPT 最初就只支持文本輸入和文本輸出,也就是進(jìn)行文字聊天。然而在 GPT-4 發(fā)布之后,ChatGPT 甚至可以看懂一些梗圖,并解釋「梗」在哪。但 GPT-4 升級遠(yuǎn)不止如此。
美國當(dāng)?shù)貢r間 3 月 14 日,OpenAI 正式發(fā)布了多模態(tài)大型語言模型 GPT-4。OpenAI 在介紹中表示,雖然 GPT-4 在許多現(xiàn)實(shí)世界場景中的能力不如人類,但在各種專業(yè)和學(xué)術(shù)基準(zhǔn)上表現(xiàn)出人類水平的表現(xiàn)。
與 ChatGPT 發(fā)布之初基于的 GPT-3.5 大模型相比,OpenAI 宣稱 GPT-4 擁有更強(qiáng)的語言理解能力,在準(zhǔn)確度上有了顯著提升,雖然還無法解決「胡說八道」的問題,但出現(xiàn)概率已經(jīng)降低了 60%。
此外,GPT-4 的訓(xùn)練語料庫還停留在 2021 年 9 月之前,但對科學(xué)、醫(yī)學(xué)、法律等特定領(lǐng)域進(jìn)行了知識面的擴(kuò)充,不僅能在美國統(tǒng)一律師資格考試中取得前列成績,在奧賽、GRE 等考試均取得了很高的分?jǐn)?shù),甚至 SAT 成績——可以理解為美國高考成績——已經(jīng)超過了 90%的考生,跨過哈佛、斯坦福等名校的門檻。
部分考試成績,圖/OpenAI
同時 GPT-4 的其中一個重點(diǎn)升級是增加了對圖片輸入的支持,有了對圖片進(jìn)行總結(jié)和評論的能力。在官方示例中,GPT-4 就針對去年熱傳的一組圖片進(jìn)行了解讀,并指出其中的「笑點(diǎn)」。
機(jī)翻,圖/OpenAI
Twitter 上還有用戶獲得圖片輸入測試資格展示了,GPT-4 如何根據(jù)冰箱里剩下的食材推薦今日菜譜。不僅是人類的黑話被 ChatGPT「破譯」了,ChatGPT 也第一次「觸碰」到了現(xiàn)實(shí)世界,讓 ChatGPT 未來在更多場景的使用成為了可能。
但需要一提的是,目前圖像識別功能還處于測試階段,暫時不公開使用,僅限部分客戶公司和研究人員使用。但除此之外,GPT-4 的所有升級都已經(jīng)面向 ChatGPT Plus 用戶和部分 ChatGPT API(應(yīng)用程序接口)全面開放。
不過,GPT-4 相比 GPT-3.5 到底帶來了多大的進(jìn)步,又可能會掀起什么樣的風(fēng)暴,以及中國的 ChatGPT——特別是即將在 3 月 16 日發(fā)布的百度文心一言,還有趕超的機(jī)會嗎?
GPT-4 大大大升級
在 OpenAI 發(fā)布 GPT-4 的直播中,第一個介紹的就是對更長內(nèi)容的支持——可以直接讀取的 token 數(shù)從 4096 個(GPT-3.5)升級到了 32000 個,約等于可以一次性輸入 25000 個英文單詞。
很多普通用戶可能用不上也不理解這項(xiàng)升級的重大意義,但大幅增長的上下文長度將極大擴(kuò)展 ChatGPT 的推理能力和用例數(shù)量,比如可以將患者的全部病史一并輸入,或是將冗長的法律合同輸入,都能減少 ChatGPT 對前后分開內(nèi)容的「誤讀」,提高輸出內(nèi)容的準(zhǔn)確性和實(shí)用性。
OpenAI 也提到,簡單聊天中 GPT-4 升級并不明顯(不包括圖片輸入支持),但當(dāng)任務(wù)的復(fù)雜度達(dá)到足夠的閾值,GPT-4 將體現(xiàn)出遠(yuǎn)比 GPT-3.5 更可靠、更有創(chuàng)造力的表現(xiàn)。
此外,ChatGPT 在 GPT-4 大模型的加持下,不僅能夠生成更具說服力和吸引力的內(nèi)容,還支持更個性化的需求和聊天風(fēng)格。官方示例就展示了「蘇格拉底」風(fēng)格設(shè)定下的 GPT-4 老師是如何調(diào)教人類學(xué)生,一步一步思考并解出方程組「3x + 2y = 7, 9x -4y = 1」的正確答案。
GPT-4,圖/OpenAI
如果對比下基于 GPT-3.5 的 ChatGPT 就能明白它們之間的差距。
我們將同樣的設(shè)定和問題輸入 ChatGPT(GPT-3.5),它不僅沒有表現(xiàn)出「蘇格拉底」循循善誘的教導(dǎo),反而直接給出了推導(dǎo)過程——答案還是錯誤的「x=23/27,y=22/9」。
ChatGPT(GPT-3.5),圖/OpenAI
從過程到結(jié)果,GPT-4 至少在教導(dǎo)人類解方程式這件事上吊打了 GPT-3.5,甚至可以說已經(jīng)很接近人類老師的教導(dǎo)過程。甚至我們可以想象,GPT-4 如果充分學(xué)習(xí)了魯迅的資料,或許賽博「魯迅」老師也可以成為所有人的語文老師,甚至是終身導(dǎo)師。
這也引出了另一個升級重點(diǎn)——不同語言的能力。OpenAI 官方承認(rèn),GPT 不管從語料庫、基準(zhǔn)測試、開發(fā)人員都是以英文為主,故而對英文的理解和輸出能力都勝過其他語言。
但即便如此,在 GPT-4 下,包括中文在內(nèi)的大部分語言處理能力基本都超過了 GPT-3.5 的英文處理能力。中國版 ChatGPT 的壓力更大了。
不過,盡管 GPT-4 的能力再一次實(shí)現(xiàn)了驚人的進(jìn)步,包括在對抗性事實(shí)性評估中的得分比 GPT-3.5 高出 40%,但還是存在一些「一本正經(jīng)地胡說八道」,即 AI 對事實(shí)產(chǎn)生「幻覺」,并出現(xiàn)推理錯誤。
比如之前 ChatGPT(GPT-3.5)回答并流傳出的「林黛玉三打白骨精」,我們在基于 GPT-4 的 Bing Chat 中也進(jìn)行了測試,雖然提醒了我們這不是原著中的情節(jié),但同樣「虛造」了改編視頻的存在,這一點(diǎn)可以從引用資料中輕易得出結(jié)論。
圖/必應(yīng)
就如 OpenAI CEO 山姆·阿特曼所說,GPT-4 仍然存在缺陷,但它有明顯的改進(jìn),相比以前的模型不僅幻覺減少、偏見減少,還更有創(chuàng)意。
另外據(jù) OpenAI 官網(wǎng)介紹,摩根士丹利、多鄰國、By My Eyes 等 6 個企業(yè)客戶已經(jīng)率先使用了 GPT-4,其中大概也包括微軟。
微軟和 OpenAI 又前進(jìn)了一大步
早在今年 2 月,就有傳聞稱微軟將在當(dāng)時尚未發(fā)布的 Bing 上集成 GPT-4。事實(shí)證明的確如此,Bing 團(tuán)隊(duì)在 GPT-4 正式發(fā)布后就表示:
我們很高興確認(rèn) New Bing 基于 GPT-4 運(yùn)行,這是我們?yōu)樗阉鞫ㄖ频摹H绻谶^去五周內(nèi)的任何時間使用過新版 Bing,那么您已經(jīng)體驗(yàn)過這個強(qiáng)大模型的早期版本。隨著 OpenAI 對 GPT-4 及更高版本的更新,Bing Chat 也將從中受益。
事實(shí)上,微軟德國技術(shù)總監(jiān)也在上周提前透露了 OpenAI 將在本周發(fā)布 GPT-4。而 OpenAI 過去兩年還與微軟一起從頭設(shè)計了一臺專用于語言訓(xùn)練的超級計算機(jī),GPT-4 就是跑在這臺超級計算機(jī)上訓(xùn)練出來的。
再考慮到 2019 年的十億美元投資和今年年初的數(shù)十億美元投資,微軟和 OpenAI 很大程度上已經(jīng)綁為一體。而 GPT-4 的正式推出再次確立了微軟和 OpenAI 在生成式 AI 上的領(lǐng)先,開發(fā)者 Pietro Schirano 就表示:「我不在乎它是不是通用人工智能,GPT-4 是一項(xiàng)令人難以置信的變革性技術(shù)!
圖/Twitter
與此同時,ChatGPT 的巨大成功一方面已經(jīng)吸引了大量的商業(yè)應(yīng)用,包括微軟的 Bing Chat,同時也為微軟 Azure 云計算平臺拉來了大量客戶,為微軟繼續(xù)力挺 OpenAI 進(jìn)行大量的研發(fā)和資金投入提供了充足的條件。
這樣的強(qiáng)強(qiáng)聯(lián)合,國產(chǎn) ChatGPT 們還有希望嗎?
國產(chǎn)大模型的差距又被拉大了?
時至今日,沒有人會懷疑 ChatGPT 以及大語言模型的重要性了,包括科技部部長王志剛也在幾周前重點(diǎn)談到了 ChatGPT,指出就像踢足球都是盤帶和射門,但要做到梅西那么好很難:
ChatGPT 在技術(shù)進(jìn)步上,特別是保證算法的實(shí)時性與算法質(zhì)量的有效性上,非常難。
換句話說,開發(fā)一個類似 ChatGPT 的對話機(jī)器人不難,但要實(shí)現(xiàn) ChatGPT 同等水平的自然語言理解能力以及實(shí)時性,難度極高。
在國內(nèi)一眾宣稱正在開發(fā)類 ChatGPT 中,只有阿里、騰訊、百度對大語言模型進(jìn)行了大規(guī)模且長期的投入,而且百度也是三家之中對于 AI 傾注心血和時間最多的一家。可以說,從技術(shù)實(shí)力上,百度是目前最有希望在大語言模型上追趕 OpenAI 的中國公司。
日前,百度也已經(jīng)宣布將于 3 月 16 日下午召開文心一言發(fā)布會,如果順利,文心一言將成為國內(nèi)大公司推出的第一個類 ChatGPT 產(chǎn)品。不過據(jù) WSJ 報道,百度從年前就在緊鑼密鼓地進(jìn)行類 ChatGPT 的開發(fā),包括春節(jié)假期期間,甚至將原計劃的支持中英雙語縮減為專注中文。
在算力、資金、技術(shù)等方面都不占優(yōu)勢的情況下,指望百度一舉追上甚至超越 OpenAI 不現(xiàn)實(shí)。而且隨著谷歌開放 PaLM API(5400 億參數(shù)量的業(yè)界頂尖模型),以及 GPT-4 的進(jìn)一步升級,大幅提高了通用版 GPT 的門檻,留給后來者的機(jī)會也越來越小。
但一方面,不管是 OpenAI 還是谷歌對中文的重視程度明顯不足,再加上網(wǎng)絡(luò)和法規(guī)等諸多因素,注定很難在國內(nèi)直接大規(guī)模落地,百度等國內(nèi)公司如果能在中文上追平甚至超越 OpenAI,也不失為一種可行路徑。
另一方面,圍繞大語言模型和生成式 AI 的商業(yè)模式還有大量的未知,OpenAI 和百度一樣需要不斷地進(jìn)行商業(yè)化嘗試。百度此前宣布包括魅族、攜程、興業(yè)銀行、美通社等 400 多家企業(yè)將首批接入文心一言生態(tài),意圖明顯希望極大地擴(kuò)展生成式 AI 的用戶群體,除了考慮生態(tài)的建立,可能也是提前搶占中國更廣泛用戶的心智。
當(dāng)然,在文心一言真正推出落地之前,很難評判它的真正實(shí)力和潛力。而且可以預(yù)見,文心一言將不可避免地被用來與 ChatGPT 進(jìn)行對比,屆時才是檢驗(yàn)百度在大語言模型和生成式 AI 實(shí)力的時刻。
題圖來自 OpenAI
來源:雷科技
原文標(biāo)題 : ChatGPT升級后亂殺老師傅,百度文心一言能抗住壓力嗎?
請輸入評論內(nèi)容...
請輸入評論/評論長度6~500個字
最新活動更多
-
即日-12.26立即報名>>> 【在線會議】村田用于AR/VR設(shè)計開發(fā)解決方案
-
1月8日火熱報名中>> Allegro助力汽車電氣化和底盤解決方案優(yōu)化在線研討會
-
即日-1.14火熱報名中>> OFweek2025中國智造CIO在線峰會
-
即日-1.24立即參與>>> 【限時免費(fèi)】安森美:Treo 平臺帶來出色的精密模擬
-
即日-2025.8.1立即下載>> 《2024智能制造產(chǎn)業(yè)高端化、智能化、綠色化發(fā)展藍(lán)皮書》
-
精彩回顧立即查看>> 【線下會議】OFweek 2024(第九屆)物聯(lián)網(wǎng)產(chǎn)業(yè)大會
推薦專題
- 高級軟件工程師 廣東省/深圳市
- 自動化高級工程師 廣東省/深圳市
- 光器件研發(fā)工程師 福建省/福州市
- 銷售總監(jiān)(光器件) 北京市/海淀區(qū)
- 激光器高級銷售經(jīng)理 上海市/虹口區(qū)
- 光器件物理工程師 北京市/海淀區(qū)
- 激光研發(fā)工程師 北京市/昌平區(qū)
- 技術(shù)專家 廣東省/江門市
- 北京市/海淀區(qū)
- 結(jié)構(gòu)工程師 廣東省/深圳市
OFweek人工智能網(wǎng)
獲取更多精彩內(nèi)容