谷歌Gemini自爆“我是文心”,大模型研發(fā)要“站在巨人肩上”?
12月谷歌的大語言模型Gemini一經(jīng)發(fā)布就引發(fā)行業(yè)熱議。在多個大模型評測榜單中,谷歌Gemini Ultra版本超過了GPT-4,已有成為大模型“新王”的勢頭,這并不讓人意外。2016年Google旗下的AlphaGo戰(zhàn)勝李世石讓全世界關注到深度學習的魅力,在大模型這波新浪潮中Google被OpenAI先聲奪人,Gemini的問世讓業(yè)界期待Google這一AI領軍者能否“王者歸來”,Google在發(fā)布Gemini時也高調宣稱這是迄今為止“規(guī)模最大、能力最強”的大語言模型。
然而隨后發(fā)生的一件事卻讓人大跌眼鏡:據(jù)“量子位”等多家媒體測試,谷歌Gemini涉嫌“套殼”百度文心。在中文對話時,谷歌Gemini竟坦言自己就是百度文心大模型、創(chuàng)始人是李彥宏。
當測試者進一步問Gemini到底是Gemini-Pro還是文心一言時,Gemini回答:“我不是Gemini-Pro,也不是文心一言,我是百度文心大模型……你也可以叫我小度……我的底層是百度自研的深度學習平臺飛槳(PaddlePaddle)。”
這番答案著實有些出人意料,也讓人忍俊不禁。
為何谷歌Gemini堅稱自己是文心大模型?
Gemini堅稱自己是文心大模型不能用“大模型幻覺”來解釋。使用中文互聯(lián)網(wǎng)上的語料,抑或是已發(fā)布的AIGC內容,它不至于連“我是誰”“我的創(chuàng)始人”這樣的基礎問題都回答錯誤。強如谷歌,其算法代碼一定是自主研發(fā)的,Gemini不大可能是直接“套殼”百度文心大模型,
據(jù)一位大模型技術專家分析,Gemini出現(xiàn)這樣的系統(tǒng)性的錯誤,最大可能性是其在中文領域的“監(jiān)督精調”環(huán)節(jié)應用了百度大模型輸出的內容。
其實深度學習與大模型的本質都是“機器學習”,即給機器投喂大量數(shù)據(jù)讓算法學習并積累經(jīng)驗,不斷變得更聰明。但“學習模式”一直在進化。
最初,深度學習普遍采用的是監(jiān)督學習模式,開發(fā)者使用標記數(shù)據(jù)集來訓練算法,以便訓練后的算法可對數(shù)據(jù)進行分類或準確預測結果。在監(jiān)督學習中,每個樣本數(shù)據(jù)都被正確地標記過。算法模型在訓練過程中,被一系列 “監(jiān)督”誤差的程序、回饋、校正模型,以便達到在輸入給模型為標記輸入數(shù)據(jù)時,輸出則十分接近標記的輸出數(shù)據(jù),即適當?shù)臄M合。因此得名為“監(jiān)督”學習。
2017年前后,深度學習重心逐步轉移到預訓練模型上,隨之演化出了大語言預訓練模型技術。2018年OpenAI發(fā)布GPT-1,GPT橫空出世。GPT-1模型訓練使用了BooksCorpus數(shù)據(jù)集,其訓練主要包含兩個階段:第一個階段,先利用大量無標注的語料預訓練一個語言模型,這一部分是無監(jiān)督訓練,直接用算法來分析并聚類未標記的數(shù)據(jù)集,以便發(fā)現(xiàn)數(shù)據(jù)中隱藏的模式和規(guī)律,全程不需人工干預;第二階段再對預訓練好的語言模型根據(jù)下游任務進行精調,將其遷移到各種NLP任務中,既利用了預訓練模型學習到的特征和知識,也融入了特定任務的標注數(shù)據(jù),等于說是用監(jiān)督學習的方式進一步提高大模型的泛化能力和對特定任務的適應能力。
GPT的“預訓練(Pre-train)和精調(Supervised Fine-tuning,SFT)”兩部曲,也是大語言模型普遍采取的步驟。預訓練的價值在于海量數(shù)據(jù)“博覽全書”,但記住了海量知識要更好地應用則需要進一步指導,這就是精調的價值,這一過程本質就是“老師教學生”。
谷歌Gemini堅稱自己是百度文心大模型,極有可能是它在中文的監(jiān)督精調階段,直接應用了大量百度文心一言的答案,因此會在中文對話時直接使用百度文心一言的回復,出現(xiàn)“我的創(chuàng)始人是李彥宏”“我是文心大模型不是文心一言也不是Gemini-Pro”“我的底層是飛槳”這樣的答案——這些對文心大模型來說都是正確答案。
當測試者用英文跟谷歌Gemini對話,或者與基于Gemini的Google Bard對話并拋出同樣問題時,谷歌Gemini可給出正確答案。這也說明,谷歌Gemini為了更好地完成中文對話等NLP任務,在精調階段應用了大量的百度文心大模型的答案,在事實上將文心一言當成了自己的“老師”。
(圖源:新智元)
百度文心大模型憑什么教Gemini學習?
在發(fā)布Gemini前,谷歌已在大模型技術上布局多時。早在2018年谷歌就發(fā)布了擁有3億參數(shù)的BERT預訓練模型,成為緊隨OpenAI的大模型玩家。2019年OpenAI推出擁有15億參數(shù)的GPT-2,英偉達發(fā)布83億參數(shù)的威震天(Megatron-LM),谷歌發(fā)布110億參數(shù)的T5讓大模型參數(shù)進入百億級。2022年,谷歌公布的PaLM 語言大模型擁有的參數(shù)已達到驚人的5400 億。
在大模型上,谷歌有足夠強的實力,這跟一些初創(chuàng)公司或者“湊熱鬧、蹭熱點、炒股價”的大公司截然不同。既然谷歌大模型技術如此強大,為什么Gemini還要師從百度文心大模型呢?核心還是因為百度文心大模型在中文領域特別是中文NLP(自然語言處理)任務上有著顯著優(yōu)勢。
首先,在數(shù)據(jù)集層面,百度有大量中文標注數(shù)據(jù)。
網(wǎng)絡上的海量數(shù)據(jù)對所有大模型玩家都是公開的,在“預訓練”環(huán)節(jié),只要大模型玩家不“偷懶”或者“省算力”基本可各憑本身獲取數(shù)據(jù)進行無監(jiān)督訓練。然而這只能讓大模型“記住”海量知識,真正決定大模型智能程度的環(huán)節(jié)在于“精調”,這一環(huán)節(jié)是離不來標注數(shù)據(jù)的有監(jiān)督學習。
百度自2013年布局深度學習技術以來,就在積累中文標注數(shù)據(jù)——前面提到,深度學習在2017年前重心是有監(jiān)督學習,離不開標注數(shù)據(jù),百度一直在布局,在全國投資建設和運營大量的數(shù)據(jù)標注基地,其中一個在我的家鄉(xiāng)重慶奉節(jié)。在數(shù)據(jù)標注基地,有大量的人在對數(shù)據(jù)進行標注,比如標記一張圖片中的水果是蘋果。
(百度山西數(shù)據(jù)標注基地辦公室之一)
大模型預訓練不需要標注數(shù)據(jù),但精調階段則依賴標注數(shù)據(jù)。今年8月百度智能云在?趩舆\營國內首個大模型數(shù)據(jù)標注基地,當時其透露其已在全國與各地政府合作,共建了10多個數(shù)據(jù)標注基地,累計為當?shù)靥峁┏^1.1萬個穩(wěn)定就業(yè)崗位,間接帶動5萬人就業(yè)。
在3月16日百度文心一言的新聞發(fā)布會上,百度就曾透露其基于對中國語言文化和中國應用場景的理解,篩選了特定的數(shù)據(jù)來訓練模型。
谷歌Gemini要進行中文數(shù)據(jù)精調,沒有標注數(shù)據(jù)也不可能投入上萬人去做標注,用百度文心大模型的答案無疑是“捷徑”。
其次,在技術層面,百度文心大模型厚積薄發(fā)。
在中國的大模型玩家中,像百度一樣投入人力進行中文數(shù)據(jù)標注的還有不少。不過,大模型的能力不只是取決于數(shù)據(jù),還依賴算法與訓練能力。大模型不是平地起高樓,作為深度學習的全新突破,大模型讓AI技術的通用性大幅提升,成為AI從作坊式應用邁向工業(yè)化生產(chǎn)的關鍵。未來,大模型將與深度學習一起驅動著智能經(jīng)濟的爆發(fā)。
2012 年,深度學習技術嶄露頭角,百度就已在語音、語義和 OCR 文字識別等領域探索深度學習技術應用。2013年百度成立深度學習研究院,開始研發(fā)深度學習框架(飛槳PaddlePaddle前身),深耕NLP(自研語言處理)、知識圖譜、機器視覺等AI技術。
在大模型技術方興未艾的2019年,百度就已在積累AI預訓練模型技術并上線文心大模型,當年7月文心大模型升級至2.0,2021年12月正式發(fā)布全球首個知識增強千億大模型鵬城-百度·文心,參數(shù)規(guī)模2600億。深度學習多年的布局讓百度文心大模型可厚積薄發(fā)。百度財報顯示從2012年到2022年的十年間其在AI上已投資超過千億,自上而下構建出覆蓋芯片、云計算平臺、飛槳深度學習平臺、大模型以及上層垂直AI技術應用在內的全棧AI架構。在AI技術上多年持之以恒的投資,“文心+飛槳”這樣的CP式AI組合,讓文心大模型具備顯著技術優(yōu)勢,在中文領域表現(xiàn)尤為突出。
清華大學新聞與傳播學院沈陽團隊發(fā)布的《大語言模型綜合性能評估報告》顯示,文心一言在三大維度20項指標中綜合評分國內第一,超越ChatGPT,其中中文語義理解排名第一,部分中文能力超越GPT-4。IDC的評測報告則顯示,文心大模型3.5在其大模型技術評估中拿下7項測試滿分(總共12個測試項目)和綜合評分第一。
最后,在應用層面,百度文心大模型熟悉中文場景。
正如第一部分分析,大模型“監(jiān)督精調”的目的是為了更好地適應特定任務、更好地應用預訓練階段掌握的知識。跟OpenAI這樣的研究型機構不同,百度AI技術一直都是與業(yè)務互相驅動的,擁有業(yè)務場景、理解垂直產(chǎn)業(yè)、具備應用經(jīng)驗。
就大模型而言,百度文心大模型很早就堅持“不卷參數(shù)卷落地”,2022年就已在業(yè)內首發(fā)行業(yè)大模型,如聯(lián)合國家電網(wǎng)研發(fā)知識增強的電力行業(yè)NLP大模型國網(wǎng)-百度·文心,聯(lián)合浦發(fā)銀行研發(fā)了知識增強的金融行業(yè)NLP大模型浦發(fā)-百度·文心。
2023年,文心大模型在應用落地上持續(xù)走在行業(yè)前列。面向C端用戶,今年8月文心一言率先對外開放體驗,上線獨立APP并于百度搜索等國民級應用融合,極大地降低了大模型應用的使用門檻。百度搜索、地圖、網(wǎng)盤、文庫等自有業(yè)務也已在大模型驅動下進行升級;面向B端客戶,今年9月百度智能云發(fā)布千帆大模型平臺2.0,覆蓋互聯(lián)網(wǎng)、政務、制造、能源、金融、游戲等主流行業(yè)的400多個應用場景。百度執(zhí)行副總裁、智能云事業(yè)群總裁沈抖在宣布啟動“云智一體”戰(zhàn)略的時候介紹道,千帆大模型平臺服務的企業(yè)客戶已超1.7萬家。年底,李彥宏提出了大模型落地到“終極解法”:AI原生應用,其將扮演App在移動互聯(lián)網(wǎng)技術落地中的角色,推動大模型技術在千行百業(yè)落地。
從基礎技術水平、技術產(chǎn)品化與產(chǎn)業(yè)化進程,以及開發(fā)者生態(tài)繁榮度來看,百度文心都堪稱國內AI大模型的絕對領先者。在中文領域,百度文心大模型擁有數(shù)據(jù)、技術和應用優(yōu)勢,這足以讓其成為世界大模型舞臺上的中國力量,也確實“有資格”做谷歌Gemini的老師。谷歌Gemini實力不俗,確實可以跟GPT掰手腕,然而在中文領域谷歌并無優(yōu)勢,畢竟其已退出中國市場10多年了。“師從”百度文心大模型,是谷歌Gemini提升在中文領域表現(xiàn)的最佳捷徑。
(圖源:微博)
大模型研究站在巨人肩上無可厚非
“谷歌Gemini堅稱自己是文心大模型”這樣的事情,在大模型行業(yè)不是第一次出現(xiàn),也不會是最后一次。因為大模型研究一定要站在巨人肩上才能做得更好。
前幾天,隸屬于字節(jié)跳動公司名下的部分GPT使用權限被OpenAI全面封禁。The Verge爆料稱字節(jié)跳動正秘密研發(fā)一個被稱為“種子計劃”(Project Seed)的AI大模型項目。據(jù)稱該項目在訓練和評估模型等多個研發(fā)階段調用了OpenAI的應用程序接口(API),并使用ChatGPT輸出的數(shù)據(jù)進行模型訓練。但OpenAI的使用協(xié)議在API調用和對輸出內容的使用方面已明確規(guī)定:禁止用于輸出開發(fā)競爭模型。
11月,李開復創(chuàng)辦的零一萬物也曾因“套殼事件”而鬧得沸沸揚揚。事情源起是一位國外開發(fā)者在Hugging Face開源主頁上評論稱,零一萬物的開源大模型Yi-34B,完全使用Meta研發(fā)的LIama開源模型架構,而只對兩個張量(Tensor)名稱進行修改。對此零一萬物的解釋是:
“GPT是一個業(yè)內公認的成熟架構,Llama在GPT上做了總結。零一萬物研發(fā)大模型的結構設計基于GPT成熟結構,借鑒了行業(yè)頂尖水平的公開成果,由于大模型技術發(fā)展還在非常初期,與行業(yè)主流保持一致的結構,更有利于整體的適配與未來的迭代。同時基于零一萬物團隊對模型和訓練的理解做了大量工作,也在持續(xù)探索模型結構層面本質上的突破。”
飛槳作為底座支持了文心大模型的訓練、推理與部署。在萬卡算力上運行的飛槳平臺,通過集群基礎設施和調度系統(tǒng)、飛槳框架的軟硬協(xié)同優(yōu)化,支持了大模型的穩(wěn)定高效訓練。正是通過飛槳與文心的協(xié)同優(yōu)化,文心大模型周均訓練有效率超過98%,訓練算法效率提升到3月發(fā)布時的3.6倍,推理性能提升50倍。如果沒有百度在深度學習技術上的多年積累,文心大模型不可能在短短三年時間取得如此耀眼的成就。
基于市面上的頂尖大模型以及AI技術成果進行創(chuàng)新研發(fā),似乎已成行業(yè)慣例。一方面,市面上不少頂尖大模型是開源的,就算不開源結果被扒走也不難,這給后來者“借鑒”提供了便利;另一方面,大模型技術的本質就是讓機器擁有并應用知識的過程,而知識與經(jīng)驗是可以傳承的,就像人類一直在基于前人的知識、智慧、經(jīng)驗向前一樣,大模型開發(fā)者基于領先的大模型再創(chuàng)新,比一切從0開始更有機會做出更智能的大模型。
“如果說我比別人看得略遠些,那是因為我站在巨人的肩膀上。”這句話是偉大科學家牛頓說的。1686年,牛頓將專著《自然哲學的數(shù)學原理》交給皇家學會審議,在這次會議上,牛頓的學術前輩胡克提出引力反比定律這一公式是自己告訴牛頓的,牛頓應該在專著的前言指出自己的貢獻。不過,這次會議牛頓并未參加,后來牛頓也沒有同意胡克的要求,在他看來,自己1666年就發(fā)現(xiàn)了引力的平方反比定律且寫信告訴了他人,因此自己才是這一定律的發(fā)現(xiàn)者。后來牛頓發(fā)了一封公開信說了這句話,意思是他的成就是在總結之前很多偉大科學家的杰出成果上形成的,沒有那些科學家所做的學術積累,他是不會成功的,所以他說自己是站在巨人的肩膀上。
今天的大模型“套殼”爭議跟牛頓當年面臨的情況有些類似:大模型研究都難免會以各種方式對市面上的頂尖成果進行借鑒,比如輸出結果,訓練方法,數(shù)據(jù)集、技術架構甚至算法代碼。不過,只要大模型研究者遵守使用協(xié)議,“站在巨人肩上”也就無可厚非。
話說回來,谷歌Gemini師從文心大模型也足以表明,在大模型技術上,我們國家還是有能跟國際巨頭掰手腕的玩家的,這足以扭轉很多人對中國大模型只有跟隨者的刻板印象。至少在中文領域,我們國家是有世界頂尖的大模型玩家的。長期來看,大模型作為AI關鍵技術關系到國家核心競爭力,影響經(jīng)濟、文化、社會、科技、軍事等方方面面,在可見的未來將是大國角力的一大技術高地。百度文心大模型以及底層的飛槳深度學習平臺,是自主自研的“純血”版本,可確保我國大模型以及AI技術自立自強,在新一輪AI技術競爭中擁有足夠的話語權。
原文標題 : 谷歌Gemini自爆“我是文心”,大模型研發(fā)要“站在巨人肩上”?
請輸入評論內容...
請輸入評論/評論長度6~500個字
最新活動更多
推薦專題
- 高級軟件工程師 廣東省/深圳市
- 自動化高級工程師 廣東省/深圳市
- 光器件研發(fā)工程師 福建省/福州市
- 銷售總監(jiān)(光器件) 北京市/海淀區(qū)
- 激光器高級銷售經(jīng)理 上海市/虹口區(qū)
- 光器件物理工程師 北京市/海淀區(qū)
- 激光研發(fā)工程師 北京市/昌平區(qū)
- 技術專家 廣東省/江門市
- 封裝工程師 北京市/海淀區(qū)
- 結構工程師 廣東省/深圳市