谷歌疑似造假,Gemini擊敗GPT靠“作弊”?
就跟數(shù)碼圈(juan)發(fā)新機,每次都要對比iPhone一樣。每次有新大模型發(fā)布,GPT-4都要被拉出來鞭尸。
贏不贏的,圖個樂吧。
不管你關不關注AI動態(tài),這兩天鋪天蓋地的報道,你也能知道谷歌推出了全新的AI大模型——Gemini。并且,再一次“吊打了”宿敵OpenAI的“地表最強”GPT-4。
圖源:Google
(我為什么要說“再”?)
谷歌造假了?
這次Gemini的關注度,一點也不亞于OpenAI內亂的時候。畢竟谷歌之前是打算早點發(fā)布Gemini的,就是打的“趁你病要你命”的主意。奈何團隊拉胯的進度,最后Gemini不得不延期。
提前也好,延期也罷。Gemini最后還是發(fā)布了,而且谷歌信心滿滿,儼然一副“GPT你好日子到頭了”的架勢。賬面數(shù)據(jù)和測試結果,也是一路默秒全。
而且谷歌還放出來一段6分鐘一鏡到底的視頻,坐等被夸“好牛X”“666”……
但是這時候有人跳出來說,谷歌你這演示視頻造假了吧?
有人質疑說,這段所謂的一鏡到底,其實是經(jīng)過篩選、剪輯拼接起來的,根本不是實時錄制。
隨后,官方表示稱,視頻確實是有后期制作和剪輯的成分。根據(jù)官方的一份技術聲明,Gemini所有的這些交互都不是實時感知到的,而是通過提示詞問出來的。
這不能說跟演示視頻一毛一樣,根本是八竿子打不著吧。比如“石頭、剪刀、布”游戲,不是Gemini看懂了游戲規(guī)則,而是識別出了三張圖,并做出了推理。
圖源:Google
而對“鴨子簡筆畫”的每一個筆畫的識別能力,以及對顏色的看法,也不全是真的。谷歌DeepMind產品副總裁伊萊·柯林斯(Eli Collins)回應說,這個能力目前還是研究級別的,至少目前還沒有出現(xiàn)在谷歌的實際產品中。
圖源:YouTube
原來讓人直呼“vocal”的感知能力,結果還是識別、提示加引導。這讓很多人表示,谷歌你這是在誤導和欺騙大眾!
眼看著輿論有反噬的苗頭,谷歌最后還是慫了,在油管的演示視頻底下,標注了免責聲明:為了演示的目的,已經(jīng)減少延遲,為了簡潔,Gemini 的輸出也縮短了。
對比數(shù)據(jù)上“做手腳”
如果單純就是視頻做了“藝術”加工,也就還好。畢竟現(xiàn)在圈子里這么干的,不在少數(shù)。但是,谷歌還在其他對比GPT-4的結果上,搞了點小貓膩。
有人就發(fā)現(xiàn),在谷歌曬出的MMLU 測試結果中,Gemini的結果下面有一行灰色小字,標注著“CoT@32”。
這是谷歌自己的“獨家秘籍”,明顯有利于Gemini,可想而知GPT-4的成績好不了哪里去。
還有人詬病圖示比例尺離譜,很小的差距,被做出了天差地別的視覺效果。
谷歌你這就不太厚道了吧。
而且圖上GPT-4最明顯的成績,用的測試方法和Gemini不一樣。
隨后,知名開源社區(qū)HuggingFace的技術主管Philipp Schmid用技術報告中披露的數(shù)據(jù)修復了結果對比圖,結果顯示:
讓Gemini Ultra 和 GPT-4 跑在同一標準下,那Gemini的得分就只有 83.7 ,甚至還不如 GPT-4 。
圖源:X(原推特)
此外,谷歌在發(fā)布會上宣稱,Gemini三個版本(Ultra、Pro、Nano),其中Ultra全面超越 GPT-4,Pro在大多數(shù)指標上超越GPT-3.5。
但隨后有人經(jīng)過測試發(fā)現(xiàn),一道8年級的故事題,GPT-3.5拿了滿分,Gemini Pro則是一塌糊涂。不過,該測試也就圖一樂,畢竟變量控制和細節(jié)并不完善,不像專業(yè)的測試數(shù)據(jù)那樣準確。
谷歌發(fā)布Gemini時還提到,后續(xù)Bard將接入微調版的Gemini Pro,這樣一來,跟接入GPT3.5和GPT4的ChatGPT做一番對比,就變得更容易了。有興趣的朋友可以去嘗試一下。
雖有質疑,但股價上漲
對此外界輿論,谷歌DeepMind研究和深度學習負責人副總裁奧里奧爾·維尼亞爾斯(Oriol Vinyals)表示,“我們這樣做是為了激勵開發(fā)人員”。但很明顯,大部分人并不買賬。
甚至有谷歌的員工表示,對于公司這種夸大宣傳,早就習慣了。而且本身谷歌進度落后于OpenAI,所以有點著急也是理所應當?shù)摹?/p>
當然,做人還是要體面一點。
圖源:網(wǎng)絡
不過,谷歌倒也不是一無所有。在谷歌發(fā)布Gemini之后,12月7日,谷歌母公司Alphabet(Nasdaq:GOOG)的股價漲5.31% ,收于136.93美元,迎來自今年8月29日以來表現(xiàn)最好的一天,總市值達到1.72萬億美元 。
要知道,當時在發(fā)布Bard時,谷歌的股價一天跌去了1000億美元。
雖然要求Gemini超越GPT-4有點苛刻,但誰讓谷歌把牛吹這么大呢,所以什么輿論結果都得受著。具體Gemini最后能進化到什么程度,還得看后續(xù)的進展。
那么,嘗試過Gemini和ChatGPT的你,覺得效果如何?Gemini有希望超越GPT4嗎?
請輸入評論內容...
請輸入評論/評論長度6~500個字
最新活動更多
-
即日-12.26立即報名>>> 【在線會議】村田用于AR/VR設計開發(fā)解決方案
-
1月8日火熱報名中>> Allegro助力汽車電氣化和底盤解決方案優(yōu)化在線研討會
-
即日-1.14火熱報名中>> OFweek2025中國智造CIO在線峰會
-
即日-1.24立即參與>>> 【限時免費】安森美:Treo 平臺帶來出色的精密模擬
-
即日-2025.8.1立即下載>> 《2024智能制造產業(yè)高端化、智能化、綠色化發(fā)展藍皮書》
-
精彩回顧立即查看>> 【線下會議】OFweek 2024(第九屆)物聯(lián)網(wǎng)產業(yè)大會
推薦專題
- 高級軟件工程師 廣東省/深圳市
- 自動化高級工程師 廣東省/深圳市
- 光器件研發(fā)工程師 福建省/福州市
- 銷售總監(jiān)(光器件) 北京市/海淀區(qū)
- 激光器高級銷售經(jīng)理 上海市/虹口區(qū)
- 光器件物理工程師 北京市/海淀區(qū)
- 激光研發(fā)工程師 北京市/昌平區(qū)
- 技術專家 廣東省/江門市
- 封裝工程師 北京市/海淀區(qū)
- 結構工程師 廣東省/深圳市