美國計劃禁止云計算廠商為中國訓練AI大模型,我的一點看法
美國商務部長吉娜·雷蒙多(Gina Raimondo)在2024年1月26日接受路透采訪時宣布了限制外國客戶、尤其是中國客戶使用美國云計算廠商的服務訓練AI大模型的計劃。雷蒙多的原話是:“我們不能允許中國或者其他我們不希望的玩家使用我們的云服務訓練他們的模型。我們引入了芯片出口禁令,但那些芯片正在被美國的云計算數(shù)據(jù)中心使用,所以我們需要考慮關閉這些渠道,以避免潛在的惡意行為。”(注:原文可參見1月27日的路透社電訊)
毫無疑問,上述舉措把美國對華科技制裁推到了一個新的高度,對中國人工智能產(chǎn)業(yè)的潛在破壞力很大。雖然我不是芯片或人工智能方面的專家,但幸運的是,我在這些產(chǎn)業(yè)有很多朋友。在得知這個消息之后,我馬上征詢了他們的看法,學到了很多東西。他們普遍認為,美國商務部的新舉措從宏觀角度看是可以理解的,但是為什么要在這個時間點推出,就有些耐人尋味了。
過去一年多,中國的互聯(lián)網(wǎng)大廠和科技公司自稱在AI大模型領域取得了顯著戰(zhàn)績,“與OpenAI的差距只有半年到一年”。就在前幾天,周鴻祎還宣稱“去年我們看大模型像原子彈,今年再看大模型像茶葉蛋”——從資本市場炒作的角度看,上述說法很有道理(尤其是有利于大股東離婚減持);從技術研發(fā)的角度看就完全不是那么一回事了。事實上,中國科技行業(yè)對OpenAI的“趕超”,離不開下面三個因素的幫助:
第一,對境外開源大模型的吸收借鑒。
GPT-3以上的版本是不開源的,但是國外并不缺乏開源大模型可供借鑒(抄襲),其中最受歡迎的就是Meta于2023年2月發(fā)布的LlaMA,以及7月發(fā)布的LLaMA2。LLaMA本來只是有條件地對學術界開源,但很快遭到大規(guī)模泄露,Meta索性將其后續(xù)版本做成了全面開源。
LLaMA2有三個公開版本,分別擁有70億個、130億個和700億個參數(shù);Meta還宣布會在合適的時候公布更復雜的版本。雖然LLaMA2還是比不上GPT-4,但是作為一個借鑒(抄襲)的原點已經(jīng)足夠了。眾所周知,國內(nèi)一部分創(chuàng)業(yè)公司(名字就不點了)的“自研大模型”就是拿LLaMA2套皮的,就連參數(shù)名稱都懶得改。
第二,通過租用GPT接口,對GPT模型參數(shù)進行“蒸餾”。
一個月前,外電報道稱字節(jié)跳動旗下產(chǎn)品疑似因為調(diào)用GPT接口訓練自己的大模型而被封號。其實這種事情,所有人都在做,圈內(nèi)俗稱“蒸餾”。所謂“蒸餾”,就是反復與GPT進行海量對話,通過GPT返回的數(shù)據(jù)對自己的模型參數(shù)進行調(diào)節(jié);簡而言之,就是讓GPT幫你訓練自己的模型。
只要有足夠的人力、財力,任何公司都可以通過先抄LLaMA2、再租用GPT進行“蒸餾”的方法,在較短的時間內(nèi)搞出一個像模像樣的“自研大模型”,在測試中的表現(xiàn)甚至真能做到“與OpenAI只差半年到一年”(具體差多少取決于花了多少錢做蒸餾)。很可惜,通過這種方法搞出來的大模型永遠無法趕超OpenAI,就像在考試時抄學霸試卷的學生永遠不可能超過學霸——對了,還得小心別被監(jiān)考老師抓住。
第三,租用Azure、AWS等海外云計算服務,解決算力瓶頸。
從2022年開始,美國不斷收緊對華芯片出口禁令。雖然英偉達多次推出了對華“特供版”GPU,但是美國商務部隨即補上了漏洞,現(xiàn)在可供利用的漏洞已經(jīng)很小了。公允地說,哪怕不考慮芯片禁令,中國公司也很難搶到足夠的GPU,因為英偉達的高端GPU一直供不應求,亞馬遜等北美大廠經(jīng)常是“出了新型號先搶一萬張”,來自中國的客戶的優(yōu)先級肯定不會太高。
我們知道,AI大模型使用的算力分為“訓練”和“推理”兩種,前者要求明顯更高。因此,中國科技公司普遍采取了“訓練與推理分開”的模式,把一大塊訓練業(yè)務交給微軟Azure、亞馬遜AWS、谷歌GCP等北美云計算大廠去做,因為只有它們有足夠的高端算力;至于推理,則可以全部放在國內(nèi)(合規(guī)要求也必須在國內(nèi)),甚至在硬件端搞一些“國產(chǎn)替代”。這個玩法,實際上是變相繞過芯片禁令,芯片雖然沒進口到中國,相關算力卻是中國公司在使用。美國監(jiān)管當局肯定早已注意到了這里存在的漏洞,只是以前沒管,現(xiàn)在決定出手管了。
當然,美國商務部的提議會不會訴諸實踐、合不合法(此處是指美國的國內(nèi)法),是值得爭議一番的。不過在中美科技競爭的大背景下,這個提議得到實施的概率很大,美國云計算廠商的大門早晚是要對中國客戶關上的。真正需要回答的問題有兩個:
為什么美國要在這個時候推出新的禁令?那些認真想趕超GPT的國內(nèi)廠商,接下來去哪里找算力?
先說第一條。從商業(yè)或科技邏輯講,美國商務部在此刻提議新的禁令,有點不太好理解:中國與美國在AI大模型方面的差距仍然很大,所謂“大模型從原子彈變成了茶葉蛋”純粹是A股公司大股東為了減持而吹的牛逼,業(yè)內(nèi)人士沒人相信,美國人應該更不信。允許中國公司租用美國云計算資源,在短期內(nèi)不會影響硅谷的科技霸權,反而會帶來一筆不菲的收入。芯片禁令對中國AI研發(fā)的限制已經(jīng)夠大了,有必要更進一步、把事情做絕嗎?微軟、亞馬遜這些云計算巨頭為什么不阻止美國商務部把事情做絕呢?
對于上面的疑問有兩種解釋路徑。一種是政治解釋:今年是大選年,美國兩黨在互相比較誰對中國更強硬,“戰(zhàn)場州”的選民普遍對全球化沒什么好感,此時加強對華科技禁令是一張比較好的牌。至于硅谷科技巨頭,這幾年一直是它們春風得意、收入和利潤猛增的時刻,失去一點來自中國客戶的云計算收入應該不是大問題,沒人愿意為此事死磕。
另一種則是科技解釋:下一代AI大模型(GPT-5及其競爭對手),需要的訓練算力可能會升級到“萬卡規(guī)模”乃至“N萬卡規(guī)模”。因為在現(xiàn)有基礎上進一步提升大模型的能力,必須“大力出奇跡”、從資源規(guī)模上想辦法,就像當年的核武器從2萬噸量級飆升到千萬噸乃至1億噸一樣。如果中國公司打算追趕到這一步,那它們對美國云計算資源的需求就會上升一個數(shù)量級;換個角度講,美國本土客戶的需求也會上升一個數(shù)量級,導致微軟、亞馬遜手中的高端算力更加供不應求。
因此,美國商務部此時提出對華云計算服務禁令,一方面是提前封死中國公司追趕的道路,另一方面也有助于把寶貴的算力資源留給美國本土公司使用。在市場經(jīng)濟環(huán)境下,價高者得,發(fā)生什么事情很難說;所以最佳競爭策略是把中國公司排除在市場經(jīng)濟之外。微軟、亞馬遜肯定也知道自己手里的算力會更加精貴、不缺客戶,所以也沒有動力提出反對。
現(xiàn)在輪到第二個問題:對于那些真心想追上世界領先水平(而不是炒高股價、離婚減持)的中國科技公司而言,接下來要去哪里找算力呢?答案取決于它們愿意付出多高的代價,而且不僅是經(jīng)濟代價。哪怕美國商務部正式頒布并嚴格執(zhí)行禁令,中國公司要通過注冊海外分支機構、尋找海外合作伙伴的方式去變相購買美國云計算服務,應該也是有門路的。問題在于一旦被抓,后果可能很嚴重——永遠不要低估美國監(jiān)管者下死手的力度。國內(nèi)互聯(lián)網(wǎng)大廠多是美國、香港上市公司,它們有沒有膽子為了AI大模型冒如此巨大的風險呢?
如果不考慮上述冒險做法,那就只有立足于發(fā)掘國內(nèi)算力資源了。目前AI相關芯片領域所有的“國產(chǎn)替代”都集中在推理端,因為推理所需算力要求不高。在訓練端,全世界都存在對英偉達(設計)+臺積電(制造)的替代需求,可是全世界都沒做到(包括美國自己的科技大廠)。或許再過五年、十年,總歸有人能拿出替代方案,但那時的世界又不一樣了。上文提到過,目前國內(nèi)自研AI大模型與GPT的差距還是明顯的,而且GPT自身也在迅速迭代,訓練算力的需求一時半會是下不來的。
目前國內(nèi)的幾家主流大廠(大家都知道是哪幾家),平均每家手頭只有1000-2000張用于通用大模型訓練的顯卡,有的多些、有的少些。有人猜測,某些大廠可能在海外囤積了大批顯卡;不過考慮到近年來英偉達顯卡一直供不應求,就算“囤積”了,規(guī)模也不會太大。即將到來的GPT-5時代,可能是一個“萬卡規(guī)模”的時代,全國現(xiàn)有的符合要求的顯卡加起來可能都滿足不了哪怕一個自研大模型的訓練需求。怎么辦?我也很想知道。
附帶說一句,在2022年11月ChatGPT橫空出世之前,中國科技公司囤積英偉達顯卡的最強動力,竟然是為云游戲做準備——當時很多互聯(lián)網(wǎng)大廠是真心相信云游戲是未來、而且能迅速兌現(xiàn)的。無心插柳柳成蔭,云游戲雖然一直沒起來,為云游戲準備的顯卡卻成了中國AI大模型的救命稻草。
真是令人啼笑皆非:過去三年,中國游戲行業(yè)遭受了來自四面八方的一輪又一輪的抨擊,夾起尾巴做人,在社交媒體上動不動就能看到“游戲算科技嗎”“游戲有什么技術含量”的說法,F(xiàn)在,居然是游戲行業(yè)要在拯救中國“硬科技”的過程中,發(fā)揮舉足輕重的作用。我們所有人都欠游戲行業(yè)一個感謝。那些一貫輕視、侮辱、詆毀游戲的人,還欠游戲行業(yè)一個道歉。我等待著他們的道歉,我希望能聽到他們的道歉!
原文標題 : 美國計劃禁止云計算廠商為中國訓練AI大模型,我的一點看法
請輸入評論內(nèi)容...
請輸入評論/評論長度6~500個字
最新活動更多
推薦專題
- 高級軟件工程師 廣東省/深圳市
- 自動化高級工程師 廣東省/深圳市
- 光器件研發(fā)工程師 福建省/福州市
- 銷售總監(jiān)(光器件) 北京市/海淀區(qū)
- 激光器高級銷售經(jīng)理 上海市/虹口區(qū)
- 光器件物理工程師 北京市/海淀區(qū)
- 激光研發(fā)工程師 北京市/昌平區(qū)
- 技術專家 廣東省/江門市
- 封裝工程師 北京市/海淀區(qū)
- 結構工程師 廣東省/深圳市