地平線,開始賺“端到端”的錢
作者 | 朱世耘
編輯 | 章漣漪
“我們是一個披著芯片外衣的軟件算法公司。” 地平線創(chuàng)始人兼CEO 余凱曾在采訪中這樣解讀地平線的優(yōu)勢打法:“在變化中抓確定性,全局是以一打十,局部是以十打一。”
如何“局部十打一”?
去年,地平線作為第一作者提出的Unified Autonomous Driving(UniAD),首次為自動駕駛端到端通用網(wǎng)絡(luò)架構(gòu)的設(shè)想給出了具體范式,并一舉榮獲CVPR 2023 最佳論文。今年年初,地平線又開源了稀疏化端到端自動駕駛感知算法——Sparse4D系列。
但Sparse4D并不僅僅是范式,其還將是地平線征程5、征程6芯片之上的算法樣板間之一。
換而言之,當(dāng)其他人還在討論時,地平線已經(jīng)要開始做端到端的生意,賺端到端的“錢”了。
01
以十打一的“武器”
“如果論及如何實(shí)現(xiàn)自動駕駛,目前除了端到端,我想不到其它的技術(shù)。”地平線副總裁兼軟件平臺產(chǎn)品線總裁余軼南博士向《賽博汽車》表示:“地平線和特斯拉走的(技術(shù))路線是一樣的,落地端到端的方案大概晚一年。”
地平線副總裁兼軟件平臺產(chǎn)品線總裁余軼南
3月下旬,特斯拉在一周之內(nèi)連續(xù)發(fā)布了“完全由神經(jīng)網(wǎng)絡(luò)組成”的端到端FSD系統(tǒng) V12.3.1和V12.3.3兩個版本。此前,一周一版已經(jīng)是業(yè)內(nèi)“卷王”級別的發(fā)版速度。效果上,Tesla FSD Tracker(FSD用戶主動上傳)的數(shù)據(jù)顯示,F(xiàn)SD V11的無接管行駛里程為100英里左右,而V12.3已經(jīng)達(dá)到368.7英里,622.33公里。
3月26日,馬斯克在X上表示:“本周開始,全美所有適用車輛將能免費(fèi)試用FSD一個月”。4月13日,特斯拉宣布調(diào)整海外FSD月度訂閱費(fèi)價格由199 美元降低至99美元。
做近十年FSD,特斯拉為什么突然變得非常之快?
“端到端(和現(xiàn)有系統(tǒng))的核心區(qū)別在于解決一個問題時,使用寫代碼的方式,還是數(shù)據(jù)和模型的方式。” 余軼南表示。
傳統(tǒng)感知系統(tǒng)和端到端感知系統(tǒng)的對比
業(yè)內(nèi)有一句話,“有多少人工,就有多少智能”。底層原因在于,通過代碼解決問題時,首先需要人類工程師研究所有的場景數(shù)據(jù),定位真問題之后,寫代碼解決。研發(fā)效率上,需要1-5個工程師一周的時間去解決幾個問題。人類工程師的人效,決定著系統(tǒng)的智能程度。
神經(jīng)網(wǎng)絡(luò)的“智商”則取決于模型、數(shù)據(jù)和算力三者之間協(xié)同效應(yīng)的大小,主要通過構(gòu)建算力,采集、挖掘、補(bǔ)充數(shù)據(jù),訓(xùn)練迭代來提高其智能程度。只要算力充足,一天即可“消化”數(shù)十,甚至數(shù)百倍人效的工作。
“端到端之后,研發(fā)的需求就從分析、拆解問題,變?yōu)楦銛?shù)據(jù)去訓(xùn)練模型,然后評估。解決問題的規(guī)模、效率和泛化能力是完全不一樣了。” 余軼南表示,“過去的瓶頸不在于有多少車(采集、提供數(shù)據(jù)),而在于有多少人去分析這些問題,F(xiàn)在端到端將分析問題的能力一下子提升之后,A公司每天處理200個案例,B公司每天處理一百萬個案例,這就相當(dāng)于是兩個物種了。”
02
地平線感知端到端的商業(yè)閉環(huán)
“隨著Sparse4D量產(chǎn),地平線將完成端到端感知系統(tǒng)的商業(yè)閉環(huán)。” 余軼南表示。
今年開始,隨同征程5、征程6芯片,地平線將向智能駕駛一級供應(yīng)商(Tier One,T1)和主機(jī)廠提供Sparse4D感知算法模型。與當(dāng)下第一梯隊玩家量產(chǎn)的模塊化+后處理組成的BEV+Transformer感知方案不同,Sparse4D是完全的端到端感知系統(tǒng)。其完全由神經(jīng)網(wǎng)絡(luò),消除了由人類撰寫代碼的后處理環(huán)節(jié)。通過前端傳感器輸入數(shù)據(jù)后,可直接輸出3維(長寬高 3D)+時間的4D感知結(jié)果,以及3-9秒(依據(jù)不同精度)的預(yù)測結(jié)果。
在nuScenes純視覺3D檢測和3D跟蹤兩個榜單上,Sparse4D均位列第一,成為SOTA(state-of-the-art model 某領(lǐng)域的最佳實(shí)踐模型),領(lǐng)先于包括SOLOFusion、BEVFormer v2和StreamPETR在內(nèi)的一眾最新方法。
Sparse4D算法架構(gòu)但要做端到端,就意味著放棄現(xiàn)有算法積累的代碼。“因?yàn)槲覀兪蔷劢褂谟嬎惴桨负透兄到y(tǒng)的,所以對我們來說做端到端感知是剛需。” 余軼南表示。
因?yàn)檎鞒?希望“搞定”城市NOA。地平線余凱曾在采訪中明確表示,地平線已經(jīng)在城區(qū)智駕領(lǐng)域投入三年時間和數(shù)百人的團(tuán)隊。這一代征程6(高階版)追求“讓用戶覺得城區(qū)智駕功能真正有價值(安全、可靠、舒適)。”
目前,城區(qū)智駕處于成本、體驗(yàn)和效率的“不可能”三角當(dāng)中。高成本、高體驗(yàn)的Robotaxi難以快速擴(kuò)張運(yùn)行范圍;低成本、覆蓋廣的高速NOA難以在城區(qū)復(fù)制體驗(yàn);已經(jīng)落地的“無圖”城市NOA處于體驗(yàn)差、擴(kuò)張慢,成本難以收斂的現(xiàn)狀。
究其原因,人類工程師撰寫代碼解決問題的速度,遠(yuǎn)趕不上城市場景中出現(xiàn)問題的速度。
而端到端將改變速度不匹配的現(xiàn)狀。在余軼南看來,目前端到端為系統(tǒng)帶來至少兩個數(shù)量級的迭代效率提升,未來則將有可能是上千,甚至上萬倍的提升。
僅做端到端的感知系統(tǒng),又可有效避免端到端黑盒特性帶來的潛在風(fēng)險。由于感知是對物理世界的度量,無論是神經(jīng)網(wǎng)絡(luò)+代碼,還是端到端的感知系統(tǒng)架構(gòu),都是通過感知位置、角度、速度、加速度的準(zhǔn)確性、一致性、誤差均值進(jìn)行比較。
“只要誤差比別人小,就相當(dāng)于有了比較優(yōu)勢。” 余軼南表示:“T1和主機(jī)廠是集成標(biāo)準(zhǔn)化的部分,自己把握非標(biāo)準(zhǔn)化的環(huán)節(jié)。自動駕駛系統(tǒng)中,感知是標(biāo)準(zhǔn)答案,規(guī)控取決于車企對用戶的認(rèn)識,是非標(biāo)準(zhǔn)化的部分。所以地平線作為Tier2要把能標(biāo)準(zhǔn)化的標(biāo)準(zhǔn)化,并把效率做到盡可能最高。在這個認(rèn)識的基礎(chǔ)上,我們團(tuán)隊就做了效率最高的感知端到端。”
03
稀疏化的Sparse4D,一切為了效率
“如果只需要走1公里,用腳就可以。但如果要一天走1000公里,就需要發(fā)明火車、飛機(jī)” 余軼南這樣類比面對城市智駕場景,解題效率提升的重要性。
不僅是端到端的路線選擇,地平線Sparse4D的算法架構(gòu)也高度服務(wù)于這一效率思維。
目前,各家“無圖”NOA都存在在主輔路、岔路口“不認(rèn)路”的現(xiàn)實(shí)困境,在復(fù)雜路況中對其它動靜態(tài)目標(biāo)的檢測也不完全,部分玩家選擇采用OCC(占用網(wǎng)絡(luò))做遠(yuǎn)端硬隔離。
底層原因之一,是動態(tài)目標(biāo)和車道線等自動駕駛感知的關(guān)鍵目標(biāo),在空間中的分布通常很稀疏。導(dǎo)致稠密輸入/輸出的BEV范式中,有大量的計算被浪費(fèi)。在目標(biāo)相對較少的高速路段,車端算力尚能支撐。但在城市路況中,端側(cè)算力便開始捉襟見肘。同時特征級的多攝融合也并不等價于BEV。
DETR3D 搭建了純稀疏感知的基本框架,即稀疏Query +稀疏特征采樣的范式Sparse4D的目標(biāo),是實(shí)現(xiàn)一個高性能高效率的長時序純稀疏融合感知算法:既能加速2D到3D 的轉(zhuǎn)換效率,又能在圖像空間直接捕獲目標(biāo)跨攝像頭的關(guān)聯(lián)關(guān)系。
稀疏化計算是更類似人腦的一種神經(jīng)網(wǎng)絡(luò)架構(gòu)方式。
稠密計算的深度神經(jīng)網(wǎng)絡(luò)傾向于將每一層中的每個新神經(jīng)元都與前一層中的所有神經(jīng)元連接起來。但靈長類生物大腦中的神經(jīng)元越多,平均下來每個神經(jīng)元與其他神經(jīng)元的連接就越少。但由于大腦天然對“重點(diǎn)”敏感,人類大腦消耗的能量是GPU的十分之一,但強(qiáng)度要高出10億倍。
Transformer的自注意力機(jī)制構(gòu)建起了能夠“注意重點(diǎn)”的深層神經(jīng)網(wǎng)絡(luò)。但要在端側(cè)處理諸如城市駕駛這樣的超復(fù)雜問題,仍需進(jìn)一步提升計算效率。與人類類似的,盡可能高效使用神經(jīng)網(wǎng)絡(luò)中每個權(quán)重的稀疏網(wǎng)絡(luò)便成為新的解題方式。
從結(jié)果來看,稀疏類計算的Sparse4D在不增加模型推理計算量的前提下,顯著提升了模型的檢測效果。
同時,由于已經(jīng)實(shí)現(xiàn)了目標(biāo)檢測的端到端(無需dense(稠密)-to-sparse(稀疏)的解碼),instance(實(shí)例,如一張行人正在穿過車前的圖片)在時序上已經(jīng)具備了目標(biāo)一致性(同一個instance始終檢測同一個目標(biāo))。Sparse4D在無需修改任何訓(xùn)練流程的情況下,即可拓展完成端到端的檢測和多目標(biāo)跟蹤任務(wù)。
基于稀疏實(shí)例的Recurrent 時序方案在論文中,Sparse4D仍被表達(dá)為純視覺的端到端感知方案。但余軼南表示,Sparse4D本質(zhì)上是一個多模態(tài)的感知模型。“是完全兼容的插件模式,純視覺、多模態(tài)都是完全兼容的。”
“對神經(jīng)網(wǎng)絡(luò)來說,不同模態(tài)的數(shù)據(jù)都可以被表示成一種標(biāo)準(zhǔn)結(jié)構(gòu),只要把時間同步做好,甚至不對齊也可以,因?yàn)樗梢宰约簩W(xué)。你唯一要管的就是算力,即背后的成本和功耗。”
04
跟或者不跟,端到端的未來
“如果是一個純粹的技術(shù)選擇,我會說放下手頭所有東西去做端到端。如果我只是個技術(shù)人員,我覺得我今天做得最聰明的(代碼)可能都沒有意義。”余軼南表示:“但對于一個公司來說,一個產(chǎn)品是基于公司業(yè)務(wù)、商業(yè)變現(xiàn)、營收利潤、市場品牌等一系列通盤考慮的結(jié)果,是基于現(xiàn)狀進(jìn)行資源分配的問題:一方面要聚焦把當(dāng)前的產(chǎn)品做好,另一方面也要有余裕做下一代技術(shù)預(yù)研。”
盡管端到端已成為今年自動駕駛界的熱詞,但并不意味著當(dāng)下會有眾多玩家迅速跟進(jìn)。
首先,端到端意味著技術(shù)路線的改變,對此前積累的揚(yáng)棄。從地平線的經(jīng)驗(yàn)來看,端到端并非是將現(xiàn)有模塊間的后處理消除,實(shí)現(xiàn)模塊間的連續(xù)可導(dǎo)即可,需要建設(shè)新的、巧妙的網(wǎng)絡(luò)架構(gòu)。由此,之前架構(gòu)中已經(jīng)被驗(yàn)證的參數(shù)失效,并放棄大量人力寫出的有效代碼。
換而言之,目前能夠被用于開城的技術(shù)成果要被放棄。而端到端的不可解釋性和數(shù)據(jù)、算力需求,則是實(shí)打?qū)嵉某杀尽?/strong>
4月9日,馬斯克在X上發(fā)文稱,特斯拉儲備了3-35萬塊英偉達(dá)H100,即約29.67-346.15Eflops算力。作為對比,目前國內(nèi)百度為極越準(zhǔn)備的算力為2.2Eflops,小鵬扶搖超算中心的算力為0.6Eflops。不過,余軼南估計端到端的初步算力建設(shè)門檻或?yàn)?000塊英偉達(dá)A100,即19.5Pflops算力。目前,一塊A100的價格約17萬元,在不考慮建設(shè)和運(yùn)營費(fèi)用,僅“買卡”的情況下,基礎(chǔ)的端到端起步便需要1.7億元的成本。“一個單獨(dú)的(端到端)軟件算法是無法構(gòu)筑壁壘的。算力、算法、數(shù)據(jù)中,核心的壁壘是算力,因?yàn)樗懔κ窍∪钡。?shù)據(jù)也構(gòu)成壁壘,但它不是一個顯性的壁壘,端到端未來一定會對數(shù)據(jù)有指數(shù)級的需求。”余軼南表示。
此外,大模型訓(xùn)練所需的分布式系統(tǒng)的硬件架構(gòu)、數(shù)據(jù)閉環(huán)、訓(xùn)練方法,將成為端到端落地新的技術(shù)壁壘。
但端到端的吸引力也頗為巨大。
除特斯拉FSD V12目前表現(xiàn)出來的強(qiáng)泛化性和智慧涌現(xiàn)等顯性優(yōu)勢外,目前困擾企業(yè)的路線選擇也將不再是問題。
“端到端的體系下,傳感器的取舍從先驗(yàn)(預(yù)設(shè)、小范圍試驗(yàn))變成了后驗(yàn)(實(shí)際使用),不再是方案選擇的問題,而成了一個成本問題。”余軼南表示。
當(dāng)下,業(yè)內(nèi)對純視覺和激光雷達(dá)、有圖無圖,甚至純視覺是否要包含毫米波雷達(dá)等技術(shù)方案爭論不休。底層原因在于選擇一種技術(shù)路線,涉及傳感器、芯片、算法導(dǎo)整車整個垂直系統(tǒng)的整合、驗(yàn)證,成本大、周期長,且是基于預(yù)期效果進(jìn)行選擇,全憑技術(shù)大牛的直覺。
端到端體系下,極高的研發(fā)效率可在極短時間內(nèi)將各類技術(shù)方案的邏輯鏈路、研發(fā)鏈路實(shí)際跑一遍,企業(yè)只需要就方案的實(shí)際效果和成本進(jìn)行評估選擇即可。
蔚小理、小米、智己都公布了自己的端到端模型上車計劃,地平線在Sparse4D之外,也在預(yù)研全棧(感知+規(guī)控)端到端技術(shù)。
“我們還是比較冷靜的。”余軼南將地平線對熱技術(shù)、熱概念的打法歸納為兩步:“在我們沒有看準(zhǔn)的時候,我們不會冒進(jìn),盡可能保持低成本的方式跟隨。一旦看準(zhǔn)要上的時候,會投入可能十倍于別人的資源去推動核心技術(shù)突破,然后將沉淀下的經(jīng)驗(yàn)成果開放地賦能給合作伙伴。”--END--
原文標(biāo)題 : 地平線,開始賺“端到端”的錢
請輸入評論內(nèi)容...
請輸入評論/評論長度6~500個字
圖片新聞
最新活動更多
推薦專題
- 產(chǎn)品工程師(汽車) 易思維(杭州)科技股份有限公司
- IE工程師(汽車智聯(lián)) 惠州碩貝德無線科技股份有限公司
- 項目經(jīng)理(汽車內(nèi)飾&汽車電子) 伯恩光學(xué)(惠州)有限公司
- 結(jié)構(gòu)工程師-汽車電子事業(yè)部(J10116) 深圳奧尼電子股份有限公司
- 銷售總監(jiān)-汽車電子方向 深圳市智立方自動化設(shè)備股份有限公司
- 銷售經(jīng)理(汽車新能源行業(yè)) 廣州瑞松智能科技股份有限公司
- 高級軟件工程師 廣東省/深圳市
- 自動化高級工程師 廣東省/深圳市
- 光器件研發(fā)工程師 福建省/福州市
- 銷售總監(jiān)(光器件) 北京市/海淀區(qū)
- 激光器高級銷售經(jīng)理 上海市/虹口區(qū)
- 光器件物理工程師 北京市/海淀區(qū)
- 激光研發(fā)工程師 北京市/昌平區(qū)
- 技術(shù)專家 廣東省/江門市
- 封裝工程師 北京市/海淀區(qū)
- 結(jié)構(gòu)工程師 廣東省/深圳市