采用 ChatGPT 類似大模型作為自動駕駛算法核心的 - Waymo 的端到端多模態(tài)算法 EMMA
最近,一直采用激光雷達(dá)和高精地圖實(shí)現(xiàn) L4 的自動駕駛公司 Waymo 的一個(gè)內(nèi)部研究團(tuán)隊(duì),發(fā)布了一篇關(guān)于利用端到端多模態(tài)自動駕駛模型實(shí)現(xiàn)自動駕駛的新論文。
它采用類似于 ChatGPT 的大語言模型 Gemini LLM 作為算法核心,算法所有的輸入和輸出表示為普通文本,具有非常強(qiáng)大的通用性和泛化性,算法還具有可解釋性。
引起了自動駕駛行業(yè)的轟動。所以,本文將初步總結(jié)和介紹Waymo 的端到端多模態(tài)自動駕駛模型EMMA相關(guān)信息:
目前智能駕駛行業(yè)算法的四種算法方案。
“端到端多模態(tài)自動駕駛模型”(EMMA)是怎么做的?
當(dāng)前 EMMA 類方案有什么局限性?
對當(dāng)前智能駕駛乃至汽車行業(yè)產(chǎn)生什么影響?
希望能給大家?guī)硪恍┲悄荞{駛和汽車發(fā)展的信息和思路。
目前智能駕駛行業(yè)算法的四種算法方案:
模塊化自動駕駛算法
模塊化的高階智能駕駛系統(tǒng)采用,感知 、地圖、預(yù)測和規(guī)劃等不同的模塊或者組件來實(shí)現(xiàn)。
這種設(shè)計(jì)便于單個(gè)模塊或組件的調(diào)試和優(yōu)化,但由于模塊間的錯(cuò)誤積累和模塊間的通信有限,它在可擴(kuò)展性方面面臨挑戰(zhàn)。特別需要指出的是,這些模塊通常是基于目標(biāo)場景預(yù)先定義的,所以,這些基于規(guī)則設(shè)計(jì)的模塊間接口(例如感知和行為模塊之間的接口)可能難以適應(yīng)新環(huán)境。
這種方案在現(xiàn)在的智能駕駛應(yīng)用,能夠?qū)崿F(xiàn)針對性場景下高性能,高性價(jià)比,我們之前文章《被逼墻角的Mobileye,祭出 CAIS 大旗,挑戰(zhàn)端到端大模型智能駕駛》中介紹的Mobileye是這方面的強(qiáng)者代表。端到端自動駕駛算法
特斯拉FSD V12,首先發(fā)起在智能駕駛方面采用端到端的自動駕駛算法,直接從傳感器數(shù)據(jù)學(xué)習(xí)生成駕駛行為。該方法消除了模塊之間信號接口的需求,并允許從原始傳感器輸入聯(lián)合優(yōu)化駕駛目標(biāo)。這種端到端算法是專門針對駕駛這種特定的任務(wù),它需要收集大量的道路駕駛數(shù)據(jù)來訓(xùn)練全新的模型。
這也就是當(dāng)前特斯拉以及國內(nèi)一眾智能駕駛公司的方法,數(shù)據(jù),算力為王,大家都在賣力重復(fù)造自己的輪子,希望有朝一日自己輪子能夠成為米其林或者馬牌輪胎,獨(dú)步天下。但是,長尾理論一直存在,大家一直在 push 尋找這個(gè)長尾到底有多長。端到端自動駕駛算法+LVM圖像語言模型。我們之前文章《智能駕駛技術(shù)演進(jìn)與未來挑戰(zhàn):從目標(biāo)物識別到大模型上車》分享了將現(xiàn)有智能駕駛系統(tǒng)的能力與多模特語言模型進(jìn)行整合和增強(qiáng)的案例,它就是借用大語言模型對世界理解的能力去解讀道路圖片信息來增強(qiáng)端到端算法能力,彌補(bǔ)長尾。
業(yè)內(nèi)理想汽車最新的自動駕駛就是采用此類方案E2E大模型+LVM圖像語言模型。端到端多模態(tài)自動駕駛大模型本文介紹的 Waymo 端到端多模態(tài)自動駕駛模型EMMA是另外一種方法,當(dāng)然它目前只是學(xué)術(shù)論文,沒有進(jìn)行工程化。它采用多模態(tài)大型語言模型為自動駕駛中的人工智能提供了一個(gè)有前景的新范式,采用專門針對駕駛調(diào)整過的通用基礎(chǔ)大語言模型,作為智能駕駛算法的核心算法或者組件。大語言模型在兩個(gè)關(guān)鍵領(lǐng)域表現(xiàn)出色,所以采用它不需要重新訓(xùn)練一個(gè)模型:他們是基于人類在互聯(lián)網(wǎng)上積累的文字信息訓(xùn)練而成,所以可以理解為三體中的“智子”他把人類豐富的“世界知識”全部折疊進(jìn)入它算法內(nèi),它的知識量遠(yuǎn)遠(yuǎn)超過我們常見駕駛?cè)罩局兴膬?nèi)容。它們通過鏈?zhǔn)剿季S推理等技術(shù)展示了卓越的推理能力 ,這些能力在專用駕駛系統(tǒng)中并不具備。
其實(shí)目前業(yè)內(nèi)已經(jīng)有兩三家開始靠近這個(gè)方案,例如我們之前文章《探秘美國加州自動駕駛路試:豪橫競逐、勤奮探索與技術(shù)挑戰(zhàn)》提到的采用Open AI大模型的 Ghost (今年已經(jīng)倒閉)和 Wayve,但他們應(yīng)該是部分采用這個(gè)思維。“端到端多模態(tài)自動駕駛模型”(EMMA)是怎么做的?“端到端多模態(tài)自動駕駛模型”(EMMA)是以谷歌的大語言模型 Gemini 框架為算法核心構(gòu)建。Gemini 是一個(gè)基于文本的 LLM,類似于 Open AI的 ChatGPT,它使用大量通用文本語料庫進(jìn)行訓(xùn)練,從而獲得世界和人類自然語言的知識。同時(shí)該算法針對大量有關(guān)道路和駕駛的文本以及許多其他通用知識進(jìn)行訓(xùn)練和微調(diào)。此外,還添加了基于駕駛視頻的“端到端”訓(xùn)練。EMMA的關(guān)鍵創(chuàng)新在于能夠同時(shí)處理視覺輸入(如攝像頭圖像)和非視覺輸入(如基于文本的駕駛指令和歷史上下文)。
通過將駕駛?cè)蝿?wù)重新表述為視覺問答(VQA)問題,這樣,EMMA能夠利用Gemini原有模型中編碼的大量知識,同時(shí)賦予其處理各種駕駛?cè)蝿?wù)的能力。以下是論文中討論的幾個(gè)關(guān)鍵要素:多模態(tài)輸入:EMMA接受攝像頭圖像(視覺數(shù)據(jù))以及導(dǎo)航等文本輸入,駕駛指令和歷史上下文,使其能夠理解并應(yīng)對涉及視覺和非視覺信息的復(fù)雜駕駛場景。視覺問答VQA方法:將駕駛?cè)蝿?wù)重新表述為視覺問答問題,允許EMMA在文本指令的上下文中解讀視覺數(shù)據(jù)。這有助于模型更好地理解駕駛中的動態(tài)和多樣化的情況。使用任務(wù)特定提示進(jìn)行微調(diào):EMMA通過使用駕駛?cè)罩竞腿蝿?wù)特定的提示進(jìn)行微調(diào),從而使其能夠生成各種駕駛輸出,如運(yùn)動規(guī)劃的未來軌跡、感知目標(biāo)、道路圖元素和場景語義等。EMMA概述圖:
它的三個(gè)輸入:
導(dǎo)航指令,類似于人類使用導(dǎo)航一樣,系統(tǒng)接收來自于導(dǎo)航的high level高層次文本指令,例如前方100m左轉(zhuǎn),前方路口右轉(zhuǎn)等等類似指令。自車的歷史狀態(tài),表示為不同時(shí)間戳下的鳥瞰視圖(BEV)空間中的一組路標(biāo)坐標(biāo)。所有的路標(biāo)坐標(biāo)都表示為普通文本,不使用專門的標(biāo)記。方便擴(kuò)展為包含更高階的自車狀態(tài),如速度和加速度。攝像頭視頻感知。通過攝像頭感知三維世界、識別周圍的物體、道路圖以及交通狀況。Waymo 團(tuán)隊(duì)將EMMA構(gòu)建為一個(gè)通用模型,能夠通過訓(xùn)練混合處理多個(gè)駕駛?cè)蝿?wù)。Waymo 團(tuán)隊(duì)使用視覺-語言框架將所有的輸入和輸出表示為普通文本,從而提供了將許多其他駕駛?cè)蝿?wù)融入系統(tǒng)的靈活性。對原有大語言模型采用指令微調(diào)(instruction-tuning),將感知任務(wù)組織為三個(gè)主要類別:空間推理、道路圖估計(jì)和場景理解。
空間推理是理解、推理并得出關(guān)于物體及其在空間中的關(guān)系的能力。這使得自動駕駛系統(tǒng)能夠解釋并與其周圍環(huán)境互動,從而實(shí)現(xiàn)安全導(dǎo)航。Waymo 團(tuán)隊(duì)巧妙的將空間推理結(jié)果的7維框((x, y, z)是車輛坐標(biāo)系中的中心位置,l, w, h是邊界框的長、寬和高,θ是航向角)轉(zhuǎn)換為文本表示。道路圖估計(jì)側(cè)重于識別關(guān)鍵的道路元素,以確保安全駕駛,包括語義元素(如車道標(biāo)線、標(biāo)志)和物理屬性(如車道曲率)。這些道路元素集合構(gòu)成了道路圖。場景理解任務(wù)測試模型對整個(gè)場景上下文的理解,這對于駕駛尤為重要。
例如,由于施工、緊急情況或其他事件,道路可能暫時(shí)被堵塞。及時(shí)檢測這些堵塞并安全繞行對于確保自動駕駛車輛的順暢和安全運(yùn)行至關(guān)重要;然而,場景中的多個(gè)線索必須結(jié)合起來才能確定是否存在堵塞。所有的輸入和輸出都是文本信息,EMMA通過使用駕駛?cè)罩竞腿蝿?wù)特定的提示進(jìn)行微調(diào),從而使微調(diào)的 LLM 語言大模型能夠生成各種駕駛輸出運(yùn)動規(guī)劃和駕駛控制信號。
這樣的算法實(shí)現(xiàn)了三個(gè)優(yōu)點(diǎn):自監(jiān)督:唯一需要監(jiān)督的是自車未來的位置,不需要專門的人工標(biāo)簽。僅使用攝像頭:唯一的傳感器輸入是周圍視角攝像頭。無需高清地圖:除了來自導(dǎo)航系統(tǒng)(如Google Maps類似于我們用的高德和百度地圖)的高層次導(dǎo)航信息外,不需要高清地圖。其實(shí)端到端大模型,最大的問題是可解釋性,EMMA引入了鏈?zhǔn)剿季S提示(Chain-of-Thought Prompting),它可以增強(qiáng)多模態(tài)大型語言模型(MLLMs)的推理能力,并提高其可解釋性。在EMMA中,Waymo團(tuán)隊(duì)通過要求模型在預(yù)測最終的未來軌跡路標(biāo)Otrajectory 時(shí)闡明其決策理由(Orationale),將鏈?zhǔn)剿季S推理融入端到端規(guī)劃軌跡生成中。Waymo 團(tuán)隊(duì)將駕駛推理結(jié)構(gòu)化為四種粗到細(xì)的信息類型:R1 - 場景描述:廣泛描述駕駛場景,包括天氣、時(shí)間、交通狀況和道路條件。
例如:“天氣晴朗,白天。道路是四車道的未分隔街道,中間有行人道,街道兩邊停著車。”R2 - 關(guān)鍵物體:指那些可能影響自車駕駛行為的路面上的其他代理物體,我們要求模型識別其精確的3D/BEV坐標(biāo)。例如:“行人位于[9.01, 3.22],車輛位于[11.58, 0.35]。”R3 - 關(guān)鍵物體的行為描述:描述已識別關(guān)鍵物體的當(dāng)前狀態(tài)和意圖。例如:“行人目前站在人行道上,朝向道路,可能準(zhǔn)備過馬路。車輛目前在我前方,朝相同方向行駛,未來軌跡表明它將繼續(xù)直行。”R4 - 元駕駛決策:包括12類高層次駕駛決策,總結(jié)基于前述觀察的駕駛計(jì)劃。例如:“我應(yīng)該保持當(dāng)前的低速。”Waymo 團(tuán)隊(duì)強(qiáng)調(diào),駕駛推理文本是通過自動化工具生成的,而沒有任何額外的人工標(biāo)簽,從而確保了數(shù)據(jù)生成流程的可擴(kuò)展性。
當(dāng)前 EMMA 有什么局限性這么好的東西,那么直接上車了?Waymo 團(tuán)隊(duì)指出其當(dāng)前模型每次只能處理有限數(shù)量的圖像幀(最多4幀),搞自動駕駛的朋友肯定知道,當(dāng)前牽扯安全的場景,甚至可能需要更多幀圖片來確定場景。同時(shí)這限制了其捕捉駕駛?cè)蝿?wù)所需的長期依賴關(guān)系的能力。有效的自動駕駛不僅需要實(shí)時(shí)決策,還需要在較長的時(shí)間范圍內(nèi)進(jìn)行推理,能夠預(yù)測并應(yīng)對不斷變化的場景。所以,此類算法還需要解決長時(shí)間記憶問題。
另外,目前,哪里有能跑如此多參數(shù)的大模型車載算力芯片,我們之前文章《高通的下一代智能汽車芯片 - 驍龍 Cockpit Elite 和 Ride Elite》介紹過高通下一代智能汽車芯片,最大能跑數(shù)十億個(gè)參數(shù)的大型語言模型;最近小鵬AI日表示其新一代Turing芯片也最高可運(yùn)行300億 參數(shù)大模型,還不知道何時(shí)能上車。而現(xiàn)在的大語言模型參數(shù)量都是千億級別。
除此之外,隨著算力的增大,整個(gè)計(jì)算系統(tǒng)從緩存到帶寬再到熱管理都需要跟上,這都需要當(dāng)前車載算力平臺能夠跟上。
同時(shí),另外一個(gè)要命的問題是實(shí)時(shí)性,大模型用作ChatGPT對話,或者M(jìn)idjourny畫圖延遲幾秒完全沒問題,不會影響到生命安全,但是對于汽車來講毫秒必爭,都是事關(guān)安全?偟膩碇v,當(dāng)前大語言模型,需要通過蒸餾,來縮小參數(shù),保證一定的準(zhǔn)確性來實(shí)現(xiàn)。所以這個(gè)方法必須要優(yōu)化模型,或者將其蒸餾成適合實(shí)時(shí)部署的更緊湊版本,同時(shí)確保不犧牲性能和安全。此外,當(dāng)前這個(gè)模型可以直接預(yù)測駕駛信號,而無需依賴中間輸出(如物體檢測或道路圖估計(jì))。這種方法在實(shí)時(shí)驗(yàn)證和后期分析時(shí)帶來了挑戰(zhàn)。盡管Waymo 團(tuán)隊(duì)已經(jīng)證明,模型可以生成如物體和道路圖預(yù)測這樣的可解釋輸出,并且駕駛決策可以通過思維鏈推理來解釋,但這些輸出與實(shí)際駕駛信號之間并不總是能夠完全一致,也就是說這個(gè)可解釋性目前有時(shí)候也會出錯(cuò)。
最后,當(dāng)前的模型主要依賴于預(yù)訓(xùn)練的多模態(tài)大語言模型(MLLMs),這些模型通常不包括LiDAR或雷達(dá)輸入,汽車冗余多傳感器方案部署是個(gè)大問題。所以此類大模型上車,需要解決工程問題有:強(qiáng)大算力的芯片,支持本地高達(dá)百億,千億參數(shù)的LLM大模型。蒸餾優(yōu)化后縮小參數(shù)可以部署上車的大模型,適合實(shí)時(shí)部署,同時(shí)確保不犧牲性能和安全,這個(gè)有點(diǎn)和小鵬汽車的云端大模型,車端小模型理論相吻合。
支持長記憶的LLM大模型,并降低延遲。泛化并融合好例如激光雷達(dá)和雷達(dá)。
解決好此類的工程問題,才為上車工程化鋪好了路。對當(dāng)前智能駕駛乃至汽車行業(yè)產(chǎn)生什么影響?首先,Waymo 發(fā)布的端到端多模態(tài)自動駕駛模型 EMMA 給智能駕駛時(shí)代又添加了一顆定心丸,當(dāng)前基于AI的人工智能,端到端方案理論上能夠?qū)崿F(xiàn)自動駕駛,接下來就是工程化落地。它一定能夠幫助人類實(shí)現(xiàn)自動駕駛,而且還不會太遠(yuǎn)。另外,通用人工智能會成為智能駕駛的發(fā)動機(jī),智能汽車的劃分,可以通過模型參數(shù)和算力來實(shí)現(xiàn)能力的分級,猶如燃油車時(shí)代,發(fā)動機(jī)排量決定車輛的等級和性能。那么對于車企來講,如果需要贏的智能汽車時(shí)代,可能需要擴(kuò)大自己的野心,做一個(gè)足夠大的集團(tuán)覆蓋汽車,機(jī)器人等人工智能落地的制造機(jī)器集團(tuán)?赡鼙仨氁匝型ㄓ萌斯ぶ悄懿⒗ AI 賦能整個(gè)汽車和機(jī)器項(xiàng)目,提高汽車機(jī)器制造業(yè)的附加值。抑或采用通用人工智能打造差異化產(chǎn)品實(shí)現(xiàn)競爭。最終或許通用人工智能接管人類的重復(fù)性的腦力勞動,猶如現(xiàn)在機(jī)械取代人類的體力勞動。
*未經(jīng)準(zhǔn)許嚴(yán)禁轉(zhuǎn)載和摘錄-參考資料:
EMMA: End-to-End Multimodal Modelfor Autonomous Driving - waymo
Could Foundation Models really resolveEnd-to-end Autonomy?Hongyang Li
The Next Frontier in Embodied AI:Autonomous DrivingCUED Guest Lecture – 25 April 2024
introduce autonomous vehicles - 英偉達(dá)
GAIA-1: A Generative World Model for Autonomous Driving - wayve
原文標(biāo)題 : 采用 ChatGPT 類似大模型作為自動駕駛算法核心的 - Waymo 的端到端多模態(tài)算法 EMMA
最新活動更多
推薦專題
- 高級軟件工程師 廣東省/深圳市
- 自動化高級工程師 廣東省/深圳市
- 光器件研發(fā)工程師 福建省/福州市
- 銷售總監(jiān)(光器件) 北京市/海淀區(qū)
- 激光器高級銷售經(jīng)理 上海市/虹口區(qū)
- 光器件物理工程師 北京市/海淀區(qū)
- 激光研發(fā)工程師 北京市/昌平區(qū)
- 技術(shù)專家 廣東省/江門市
- 封裝工程師 北京市/海淀區(qū)
- 結(jié)構(gòu)工程師 廣東省/深圳市