關(guān)于數(shù)據(jù)增強(qiáng)在自動(dòng)駕駛中的探討
本文來(lái)源:智車科技
/ 導(dǎo)讀 /
與其他目標(biāo)檢測(cè)問(wèn)題相比,自動(dòng)駕駛本身有著特殊性。那么,在自動(dòng)駕駛的訓(xùn)練中,沿用一般的數(shù)據(jù)增強(qiáng)手段是否有較好的效果呢?本文介紹分享DeepScale深度學(xué)習(xí)軟件工程師Matthew Cooper在針對(duì)該問(wèn)題的一些實(shí)驗(yàn)和探討。
DeepScale 從2019年起由于被特斯拉收購(gòu)的消息而備受關(guān)注,其旨在幫助汽車制造商使用大多數(shù)汽車中標(biāo)準(zhǔn)的低功率處理器來(lái)提供非常精確的計(jì)算機(jī)視覺(jué),專注于開(kāi)發(fā)自動(dòng)駕駛汽車的深度神經(jīng)網(wǎng)絡(luò)。而在深度神經(jīng)網(wǎng)絡(luò)應(yīng)用中,數(shù)據(jù)可以通過(guò)多種方式進(jìn)行擴(kuò)充,以避免過(guò)度擬合,從而提高模型檢測(cè)性能。
圖像增強(qiáng)實(shí)驗(yàn)與結(jié)果
為了改善目標(biāo)檢測(cè)性能,在構(gòu)建數(shù)據(jù)增強(qiáng)器時(shí),經(jīng)常會(huì)使用一種稱為Cutout的正則化技術(shù)。簡(jiǎn)而言之,Cutout會(huì)在圖像中使隨機(jī)放置的正方形變黑。
Cutout應(yīng)用于CIFAR-10 dataset中的圖像
一般情況下,Cutout可以顯著提高視覺(jué)應(yīng)用的準(zhǔn)確性。但是,當(dāng)將其應(yīng)用于這些數(shù)據(jù)時(shí),我們的檢測(cè)mmAP降低了。我們搜索了這個(gè)問(wèn)題后驚訝地發(fā)現(xiàn),我們使用的所有增強(qiáng)器都極大地?fù)p害了檢測(cè)性能。
在探索的開(kāi)始,我們使用了Filp(翻轉(zhuǎn))、Crop(裁剪)和權(quán)重衰減正則化,這些都是用于目標(biāo)檢測(cè)的常用方案。通過(guò)研究,我們發(fā)現(xiàn)這些數(shù)據(jù)在我們的數(shù)據(jù)集上均會(huì)損害檢測(cè)性能。而刪除這些增強(qiáng)器可使網(wǎng)絡(luò)的初始性能提高13%mmAP 。(mmAP是COCO目標(biāo)檢測(cè)挑戰(zhàn)中的默認(rèn)評(píng)估指標(biāo))
目標(biāo)檢測(cè)常用方案的效果
通常,我們希望使用權(quán)重衰減、Flip和Crop來(lái)將性能提高幾個(gè)點(diǎn),如上圖中虛線所示。但是,在這次的案例中,這些增強(qiáng)器分別對(duì)mmAP造成8.4%、0.1%和4.5%的損害。刪除所有增強(qiáng)器可將整體性能提升13%。
那么,為什么這些標(biāo)準(zhǔn)的增強(qiáng)器會(huì)損害檢測(cè)性能呢?為了解釋這些,我們要從根本原理來(lái)重新審視圖像增強(qiáng)的想法。
為什么使用數(shù)據(jù)增強(qiáng)?
過(guò)度擬合是深度神經(jīng)網(wǎng)絡(luò)的常見(jiàn)問(wèn)題。神經(jīng)網(wǎng)絡(luò)非常靈活;但是,考慮到常見(jiàn)數(shù)據(jù)集的大小,它們通常會(huì)被過(guò)度參數(shù)化。這將導(dǎo)致一個(gè)模型,該模型學(xué)習(xí)數(shù)據(jù)集中的“噪聲”而不是“信號(hào)”。換句話說(shuō),他們可以記住數(shù)據(jù)集的意外屬性,而不是學(xué)習(xí)有意義的常規(guī)信息。結(jié)果,當(dāng)提供新的實(shí)際數(shù)據(jù)時(shí),過(guò)擬合網(wǎng)絡(luò)無(wú)法得到正確的結(jié)果。
為了解決過(guò)度擬合問(wèn)題,我們經(jīng)常選擇擴(kuò)充訓(xùn)練數(shù)據(jù)。擴(kuò)充圖像數(shù)據(jù)的常用方法包括水平隨機(jī)翻轉(zhuǎn)圖像(Flip)、改變其色相(色相抖動(dòng))或裁剪隨機(jī)部分(Crop)。
原始長(zhǎng)頸鹿圖像(左上方)、Flip(右上方)、色相抖動(dòng)(左下方)、Crop(右下方)。雖然進(jìn)行了不同的變換,但每個(gè)圖像依然都是長(zhǎng)頸鹿。
諸如Flip、色相抖動(dòng)和Crop之類的增強(qiáng)器有助于消除過(guò)度擬合,因?yàn)樗鼈兲岣吡司W(wǎng)絡(luò)的泛化能力。如果訓(xùn)練網(wǎng)絡(luò)以識(shí)別面向右的長(zhǎng)頸鹿并在面向左的長(zhǎng)頸鹿的翻轉(zhuǎn)圖像上進(jìn)行訓(xùn)練,則網(wǎng)絡(luò)將知道長(zhǎng)頸鹿是長(zhǎng)頸鹿,而不管朝向如何。這就使得網(wǎng)絡(luò)正確學(xué)習(xí)有關(guān)長(zhǎng)頸鹿的相關(guān)信息(如棕色斑點(diǎn)毛皮),也能正確地排除一般信息。
諸如COCO目標(biāo)檢測(cè)挑戰(zhàn)之類的公共數(shù)據(jù)集一般具有泛化的需求。由于這些數(shù)據(jù)集包含從多種來(lái)源聚合而來(lái)的圖像,這些圖像是在不同條件下從不同的相機(jī)拍攝的,因此網(wǎng)絡(luò)需要概括出許多因素才能發(fā)揮出色的性能。網(wǎng)絡(luò)需要應(yīng)對(duì)的一些變量是:光、比例、攝像機(jī)固有特性(如焦距,主點(diǎn)偏移和軸偏斜)以及攝像機(jī)外部特性(如位置、角度和旋轉(zhuǎn))。通過(guò)使用數(shù)據(jù)增強(qiáng)器,我們可以訓(xùn)練網(wǎng)絡(luò)來(lái)概括所有這些變量,就像在上一個(gè)示例中我們能夠概括長(zhǎng)頸鹿的方向一樣。
來(lái)自COCO數(shù)據(jù)集的這些示例是使用不同的相機(jī),不同的角度,比例和姿勢(shì)拍攝的,因此有必要學(xué)習(xí)這些屬性的不變性以在COCO目標(biāo)檢測(cè)中表現(xiàn)良好。
為什么自動(dòng)駕駛汽車的數(shù)據(jù)不一樣?
與來(lái)自COCO和其他公共數(shù)據(jù)集的數(shù)據(jù)不同,自動(dòng)駕駛汽車收集的數(shù)據(jù)非常一致。
汽車通常相對(duì)于其他車輛和道路物體具有一致的姿勢(shì)。此外,所有圖像都來(lái)自相同的攝像機(jī),安裝在一樣的位置和角度。這意味著同一系統(tǒng)收集的所有數(shù)據(jù)都具有一致的相機(jī)屬性,例如上面提到的外部特征和固有特征。我們可以使用與量產(chǎn)時(shí)相同的傳感器系統(tǒng)來(lái)收集訓(xùn)練數(shù)據(jù),因此自動(dòng)駕駛汽車中的神經(jīng)網(wǎng)絡(luò)不必?fù)?dān)心這些屬性的泛化。因此,適應(yīng)系統(tǒng)的特定攝像機(jī)屬性實(shí)際上可能是有益的。
這些來(lái)自Berkeley Deep Drive數(shù)據(jù)集中每個(gè)汽車的示例都是從同一攝像機(jī)以相同的角度和姿勢(shì)拍攝的。它們還具有相同的偽影,例如擋風(fēng)玻璃反射和每幀右下角的物體。
由于自動(dòng)駕駛汽車數(shù)據(jù)具有一致性,這導(dǎo)致使用一般數(shù)據(jù)增強(qiáng)器(例如Flip和Crop)對(duì)性能的損害超過(guò)其幫助。原因很簡(jiǎn)單:翻轉(zhuǎn)訓(xùn)練圖像是沒(méi)有意義的,因?yàn)閿z像頭將始終處于相同角度,并且汽車將始終位于道路的右側(cè)(因國(guó)家而已)。汽車幾乎永遠(yuǎn)不會(huì)在道路的左側(cè),攝像頭也永遠(yuǎn)不會(huì)翻轉(zhuǎn)角度,因此對(duì)翻轉(zhuǎn)數(shù)據(jù)進(jìn)行訓(xùn)練會(huì)導(dǎo)致模型過(guò)度包含一些不會(huì)發(fā)生的場(chǎng)景。同樣,裁剪具有移動(dòng)和縮放原始圖像的效果。由于汽車的攝像頭將始終位于相同位置,因此這種移動(dòng)和縮放會(huì)導(dǎo)致網(wǎng)絡(luò)會(huì)浪費(fèi)其對(duì)不相關(guān)場(chǎng)景的預(yù)測(cè)能力。
如何改進(jìn)?
現(xiàn)在,我們理解了自動(dòng)駕駛汽車數(shù)據(jù)具有一致性,導(dǎo)致了之前那些增強(qiáng)器不太理想的結(jié)果。接下來(lái),我們來(lái)看看是否可以利用這種一致性來(lái)進(jìn)一步提高性能。
在引入任何新的擴(kuò)充器之前,我檢查了我們的數(shù)據(jù)集以查看是否可以在數(shù)據(jù)級(jí)別進(jìn)行任何改進(jìn)。我們的訓(xùn)練集最初包括來(lái)自兩個(gè)廣角相機(jī)和一個(gè)帶變焦鏡頭的相機(jī)的圖像。變焦鏡頭產(chǎn)生類似于Crop的縮放和移動(dòng)效果。在測(cè)試時(shí),我們僅使用廣角相機(jī),因此對(duì)縮放圖像進(jìn)行訓(xùn)練會(huì)使得網(wǎng)絡(luò)過(guò)于籠統(tǒng)。我發(fā)現(xiàn),從訓(xùn)練集中刪除縮放圖像可以大大提高mmAP。這證實(shí)了我們的假設(shè),即訓(xùn)練集和測(cè)試集之間的一致性對(duì)于性能至關(guān)重要。
刪除原始圖像增強(qiáng)器后,我們?cè)谛碌母恢碌男聰?shù)據(jù)集上進(jìn)行了訓(xùn)練和測(cè)試。相對(duì)于原始方案,mmAP額外提高了10.5%。
之后,我們考慮了可以在不更改相機(jī)屬性的情況下更改訓(xùn)練數(shù)據(jù)的增強(qiáng)器。我在該項(xiàng)目開(kāi)始時(shí)實(shí)施的Cutout增強(qiáng)似乎是一個(gè)不錯(cuò)的選擇。與Flip和Crop不同,Cutout不會(huì)以嚴(yán)重影響相機(jī)屬性的方式(即通過(guò)翻轉(zhuǎn),移動(dòng)或縮放)來(lái)更改輸入。取而代之的是,Cutout可以模擬障礙物。障礙物在現(xiàn)實(shí)世界的駕駛數(shù)據(jù)中很常見(jiàn),而障礙物的不變性可以幫助網(wǎng)絡(luò)檢測(cè)部分被遮擋的物體。
障礙物在現(xiàn)實(shí)世界的駕駛數(shù)據(jù)中很常見(jiàn)。在此圖像中,兩個(gè)行人擋住了我們對(duì)警車的視野,而大包擋住了我們對(duì)行人的視野。
色相抖動(dòng)(Hue jitter)還可以在不影響相機(jī)屬性的情況下幫助泛化。色相抖動(dòng)只是將輸入的色相移動(dòng)一個(gè)隨機(jī)量。這有助于網(wǎng)絡(luò)對(duì)顏色進(jìn)行泛化(例如,紅色汽車和藍(lán)色汽車都應(yīng)被檢測(cè)為汽車)。不出所料,Cutout和色相抖動(dòng)都改善了在新數(shù)據(jù)集上的性能。
向新數(shù)據(jù)集中添加Cutout和色相抖動(dòng)增強(qiáng),相對(duì)mmAP分別增加了1%和0.2%。這比原始方案(即舊數(shù)據(jù)集上的Flip、Crop和權(quán)重衰減)提高了24.7%。
值得注意的是,這些增強(qiáng)技巧不適用于包含來(lái)自不同相機(jī)類型、不同角度和比例的圖像數(shù)據(jù)集。為了證明這一點(diǎn),我們通過(guò)隨機(jī)翻轉(zhuǎn)和剪裁創(chuàng)建了具有多種相機(jī)屬性的測(cè)試集。不出所料,在更通用的數(shù)據(jù)集上,我們新的增強(qiáng)方案的性能比原始的一般增強(qiáng)器差。
當(dāng)應(yīng)用于具有一致性的自動(dòng)駕駛汽車數(shù)據(jù)時(shí),我們的新增強(qiáng)方案(Cutout和色相抖動(dòng))與一般增強(qiáng)方案(Flip、Crop和權(quán)重衰減)相比,mmAP提升了11.7%。但是,當(dāng)我們將其應(yīng)用到更多樣化的數(shù)據(jù)時(shí),與一般方案相比,其結(jié)果會(huì)下降24.3%。
最后
Flip和Crop等增強(qiáng)方式在很多研究工作上取得了廣泛的成功,以至于我們從沒(méi)想過(guò)要質(zhì)疑它們對(duì)我們特定問(wèn)題的適用性。當(dāng)我們從根本原理重新審視增強(qiáng)概念時(shí),很明顯我們可以做得更好。機(jī)器學(xué)習(xí)領(lǐng)域有許多類似的“通用最佳實(shí)踐”,例如如何設(shè)置學(xué)習(xí)率,使用什么優(yōu)化器以及如何初始化模型。對(duì)于機(jī)器學(xué)習(xí)工程師來(lái)說(shuō),不斷重新審視我們關(guān)于如何訓(xùn)練模型的假設(shè)非常重要,尤其是在針對(duì)特定應(yīng)用進(jìn)行構(gòu)建時(shí)。學(xué)術(shù)界尚未對(duì)此類問(wèn)題進(jìn)行探討,而通過(guò)以嶄新的眼光看它們,我們可以極大地改善機(jī)器學(xué)習(xí)的實(shí)際應(yīng)用。
發(fā)表評(píng)論
請(qǐng)輸入評(píng)論內(nèi)容...
請(qǐng)輸入評(píng)論/評(píng)論長(zhǎng)度6~500個(gè)字
圖片新聞
最新活動(dòng)更多
- 1 4000家退網(wǎng),汽車經(jīng)銷商何去何從
- 2 華為完成封鎖,F(xiàn)SD在中國(guó)沒(méi)戲了
- 3 多重壓力下,廣汽不得不擁抱華為
- 4 2024年汽車十大技術(shù)趨勢(shì)盤點(diǎn):智能化成了潮水的大方向
- 5 獨(dú)家|開(kāi)啟合作接觸,上汽與華為“破冰”
- 6 輾轉(zhuǎn)三年,上汽還是搭上了華為
- 7 “四界”之外,華為和廣汽組建“頂級(jí)局”
- 8 中國(guó)汽車智能化,要與美國(guó)脫鉤了?
- 9 華為智選四界格局初成,問(wèn)界成功能否復(fù)制?
- 10 車企強(qiáng)壓10%成本,智能駕駛受最大影響?
- 銷售總監(jiān)-汽車電子方向 深圳市智立方自動(dòng)化設(shè)備股份有限公司
- IE工程師(汽車智聯(lián)) 惠州碩貝德無(wú)線科技股份有限公司
- 產(chǎn)品工程師(汽車) 易思維(杭州)科技股份有限公司
- 銷售經(jīng)理(汽車新能源行業(yè)) 廣州瑞松智能科技股份有限公司
- 硬件開(kāi)發(fā)工程師(前裝汽車電子) 深圳奧尼電子股份有限公司
- 項(xiàng)目經(jīng)理(汽車內(nèi)飾&汽車電子) 伯恩光學(xué)(惠州)有限公司
- 高級(jí)軟件工程師 廣東省/深圳市
- 自動(dòng)化高級(jí)工程師 廣東省/深圳市
- 光器件研發(fā)工程師 福建省/福州市
- 銷售總監(jiān)(光器件) 北京市/海淀區(qū)
- 激光器高級(jí)銷售經(jīng)理 上海市/虹口區(qū)
- 光器件物理工程師 北京市/海淀區(qū)
- 激光研發(fā)工程師 北京市/昌平區(qū)
- 技術(shù)專家 廣東省/江門市
- 封裝工程師 北京市/海淀區(qū)
- 結(jié)構(gòu)工程師 廣東省/深圳市