国产一级特黄特色毛片,亚洲高清无码视频乱码,五月天激情网站

Waymo無(wú)人車啟用DeepMind異步優(yōu)化方法，提高傳感器識(shí)別效率

2019-07-29 10:48

自動(dòng)駕駛車輛采用神經(jīng)網(wǎng)絡(luò)來(lái)執(zhí)行許多駕駛?cè)蝿?wù)，從檢測(cè)物體和預(yù)測(cè)其他人的行為方式，到規(guī)劃汽車的下一步動(dòng)作。一般情況下，訓(xùn)練單獨(dú)的神經(jīng)網(wǎng)絡(luò)需要數(shù)周的微調(diào)和實(shí)驗(yàn)，以及大量的算力。現(xiàn)在，Waymo與DeepMind的研究合作，從達(dá)爾文對(duì)進(jìn)化論中汲取靈感，使這項(xiàng)訓(xùn)練更加有效和高效。

神經(jīng)網(wǎng)絡(luò)的性能受訓(xùn)練方案的影響非常大，主要思路就是找到最優(yōu)學(xué)習(xí)率、讓神經(jīng)網(wǎng)絡(luò)在每次迭代后變得更好，但性能波動(dòng)不需要太大。

尋找最佳訓(xùn)練方案（或“超參數(shù)方案”）通常是通過工程師的經(jīng)驗(yàn)和直覺，或通過廣泛的搜索來(lái)實(shí)現(xiàn)的。在隨機(jī)搜索中，研究人員在多種類型的超參數(shù)上應(yīng)用了許多隨機(jī)超參數(shù)調(diào)度，以便獨(dú)立地并行地訓(xùn)練不同的網(wǎng)絡(luò) ，然后可以選擇性能最佳的模型。

因?yàn)椴⑿杏?xùn)練大量模型在計(jì)算上是昂貴的，所以研究人員通常通過在訓(xùn)練期間監(jiān)視網(wǎng)絡(luò)，手動(dòng)調(diào)整隨機(jī)搜索，定期剔除最弱表現(xiàn)的運(yùn)算并釋放資源，以從頭開始用新的隨機(jī)超參數(shù)訓(xùn)練新網(wǎng)絡(luò)。這種類型的手動(dòng)調(diào)整可以更快地產(chǎn)生更好的結(jié)果，但這是非常耗費(fèi)人力的。

為了提高這一過程的效率，DeepMind 的研究人員設(shè)計(jì)了一種基于進(jìn)化競(jìng)爭(zhēng)（PBT）自動(dòng)確定良好超參數(shù)調(diào)度的方法，該方案結(jié)合了手動(dòng)調(diào)整和隨機(jī)搜索的優(yōu)點(diǎn)。

基于PBT模型如何運(yùn)作：

PBT的工作原理是同時(shí)啟動(dòng)許多超參數(shù)搜索，并定期進(jìn)行“競(jìng)爭(zhēng)”以比較模型的性能。從訓(xùn)練池中刪除失敗的模型，并且僅使用獲勝模型繼續(xù)訓(xùn)練，使用稍微突變的超參數(shù)更新。

PBT比研究人員采用的傳統(tǒng)方法更有效，例如隨機(jī)搜索，因?yàn)槊總€(gè)新的神經(jīng)網(wǎng)絡(luò)都繼承了其父網(wǎng)絡(luò)的完整狀態(tài)，并且不需要從一開始就重新開始訓(xùn)練。此外，超參數(shù)不是靜態(tài)的，而是在整個(gè)培訓(xùn)過程中積極更新。與隨機(jī)搜索相比，PBT將更多的資源培訓(xùn)用于成功的超參數(shù)值。

實(shí)驗(yàn)取得了不錯(cuò)的進(jìn)展，PBT算法不僅實(shí)現(xiàn)了更高的精度，并且減少24％的誤報(bào)、保持了較高的召回率。

同時(shí)，PBT還節(jié)省了時(shí)間和資源。通過PBT訓(xùn)練的網(wǎng)絡(luò)，時(shí)間和資源只有原來(lái)的一半。24％的誤報(bào)，同時(shí)也能保持較高的召回率。此外，PBT所需的訓(xùn)練時(shí)間和計(jì)算資源僅為原來(lái)的一半。

現(xiàn)在，Waymo 已將 PBT 納入了技術(shù)基礎(chǔ)設(shè)施中，研究人員點(diǎn)點(diǎn)按鈕就能應(yīng)用該算法，DeepMind 每隔 15 分鐘就會(huì)對(duì)模型進(jìn)行一次評(píng)估，以讓測(cè)試結(jié)果更準(zhǔn)確。

這是Waymo第一次曝光的與DeepMind在網(wǎng)絡(luò)上的合作，然而這種異步優(yōu)化的PBT方法其實(shí)早就出現(xiàn)了。

它在Multi－Agent或者并行訓(xùn)練中被提到過，甚至在DeepMind 星際爭(zhēng)霸II里的AlphaStar中都使用了該方法。主要用來(lái)自適應(yīng)調(diào)節(jié)超參數(shù)。打破了通常的深度學(xué)習(xí)，超參數(shù)都是憑經(jīng)驗(yàn)預(yù)先設(shè)計(jì)好的，會(huì)花費(fèi)大量精力且不一定有好的效果，特別是在深度強(qiáng)化學(xué)習(xí)這種非靜態(tài)（non－stationary）的環(huán)境中，要想得到SOTA效果，超參數(shù)還應(yīng)隨著環(huán)境變化而自適應(yīng)調(diào)整，比如探索率等等。這種基于種群（population）的進(jìn)化方式，淘汰差的模型，利用（exploit）好的模型并添加隨機(jī)擾動(dòng)（explore）進(jìn)一步優(yōu)化，最終得到最優(yōu)的模型。

有學(xué)者曾分別從強(qiáng)化學(xué)習(xí)，監(jiān)督學(xué)習(xí)，GAN三個(gè)方面做實(shí)驗(yàn)，論證了這個(gè)簡(jiǎn)單但有效的算法。

與其他領(lǐng)域不同的是，自動(dòng)駕駛會(huì)涉及人身安全，所以應(yīng)用起來(lái)不像博弈游戲一樣隨便，通過競(jìng)爭(zhēng)篩選模型是一個(gè)優(yōu)勢(shì)，但同樣也可能是個(gè)劣勢(shì)，需要提供足夠的種群才能讓篩選出的網(wǎng)絡(luò)結(jié)構(gòu)變得意義。