av在线一区二区三区四区,亚洲人成伊人成综合网76

谷歌內(nèi)部深度揭秘TPU3.0技術(shù)

2020-04-15 12:00

作為世界領(lǐng)先的技術(shù)領(lǐng)先公司之一，谷歌推出了高速定制機器學(xué)習(xí)芯片Tensor Processing Units（TPU），從而提高了標(biāo)準(zhǔn)。這些芯片最初是在2016年5月由該公司進行的 I／O 開發(fā)者大會上推出的。

但谷歌對TPU的了解并不多，原因很明顯。然而，該公司最近發(fā)布了一篇文章，其中包含對TPU的深入分析。您可以閱讀該論文以獲得詳細(xì)摘要。在這篇博客中，我們將向您展示Google揭示的芯片的主要亮點。

什么是TPU？

Tensor Processing Units或TPU是由Google設(shè)計的定制機器學(xué)習(xí)芯片，用于成功執(zhí)行其常規(guī)機器學(xué)習(xí)工作負(fù)載。谷歌現(xiàn)在正致力于實施這些TPU，而不是使用CPU，GPU和兩者的組合，據(jù)稱這些TPU比標(biāo)準(zhǔn)CPU和GPU快15－30倍。此外，在功耗方面，這些芯片的TeraOps ／瓦特高出30到80倍。

發(fā)展歷史

谷歌透露，該公司并不知道公司的額外硬件資源可以像TPU一樣有用和強大。早在2006年，該公司就開始尋找新的方法來有效利用其過多的硬件資源，包括GPU，F(xiàn)PGA芯片和ASIC。在未來幾年內(nèi)，Google Datacenters進行了大量實驗。但是，主要的轉(zhuǎn)變發(fā)生在2013年，當(dāng)時DNN越來越受歡迎，并且在未來幾年它應(yīng)該會更大。

谷歌推斷，如果發(fā)生這種情況，公司可用的硬件資源將不足以滿足增強的計算要求。就在那時，公司開始著手一個高優(yōu)先級項目，設(shè)計一系列定制ASIC芯片，以更低的功耗和更快的速度處理更多的任務(wù)。這些定制ASIC芯片被谷歌稱為“Tensor Processing Units”。

TPU芯片旨在用于處理其內(nèi)部操作，以便通過先進的機器學(xué)習(xí)算法為用戶改進其云平臺。雖然谷歌目前不太可能在其自己的云平臺之外推出TPU，但它確實展示了通向世界的道路并為新發(fā)明鋪平了道路。

TPU 3．0與Edge TPU

2016年5月的谷歌I／O大會，谷歌首次公布了自主設(shè)計的TPU，2017年谷歌I／O大會，谷歌宣布正式推出第二代TPU處理器，在今年的Google I／0 2018大會上，谷歌發(fā)布了新一代TPU處理器——TPU 3．0。TPU 3．0的性能相比目前的TPU 2．0有8倍提升。

之后谷歌又發(fā)布了 Edge TPU 芯片搶攻邊緣計算市場。雖然都是 TPU，但邊緣計算用的版本與訓(xùn)練機器學(xué)習(xí)的 Cloud TPU 不同，是專門用來處理AI預(yù)測部分的微型芯片。Edge TPU可以自己運行計算，而不需要與多臺強大計算機相連，因此應(yīng)用程序可以更快、更可靠地工作。它們可以在傳感器或網(wǎng)關(guān)設(shè)備中與標(biāo)準(zhǔn)芯片或微控制器共同處理AI工作。

Google在I／O大會上發(fā)布了TPU3，雖然目前詳細(xì)信息不多，但下面幾點還是值得討論：8倍性能；快速迭代；云服務(wù)和Benchmark。TPU3到底哪里厲害？

一個TPU3 pod的總處理能力100 PFLOPS是TPU2 pod的8倍。從下圖我們可以看一下TPU3 pod和TPU2 pod的對比。

TPU2的一個pod包括4個rack，兩個CPU rack（左右兩邊），兩個TPU rack（中間兩個）。每個rack有32個computing unit （板卡），每個TPU板卡有4顆TPU芯片。因此一個pod總共有64 x 4顆TPU2芯片。每顆TPU2芯片的處理能力是45TFLOPS，因此一個pod總的處理能力是45 x 4 x 64 ＝ 11．5 PFLOPS。

對比來看，TPU3的板卡仍然包括4顆芯片。但目測TPU3 pod的rack數(shù)量和板卡的密度（這個看的不是很清楚）和TPU2相比都增加了一倍。因此，一個pod中的TPU3芯片的數(shù)量應(yīng)該是之前4倍。如果pod的總處理能力是TPU2的8倍，那么TPU3單芯片的處理能力則為TPU2的2倍。

根據(jù)Google的說法，這次他們第一次在Data center采用水冷的散熱方式，這可能和芯片功耗以及板卡密度增加有關(guān)系。

總得來說，如上圖所描述（來自Google I／O大會的talk：Effective Machine Learning with Google TPU，可以在YouTube上搜索Google io 18 stage 8觀看），TPU3實現(xiàn)的超過100 PFLOPS的處理能力是來自“新的芯片架構(gòu)和大規(guī)模系統(tǒng)”。

快速迭代

從去年I／O大會發(fā)布TPU2到今天不過一年時間，Google的芯片迭代速度還是非常驚人的。“為什么Google能夠?qū)崿F(xiàn)這樣的快速迭代？”這也是一個非常值得探討的話題。我先簡單談幾點個人看法：

第一，TPU是一個Domain－specific Architecture，定位準(zhǔn)確，架構(gòu)簡單，容易擴展。相比之下，傳統(tǒng)的通用處理器必須考慮靈活性和兼容性，有太重的包袱。當(dāng)然，TPU這種特點也決定它只能用于有限的應(yīng)用場景，可能只有Google的體量以及云服務(wù)能夠所提供的應(yīng)用需求才能充分利用TPU這種專用芯片，這一點是得天獨厚的。這也是目前幾乎所有科技巨頭都開始自研芯片的一個基本考量。而傳統(tǒng)的芯片廠商在這一點上就有些尷尬了。

第二，Google的軟件和系統(tǒng)能力超強，TPU以Cloud service出現(xiàn)，提高給客戶的是整體服務(wù)。芯片硬件可做的tradeoff空間比較大，芯片本身的弱點可以在系統(tǒng)層面彌補。從目前得到的信息分析的，TPU3的處理能力是TPU2的8倍，其中芯片換代的貢獻只有2倍，大部分改進在系統(tǒng)層面。另一方面，目前芯片開發(fā)離不開相關(guān)軟件工具，Google的軟件能力和生態(tài)也是其能夠?qū)崿F(xiàn)芯片快速迭代的一個重要因素。

第三，錢很重要。Google不差錢，在芯片實現(xiàn)上可以通過花錢換取時間。總得來說，Google TPU的意義可能遠(yuǎn)遠(yuǎn)超過芯片本身。它背后的芯片設(shè)計邏輯，實現(xiàn)方法，應(yīng)用模式和生態(tài)環(huán)境，相較傳統(tǒng)芯片開發(fā)有很大區(qū)別，也許會成為趨勢。

Google在發(fā)布TPU3的時候同時提到了新的云服務(wù)，在之前的Cloud TPU基礎(chǔ)上，今年晚些時候還會發(fā)布Cloud TPU pod，可以看出TPU對于Goolge的云端戰(zhàn)略的重要意義。

有意思的是，在Google的talk中強調(diào)了cost的問題，每個例子都給出了相應(yīng)的training cost，畫風(fēng)是這樣的。

這里頗有廣告的感覺，不禁讓人想起黃教主的”The more GPUs you buy， The more money you save“。結(jié)合最近Microsoft對Brainwave項目的宣傳，感覺云端機器學(xué)習(xí)的價格戰(zhàn)馬上就要開始了。另外，Google也強調(diào)了Benchmark的重要性，還專門展示了他們最近力推的MLPerf。