亚洲中文久久精品无码软件,一区二区不卡不卡视频

摩爾定律注定失效，存儲(chǔ)優(yōu)先架構(gòu)或是AI芯片的未來(lái)

2018-12-26 14:44

隨著數(shù)據(jù)洪流時(shí)代的到來(lái)，AI技術(shù)應(yīng)用的重要性日益凸顯，而AI芯片的設(shè)計(jì)開發(fā)成為AI技術(shù)發(fā)展的關(guān)鍵一環(huán)。由于應(yīng)對(duì)數(shù)據(jù)處理的優(yōu)先級(jí)和方式不同，AI芯片所要面對(duì)的是海量數(shù)據(jù)處理。避免存儲(chǔ)對(duì)于芯片時(shí)鐘頻率造成的拖累，跨越“存儲(chǔ)墻”對(duì)于芯片性能提升的障礙已成為半導(dǎo)體行業(yè)廣泛探討的話題。而當(dāng)“存儲(chǔ)優(yōu)先架構(gòu)”（SFA）解決方案被提出來(lái)，我們似乎找到了開啟未來(lái)AI芯片性能提升的金鑰匙。

“存儲(chǔ)墻”阻隔AI芯片性能大跨步提升

傳統(tǒng)芯片的設(shè)計(jì)基于馮·諾依曼架構(gòu)體系（如下圖），是一種將程序指令存儲(chǔ)器和數(shù)據(jù)存儲(chǔ)器合并在一起的類PC設(shè)計(jì)概念結(jié)構(gòu)。

馮·諾依曼架構(gòu)體系

在這種相對(duì)傳統(tǒng)的芯片設(shè)計(jì)思路中，計(jì)算模塊和存儲(chǔ)單元相互分離，數(shù)據(jù)從處理單元外的存儲(chǔ)器提取，處理之后再返回存儲(chǔ)器。以往我們的計(jì)算機(jī)應(yīng)用場(chǎng)景下，這種架構(gòu)能夠較好的發(fā)揮頻率優(yōu)勢(shì)，解決少量的復(fù)雜任務(wù)，并通過(guò)提高制程工藝不斷提升頻率達(dá)到芯片的性能提升。

而當(dāng)我們面對(duì)數(shù)據(jù)洪流時(shí)代的AI場(chǎng)景時(shí)，包括深度學(xué)習(xí)神經(jīng)網(wǎng)絡(luò)、云計(jì)算、邊緣計(jì)算等AI或AI相關(guān)場(chǎng)景中，與x86平臺(tái)復(fù)雜運(yùn)算相比計(jì)算任務(wù)往往是規(guī)模宏大的簡(jiǎn)單運(yùn)算。由于馮·諾依曼架構(gòu)的邏輯設(shè)計(jì)上，讀取返回存儲(chǔ)結(jié)構(gòu)所消耗的時(shí)間巨大，大規(guī)模的數(shù)據(jù)計(jì)算會(huì)造成存儲(chǔ)的讀取和返回遠(yuǎn)跟不上芯片的頻率，產(chǎn)生嚴(yán)重的延遲，成為芯片整體性能的瓶頸，這也就是現(xiàn)代應(yīng)用場(chǎng)景下的“存儲(chǔ)墻”的由來(lái)。

摩爾定律曲線已進(jìn)入難以提升的“紅區(qū)”

“存儲(chǔ)墻”不僅造成了在大規(guī)模數(shù)據(jù)面前，芯片整體的性能下降，也進(jìn)一步對(duì)于未來(lái)升級(jí)制程工藝提出更嚴(yán)峻的挑戰(zhàn)。畢竟如今摩爾定律已經(jīng)失效，在當(dāng)前的技術(shù)工藝基礎(chǔ)上，繼續(xù)提升晶體管集成率縮小集成尺寸將會(huì)變得越來(lái)越困難。這會(huì)直接影響未來(lái)CPU、GPU、FPGA、ASIC性能的提升�？梢院敛豢鋸埖卣f(shuō)，目前大部分針對(duì)AI、加速神經(jīng)網(wǎng)絡(luò)處理的研發(fā)創(chuàng)新，都是在與“存儲(chǔ)墻”這個(gè)問(wèn)題作斗爭(zhēng)。

解決“存儲(chǔ)墻”的思路和方式

既然“存儲(chǔ)墻”問(wèn)題在當(dāng)下這個(gè)應(yīng)用場(chǎng)景下需要被解決，就要有合理化的思路。針對(duì)跨越“存儲(chǔ)墻”目前業(yè)界有幾種優(yōu)化思路，基本上都是圍繞著更高、更快、更強(qiáng)幾個(gè)維度，與咱們的奧運(yùn)精神還挺像的。

硬性提升存儲(chǔ)器的帶寬和頻率，這種方式其實(shí)目前沿用的傳統(tǒng)性能提升方式之一。去年的AMD曾經(jīng)在顯卡的設(shè)計(jì)上采用了高帶寬顯存HBM就是一個(gè)思路類似的例子，通過(guò)提高帶寬的方式提升存儲(chǔ)器與GPU交流。雖然這能夠在一定程度上帶來(lái)GPU芯片效率的提升，但是這樣處理也會(huì)對(duì)制造工藝提出新的要求，顯然HBM比普通顯存造價(jià)要更高、良率更低。而且雖然存儲(chǔ)效率由于帶寬增大實(shí)現(xiàn)了提升，但是轉(zhuǎn)化到實(shí)際芯片的運(yùn)算效率非常有限。這是一種優(yōu)化之道，但并不能徹底跨越工藝限制的終極解決辦法。

AMD為GPU做的HBM高帶寬顯存方案

動(dòng)態(tài)調(diào)整頻率則是通過(guò)軟硬件動(dòng)態(tài)調(diào)整存儲(chǔ)器的讀寫頻率，來(lái)降低訪問(wèn)調(diào)度的隨機(jī)性，實(shí)現(xiàn)更多預(yù)訪問(wèn)，讓訪問(wèn)變得更有序，進(jìn)一步提升訪問(wèn)效率，進(jìn)而降低延遲。此種手段實(shí)施并不簡(jiǎn)單，并且理論上提升的幅度十分有限，雖然可以一定程度上優(yōu)化，但并不足以應(yīng)付未來(lái)AI場(chǎng)景的百倍千倍數(shù)據(jù)吞吐，畢竟每小時(shí)TB級(jí)別海量數(shù)據(jù)才是AI世界的真實(shí)常態(tài)。

將存儲(chǔ)結(jié)構(gòu)盡量靠近核心，做成片上存儲(chǔ)也是一種熱門思路。精簡(jiǎn)的訪問(wèn)路徑使得邏輯核心與存儲(chǔ)的訪問(wèn)精度得到顯著提升，盡可能利用工藝極限提升存儲(chǔ)器的訪問(wèn)效率。這種方式的理論上可以在減少訪問(wèn)延遲5－10倍以上，這種量級(jí)的優(yōu)化進(jìn)步對(duì)比之前的幾種方式就來(lái)得非�？捎^。

在思路和技術(shù)兩個(gè)維度發(fā)現(xiàn)傳統(tǒng)芯片的“存儲(chǔ)墻”瓶頸之后，下一步就是從思想和技術(shù)兩方面進(jìn)行突破，這也就引出了我們今天的核心“存儲(chǔ)優(yōu)先架構(gòu)”。

“存儲(chǔ)優(yōu)先架構(gòu)”原理和優(yōu)勢(shì)所在

簡(jiǎn)單來(lái)理解，存儲(chǔ)優(yōu)先架構(gòu)實(shí)際上就是片上存儲(chǔ)技術(shù)＋架構(gòu)思想革新，是技術(shù)手段變革和思想革新的雙重結(jié)合。

之前我們已經(jīng)提到了片上存儲(chǔ)這種設(shè)計(jì)方式的好處，它能夠帶來(lái)成倍的存儲(chǔ)訪問(wèn)效率提升。但是片上存儲(chǔ)這套思路實(shí)際上技術(shù)本身沒有對(duì)架構(gòu)思想進(jìn)行變革，依舊是按照馮·諾依曼架構(gòu)來(lái)的一套體系，雖然得益于片上存儲(chǔ)技術(shù)，訪問(wèn)的效率大大提升了，但是由于架構(gòu)不變，訪問(wèn)的步驟依舊較多，這帶來(lái)了存儲(chǔ)效率的浪費(fèi)。

于是，在片上存儲(chǔ)技術(shù)的基礎(chǔ)上，探境科技提出了一種顛覆性的思想，以存儲(chǔ)為中心帶動(dòng)計(jì)算，重新設(shè)計(jì)整個(gè)AI芯片的架構(gòu)——即“存儲(chǔ)優(yōu)先架構(gòu)”（SFA）。

探境科技提出的“存儲(chǔ)優(yōu)先架構(gòu)”

上圖是存儲(chǔ)優(yōu)先架構(gòu)的示意圖，通過(guò)對(duì)比馮·諾依曼架構(gòu)示意圖，我們從上圖可以觀察到存儲(chǔ)架構(gòu)包括數(shù)據(jù)層、計(jì)算層和控制層組成，它們以存儲(chǔ)調(diào)度為核心邏輯形成一套計(jì)算架構(gòu)，數(shù)據(jù)在存儲(chǔ)之間的遷移過(guò)程中同時(shí)完成計(jì)算，計(jì)算就那么自然而然隨著數(shù)據(jù)轉(zhuǎn)移同時(shí)進(jìn)行了。理論上這種設(shè)計(jì)方案的能效能提升10－100倍，計(jì)算資源利用率提升40－50％，同時(shí)對(duì)DDR的占用率也能夠?qū)崿F(xiàn)大幅度下降。這就好像從前城里10萬(wàn)老百姓辦手續(xù)，不但路遠(yuǎn)，還要跑很多趟�，F(xiàn)在百姓雖然已經(jīng)多達(dá)500萬(wàn)，但是提高了辦事效率，辦事窗口離家門口更近了，還允許一次性辦齊。

據(jù)了解，目前探境科技全新的存儲(chǔ)優(yōu)先架構(gòu)并不僅僅只是停留在理論層面，而是真真正正已經(jīng)流片，并即將推向商用領(lǐng)域。在今年10月份舉行的IC WORLD大會(huì)上面，探境科技發(fā)布了即將推出的語(yǔ)音、圖像序列AI芯片和IP授權(quán)。這些產(chǎn)品可以被用在AI計(jì)算、邊緣計(jì)算、安放前端協(xié)處理、語(yǔ)音喚醒、命令詞識(shí)別、語(yǔ)義理解、通用降噪、自動(dòng)駕駛等多個(gè)前沿領(lǐng)域。

存儲(chǔ)優(yōu)先架構(gòu)應(yīng)用到實(shí)際能帶來(lái)什么體驗(yàn)革新？舉個(gè)例子：

目前智能音箱一個(gè)使用痛點(diǎn)就是語(yǔ)音控制和反饋的延遲。智能音箱需要聽到用戶的喚醒詞進(jìn)行喚醒，并在得到指令內(nèi)容之后，將內(nèi)容的聲音數(shù)據(jù)回傳到云端，進(jìn)行分析和處理得到結(jié)果之后再返回到智能音箱播放出來(lái)。這中間由于信號(hào)、網(wǎng)絡(luò)延遲等一系列問(wèn)題就會(huì)導(dǎo)致最終用戶體驗(yàn)質(zhì)量的大幅下降，等待2、3秒也就成了常態(tài)。如果智能音箱采用存儲(chǔ)優(yōu)先架構(gòu)的AI芯片，能夠在本地接受內(nèi)容之后直接處理為結(jié)果，不需要回傳云端和大數(shù)據(jù)比對(duì)、分析和運(yùn)算，實(shí)現(xiàn)高效的邊緣計(jì)算，這將根本性提升最終的用戶體驗(yàn)。智能音箱如是，自動(dòng)駕駛?cè)缡牵腔坌铝闶廴缡牵?span id="njurlqx" class='hrefStyle'>智慧城市方方面面都離不開完整的AI、云計(jì)算、邊緣計(jì)算的配合。

摩爾定律注定失效，存儲(chǔ)優(yōu)先架構(gòu)或是AI芯片的未來(lái)

從某種意義上來(lái)說(shuō)，摩爾定律是基于馮·諾依曼架構(gòu)提出的，而馮·諾依曼架構(gòu)本身的結(jié)構(gòu)路徑基于指令集模式的處理邏輯，存在對(duì)于海量數(shù)據(jù)，尤其是不規(guī)則海量數(shù)據(jù)處理的先天短板。所以不管是摩爾定律和還是x86基礎(chǔ)的馮·諾依曼架構(gòu)，它們隨著人類社會(huì)發(fā)展以及數(shù)據(jù)量的不斷攀升，是注定必將失效的�；蛘叻催^(guò)來(lái)說(shuō)，我們海量數(shù)據(jù)洪流的時(shí)代漸漸淘汰舊的芯片規(guī)則約束，正催生芯片架構(gòu)進(jìn)行一次大的革新。

存儲(chǔ)優(yōu)先架構(gòu)以其邏輯步驟精簡(jiǎn)＋片上存儲(chǔ)技術(shù)手段的方式，得到雙重性能提升，實(shí)現(xiàn)了以存儲(chǔ)調(diào)度為核心的計(jì)算架構(gòu)，這的確是一次前所未有的創(chuàng)新實(shí)踐。隨著探境科技流片量產(chǎn)和隨后的應(yīng)用場(chǎng)景部署，存儲(chǔ)優(yōu)先架構(gòu)的AI芯片必將幫助終端設(shè)備實(shí)現(xiàn)更多自動(dòng)化的、低延遲的邊緣計(jì)算，以改善最終的智慧生活體驗(yàn)。關(guān)于存儲(chǔ)優(yōu)先架構(gòu)的AI芯片產(chǎn)品以及未來(lái)的具體應(yīng)用進(jìn)展，我們不妨持續(xù)關(guān)注拭目以待。

本地收藏打印推薦給朋友

聲明： 本文系OFweek根據(jù)授權(quán)轉(zhuǎn)載自其它媒體或授權(quán)刊載，目的在于信息傳遞，并不代表本站贊同其觀點(diǎn)和對(duì)其真實(shí)性負(fù)責(zé)，如有新聞稿件和圖片作品的內(nèi)容、版權(quán)以及其它問(wèn)題的，請(qǐng)聯(lián)系我們。