小男孩‘自慰网亚洲一区二区,亚洲一级在线播放毛片,亚洲中文字幕av每天更新,黄aⅴ永久免费无码,91成人午夜在线精品,色网站免费在线观看,亚洲欧洲wwwww在线观看

分享

存算一體

 一本正經(jīng)地胡鬧 2021-10-18

存算一體打破了運(yùn)行70年的馮諾依曼架構(gòu),將成為AI時(shí)代主流的計(jì)算架構(gòu)。存算一體正處于學(xué)術(shù)界向工業(yè)界遷移的關(guān)鍵時(shí)期。

存算一體技術(shù)(PIM :Processing in-memory),它將存儲(chǔ)和計(jì)算有機(jī)結(jié)合,直接利用存儲(chǔ)單元進(jìn)行計(jì)算。

存內(nèi)計(jì)算是用模擬電路做計(jì)算。

極大地消除了數(shù)據(jù)搬移帶來(lái)的開(kāi)銷,解決了傳統(tǒng)芯片在運(yùn)行人工智能算法上的“存儲(chǔ)墻”與“功耗墻”問(wèn)題,可以數(shù)十倍甚至百倍地提高人工智能運(yùn)算效率,降低成本。

一、芯片迭代性能提升太慢。算力和運(yùn)算數(shù)據(jù)量每年都在指數(shù)級(jí)增加,然而摩爾定律已經(jīng)接近于到極限,每代芯片只有10-20%的性能提升。

二、馮諾依曼架構(gòu)的算力已經(jīng)被內(nèi)存墻所限制,只有解決內(nèi)存墻問(wèn)題才能進(jìn)一步提高算力。

萬(wàn)物互聯(lián)+的人工智能的時(shí)代已經(jīng)到來(lái)。由于傳輸延遲或數(shù)據(jù)安全考慮,很多數(shù)據(jù)處理及推理運(yùn)算將在端側(cè)發(fā)生。

通用性計(jì)算芯片在服務(wù)特定AI算法方面并不具備性價(jià)比優(yōu)勢(shì),為AI定制的芯片將成為人工智能產(chǎn)業(yè)鏈條上的底層核心技術(shù)。

存內(nèi)計(jì)算作為創(chuàng)新性極強(qiáng)的芯片架構(gòu)形式,由于突破了困擾業(yè)界多年的存儲(chǔ)墻問(wèn)題,且與深度學(xué)習(xí)網(wǎng)絡(luò)運(yùn)算模型中的基本算子高度契合,使得基于存內(nèi)計(jì)算架構(gòu)的芯片相比于市場(chǎng)已有的AI加速芯片,在計(jì)算效率(TOPS/Watt)方面有數(shù)量級(jí)上的提升。

在智能時(shí)代里,從可穿戴到自動(dòng)駕駛,功耗約束下場(chǎng)景里的計(jì)算效率都是永恒的主題,存內(nèi)計(jì)算是解放算力、提升能效比最強(qiáng)有力的武器之一。

而且與其他低功耗計(jì)算,如低電壓亞閾值數(shù)字邏輯ASIC、神經(jīng)模態(tài)(Neuromorphics)計(jì)算和模擬計(jì)算比較,存內(nèi)計(jì)算的優(yōu)勢(shì)也盡顯。低功耗亞閾值計(jì)算是對(duì)現(xiàn)有邏輯計(jì)算的功耗優(yōu)化,一般能效可以提升2-4倍,但是算力相應(yīng)降低,只能進(jìn)行針對(duì)性的優(yōu)化。而存內(nèi)計(jì)算是新型的運(yùn)算架構(gòu),做的是二維和三維矩陣運(yùn)算,能效和算力可以提高100-1000倍。神經(jīng)模態(tài)運(yùn)算是為類腦算法而設(shè)計(jì)的芯片,有不同的實(shí)現(xiàn)方式,如模擬計(jì)算、數(shù)字計(jì)算、無(wú)時(shí)鐘計(jì)算、或者存算一體的實(shí)現(xiàn)方式。

后摩爾時(shí)代下,無(wú)法通過(guò)工藝的提升來(lái)優(yōu)化整體算力,異構(gòu)計(jì)算和新架構(gòu)變得更為重要。


存儲(chǔ)介質(zhì)

SRAM、DRAM和Flash,SRAM在5nm上制造,DRAM和Flash可在10-20nm工藝上制造。密度方面,F(xiàn)lash最高,其次是DRAM,再次是SRAM。

在電路設(shè)計(jì)難度上,存內(nèi)計(jì)算,DRAM > SRAM > Flash 。SRAM和DRAM更難設(shè)計(jì),它們是易失性存儲(chǔ)器,工藝偏差會(huì)大幅度增加模擬計(jì)算的設(shè)計(jì)難度,尤其是當(dāng)容量增大到可實(shí)用的MB以上,目前市面上還沒(méi)有SRAM和DRAM的存內(nèi)計(jì)算產(chǎn)品;Flash是非易失存儲(chǔ)器,他的狀態(tài)是連續(xù)可編程的,可以通過(guò)編程等方式來(lái)校準(zhǔn)工藝偏差,從而提高精度。而近存計(jì)算的設(shè)計(jì)相對(duì)簡(jiǎn)單,可采用成熟的存儲(chǔ)器技術(shù)和邏輯電路設(shè)計(jì)技術(shù)。

存算一體的幾個(gè)方向:通用近存計(jì)算架構(gòu), SRAM存算一體,RRAM/PCM/Flash多值存算一體,RRAM/PCM/MRAM二值存算一體。

Flash、SRAM、RRAM和MRAM。Flash是密度最高的存儲(chǔ)介質(zhì),F(xiàn)lash的單個(gè)單元可以存儲(chǔ)的bit數(shù)最高(8-bit)

一,SRAM的速度是所有memory類型中最快的,且沒(méi)有寫次數(shù)的限制,對(duì)于追求快響應(yīng)的場(chǎng)景幾乎是必選。二,SRAM可以向先進(jìn)制程兼容,從而達(dá)到更高的能效比,更高的面效比等。三,蘋芯現(xiàn)階段的研究工作可大幅提高SRAM相關(guān)計(jì)算精度,從而降低了對(duì)相關(guān)上層算法補(bǔ)償?shù)囊?。四,相?duì)新型存儲(chǔ)器,SRAM的工藝成熟度較高,可以相對(duì)較快的實(shí)現(xiàn)技術(shù)落地與量產(chǎn)。

有算力的存儲(chǔ)還是馮諾依曼架構(gòu)下的存儲(chǔ)器,做一些加密類和低算力計(jì)算,從而節(jié)省存儲(chǔ)與CPU之間的帶寬。存內(nèi)計(jì)算是非馮諾依曼架構(gòu),它通過(guò)存儲(chǔ)單元完成二維和三維矩陣運(yùn)算(這類運(yùn)算占據(jù)了AI中95%以上的算力),提供大算力,它存儲(chǔ)數(shù)據(jù)是為了高效完成運(yùn)算,本質(zhì)不是做存儲(chǔ)器。

存內(nèi)計(jì)算產(chǎn)品形式:?jiǎn)涡酒虲hiplet。

存內(nèi)計(jì)算的發(fā)展類似于存儲(chǔ)器的發(fā)展路徑,隨著設(shè)計(jì)能力不斷提升,工藝不斷成熟、算力每年可以有5-10倍提升,能效每年會(huì)有1-2倍提升,成本每年會(huì)有30-50%下降,未來(lái)的存算產(chǎn)品可以用在大多數(shù)AI應(yīng)用場(chǎng)景,因?yàn)樗杀舅懔δ苄Ф伎梢宰龅阶顑?yōu)。



數(shù)據(jù)計(jì)算,數(shù)據(jù)搬運(yùn)。

數(shù)據(jù)采集,傳輸,處理。

但是不同于傳統(tǒng)的數(shù)字電路計(jì)算,存內(nèi)計(jì)算是用模擬電路做計(jì)算。

伴隨SSD產(chǎn)品(由NAND flash構(gòu)成)的興起,因嵌入了ARM核和DRAM,NAND flash、ARM和DRAM、控制器和內(nèi)部總線實(shí)際上構(gòu)成了一個(gè)計(jì)算機(jī)系統(tǒng),這讓存儲(chǔ)產(chǎn)品本身就可以做計(jì)算任務(wù),因此也為存算一體提供了發(fā)展平臺(tái)。

國(guó)內(nèi)就有諸多初創(chuàng)公司在探索這個(gè)方向,尤其是由于AI的引入,各種數(shù)據(jù)的Key-Value只要直接存儲(chǔ)在硬盤里,AI需要的數(shù)據(jù)就可以自動(dòng)完成分類,可以顯著提升非關(guān)系數(shù)據(jù)庫(kù)的性能。


計(jì)算和存儲(chǔ)

摩爾定律。存儲(chǔ)器更有這樣的問(wèn)題。因?yàn)榇鎯?chǔ)器在摩爾定律早的時(shí)候就已經(jīng)接近終結(jié),現(xiàn)在工藝一般在15~17納米,像flash一般是20~40納米之間,比起邏輯芯片,工藝更老,這也導(dǎo)致存儲(chǔ)器的速度在過(guò)去十多年基本很難提升。另外,存儲(chǔ)器根據(jù)摩爾定律發(fā)展存儲(chǔ)密度越來(lái)越大,存儲(chǔ)容量越來(lái)越大,導(dǎo)致當(dāng)容量更大的時(shí)候,把一個(gè)數(shù)從存儲(chǔ)器找出來(lái)所需消耗的時(shí)間和功耗在增加。存儲(chǔ)器的帶寬速度沒(méi)有增加,CPU的速度越來(lái)越快,核數(shù)越來(lái)越多,這也導(dǎo)致CPU每個(gè)核能夠使用的存儲(chǔ)資源實(shí)際上越來(lái)越少,導(dǎo)致了存儲(chǔ)墻或內(nèi)存墻問(wèn)題。

內(nèi)存墻是說(shuō)在數(shù)據(jù)量很大的時(shí)候,做運(yùn)算大部分時(shí)間都消耗在存儲(chǔ)器和處理器之間做數(shù)據(jù)搬運(yùn),運(yùn)算速度受到存儲(chǔ)器帶寬的影響,沒(méi)法再進(jìn)一步提升,不管處理器多快,存儲(chǔ)器的速度沒(méi)法再進(jìn)一步提升。

另外一個(gè)問(wèn)題是數(shù)據(jù)搬運(yùn)的功耗過(guò)大。一個(gè)28納米工藝產(chǎn)品計(jì)算加法乘法,32比特?cái)?shù)加法的功耗是0.1pJ,乘法是3.1pJ,但把64比特?cái)?shù)從一個(gè)8kb的SRAM中拿出來(lái),消耗的功耗是10pJ,從一個(gè)1M的存儲(chǔ)里拿出一個(gè)數(shù)消耗的功耗是100pJ。存儲(chǔ)器容量越來(lái)越大,從中間取出一個(gè)數(shù)的功耗也越來(lái)越大,基本是運(yùn)算的百倍,這也導(dǎo)致了整個(gè)運(yùn)算速度的瓶頸。存儲(chǔ)墻瓶頸實(shí)際跟馮諾伊曼架構(gòu)有關(guān),隨著計(jì)算速度越來(lái)越快,存儲(chǔ)速度沒(méi)有跟上,導(dǎo)致數(shù)據(jù)搬運(yùn)消耗的時(shí)間和功耗都成為整個(gè)運(yùn)算的一個(gè)瓶頸。

內(nèi)存計(jì)算過(guò)去十年發(fā)展速度很快,有幾個(gè)方向。一種是3D Xpoint新型存儲(chǔ)器,將固態(tài)硬盤和內(nèi)存的特點(diǎn)結(jié)合,是一種介于這兩個(gè)中間的存儲(chǔ)器,它的密度容量比內(nèi)存大,速度比內(nèi)存慢,但比固態(tài)硬盤快。第二種是近內(nèi)存計(jì)算,通過(guò)采用先進(jìn)的3D封裝方式把內(nèi)存和計(jì)算單元封裝在一起,可以達(dá)到幾千根甚至上萬(wàn)根連線,兩者之間的帶寬增加,提高了數(shù)據(jù)搬運(yùn)速度。第三種是近存儲(chǔ)計(jì)算,就是如果只做一些簡(jiǎn)單的運(yùn)算,可以在存儲(chǔ)邊加一個(gè)計(jì)算單元,不占用CPU負(fù)載。

還有一種是存算一體。其他的幾種方式還是馮諾依曼架構(gòu),存算一體是另外一種方式,直接把存儲(chǔ)單元變成了運(yùn)算單元,利用了存儲(chǔ)器中的模擬計(jì)算。存算一體可以理解為一種計(jì)算器,一個(gè)類似于CPU的計(jì)算芯片,實(shí)際上是用存儲(chǔ)器去完成計(jì)算。存儲(chǔ)器里有很多計(jì)算單元,比如3D Flash里有幾十甚至上萬(wàn)億的存儲(chǔ)單元,存算一體就是把這些存儲(chǔ)單元都變成運(yùn)算單元,這樣存儲(chǔ)器的容量越大可以去做的運(yùn)算也越多,所以衡量存算一體的算力是看它的存儲(chǔ)器容量多大。

存算一體的運(yùn)算方式有兩種:一種是數(shù)字計(jì)算,一種是模擬計(jì)算。數(shù)字計(jì)算的優(yōu)點(diǎn)是跟邏輯工藝一起往下做,可以在5納米未來(lái)的3納米工藝上使用,工藝非常先進(jìn)速度可以很快。另一種多比特的模擬運(yùn)算,利用存儲(chǔ)器存儲(chǔ)介質(zhì)本身可以存儲(chǔ)多值這樣一個(gè)模擬特性去做,比如基于Flash、基于PRAM、憶阻器、PCRAM的相變存儲(chǔ)器,它的特點(diǎn)是存儲(chǔ)密度大同時(shí)并行度高。

目前產(chǎn)業(yè)界最多的存算一體發(fā)展方向是把存儲(chǔ)單元變成一個(gè)做乘法加法運(yùn)算的東西,相當(dāng)于有多少個(gè)存儲(chǔ)單元就可以做多少個(gè)乘法加法運(yùn)算。

應(yīng)用

目前,存算一體芯片主要用來(lái)做基于人工智能的運(yùn)算。人工智能的特點(diǎn)是向量和矩陣的計(jì)算量占比非常大,像可穿戴設(shè)備、手機(jī)、VR眼鏡、智能駕駛以及數(shù)據(jù)中心,不同的場(chǎng)景需要算力不一樣。我們用存儲(chǔ)容量和算力區(qū)分了一下不同場(chǎng)景的需要。

一般一個(gè)2M的存儲(chǔ)就可以提供足夠多的算法一定算力完成向量矩陣運(yùn)算,比當(dāng)前的芯片效率要高出50~100倍左右,用于可穿戴設(shè)備功耗可以很低,長(zhǎng)待機(jī)。PC和移動(dòng)終端需要大概32M、64M的存儲(chǔ)空間存儲(chǔ)算法,算力可以到16Tops~32Tops,實(shí)時(shí)性可以很高,另外在移動(dòng)終端功耗限制下,可以很低功耗的去完成視覺(jué)信號(hào)處理這些AI算法。

智能眼鏡對(duì)低功耗需求很強(qiáng),它的電池很小散熱很差,但又需要很多人工智能方法進(jìn)行交互,包括手勢(shì)識(shí)別、語(yǔ)音識(shí)別、肌肉肌電的識(shí)別、眼動(dòng)識(shí)別等,對(duì)AI的算力需求很高,基本需要到100多兆存儲(chǔ)空間,同時(shí)算力也很大。智能自動(dòng)駕駛、數(shù)據(jù)中心需要的計(jì)算算力和存儲(chǔ)就更大,同時(shí)對(duì)芯片的可靠性要求要高很多,

    本站是提供個(gè)人知識(shí)管理的網(wǎng)絡(luò)存儲(chǔ)空間,所有內(nèi)容均由用戶發(fā)布,不代表本站觀點(diǎn)。請(qǐng)注意甄別內(nèi)容中的聯(lián)系方式、誘導(dǎo)購(gòu)買等信息,謹(jǐn)防詐騙。如發(fā)現(xiàn)有害或侵權(quán)內(nèi)容,請(qǐng)點(diǎn)擊一鍵舉報(bào)。
    轉(zhuǎn)藏 分享 獻(xiàn)花(0

    0條評(píng)論

    發(fā)表

    請(qǐng)遵守用戶 評(píng)論公約

    類似文章 更多