導(dǎo)讀:20世紀初的物理學(xué)家不會想到,懸浮在物理學(xué)大廈上的兩朵烏云會徹底顛覆整個物理學(xué)體系,馮·諾依曼在參與曼哈頓工程提出新架構(gòu)時,也不會想到未來阻止芯片算力進步的竟然不是芯片本身。
導(dǎo)覽:
馮·諾依曼結(jié)構(gòu)的誕生與局限
內(nèi)存墻,繞開還是撞穿?
存算一體離不開新式存儲方式
20世紀初的物理學(xué)家不會想到,懸浮在物理學(xué)大廈上的兩朵烏云會徹底顛覆整個物理學(xué)體系,馮·諾依曼在參與曼哈頓工程提出新架構(gòu)時,也不會想到未來阻止芯片算力進步的竟然不是芯片本身。
馮·諾依曼結(jié)構(gòu)的誕生與局限
1945年6月30日,美國正在秘密進行曼哈頓計劃。馮·諾依曼作為該計劃的重要參與者與領(lǐng)導(dǎo)者,與另外兩位組內(nèi)科學(xué)家發(fā)表了一篇長達101頁的報告,這就是計算機史上著名的“101頁報告”,也是現(xiàn)代計算機科學(xué)發(fā)展里程碑式的文獻。
這份文件基于當(dāng)時世界上第一臺計算機埃尼阿克(ENIAC)提出,詳細闡述了一種新型的計算機架構(gòu)類型。彼時的電腦雖然采用了世界上最先進的電子技術(shù),但缺乏整理論指導(dǎo),用現(xiàn)在的話講就是“只堆料,不優(yōu)化”。此外,早期電腦的用途單一,若僅設(shè)計用于數(shù)學(xué)計算,那它就不能用來處理文字內(nèi)容,變更用途就需要對整體電路進行重新設(shè)計。
馮·諾依曼精準(zhǔn)找出電腦運行緩慢的關(guān)鍵:處理器雖然可以快速完成計算,但在計算間隙,需要進行大量I/O步驟來保存計算的中間數(shù)據(jù),這極大的拖累了處理器的整體處理速度。他將計算機結(jié)構(gòu)重新調(diào)整,巧妙的將存儲與計算分離,通過內(nèi)部存儲器存儲程序,成功解決了當(dāng)時計算機存儲容量太小,運算速度過慢的問題。這種結(jié)構(gòu)也創(chuàng)造了一組指令集架構(gòu),可以將機器運算轉(zhuǎn)換為一串串編程語言,讓此機器更有 “彈性”,不再需要頻繁更改電路。后來人們將這種結(jié)構(gòu)定義為馮·諾依曼結(jié)構(gòu)(Von Neumann architecture)。
馮·諾依曼結(jié)構(gòu)
圖源 | 百度百科
馮·諾依曼結(jié)構(gòu)也稱馮·紐曼模型(Von Neumann model)或普林斯頓結(jié)構(gòu)(Princeton architecture),它有以下幾個特點:(1)以運算單元為中心。(2)采用存儲程序原理。(3)存儲器是按地址訪問、線性編址的空間(4)控制流由指令流產(chǎn)生。(5)指令由操作碼和地址碼組成。(6)數(shù)據(jù)以二進制編碼。該結(jié)構(gòu)由運算器、控制器、存儲器、輸入設(shè)備、輸出設(shè)備五個部分組成。簡單來講,馮·諾依曼結(jié)構(gòu)將電路與程序分離,方便進行后期程序重新調(diào)整;程序員僅通過內(nèi)部存儲器寫入相關(guān)運算命令,讓計算機可以快速執(zhí)行運算操作;二進制運算也能大大加快計算機的整體速度。
這種“存算分離”的結(jié)構(gòu)也有自己的局限性:處理器與內(nèi)存間的數(shù)據(jù)交換量同內(nèi)存的整體儲存量相比太小了,隨著處理器技術(shù)的發(fā)展,這一比例更為懸殊。在一些特殊使用場景中(尤其是近年來火熱的AI計算領(lǐng)域),處理器需要經(jīng)常等待內(nèi)存的數(shù)據(jù)回傳,超高的延時嚴重拖慢了計算機整體的運行效率,內(nèi)存性能逐漸成為限制計算機發(fā)展的關(guān)鍵。與此同時,過高的信息交換量也帶來了嚴重的發(fā)熱問題與功耗問題。內(nèi)存墻、功耗墻與散熱墻成為阻攔計算機算力發(fā)展繞不開的“三堵高墻”。
內(nèi)存墻,繞開還是撞穿?
破解內(nèi)存墻問題目前已經(jīng)成為工業(yè)界和學(xué)術(shù)界的焦點問題。
繞開,意味著要放棄馮·諾依曼的“存算分離”結(jié)構(gòu),采用“存算一體”的結(jié)構(gòu)模式來規(guī)避內(nèi)存墻對運算性能的限制。一些研究人員提出了一種以存儲器為中心的體系結(jié)構(gòu),稱為“智能存儲”。其核心思想是將部分或全部的計算移到存儲中,計算單元和存儲單元集成在同一個芯片,在存儲單元內(nèi)完成運算,讓存儲單元具有計算能力。
“存算一體”結(jié)構(gòu)目前較成熟的方案有查存計算(Processing With Memory)或近存計算(Computing Near Memory),可拉進內(nèi)存與處理器的距離來降低大規(guī)模數(shù)據(jù)交換延時。除了成熟方案,存內(nèi)計算(Computing In Memory)方案目前已成為各廠商的主要發(fā)力點,它的計算操作由位于存儲芯片區(qū)域內(nèi)部的獨立計算單元完成,存儲和計算可以是模擬的也可以是數(shù)字的,一般用于算法固定的場景算法計算。存內(nèi)邏輯(Logic In Memory)屬于較新的架構(gòu),通過在內(nèi)部存儲中添加計算邏輯,直接在內(nèi)部存儲執(zhí)行數(shù)據(jù)計算,真正做到了“存算一體”。它的數(shù)據(jù)傳輸距離最短,同時能滿足大模型的計算精度要求,目前已有部分廠商已經(jīng)在該結(jié)構(gòu)上做出嘗試。
四種存算一體結(jié)構(gòu)
圖源 | 互聯(lián)網(wǎng)
撞穿,意味著要在馮·諾依曼結(jié)構(gòu)內(nèi)部做出技術(shù)革新,其核心問題就是提升內(nèi)存處理速度與數(shù)據(jù)傳輸速度。提升傳輸速度需要在總線技術(shù)上發(fā)力,光互聯(lián)技術(shù)采用波導(dǎo)方式傳輸數(shù)據(jù),相比硅晶內(nèi)部的載流子傳輸,具有損耗低、速度快、延時小的優(yōu)點,可實現(xiàn)數(shù)據(jù)的高速傳輸,減少功耗。不過,面對內(nèi)存墻無論是繞開還是撞穿,終歸還是要降低內(nèi)存處理的延時,提升整體計算速度,因此降低內(nèi)存本身延時也很關(guān)鍵。
存算一體
離不開新式存儲方式
馮·諾依曼結(jié)構(gòu)中,DRAM作為一種能夠快速反應(yīng)的易失性存儲介質(zhì),是作為處理器一級內(nèi)存的不二之選。DRAM基于場效應(yīng)管工作,通過電流控制MOS管開閉來控制電荷進出晶體管,晶體管中的電荷多與少代表了1和0,即每個存儲單位可以儲存1Bit數(shù)據(jù)。當(dāng)電流消失,晶體管就會釋放所有電荷,因此這種存儲介質(zhì)被稱為易失性存儲介質(zhì)。目前DRAM提升效率的主要方式就是增加工作頻率,2666MHz、3200MHz、3600MHz等參數(shù)就是內(nèi)存的工作頻率。但隨著半導(dǎo)體工藝尺寸逐漸減小,傳統(tǒng)的基于互補金屬氧化物半導(dǎo)體工藝的緩存和主存遭遇了性能瓶頸,量子隧穿問題時刻困擾著內(nèi)存工藝的進步,延時也無法進一步降低。
近年來,各類“存算一體”芯片架構(gòu)的誕生,讓一部分延時更低的新式存儲方式走進人們視線。其中PCRAM相變儲存器、ReRAM電阻式存儲器、MRAM磁變/磁阻存儲器以及鐵電存儲器FRAM的出現(xiàn)為破解內(nèi)存墻提供了新思路。
PCRAM又稱PCM、OUM(Ovonic UnifiedMemory)和 CRAM(Chalcogenide Random AccessMemory),從名字可以看出,它利用相變材料作為儲存介質(zhì)。PCRAM在工作時通過對相變材料施加不同時長的電脈沖,使相變材料在不同程度的電流熱效應(yīng)下分別呈現(xiàn)出不同的結(jié)晶狀態(tài),并在兩種狀態(tài)之間快速切換。相變材料在非晶相態(tài)時呈現(xiàn)出半導(dǎo)體特性,具有較高的電阻值;在結(jié)晶相態(tài)時呈現(xiàn)出半金屬特性,具有較低的電阻值。因此,可以分別通過相變材料在非晶相態(tài)和結(jié)晶相態(tài)時呈現(xiàn)出的不同電阻特性來分別表示需要存儲的數(shù)據(jù)。PCRAM具有較好的微縮能力,目前已經(jīng)可以做到20nm工藝,因此其儲存密度較DRAM更高。此外,由于相變材料可以在晶體態(tài)和非晶體態(tài)之間無極變換,通過更加精密的電阻探測方式,可以在單一存儲單元內(nèi)存儲多Bit數(shù)據(jù),因此PCRAM未來開發(fā)潛力巨大。
PCRAM 圖源 |百度百科
ReRAM,也稱RRAM,電阻式存儲器,是以非導(dǎo)性材料(金屬氧化物)的電阻在外加電場作用下,在高阻態(tài)和低阻態(tài)之間實現(xiàn)可逆轉(zhuǎn)換的非易失性存儲器。ReRAM在工作時可以對金屬氧化物施加電壓,使材料的電阻在高阻態(tài)和低阻態(tài)間發(fā)生相應(yīng)變化,并利用這種性質(zhì)儲存各種信息。與PCRAM原理類似,ReRAM也能在單個存儲單元中存儲多Bit數(shù)據(jù)。與DRAM相比,RRAM不僅滿足高讀寫速度和存儲密度的要求,同時延遲更低,可滿足未來智能駕駛高實時數(shù)據(jù)吞吐量。
ReRAM 圖源 |Objective Analysis
MRAM(Magnetoresistive Random Access Memory)是一種利用磁性工作的非易失性隨機存儲器。它和我們熟悉的“磁帶”不同,MRAM的磁性并不依賴介質(zhì)表面的磁粉,而是基于兩個鐵磁層磁化狀態(tài)來存儲信息,其核心元件就是磁性隧道結(jié) (magnetic tunnel junction,MTJ),當(dāng)電流流過MTJ時它會因為存儲信息的不同而表現(xiàn)出不同的阻值。當(dāng)下的 MRAM 家族成員包括了三類:自旋轉(zhuǎn)移扭矩 (spin-transfer torque :STT)、自旋軌道扭矩 (spin-orbit torque:SOT)、電壓控制(VCMA-和 VG-SOT)。
FRAM(FRAM,ferroelectric RAM)鐵電存儲器也是一種特殊工藝的非易失性的存儲器,采用人工合成的鉛鋯鈦(PZT) 材料形成存儲器結(jié)晶體存儲數(shù)據(jù)。當(dāng)一個電場被施加到鐵晶體管時,中心原子順著電場停在低能量位置處,大量中心原子在晶體單胞中移動最終形成極化電荷,然后外界通過判斷鐵晶體管內(nèi)的電荷高低來讀取數(shù)據(jù)。與DRAM相比,F(xiàn)RAM在速度與價格方面都具有較大優(yōu)勢。
FRAM
圖源 |Objective Analysis
值得注意的是,無論是哪種新式存儲方式,目前都存在部分局限性。由于存算一體架構(gòu)在片內(nèi)計算基本都屬于模擬計算,計算精度完全取決于工藝精度,更不能計算浮點運算,因此新式存儲方式搭配存算一體架構(gòu)僅適合應(yīng)用于需要大規(guī)模存儲的場景中。此外新式存儲往往專注于降低延時與持久儲存,往往還不具備Flash、DRAM等成熟工藝的可靠性,還需要繼續(xù)發(fā)展并完善。
總結(jié)
隨著摩爾定律逼近極限,芯片算力提升已經(jīng)達到瓶頸,尤其是在需要大規(guī)模存儲的計算場景中,處理器與內(nèi)存的數(shù)據(jù)交換上限逐漸成為新瓶頸。目前存算一體架構(gòu)搭配延時更低的新存儲方式成為破解內(nèi)存墻的關(guān)鍵。
參考資料:
存算一體/感存算一體芯片技術(shù)原理
https://mp.weixin.qq.com/s/SChfWoEWSFoeQSW3kjW17w
百度百科:PCRAM、FRAM、ReRAM、MRAM
https://baike.baidu.com/item/MRAM/2090077
https://baike.baidu.com/item/PCRAM/280581
基于硅光子的片上光互連技術(shù)研究
https://www.docin.com/p-1647619053.html