隨著人工智能與大數(shù)據(jù)技術(shù)的飛速發(fā)展,我們正步入一個(gè)以大模型為核心的新時(shí)代。然而在這一浪潮中,傳統(tǒng)的馮·諾依曼架構(gòu)卻逐漸顯露出其狹隘性。
該架構(gòu)雖然奠定了現(xiàn)代計(jì)算機(jī)的基礎(chǔ),但在面對(duì)海量數(shù)據(jù)處理與大模型訓(xùn)練時(shí),卻受限于存儲(chǔ)與計(jì)算分離的設(shè)計(jì),導(dǎo)致數(shù)據(jù)搬運(yùn)成為性能瓶頸,嚴(yán)重制約了計(jì)算效率的提升。
為了突破這一瓶頸,業(yè)界開(kāi)始將目光聚焦于另一個(gè)計(jì)算架構(gòu)——存算一體,這是一種將存儲(chǔ)和計(jì)算功能融合在同一個(gè)芯片上的技術(shù)架構(gòu)。
事實(shí)上,存算一體的概念由來(lái)已久。早在1969年,斯坦福研究所的Kautz等人提出了存算一體計(jì)算機(jī)的概念。但受限于當(dāng)時(shí)的芯片制造技術(shù)和算力需求的匱乏,那時(shí)存算一體僅僅停留在理論研究階段,并未得到實(shí)際應(yīng)用。
而近年來(lái),隨著半導(dǎo)體制造技術(shù)突破,以及AI等算力密集應(yīng)用場(chǎng)景的崛起,存算一體技術(shù)也得到迅猛發(fā)展。2017年,英偉達(dá)、微軟、三星等提出存算一體原型,隨后,國(guó)內(nèi)也誕生一批存算一體芯片企業(yè),蘋芯科技是其中之一。
8月8日,蘋芯科技正式發(fā)布了兩款新品,包括存算一體NPU“PIMCHIP-N300”和多模態(tài)智能感知芯片“PIMCHIP-S300”,后者采用的是28納米制程工藝。
蘋芯科技CEO楊越在接受21世紀(jì)經(jīng)濟(jì)報(bào)道記者采訪時(shí)指出,“存算一體就是要在成熟制程實(shí)現(xiàn)高級(jí)制程的計(jì)算能力,這讓我們不用非去卷高級(jí)制程”。
打破馮·諾依曼架構(gòu)
在存算一體技術(shù)出現(xiàn)之前,計(jì)算架構(gòu)基本都是遵循馮·諾依曼架構(gòu),即存儲(chǔ)與計(jì)算單元分離。
楊越向記者表示,在馮·諾依曼架構(gòu)下,當(dāng)計(jì)算發(fā)生時(shí),數(shù)據(jù)需要在存儲(chǔ)和計(jì)算單元直接傳輸。而在AI算力芯片中,超過(guò)90%的功耗都消耗在傳輸上,所以原來(lái)的架構(gòu)在計(jì)算效率上很難支撐AI的發(fā)展。
此前,提高計(jì)算效率的辦法就是升級(jí)制程工藝,從最初的65納米、40納米已經(jīng)變成7納米、5納米甚至3納米。然后,這種方法后來(lái)也遭遇了瓶頸。
因此2020年前后,國(guó)內(nèi)出現(xiàn)一批公司,他們?cè)噲D從其他維度去解決計(jì)算效率提升的問(wèn)題。“比如存算一體公司、量子計(jì)算公司、光子芯片公司等,這些公司希望去改變芯片的架構(gòu)來(lái)減少數(shù)據(jù)的搬移。而在不同的技術(shù)路徑中,存算一體是落地性最強(qiáng)的一個(gè)賽道”。楊越說(shuō)。
在存算一體賽道中,不同公司也存在差異,主要是底層所采用的Memory(存儲(chǔ)器)類型不同。有的是用flash做,有的是用靜態(tài)隨機(jī)存儲(chǔ)器(SRAM)做,還有的是用新型存儲(chǔ)器——憶阻器來(lái)做。
楊越告訴記者,不同的Memory所具有的特性不同,有的密度高,有的耐久性更好。而蘋芯科技選擇SRAM,是因?yàn)樗漠a(chǎn)品化能力最強(qiáng)。
“在用戶最關(guān)心的幾個(gè)性能維度上,比如讀寫的延時(shí)、耐久性、Memory可擦寫的次數(shù)、高級(jí)制程兼容性等,SRAM的表現(xiàn)都是最優(yōu)的。另外,因?yàn)镾RAM在計(jì)算機(jī)體系中已經(jīng)存在幾十年了,它的成本、良率都很穩(wěn)定。所以如果想要快速產(chǎn)品化,SRAM會(huì)是最優(yōu)的解決方案”。楊越表示。
另外,即便是使用同一種Memory來(lái)做的企業(yè),面向的場(chǎng)景也可能不同。有些公司選擇了大算力場(chǎng)景,比如汽車、服務(wù)器,蘋芯科技選擇的則是小端側(cè)場(chǎng)景,比如智能可穿戴設(shè)備、智慧家居等。
楊越稱,選擇小端側(cè)場(chǎng)景,是因?yàn)樗懔φw并不是特別大,但是對(duì)于功耗的要求又比較敏感。“做出這一選擇,我們是從電路、系統(tǒng)架構(gòu)、應(yīng)用、成本等角度進(jìn)行了綜合考量,覺(jué)得小端側(cè)場(chǎng)景更適合快速出產(chǎn)品”。
他舉例說(shuō),“我們團(tuán)隊(duì)的背景之前都是做新型存儲(chǔ)器的,但我們?nèi)匀徊捎肧RAM方案,核心原因就是我們認(rèn)為這個(gè)方案在2-3年內(nèi)可以產(chǎn)品化,這是符合投資人商業(yè)邏輯的,也是符合產(chǎn)業(yè)商業(yè)邏輯的”。
大廠留下的機(jī)會(huì)
目前,包括英特爾、三星、IBM、AMD等在內(nèi)的傳統(tǒng)芯片廠商都在布局存算一體,蘋芯科技等初創(chuàng)公司如何應(yīng)對(duì)與巨頭的競(jìng)爭(zhēng)?
楊越表示,從行業(yè)角度,大家做的事情是趨同的,就是希望讓數(shù)據(jù)的搬運(yùn)徹底消失。包括蘋芯科技在內(nèi)的一些初創(chuàng)公司,其優(yōu)勢(shì)在于選擇了存內(nèi)計(jì)算方案,這幾乎能將縮短數(shù)據(jù)距離這件事做到極致化。但大廠們不太可能去這樣做,因?yàn)樗麄円紤]通用性的問(wèn)題,這實(shí)際上也為創(chuàng)業(yè)公司提供了機(jī)會(huì)。
據(jù)記者了解,存算一體技術(shù)可分為三類:近存計(jì)算(Processing Near Memory, PNM)、存內(nèi)處理(Processing In Memory, PIM)和存內(nèi)計(jì)算(Computing In Memory, CIM)。
其中,近存計(jì)算是利用先進(jìn)的封裝技術(shù),將計(jì)算芯片和存儲(chǔ)器封裝到一起,通過(guò)減少內(nèi)存和處理單元之間的路徑,提高傳輸效率;存內(nèi)處理側(cè)重于將計(jì)算過(guò)程盡可能地嵌入到存儲(chǔ)器內(nèi)部,減少處理器訪問(wèn)存儲(chǔ)器的頻率;存內(nèi)計(jì)算則是將計(jì)算和存儲(chǔ)完全融合的技術(shù),通過(guò)電路革新或集成額外的計(jì)算單元來(lái)實(shí)現(xiàn)。
因?yàn)榇鎯?nèi)計(jì)算對(duì)制程工藝要求不高,所以這也是國(guó)內(nèi)創(chuàng)業(yè)公司主要選擇的技術(shù)路徑。華西證券在一份研報(bào)中指出,近存計(jì)算的代際設(shè)計(jì)成本較低,適合傳統(tǒng)架構(gòu)芯片轉(zhuǎn)入,目前該技術(shù)已經(jīng)十分成熟,被廣泛應(yīng)用于各類CPU和GPU上。而存內(nèi)計(jì)算主要用于算法固定的場(chǎng)景算法計(jì)算。
楊越指出,目前電子產(chǎn)品正朝著小型化、智能本地化的方向發(fā)展,這給存算一體創(chuàng)業(yè)公司帶來(lái)了很大的市場(chǎng)機(jī)遇。
“小型化意味著電池不能做得太大,然后還要去很好地驅(qū)動(dòng)AI計(jì)算,這在傳統(tǒng)架構(gòu)中很難實(shí)現(xiàn)。比如現(xiàn)在基于傳統(tǒng)架構(gòu)的一些智能設(shè)備,當(dāng)它們打開(kāi)AI功能時(shí),非常容易發(fā)熱,原因在于有大量的數(shù)據(jù)搬運(yùn),而存算一體可以將產(chǎn)品體驗(yàn)變得更好”。他說(shuō)。
據(jù)楊越介紹,蘋芯科技的產(chǎn)品未來(lái)會(huì)有兩個(gè)迭代方向,一是在功能上,要從現(xiàn)在的卷積神經(jīng)網(wǎng)絡(luò)(CNN)迭代到Transformer模型,二是在計(jì)算效率上,會(huì)把制程工藝從現(xiàn)在的28納米,升級(jí)到22納米、14納米,最終定格在12納米。