IBM加州研究院實驗室的一款新芯片原型,醞釀已久,有可能顛覆人工智能的有效使用方式和地點。
我們正處于人工智能的寒武紀(jì)大爆發(fā)之中。在過去的十年中,人工智能已經(jīng)從理論和小型測試發(fā)展到企業(yè)級用例。但是,用于運(yùn)行AI系統(tǒng)的硬件雖然越來越強(qiáng)大,但在設(shè)計時并沒有考慮到當(dāng)今的AI。隨著人工智能系統(tǒng)的規(guī)模擴(kuò)大,成本飆升。摩爾定律,即處理器電路密度每年翻一番的理論,已經(jīng)放緩。
但是,IBM研究院位于加利福尼亞州阿爾馬登的實驗室經(jīng)過近二十年的新研究,有可能徹底改變我們?nèi)绾斡行У財U(kuò)展強(qiáng)大的人工智能硬件系統(tǒng)。
自半導(dǎo)體工業(yè)誕生以來,計算機(jī)芯片主要遵循相同的基本結(jié)構(gòu),其中處理單元和存儲待處理信息的存儲器是離散存儲的。雖然這種結(jié)構(gòu)允許更簡單的設(shè)計,這些設(shè)計幾十年來能夠很好地擴(kuò)展,但它創(chuàng)造了所謂的馮諾依曼瓶頸,在這種瓶頸中,需要時間和精力在內(nèi)存、處理和芯片內(nèi)的任何其他設(shè)備之間不斷來回打亂數(shù)據(jù)。IBM研究院的Dharmendra Modha及其同事的工作旨在改變這種狀況,從大腦的計算方式中汲取靈感。“它開辟了一條與馮·諾依曼架構(gòu)完全不同的道路,”Modha說。
在過去的八年里,Modha一直在研究一種用于神經(jīng)推理的新型數(shù)字AI芯片,他稱之為NorthPole。它是TrueNorth的延伸,TrueNorth是Modha在2014年之前研究的最后一個大腦啟發(fā)芯片。在流行的ResNet-50圖像識別和YOLOv4對象檢測模型的測試中,新的原型設(shè)備展示了比目前市場上任何其他芯片更高的能效,更高的空間效率和更低的延遲,并且比TrueNorth快約4,000倍。
NorthPole芯片的第一組有希望的結(jié)果今天發(fā)表在《科學(xué)》雜志上。根據(jù)Modha的說法,NorthPole是芯片架構(gòu)的突破,在能源,空間和時間效率方面提供了巨大的改進(jìn)。使用ResNet-50型號作為基準(zhǔn),NorthPole比普通的12納米GPU和14納米CPU效率高得多。(NorthPole本身建立在12納米節(jié)點處理技術(shù)之上。在這兩種情況下,當(dāng)涉及到每焦耳所需功率解釋的幀數(shù)時,NorthPole 的能源效率都提高了 25 倍。NorthPole 在延遲以及計算所需的空間方面也表現(xiàn)出色,就每十億個晶體管每秒解釋的幀而言。根據(jù)Modha的說法,在ResNet-50上,NorthPole的性能優(yōu)于所有主要的流行架構(gòu) - 即使是那些使用更先進(jìn)技術(shù)工藝的架構(gòu),例如使用4納米工藝實現(xiàn)的GPU。
它是如何以比現(xiàn)有芯片更高的效率進(jìn)行計算的?與NorthPole的最大區(qū)別之一是設(shè)備的所有內(nèi)存都在芯片本身上,而不是單獨連接。如果沒有馮諾依曼瓶頸,該芯片可以比市場上已有的其他芯片更快地進(jìn)行AI推理。NorthPole 采用 12 納米節(jié)點工藝制造,在 800 平方毫米內(nèi)包含 220 億個晶體管。它有 256 個內(nèi)核,每個周期可以以 8 位精度執(zhí)行 2,048 個操作,有可能分別將 4 位和 2 位精度的操作數(shù)量增加一倍和四倍。“這是一個芯片上的整個網(wǎng)絡(luò),”Modha說。
PCIe 卡上的NorthPole芯片(圖片來源IBM網(wǎng)站)
“在架構(gòu)上,NorthPole模糊了計算和內(nèi)存之間的界限,”Modha說。“在單個內(nèi)核級別,NorthPole 顯示為接近計算的內(nèi)存,而在芯片外部,在輸入輸出級別,它顯示為活動內(nèi)存。這使得 NorthPole 易于集成到系統(tǒng)中,并顯著降低了主機(jī)上的負(fù)載。
但NorthPole的最大優(yōu)勢也是一個限制:它只能輕松地從船上的內(nèi)存中提取。如果芯片必須從另一個地方訪問信息,那么芯片上所有可能的加速都將被削弱。通過一種稱為橫向擴(kuò)展的方法,NorthPole 實際上可以支持更大的神經(jīng)網(wǎng)絡(luò),方法是將它們分解為適合 NorthPole 模型內(nèi)存的較小子網(wǎng),并將這些子網(wǎng)連接到多個 NorthPole 芯片上。因此,雖然NorthPole(或一組NorthPole)上有足夠的內(nèi)存用于許多對特定應(yīng)用有用的模型,但該芯片并不意味著萬事通。“我們不能在此上運(yùn)行GPT-4,但我們可以滿足企業(yè)所需的許多模型,”Modha說。“當(dāng)然,NorthPole只是為了推理。”
這種功效意味著該設(shè)備也不需要笨重的液體冷卻系統(tǒng)來運(yùn)行 - 風(fēng)扇和散熱器綽綽有余 - 這意味著它可以部署在一些相當(dāng)小的空間中。
NorthPole的潛在應(yīng)用
雖然對NorthPole芯片的研究仍在進(jìn)行中,但其結(jié)構(gòu)適用于新興的人工智能用例,以及更成熟的用例。
在測試中,NorthPole團(tuán)隊主要關(guān)注與計算機(jī)視覺相關(guān)的用途,部分原因是該項目的資金來自美國國防部??紤]的一些主要應(yīng)用是檢測、圖像分割和視頻分類。但它也在其他領(lǐng)域進(jìn)行了測試,例如自然語言處理(在僅編碼器BERT模型上)和語音識別(在DeepSpeech2模型上)。該團(tuán)隊目前正在探索將僅解碼器的大型語言模型映射到NorthPole 橫向擴(kuò)展系統(tǒng)。
當(dāng)你想到這些人工智能任務(wù)時,各種奇幻的用例浮現(xiàn)在腦海中,從自動駕駛汽車到機(jī)器人、數(shù)字助理或空間計算。許多需要實時處理大量數(shù)據(jù)的邊緣應(yīng)用可能非常適合NorthPole。例如,它可能是將自動駕駛汽車從需要設(shè)定地圖和路線才能在小規(guī)模上運(yùn)行的機(jī)器轉(zhuǎn)移到能夠思考和應(yīng)對罕見邊緣情況的設(shè)備,這些情況使得在現(xiàn)實世界中導(dǎo)航變得如此具有挑戰(zhàn)性,即使是熟練的人類駕駛員。這些邊緣情況是未來NorthPole應(yīng)用的確切最佳選擇。NorthPole可以使衛(wèi)星監(jiān)測農(nóng)業(yè)和管理野生動物種群,監(jiān)控車輛和貨運(yùn),確保道路更安全,更不擁擠,安全操作機(jī)器人,并檢測網(wǎng)絡(luò)威脅以實現(xiàn)更安全的企業(yè)。
下一步是什么
這只是Modha在NorthPole工作的開始。目前最先進(jìn)的CPU是3納米,IBM本身已經(jīng)在2納米節(jié)點上進(jìn)行了多年的研究。這意味著除了基本的架構(gòu)創(chuàng)新之外,NorthPole 還可以實施幾代芯片處理技術(shù),以不斷提高效率和性能。
但對于莫達(dá)來說,這只是他職業(yè)生涯過去19年中主導(dǎo)的連續(xù)統(tǒng)一體的一個重要里程碑。在那段時間里,他一直在研究數(shù)字大腦啟發(fā)的芯片,知道大腦是我們所知道的最節(jié)能的處理器,并尋找以數(shù)字方式復(fù)制它的方法。TrueNorth完全受到大腦中神經(jīng)元結(jié)構(gòu)的啟發(fā),并且其中的數(shù)字“突觸”與蜜蜂的大腦一樣多。但2015年,莫達(dá)坐在舊金山的公園長椅上,說他正在思考他迄今為止的工作。他相信,將最好的傳統(tǒng)處理設(shè)備與大腦中的處理結(jié)構(gòu)結(jié)合起來是有道理的,其中記憶和處理散布在整個大腦中。答案是“具有硅速度的大腦啟發(fā)計算”,根據(jù)Modha的說法。
在接下來的八年里,Modha和他的同事們一心一意,將這一愿景變?yōu)楝F(xiàn)實。該團(tuán)隊在亞瑪頓辛勤工作,直到今年才就他們的工作發(fā)表任何講座或發(fā)表任何論文。每個人都帶來了不同的技能和觀點,但每個人都在合作,因此作為一個整體,團(tuán)隊的貢獻(xiàn)遠(yuǎn)遠(yuǎn)大于各部分的總和。現(xiàn)在,該計劃是展示NorthPole可以做什么,同時探索如何將設(shè)計轉(zhuǎn)化為更小的芯片生產(chǎn)工藝,并進(jìn)一步探索架構(gòu)的可能性。
這項工作源于簡單的想法——我們?nèi)绾沃圃煜翊竽X一樣工作的計算機(jī)——經(jīng)過多年的基礎(chǔ)研究,已經(jīng)提出了一個答案。這實際上只有在今天才能在像IBM研究院這樣的地方實現(xiàn),那里有時間和空間來探索計算中的重大問題,以及它們可以帶我們?nèi)サ牡胤健?ldquo;NorthPole是硅晶片鏡子中大腦的微弱表示,”Modha說。