在全球超算領域,中美一直在爭奪算力第一的位置,此外,日本和歐洲是兩股重要力量。而在超級計算機的核心——處理器方面,也是八仙過海,各顯神通,特別是在處理器架構方面,業界有著不同的路線:有的采用傳統的x86以及IBM的Power,有的采用最新的并行異構計算體系,還有一個就是ARM服務器架構。
上周,在Hotchips會議上,富士通公司公布了號稱最強ARM處理器A64FX,其集成了48+4個核心,配備32GB HBM 2內存,帶寬1TB/s,浮點性能2.7TFLOPS,使用7nm工藝生產。該處理器將用于日本新一代代號為Post-K的百億億次超算,據悉,其性能將是現在的京式超算的100倍,而能耗只有三倍。
日本現在的超算京(Kyo)是富士通聯合日本理化研究所開發的,使用的處理器是SPARC64架構,而新一代的百億億次超算將使用全新研發的處理器A64FX,與現有的超算相比,新一代Post-K超算最大的變化就是處理器從SPARC64架構全面轉向了ARM,富士通還聯合ARM推出了SVE(可伸縮矢量擴展)指令集,大幅強化浮點性能。
據悉,A64FX處理器使用了ARM的ARMv8.2-A指令集,浮點單元則是上面提到的SVE,支持512bit位寬浮點運算。這個處理器的架構設計也很特別,有48個計算核心及4個協助核心組成,分為四個CMG單元,每個單元13個核心,28Gbps I/O帶寬,16條PCIe 3.0通道。
A64FX處理器將使用7nm FinFET工藝生產,87.86億個晶體管,性能可達2.7TFLOPS,是前代的SPARC V9處理器1.1TFLOPS的2.5倍左右。
根據富士通公布的信息,目前A64FX處理器已經完成原型開發,新一代超算已經進入功能測試階段。
富士通這一處理器產品的推出,特別是該公司將原有的超算處理器架構由原來的SPARC64全面轉向了ARM,無疑是給當下的ARM服務器市場打了一針強心劑。
全球服務器市場的ARM元素
在當今的服務器CPU架構領域,ARM明顯處于弱勢地位,市場主要由x86主導,另外還有Power。在美國,ARM服務器CPU聲勢越來越弱,高通、AMD等大廠紛紛裁撤在該方面的投入。
ARM服務器CPU主要應用包括商用和超算等,下面就以超算應用為例,因為它還是比較有代表性的。
今年6月,美國能源部與IBM、英偉達合作打造出了新一代超級計算機,名為Summit。其峰值運算性能達到200PFlops,也就是每秒執行20億億次浮點運算,是迄今為止性能最強的超級計算機,也標志著自2012年以來美國超算超越中國,再次奪冠。Summit基于IBM的Power Systems AC922做節點,每個節點搭載2個Power9處理器和6個NVIDIA Tesla V100 GPU顯卡,總共設計約4600個節點。
可見,美國的超算更看好CPU+GPU的發展路線。
而全球超算兩強之一的中國,在處理器架構方面,則呈現百花齊放,并行發展的態勢。
中國現在同時啟動了三大百億億次超算研發項目,分別是國防科大/天津超算中心的“天河三號”、中科曙光的E級超算以及江南所/濟南超算中心的“神威”E級。以上三套百億億次超算中,核心處理器都將是國產的。
其中,“天河三號”采取的技術路線則是基于ARM構架處理器,中科曙光則選擇了類似于美國主流超算的CPU+GPU技術路線,“神威”采用的是眾核異構體系——國產申威SW26010處理器。
此外,歐盟預計于2022~2023年交付首臺E級超算,使用的是美國、歐盟處理器,架構有可能類似ARM。
以上主要給出全球超算市場的處理器架構情況,而在商用服務器市場,ARM處理器應用情況與超算沒有太大的差別。可見,ARM架構在全球服務器市場是處于弱勢地位的。
但隨著中國在ARM服務器研發上的發力,以及日本的代表企業富士通將超算處理器架構由SPARC64全面轉向了ARM,特別是本次推出了強悍的新一代ARM處理器A64FX,讓人感覺眼前一亮。這些,是否預示著ARM服務器在市場洗牌之后,進入了新一輪的博弈呢?答案還要由市場和時間給出。
中國ARM服務器CPU陣營
中國的ARM服務器CPU有三強,分別是飛騰,華芯通和華為。
“天河三號”原型機采用的就是飛騰的ARM處理器,是一款百億億次的超算產品,綜合運算能力是“天河一號”的200倍,“天河二號”的30倍(“天河一號”、“天河二號”用的都是Intel的Xeon處理器)。“天河三號”原型機于今年6月部署在天津超算中心,年底將正式上線投入使用。據悉,原型機的作用是為了驗證‘天河三號’的技術路線。
在“天河一號”、“天河二號”階段,飛騰處理器就有應用,但當時采用的不是ARM架構,而是Ultra SPARC,基于此架構的8核64線程的FT-1000被用在天河一號的節點網絡上,之后,同樣基于SPARC架構的FT-1500,用在了天河二號超算上,用于節點前端處理器。
之后的FT-1500A,其架構則由SPARC轉變成了ARM 64位,這與富士通的發展路線非常相似。不過飛騰這一轉變還有另外一層因素,就是避免被Intel的Xeon處理器“卡脖子”。
之后,飛騰在2016年發布了基于ARM架構的FT-2000,最新產品是尚未對外發布的升級版——FT-2000 Plus。
FT-2000采用28nm制造工藝,可被用于超算計算節點和高性能服務器。集成了64個FTC661處理器核。工作主頻1.5GHz—2.0GHz。支持16個DDR3-1600存儲控制器,可提供204.8GB/s訪存帶寬。最大功耗100W。
據悉,在ARMv8指令集兼容的現有產品中,FT-2000在單核計算能力、單芯片并行性能、單芯片cache一致性規模、訪存帶寬等指標上處于國際先進水平。其自定義的擴展接口不但可以用來擴展緩存容量和存儲能力,還可以用來外接FPGA等加速器類專用芯片,實現異構計算。
雖然沒有公開,但業界普遍認為,“天河三號”采用的處理器應該就是FT-2000 Plus。這款CPU是FT-2000的后繼產品。有信息顯示,FT-2000 Plus采用16nm制程。
相對于FT-2000,FT-2000 Plus首要任務就是提升集成度,以便于整機設計,其由支持可擴展DDR3存儲控制器改為片內集成DDR4內存控制器,再加上使用了臺積電16nm制造工藝,主頻最高可穩定在2.4GHz,使FT-2000 Plus相對于FT-2000還是有不小的性能提升,能夠滿足高端服務器和超算主控CPU的性能要求。雖然FT-2000 Plus在單核性能上和Intel還存在一定差距,但在多核性能上,已經達到Intel服務器CPU E5 主流產品的水平。
華芯通
今年5月,華芯通在數博會的“Arm服務器產業生態高峰論壇”上正式發布了其高性能服務器CPU品牌“昇龍”。華芯通首款“昇龍”處理器采用10nm制程工藝,最多48核,ARM V8架構,內置國密密碼模塊和芯片級的安全基礎架構。
據悉,昇龍處理器流片回來的實測性能已達到兩顆英特爾最新主流CPU水平,其能耗卻低了50%以上。如果情況果真如此的話,那么其性能還是比較強勁的,至少從算力上是可以進入主流云服務市場的,可以與x86架構產品爭一爭,但短期內還難以形成規模,發展道阻且長,市場前景還要看華芯通的運營能力,以及主要合作和技術提供方——高通的支持力度。
華為
2016年,華為推出了第一款ARM架構服務器CPU“泰山”(Taishan)1612,采用的是ARM Cortex A57,這款處理器采用了臺積電16nm制程工藝,兼容ARM v8-A指令集,是華為在國內主推的第一款多核服務器CPU。
據悉,1612是核高基1號專項項目,用來做互聯網冷卻儲存的生態系統驗證,并未進行推廣和量產。據說,經過幾年攻堅,華為已經攻克多項技術難題,2017年成功開發出第一款自研的、基于ARM架構的CPU,能效是x86的x倍、領先市場上的同類ARM架構CPU。從華為的一次會議上獲悉,華為海思圖靈業務部開發的泰山自研64 位CPU已經成功商用。
最近有消息傳出,2019年華為將研制出性能堪比x86主流中端產品的ARM架構服務器芯片,并將正式量產,進行公開商用推廣。
華為在研發處理器方面一向都非常謹慎,而在ARM架構服務器芯片方面更是低調至極,鮮有公開信息。可以肯定的是,在ARM服務器CPU研發方面,華為內部一定是在緊鑼密鼓地進行著,就看這個憋了很久的大招何時能夠放出吧。
結語
ARM在手機和嵌入式應用當中順風順水,呼風喚雨,在此基礎上,有了足夠的底氣和資本,從而想在服務器領域與傳統的x86陣營掰一掰手腕,要想在堅固的x86生態中分得更多蛋糕,確實困難重重,需要付出的努力和投入將是巨大的。
而日本及中國ARM服務器CPU陣營的堅持與投入無疑為其發展增加了砝碼,而如何運用這些砝碼來建設新生態,突破固有格局,走上良性的商用之路,是擺在ARM服務器陣營面前的大課題,前途如何,將由時間來檢驗。