摘 要: 設計了一種基于先進電信計算架構的龍芯服務器刀片并實際應用于一嵌入式計算平臺。介紹了系統總體結構并重點論述了服務器刀片設計的系統方案、高可靠設計等關鍵技術。實際測試表明,設計的服務器刀片能滿足可靠性測試要求,在測試中表現出良好的性能,滿足主流嵌入式計算任務需求。
關鍵詞: 先進電信計算架構;龍芯;刀片服務器;嵌入式
0 引言
隨著多核計算技術、向量計算技術、GPU計算技術的發展應用,在單位空間可集成更高的計算能力。因而,傳統嵌入式計算架構的嵌入式計算機系統結合高性能計算技術,能較大地提高系統性能并擴展應用范圍。
先進電信計算架構[1](Advanced Telecom Computing Architecture,ATCA)是針對CPCI、VME等傳統嵌入式[2-3]計算架構在擴展能力、可靠性以及兼容性等方面存在的問題,由PICMG組織制定的最新一代嵌入式計算架構標準。
計算規模在萬億次的低端個人高性能計算機[4](Personal High Performance Computer,PHPC)的主要目標是逐漸把萬億次高性能計算帶到“個人”和“桌面”,實現高性能計算的普及化。KD系列PHPC[5]在研制過程中逐步解決了PHPC小型化問題,實現了“三低一高”。最終實現的KD-90系統[6]是一款微波爐大小的、可移動的個人高性能計算機。
本文應用KD系列PHPC的研究成果,結合ATCA嵌入式計算架構,采用龍芯3號處理器[7-8],設計了一款符合ATCA技術規范的嵌入式計算平臺。對系統核心部件龍芯服務器刀片設計的關鍵技術進行了重點闡述,并對刀片的性能進行了測試。測試結果表明,所設計的服務器刀片性能良好。
1 系統設計
1.1 嵌入式計算平臺簡介
本嵌入式計算平臺機械結構遵循ATCA規范進行了定制設計,考慮電源供電在背板的均衡以及模塊散熱的需求,將3個“1+1+1”冗余的電源模塊單元設置在整個機箱的右側;機箱中部5U高度的空間主要設置8片龍芯服務器計算刀片(服務單元#1→#8)、2個交換和管理單元以及2個KVM單元。
系統的核心部分為8片龍芯服務器刀片,采用龍芯3號處理器進行設計。
1.2 龍芯ATCA服務器刀片設計方案
服務器刀片設計采用了基于雙路龍芯3A處理器CC-NUMA(非一致性存儲通道)架構的服務器方案,搭配AMD的RS780E+SB710套片組。通過Intel82576設計輸出4路千兆網絡信號,通過背板采用Serdes信號傳輸模式實現與交換模塊的互聯;輸出的8路USB、2路VGA和4路千兆以太網信號通過ATCA Zone2連接器與背板連接,其設計框圖如圖1所示。
服務器刀片主要特點:
(1)系統采用800 MHz、16 bit的HT[7](Hyper Transport Link)總線與I/O橋片互聯,系統總帶寬達25.6 Gb/s;
(2)系統總線數據傳輸支持采用CRC數據校驗機制,具備傳輸失效后自動重試功能;
(3)獨立的IPMC監控電路可以通過網絡遠程監控設備工作狀態并進行控制;
(4)服務器刀片通過PCIe總線連接高性能以太網驅動器Intel82576網卡。
2 高可靠設計技術
2.1 系統級冗余技術
結合ATCA架構支持的冗余技術,系統進一步采用了全面的冗余體系來支持服務器刀片的高可靠運行。如圖1所示,交換刀片、KVM刀片、電源模塊、風扇、機箱管理等都采用了冗余設計,采用1+1冗余模式確保無單點故障。
同時,龍芯服務器刀片設計提供4路千兆以太網通道,分成兩組,分別連至兩個交換刀片,形成2+2的冗余模式,如圖2所示。
2.2 遠程管理監控技術
系統采用遠程管理監控技術對服務器刀片運行的所有狀態進行監控,包括:故障預警/告警、機箱環境溫度監控、刀片電壓/電流監控、功能單元的存在性/健康性監控等。
外部機箱管理為遠程管理軟件,遠程用戶可通過網絡向機箱管理單元發送命令請求,由機箱管理單元將命令翻譯并發送到相應的節點單元的IPMC,實現對各節點單元管理和控制。
2.3 散熱計算與熱仿真技術
根據服務器單元的功耗以及空氣散熱技術實踐的最高上限推算,每個槽位服務器刀片的最大功耗應該在100 W以內,根據功耗與空氣流通速率對應的關系,對應的空氣流通速率為0.51 m/min。
根據計算所得相關參數,機箱和刀片的機械尺寸位置,在所有刀片滿載持續工作30 min情況下,對整機散熱進行了瞬態仿真分析,結果如圖3所示。由圖3可知,在環境溫度45 ℃,相對濕度75%情況下,整個機箱的散熱良好。
3 系統測試
3.1 健壯性測試
首先為拷機測試,測試期間系統運行Linpack測試以及Spec cpu2000等大型測試軟件至滿負荷,實測72小時內運行無故障。其次為IO訪問壓力測試,測試整機在100 MB、500 MB以及1 GB文件拷貝、創建、壓縮、解壓、FTP傳輸時的健壯性,實際測試系統利用腳本完成相應任務操作連續48小時正常無故障。最后測試系統在多用戶并發訪問特定應用時的穩定性,利用Loadrunner模擬進行100~1 000個用戶測試,48小時內訪問正常。
3.2 性能測試
對單個龍芯服務器刀片的測試結果參見表1計算子系統基礎性能測試結果。測試處理器為龍芯3A,工作主頻為825 MHz,單處理器內存為DDR3 8 GB,工作頻率為533 MHz。
3.3 功耗測試
在系統滿載情況下,對系統總功耗和單個服務器的刀片進行了功耗測試,結果如表2所示。
4 結論
分析計算子系統的整型和浮點性能的測試數據,由于工作主頻的差異,龍芯3A處理器與主流的x86處理器性能相比差距較大,處理器單核性能只是相當于同主頻的PIII處理器,內存的讀寫性能也相對偏低。
而對于計算型應用,嵌入式計算平臺的優勢在于在較小的空間范圍內實現了一個由16個處理器,共計64個處理器核組建的SMP集群,通過高密度集成獲取較高的計算能力。當系統配置龍芯3B 處理器時,可獲得接近2 T的峰值計算能力。
參考文獻
[1] 王江.ATCA架構中多網口后板的高效設計[J].電子技術應用,2013,39(1):391-396.
[2] 羅云,陸安江,張正華.基于嵌入式系統的RFID中間件設計[J].電子技術應用,2013,39(1):280-285.
[3] 蔡路亭,徐金甫,丁琦,等.基于地址加擾的嵌入式系統安全防護研究[J].電子技術應用,2014,40(7):191-196.
[4] 孫凝暉,陳國良.PHPC:一種普及型高性能計算機[J].中國科學技術大學學報,2008,38(7):745-752.
[5] 張俊霞,李春生,張煥杰.KD-50-I-E:一臺增強型高性能計算機[J].中國科學技術大學學報,2009,39(8):894-896.
[6] 蔡曄,劉剛,毛睿,等.KD-90普及型個人高性能計算機系統設計與性能優化[J].深圳大學學報(理工版),2013,30(2):138-143.
[7] Hu Weiwu, Wang Jian, Gao Xiang, et al. Godson-3: a scalable multicore RISC processor with x86 emulation [J]. IEEE Micro, 2009,29(2):17-29.
[8] 張俊霞,張煥杰,李會民.基于龍芯2F的國產萬億次高性能計算機KD-50-I的研制[J].中國科學技術大學學報,2008,38(1):105-108.