欧美日韩在线免费,免费一级大毛片a一观看不卡,国产九九在线

挑戰(zhàn)Intel，Arm發(fā)布全新服務器產品

日期： 2021-04-28

來源：半導體行業(yè)觀察

關鍵詞： ARM Intel 服務器

　　因為冠狀病毒的大流行，Arm的年度技術日活動采取了線上舉辦的模式。在今年的會上，他們正式揭開了全新Neoverse內核和處理器設計的神秘面紗。這些新的內核和處理器設計將被渴望加入的人采用和修改，用于挑戰(zhàn)X86處理器的霸主地位。眾所周知，在現(xiàn)在的數據中心和邊緣處理器中，Intel和AMD的CPU建立了相當堅固的地位。

　　從發(fā)布會上我們可以看到，未來的Neoverse服務器體系結構與一個月前發(fā)布的未來Armv9-A體系結構緊密結合，并將在Neoverse“ Perseus” N2內核中首次亮相。盡管有許多Arm服務器芯片供應商離開了該領域，但Arm Holdings卻一直呆在那里，似乎有許多芯片設計人員和供應商為Arm替代方案提供動力。

　　像Neoverse N2內核一樣，它的設計已經完成并且可以從Arm Holdings獲得許可，“ Zeus” V1內核也已經完成，并且在Neoverse設計系列以及數據中心和邊緣的各種CPU中提供了顯著的差異。

　　實際上，雖然我們還不知道，但在今年下半年和明年年初的某個時候，我們應該可以看到不止一個基于Arm Holdings的Zeus和Perseus平臺打造的的處理器。

　　在本文中，我們將分別探討Arm在服務器市場的性能和前景。首先，我們將僅介紹V1和N2架構。這是對原始Neoverse平臺路線圖的回顧：

　　當Arm的Neoverse最早于2018年10月提出時，那時Arm的想法是希望能擁有專門針對服務器的專用IP。而在當時，只有16納米的“ Cosmos” N0（實際上是Cortex-A72和Cortex-A75）設計，7納米的“Ares”原計劃于2019年面世，使用增強型7納米工藝的“Zeus” 則在2020年面世，5納米的“Poseidon”在2021年。

　　Arm說，它在每年的設計中可以提供30%的性能提高約，合作伙伴也可以利用它們在自己的服務器路線圖中創(chuàng)建的年度節(jié)奏。

　　然而事實證明，這種年度節(jié)奏被證明是棘手的，而且數據中心市場已經分為核心數據中心（N系列），邊緣計算（E系列）和非常高性能（V系列）核心。為此Arm似乎把Zeus N2重新命名為Perseus N2，然后在V1高性能芯片上增加了很多功能，并賦予了舊的Zeus新代號。

　　去年9月，當Arm推出Neoverse V1設計并將其投入使用時，N2設計尚不可用。兩大Arm服務器芯片Ampere Computing Altra和Amazon Web Services Graviton2均是基于N1內核和平臺設計，并進行了各種自定義。N1設計支持常規(guī)DDR4內存或HBM2堆疊內存，以及PCI-Express 4.0外圍控制器和CCIX 1.0互連器（用于加速器），并在處理器之間提供NUMA共享內存。CCIX是許多互連中的一種，以提供CPU和加速器之間的緩存一致性內存共享。Arm從一開始就與CCIX一起使用，并一直將其用作CPU互連，就像AMD具有Infinity Fabric（PCI-Express的超集或HyperTransport的子集，取決于您如何看待它）一樣。英特爾CXL的非對稱內存模型也被加速器所采用，并運行在PCI-Express 5.0傳輸之上，并且正在逐漸被CPU制造商廣泛采用。但這不適用于NUMA鏈接，僅適用于各種存儲和計算加速器。

　　在深入了解具體細節(jié)之前，Arm整理了一些不錯的圖表，這些圖表顯示了Neoverse平臺中不同核心之間的區(qū)別。這個很有趣：

　　這是另一個顯示E系列，N系列和V系列在不同熱范圍，內核數和用例中的位置的視圖：

　　確實，這種區(qū)別并不新鮮。Arm在三年前就針對邊緣和各種數據中心計算工作負載談論了與Neoverse N1設計有關的各種設計SKU。它只是通過三個不同的芯片系列明確完成的，因此Arm許可商為特定市場生產服務器芯片的某些核心和非核心工作將不再需要做。

　　深挖V1

　　V1內核將進一步突破內核數，時鐘速度和每秒操作數的限制。一切都變成了11個。這并不是因為Arm想要炫耀什么，而是因為一些運行搜索引擎，機器學習培訓和推理，HPC仿真和建模以及數據分析工作負載的客戶需要一個怪物來處理他們的數據。此外，大型公共云希望擁有一個大型實例，可以將其分解為小實例，但重要的是，還可以將大型實例作為一個昂貴的實例出售給需要運行該實例的用戶，例如SAP HANA內存數據庫在云中。

　　與Ares N1內核相比，Zeus V1內核在整數工作負載上可提供50％的單線程性能提高，這比Arm承諾的每代平均30％的性能還要好。V1設計具有SVE向量引擎的Armv8-A實現(xiàn)，在這種情況下，它將支持一對256位寬的向量，這些向量可以執(zhí)行Bfloat16以及并行進行浮點和整數運算的混合。這將基本上與每個Intel Xeon SP內核中的AVX-512矢量單元以及AMD“ Milan” Epyc 7003內核中的一對256位FMA單元相匹配。

　　這是一個整潔的小圖表，解釋了N1，V1和N2內核中使用的向量單位的差異：

　　V1內核中的寬矢量與GPU加速器的并行度不高，但是它們運行得相當快，并且性能差異并不像您想象的那么小。如果您可以獲得GPU的帶寬（大約是GPU的計算密度的一半），并且沒有任何混合編程麻煩，那么也許這是一種更聰明（或者至少更容易）的方式。大家似乎非常清楚，矢量化代碼是性能的未來，而不管它是如何完成的以及使用哪種設備。

　　Zeus V1平臺將為需要高帶寬的用戶提供HBM2E堆棧存儲器的DDR5主存儲器支持，并支持PCI-Express 5.0外圍設備以及CCIX 1.1協(xié)議用于加速器和NUMA互連。這將或多或少地取決于這些技術的比率，并與英特爾未來的 “Sapphire Rapids”Xeon SP和AMD的“ Genoa” Epyc 7004s相提并論。

　　這些芯片公司必須在7納米和5納米工藝之間做出非常謹慎的選擇，因此如果我們看到一些使廠商使用CCIX進行小芯片互連的小芯片實現(xiàn)，并不會感到驚訝。按照Arm的設計，允許使用7納米或5納米工藝實現(xiàn)核心，對于非核心區(qū)域，則可能允許使用14納米或7納米工藝蝕刻，因為減小晶體管尺寸會最大程度地降低其電壓泄漏問題。然而鑒于現(xiàn)在對芯片的巨大需求以及7納米或5納米制造能力的局限，做出這些呼吁將非常困難。

　　Zeus V1在技術上符合Armv8.4 ISA和AMBA CHI.D片上互連規(guī)范，這意味著它支持SVE向量。實際上，這是Arm的第一個本地化SVE實現(xiàn)，它支持將這對256位SVE單元作為128位NEON加速器的四路運行，這對于那些將應用程序調整為在Arm GPU加速器上運行的用戶來說非常有用。V1核心增強了nested virtualization，內存分區(qū)和加密技術，并在可靠性和可伸縮性方面進行了許多改進。它還從Armv8.5規(guī)范以及Armv8.6規(guī)范的SVE引擎中的Bfloat16和Int8處理中拉開了深遠的持久性和推測障礙。可以肯定的是，V1內核中的內容比N1內核中的更多。

　　在設計中，沒有提到的的是同時多線程或SMT。Arm已從其許多服務器芯片許可證持有者的觀點出發(fā)，認為良好的圍墻不會減少嘈雜的鄰居，并且不會對其內核進行線程化，因此出于性能和安全性原因，可以隔離最小的計算單元（即內核）。

　　此設計中的許多內容都針對百億級HPC，而SiPearl為歐洲第一臺使用V1內核的百億級計算機設計加速器并非巧合。

　　“在考慮百億億次級系統(tǒng)時，我們在CMN-700互連和核心中都牢記了一些設計目標，” Arm基礎設施產品管理高級總監(jiān)Brian Jeff告訴The Next Platform。“最重要的是性能，這很重要，因為在這些系統(tǒng)中，通常您連接到具有真正強大功能的GPU或其他加速器，但根據Amdahl's law，它們通常可以等待單線程工作負載。但是性能對于在這些計算機上運行的工作負載也很重要。”

　　內存和I / O帶寬顯然也很重要，因此保持所有這些平衡也很重要，因此沒有一個組件會等待很多時間。

　　考慮到所有這些，V1內核是Arm進入該領域以來性能最高的內核，該平臺也將把帶寬限制推到了極限。

　　這是Zeus V1核心pipeline的外觀：

　　這是V1核心，并包含CPU元素：

　　這是深入研究內核以及大規(guī)模芯片中V1設計元素的理論用法：

　　“這一切都始于一個非常好的前端，”在Arm中央工程部門從事內核工作的杰出工程師Chris Abernathy解釋說。

　　“ V1分支預測器與N1內核中的分支預測器一樣，已與指令提取分離，這使得分支預測可以提前運行并將指令預取到L1指令緩存中。這是我們微體系結構的一個非常重要的特征。為了提高基準測試和實際工作負載的性能，我們擴大了分支預測帶寬。”

　　分支預測器每個周期有兩個32字節(jié)的flights ，其分支目標緩沖區(qū)（BTB）增大了33％，達到8 KB。Abernathy說，這個想法是要捕獲更多具有更大指令足跡的分支，同時還可以為更緊湊，更小的內核降低分支等待時間。其他提高分支準確性以及將可跟蹤的代碼區(qū)域數量加倍的調整，確實有助于Java工作負載和其他具有較大且稀疏代碼區(qū)域的應用程序。新的V1前端的最終結果是分支錯誤預測減少了90％，前端停滯減少了50％。

　　根據Abernathy的說法，V1設計也在推動寬度和深度的極限。內核每個周期可以發(fā)送8條指令，是N1內核的兩倍，并且指令高速緩存的解碼帶寬每個周期提高4倍至5倍。內核中的指令解碼延遲也減少了1個周期。V1內核中的亂序執(zhí)行窗口大小也要大一倍，這為內核暴露了更多的指令并行性，以使自己能夠處理任務。整數分支執(zhí)行單元增加了一倍（到兩個），算術邏輯單元（ALU）的數量每個內核增加了25％，達到四個。加載/存儲單元和緩沖區(qū)都得到了提升，許多功能的寬度或帶寬（或兩者）加倍，最終結果是V1內核比N1內核的流傳輸帶寬性能提高了45％。

　　最終結果是，在相同的頻率下，V1內核在N70內核上具有比N1內核高50％的每個內核（IPC）指令，如果客戶希望在時鐘速度上犧牲一點性能，他們可以從根本上減少功率。我們不希望客戶購買基于V1內核的服務器CPU來做到這一點。這是一輛有肌肉的汽車，它將運行迅速且充滿激情。

　　揭開N2的面紗

　　現(xiàn)在，我們談一下Perseus N2的內核和CPU設計，該設計針對每美元性能和每瓦性能進行了優(yōu)化，而不僅僅是像V1內核和CPU那樣不惜一切代價提高性能極限。如果V1是肌肉車，則N2是跨界運動型多功能車。

　　Abernathy說N2內核上的前端與V1內核上的前端相似，但是該內核將基于Armv9-A架構，該架構具有各種有趣的安全功能，坦率地說，這些功能很少用于百億億次計算設施。

　　V1設計針對具有32到128個內核且散熱范圍在80瓦到350瓦之間的CPU，而N2內核則針對可能具有12到36個內核，運行功率在30瓦到80瓦之間的主流基礎架構服務器。但這并不是說不會有N2芯片無法突破核心限制，我們認為Ampere Computing，AWS以及Nvidia可能會在某些設備中使用N2內核。（Ampere和AWS不太可能在各自的Altra或Graviton芯片中使用V1內核。）

　　N2確實是對N1的升級，在恒定頻率下IPC提高了40％，功耗與N1大致相同，但其時鐘速度提高了10％，并且內核和緩存可能更多，這得益于N1縮小到5納米。

　　這是N2核心的框圖：

　　N2設計具有5個寬的調度單元，并且較少依賴于深度和寬度攻擊來驅動V1內核具有的最佳性能。正如Abernathy所言，與N1相比，N2設計中的性能特征必須在功率效率和面積效率上“付出代價”，而這實際上是對采用新型Armv9-A架構的N1的優(yōu)化，以及V1前端嫁接到了它上。可以將分支預測視為燃料噴射，并且V1的氣缸比N2的多得多，并且還具有更多的燃料噴射器。一種是進行拉力賽，其中燃料費并不重要，但到達終點線的時間卻很重要；另一種是在度假時進行長途旅行，而不用花費比在廉價旅館更多的汽油費。

　　N2內核將占用多達30％的面積，并消耗更多的功率以提供40％的吞吐量，重要的是，N2內核將比V1內核小25％，因此您可以將更多的N2內核塞入給定的芯片中尺寸。那些繁瑣的向量和繁瑣的緩存不是免費的。CPU架構中沒有任何東西。而且，除了Armv9-A架構中的所有安全功能之外，這就是為什么我們希望云構建人員希望N2設計勝于V1設計。如果他們（或者他們的芯片合作伙伴，如果他們不像AWS那樣設計自己的芯片，或者微軟正在這樣做），我們不會感到驚訝，可以使用小芯片設計，再一次使用CCIX作為小芯片互連，并且可能將其核心限制提高到128個以上的內核像AMD的Epyc X86服務器CPU一樣，突破了I / O和內存中心的局面。

　　這就是我們要做的，也許是在單插槽設計中，這實際上可以降低系統(tǒng)成本，并增加云實例的大小以及您可以分割的切片數量。

　　這是Abernathy展示的N2參考設計：

　　這是針對32核單芯片的，具有四到八個DDR5內存通道（運行頻率為5.6 GHz，是的）和十二個用于NUMA擴展或用作CXL端口的端口。該參考資料沒有施加任何限制，但是其模擬器將幫助公司為N2和硬件工程師編寫軟件，以考慮他們可能會做出的更改，以創(chuàng)建自己的N2設計。

版權聲明：本站內容除特別聲明的原創(chuàng)文章之外，轉載內容只為傳遞更多信息，并不代表本網站贊同其觀點。轉載的所有的文章、圖片、音/視頻文件等資料的版權歸版權所有權人所有。本站采用的非本站原創(chuàng)文章及圖片等內容無法一一聯(lián)系確認版權者。如涉及作品內容、版權和其它問題，請及時通過電子郵件或電話通知我們，以便迅速采取適當措施，避免給雙方造成不必要的經濟損失。聯(lián)系電話：010-82306118；郵箱：[email protected]。

挑戰(zhàn)Intel，Arm發(fā)布全新服務器產品

日期： 2021-04-28

來源：半導體行業(yè)觀察

相關內容