《電子技術應用》
您所在的位置:首頁 > 模擬設計 > 業界動態 > 特斯拉“芯”事:十問十答讀懂特斯拉為何要研發超級計算機Dojo

特斯拉“芯”事:十問十答讀懂特斯拉為何要研發超級計算機Dojo

2022-10-03
作者: J叔談芯
來源:騰訊科技

  編者按:在今年的特斯拉AI Day上,Dojo再次吸引了眼球,特斯拉宣布即將在2023年推出算力更強的ExaPOD(Dojo機柜)。早在2019年的Autonomous Day上,馬斯克就提到過Dojo,稱Dojo是“能夠利用海量視頻數據,做無人監管標注和訓練的超級計算機”。超級計算機是什么?如此受到特斯拉重視的Dojo究竟有多么重要的戰略意義?AI芯片的性能,只和算力強弱有關嗎?

  騰訊科技新產研·芯片系列通過產業鏈、投資研發、生產制造、人才培養和政策法規等不同角度切入,真實、客觀、全面的反映行業的現狀。本期為系列策劃第12期,特邀請芯片行業從業15年的行業老兵J叔,通過十問十答帶你讀懂特斯拉Dojo。

  丨劃重點

  ●Dojo是一臺專門用于AI訓練計算的超級計算機,據Dojo項目負責人介紹,特斯拉Dojo是史上最快的AI訓練計算機。

  ●特斯拉自研神經網絡訓練芯片——D1芯片,擔當著Dojo完成AI模型訓練的重任,相比于業內其他芯片,據特斯拉稱,同成本下性能提升4倍,同能耗下性能提高1.3倍,占用空間節省5倍。

  ●過去,特斯拉依靠Nvidia的GPU構建AI訓練機。研發D1芯片和Dojo,特斯拉可以針對性地基于自身需求定制專用的AI芯片架構,進而讓算法模型與AI芯片架構匹配優化。從競爭戰略上來講,造芯使得特斯拉從產業價值鏈上,尋找技術制高點,并最終達到差異化競爭。

  ●算力是一顆芯片的物理性能上限,但是一顆芯片想要體現出好的實用性能,光有算力是不夠的。從特斯拉的使用場景來看,對自動駕駛場景與模型的優化、接口的豐富度、計算任務的可擴展性,乃至對車廠算法模型的迭代易用性,這都是要考慮的因素。

  正文:

  丨特斯拉Dojo是什么?

  首先,需要簡單了解一下人工智能。

  人工智能(AI)在邏輯上可以認為是一種計算系統,分為訓練和推理兩種計算。簡單來理解,如果將智能當做技能集合的話,每一種技能叫做一個 AI模型,學習技能的過程就是訓練一個模型,利用技能來處理事情的過程就是用模型進行推理。

  打個比方,如果把一個人工智能模型比喻為一個工程師,想要工程師能夠投入工作,必須要有一個培訓中心對他進行訓練。那超級計算機,就相當于這個培訓中心。

  不論是訓練計算還是推理計算,都需要在大型的服務器或者超級計算機中進行。以訓練為例,通常來講,工程師會先構建大型服務器集群,然后將含有AI芯片的計算卡置于每一臺服務器之中,通過網絡把這些服務器整合起來,形成訓練集群。比如NVidia GPU服務器集群,google TPU集群等?;蛘撸部梢詫⑦@些計算芯片,整合在一臺大型“計算機”中,這就是超級計算機。

  Dojo就是一臺專門用于AI訓練計算的超級計算機。特斯拉的智能駕駛(包含一定程度的自動駕駛),需要不斷地從在跑的數百萬輛汽車所采集到的現實世界數據中進行訓練,提高智能程度。在過去,特斯拉也是依靠Nvidia的GPU構建訓練機。隨著自研 AI 訓練芯片 D1的研發成功,基于D1芯片的超級計算機也就應運而生了。

  丨特斯拉D1芯片是什么?

  D1是特斯拉自主研發的AI訓練芯片,類似于Nvidia的A100和H100所起的作用。

  為了理解D1“芯片”,我們這次暫時跳出通常我們肉眼可見的黑色方塊,或者被金屬固件和基板封裝好的樣子,按照特斯拉自己定義的一些概念,來逐步理解這顆特殊的芯片。在這個過程中,要克服當前中文互聯網上不同的翻譯(甚至有些是機器翻譯的痕跡)和英文專有名詞造成的困擾。

  一般來說,一顆芯片的誕生,是從Wafer上切割下來,成為Die,經過封裝、測試,成為一顆可用的芯片。而這次特斯拉使用了一種所謂的System On Wafer的方式,也就是說,他并沒有將每一顆Die切割進行獨立封裝,而是將25個D1的Die的Wafer,散熱部件、功率器件、電源與控制等,一起形成一個Tile,這個Tile大約是1平方英尺的大小。

  就芯片角度講,基于354個功能單元(訓練節點)形成一個D1芯片核心,具體參數如下圖:

  微信截圖_20221003090905.png

  基于25個D1芯片核心和40個輸入輸出Die和其他部件,形成一個訓練Tile,如圖中Compute Plane指的就是5×5個D1核心:

  微信截圖_20221003090926.png

  從外觀上人們可以看到的,正是這個Tile,在中文互聯網中被翻譯成,瓦片,大約長這個樣子:

  微信截圖_20221003090945.png

  丨D1芯片和Dojo的關系是什么?

  Dojo,是通過組合Tile(由D1芯片組成)作為主要計算單元,整合了CPU、存儲、通訊接口、電源等模塊的超級計算機。

  上文提到,25個D1為基礎形成一個Tile,進一步,12個Tile為基礎組成一個Rack,最后,10個Rack,被整合成一個ExaPOD,這在中文互聯網上被稱為Dojo ExaPOD集群。據Tesla稱,與業內其它產品相比,同成本下它的性能提升 4 倍,同能耗下性能提高 1.3 倍,占用空間節省 5 倍。

  業界一般會有兩種方式來設計面向任務的計算架構:1)服務器集群;2)超級計算機。曾經要進行大型的計算任務,只能靠大型計算機,算力提升難度和建造成本都很高。而隨著計算任務的多樣化,人們發現,一部分的計算任務可以將許多計算機通過網絡連起來,每臺計算機的升級難度和造價都很低,這就進化出了服務器集群。當前商業上大部分的IT設施,都是基于這種方式搭建的。主流互聯網公司的數據中心,不僅在承擔著通用的信息處理和計算任務,也進行著人工智能的訓練和推理任務,因此,非常多的公司和數據中心,都在以Nvidia的訓練芯片V100和A100,來構建訓練服務器集群。

  另一方面,在許多進行繁重的科學計算的領域,依然保持著使用大型計算機的習慣,并且由于GPU在浮點運算的特長,也有許多機構基于GPU來構建超級計算機。這樣的超級計算機,不僅可以進行AI的訓練與推理計算任務,也可以承擔類似于求解天氣預報、導彈彈道與衛星軌道計算、天體運動探索等科學計算任務。

  Dojo,就是專門針對于AI訓練(尤其是針對于廣義的視覺模型訓練)的超級計算機。

  丨Dojo的算力有多強?如何計算Dojo的算力?

  Dojo ExaPoD集群由120個Training Tile,3000個D1芯片構成。而每塊D1芯片的算力是362 TFLOPs(BF16/CFP8)或者22.6 TFLOPs(FP32)。所以Dojo集群的總算力在BF16/CFP8下是:3000 x 362 TFLOPs ≈ 1.1 EFLOPs,在FP32下是:3000 x 22.6 TFLOPs ≈ 67.8 PFLOPs。

  這里需要解釋的是,算力需要基于什么樣的數據表達方式下來衡量。所謂數據表達方式,指的是在計算機中,用以表達或近似表達任意實數的方式,比如在這里提到的BF16和FP32,指的就是浮點數,與此對應的還有定點數(INT)。正如當我們來描述手部力量有多大的時候,需要指出是雙手還是單手力量。

  丨與特斯拉D1芯片類似的現存芯片有哪些?

  通過上面的分析,可以知道D1芯片的主要功能和特征。傳統來說,云端訓練芯片是Nvidia的領域,甚至可以說是絕對壟斷的地位,先后推出了諸如V100、A100和H100的系列產品,也有官方在售的訓練服務器和集群產品。除此之外,AMD、Graphcore、以及華為也有云端訓練芯片,甚至intel這位通用計算的大佬,也通過收購整合Habana推出了針對AI訓練和推理的專用芯片。

  丨自研芯片對特斯拉的戰略意義是什么?

  剛剛過去的AI Day上,特斯拉Dojo團隊的重要成員這樣說:“從本質上來講,特斯拉是一家硬核科技公司,超算是我們想做的,我們有那么多數據需要進行相應的訓練就需要有非常強的算力,算力是非常重要的,可以說算力是訓練的根本,如果沒有算力,那訓練就是非常難執行的,或者訓練效率非常低?!?/p>

  正如前文所提,特斯拉的智能駕駛(包含一定程度的自動駕駛),需要不斷地從數百萬輛汽車所采集到的現實世界數據中不斷學習(訓練模型),提高智能程度。在過去,特斯拉主要是依靠Nvidia的GPU構建訓練集群和超級計算機。然而,考慮到特斯拉主要的場景,主要是對視覺信號進行處理(訓練和推理),因此,針對性地基于視覺信號訂制專用的AI芯片架構,可以將算法模型與AI芯片架構匹配優化,不僅使得其可以更高效地處理信息,還可以在能源消耗、集群成本和客制化需求上符合特斯拉自身的利益訴求。

  而另一方面,當傳統車企和造車新勢力都進入市場進行競爭時,從產業價值鏈上尋找技術制高點并最終達到差異化競爭,就會是必經之路。從這個角度出發,芯片、電池與新材料技術、新基礎建設等,就會是兵家必爭之地。大家也可以看到,特斯拉在這幾個方向上都有布局和不錯的成果。

  丨目前市場上有哪些自動駕駛芯片?

  既然說到特斯拉造芯,那就不得不提當前業內如火如荼的自動駕駛芯片。也正如前述,在車上所用到的AI算力(可以近似理解成芯片),是用來做推理計算(inference)的。

  全球范圍來看,在自動駕駛領域的芯片巨頭依然是Nvidia,官方是這么描述的:NVIDIA DRIVE Hyperion 是用于設計自動駕駛汽車的完整開發平臺及參考架構。此架構通過集成基于 NVIDIA Orin 的 AI 計算與完整的傳感器套件,加速開發、測試和驗證。DRIVE Hyperion 擁有適用于自動駕駛的完整軟件棧 ,以及可無線更新的駕駛員監控和可視化功能 。這樣可在車輛的整個生命周期內添加新的特性和功能。其中,Orin正是專門為自動駕駛推出的芯片。在2021年,Nvidia宣布將會在2023年推出替代產品Atlan。然而僅僅在一年之后,大約在兩周前,又宣布將會推出算力高達2000TOPS的Thor作為Orin的接任者。

  處于同一梯隊的還有MobileEye,其通過芯片+算法的打包方案,成為 ADAS 時代的引領者,甚至制定了 ADAS 主要功能的標準。也正是因為其行業地位,intel將其納入囊中,甚至允許其保持獨立運作,這在被intel收購的公司里鳳毛麟角,為數不多的被intel收購還存活較久的公司之一。所推出的EyeQ 代系是其主打產品線,曾幾何時,國內的造車新勢力,蔚來和理想,采用EyeQ4芯片還是其主打賣點之一。

  除了這兩家第一梯隊的芯片公司之外,國外的高通、國內的華為,以及地平線和黑芝麻也都有產品推出。地平線的征程系列、黑芝麻的華山系列,據說已經有整車在裝備。

  另一方面,整車廠也在開始布局造芯,國際的梅賽德斯-奔馳、大眾,國內的吉利、蔚來,都在通過各種方式布局智能駕駛芯片。

  丨自動駕駛芯片算力越強越好嗎?應該從哪些維度去看待自動駕駛芯片?

  對于普通讀者而言,算力確實是一個看待自動駕駛芯片的維度,畢竟這是一顆芯片的物理性能上限。然而對于專業工作者來講,正如前文討論云端芯片時所述,一顆芯片想要體現出好的實用性能,光有算力是不夠的。從使用場景來看,對自動駕駛場景與模型的運行優化、接口的豐富度、計算任務的可擴展性,乃至對車廠算法模型的迭代易用性,這都是要考慮的因素。隨著智能座艙需求進一步豐富,以及對新能源汽車對整車架構的改變,對智能駕駛芯片所具備的功能與性能也提出了更新、更高的要求。近年,Nvidia逐步侵蝕Mobileye的市場與客戶,可窺見個中緣由。

  丨智能汽車上,還會用到哪些芯片?

  當前智能汽車,本質上還是一臺車,因此,除了為實現智能而新引入的計算芯片、通信、存儲、傳感器與相關配套元器件之外,傳統車上所需要的芯片,大體都還在。如果這臺車還是新能源汽車,那么,還會增加電源管理類、功率器件類的芯片。為了便于理解,可以略作分類:

  主控類:傳統汽車上的各分布式MCU(對車輛各功能進行控制),智能駕駛的AI SoC類芯片(為實現輔助、自動駕駛提供支撐)和智能座艙下的SoC芯片,都可以放入此大類中理解;汽車里面的電子控制系統、信息娛樂系統、動力總成系統、車輛運動系統等各種系統功能想要正常運行的話,均需要用到這類型的功能芯片才能得以實現,其中目前最流行的“自動駕駛系統”也離不開功能芯片;(ECU(電子控制單元)和ESP(車身電子穩定系統)PB(駐車制動器)、VCU(整車控制單元)、TCU(變速箱控制單元)。座艙內的音、視頻娛樂系統,從SoC,到各種DSP、音頻處理與放大,都屬于此類;

  功率類:功率半導體主要運用在汽車動力控制系統、照明系統、燃油噴射、底盤安全等系統當中,其中傳統燃油車一般將它運用在啟動與發電、安全等領域;新能源汽車則需要大量功率半導體來實現車輛頻繁的電壓變換需求,此外電動車的許多零部件中也少不了功率半導體的加持。電動汽車的核心零部件IGBT芯片就是一種功率半導體芯片;

  傳感器類:用于對車輛各種狀態信息的采集,如車速、各種介質的溫度、發動機運轉工況、地面信息等。傳統上例如氧傳感器、胎壓傳感器、水溫傳感器、電子油門踏板位置傳感器等等,新能源車與智能車上,還包含圖像傳感器、雷達、超聲、聲音、更加精密的動作傳感等。隨著智能駕駛和智能座艙的逐步引入,對傳感器的需求開始大幅度增加,技術與功能上也要求更加豐富;

  信號處理與通訊類:用于車內各模塊、車間甚至車與廣域網的信息傳輸與交互,包含傳統上的CAN總線、USB總線與車載以太網,也包含現在V2X以及T-Box和娛樂系統等廣域網要求。

  存儲芯片與其他類:有SoC、CPU、GPU這一類主控芯片的地方,都需要DRAM、FLASH等存儲類芯片,在汽車里亦是如此。尤其當智能要求越來越高,對存儲類芯片的規格、種類與數量的要求也越來越高。甚至在新能源汽車里的BMS(電池管理系統),要對數據進行高頻的讀寫,這對存儲器的擦寫循環次數、速度和壽命都有著要求。

  需要說明的是,由于設計安全與環境問題,車載芯片對于可靠性及安全性的要求也更高,對物理、電氣性能有著更為嚴格的要求,工作溫度范圍可寬至-40℃~155℃,對高振動、多粉塵、電磁干擾等也有著明確的要求。“車規級”芯片、模塊需要經過嚴苛的認證流程,包括可靠性標準 AEC-Q100、質量管理標準ISO/TS 16949、功能安全標準ISO26262等。

  丨整車品牌下場造“芯”,具體造的是什么“芯”?有什么戰略意義?

  正如前面所述,整車品牌也開始自主設計芯片,比如奔馳、大眾、蔚來、吉利和小鵬。在這些廠商中,主要還是從智能駕駛、智能座艙、新能源等新應用需求出發而進行設計的。一般來講,設計的芯片或者是具備整合了進行AI推理計算的NPU、信號處理的DSP以及CPU的SoC芯片,或者是針對特定應用的專用芯片(比如針對單模態/多模態AI處理的專用AI推理芯片),或者是類似于IGBT這種核心功率器件。

  正如在第6問中所述,從產業價值鏈上尋找技術制高點來提高競爭力,是整車廠的戰略目標。在過去,傳統車企可以從提高能量轉換效率(發動機)來提高競爭力,而今,涉及到駕駛體驗、智能化程度和安全駕駛的層面講,芯片已經是其中跨不過的坎兒。舉個例子,MobilEye提供的是芯片+算法的整體黑盒子方案,采用此方案的各家車廠都無法將自己在車輛實際行駛中獲得的知識(訓練模型),運用到整車中。這樣一來,就大大制約了各家車廠的差異化競爭,而這也是近來紛紛轉到Nvidia方案的原因。而從Tesla的案例中可以看到,特斯拉已經不滿足于選用通用的計算平臺,而是要更加差異化,和自身的算法、模型、數據的豐富程度(整車市場占有率)深度結合,不斷加強自身的競爭壁壘。

  更何況,還有供應鏈安全(不僅由于地緣政治格局,還有產業鏈競爭格局)的考慮。

  

本站內容除特別聲明的原創文章之外,轉載內容只為傳遞更多信息,并不代表本網站贊同其觀點。轉載的所有的文章、圖片、音/視頻文件等資料的版權歸版權所有權人所有。本站采用的非本站原創文章及圖片等內容無法一一聯系確認版權者。如涉及作品內容、版權和其它問題,請及時通過電子郵件或電話通知我們,以便迅速采取適當措施,避免給雙方造成不必要的經濟損失。聯系電話:010-82306118;郵箱:[email protected]。
主站蜘蛛池模板: 99久久精品国产综合一区 | 男人天堂网在线视频 | 黄色免费在线观看视频 | 欧美高清免费精品国产自 | 欧美一级高清片欧美国产欧美 | 一本色道久久综合亚洲精品高清 | 欧美久在线观看在线观看 | 国产a级三级三级三级 | 久青草国产在线 | 色久综合网 | 久草网在线 | 最新版天堂资源中文官网 | 精品日本久久久久久久久久 | 亚洲欧洲国产精品 | 国产精品情人露脸在线观看 | 亚洲欧美成人综合在线 | 成人欧美一级毛片免费观看 | 欧美成人h精品网站 | 亚洲国产精品成人午夜在线观看 | 99在线视频网站 | 欧美一级毛片免费大片 | 国产美女做爰免费视频软件 | 亚洲精品一区二区三区四区手机版 | 黄色天堂在线 | 免费播放美女一级毛片 | 国产精品免费一区二区三区四区 | 亚洲成a人片 | 国产亚洲影院 | 亚洲一级毛片免费看 | 日韩亚洲人成网站在线播放 | 毛片网站观看 | 欧美日本在线一区二区三区 | 久综合 | 国产亚洲精品久久精品6 | 色噜噜国产精品视频一区二区 | 日韩国产欧美一区二区三区 | 亚洲孕交 | 久久精品成人免费网站 | 欧美日韩视频一区二区在线观看 | 在线一区二区观看 | 欧美久久一区二区 |