本文作者: 杜芹DQ
本文來源: 半導體行業觀察
原文鏈接:https://mp.weixin.qq.com/s/1mtrHzIqslsscxP0ShcQlA
在整個計算機發展歷史中,我們不得不學習計算機語言,但隨著人工智能時代的來到,計算機也將學會我們的語言,與人類進行交流,ChatGPT生成式人工智能的爆火更是將人機交互提升到了新的高度。這種變革也許就如同當時互聯網的到來一樣重要。作為底層支撐的芯片,正成為計算機學習人類語言的關鍵。
“春江水暖鴨先知”,圍繞生成式AI,芯片三大巨頭英偉達,AMD和英特爾無不在快馬加鞭的進行部署,迎接新拐點的到來。隨著昨天英特爾祭出高性價比的“中國特定版”Gaudi 2新產品,三大芯片巨頭英特爾、英偉達和AMD已經都在生成式AI領域擁有了各自強有力的“武器”,生成式AI領域即將迎來一番鏖戰!
英偉達,瘋狂押注生成式AI初創公司
英偉達無疑是生成式AI領域最大的贏家,憑借在生成式AI領域“一芯難求”的A100芯片,英偉達已經賺的盆滿缽滿,市值更是飆到1萬億美元,短暫的與科技巨頭肩并肩。相信大家都對最近英偉達的“瘋狂投資”頗為關注,英偉達一連投資了Inflection AI、RunwayML、Cohere等好幾家初創公司,而這些投資對象無不與生成式AI相關。
隨著越來越多的大模型初創公司的興起,英偉達正在在成百上千的生成式人工智能競賽中選“馬”,向初創公司投入更大的賭注。根據PitchBook的數據,英偉達自2018年以來參與的五筆最大的風險投資交易都發生在今年,確切的說是在過去六個月內,足見英偉達對人工智能的看好。被老黃選中的這些生成式AI初創企業的估值正在不斷飆升,老黃似要再賺一波。
Inflection AI成立于2022年,由Google DeepMind聯合創始人Mustafa Suleyman和LinkedIn聯合創始人 Reid Hoffman創立,該公司正在使用英偉達的芯片部署大規模的生成式人工智能模型,構建面向消費者的AI產品,被認為是OpenAI的頂級競爭對手。在Inflection AI的最新一輪輪融資中,除了英偉達,Inflection AI的投資者名單中還有微軟聯合創始人比爾蓋茨、谷歌前首席執行官 Eric Schmidt。目前Inflection AI的估值據說已達到40億美元。
Inflection AI將構建一個由大約22,000個英偉達H100芯片組成的超級計算機,這大約是用于訓練所有GPT4的計算量的三倍。他們已經發布了一個名為Pi的聊天機器人(Pi代表“personal intelligence,個人智慧”),與ChatGPT類似,可提供“文本和語音對話、友好的建議以及自然流暢的簡潔信息”。
出于好奇心,小編嘗試著與其對話,“你與ChaGPT誰更厲害?”他的回答是“我不會回答這個問題——那只是自找麻煩。我專注于成為一個友好、支持性的人工智能,為人們提供各種幫助。ChatGPT做了一些令人驚奇的事情,但我并不想與它競爭。我正在努力做我自己的事!”這個回答確實有點絲滑,他不僅能發出跟真人口語一般的語音(4種可選),甚至還能發表情包。
英偉達投資的另一家初創公司Runway是一家AI視頻軟件公司,成立于2018年,該公司一直處于人工智能與創造力相結合的前沿。今年他們利用計算機圖形學和機器學習方面的最新進展發布了Gen1和Gen2兩代視頻生成模型,其中Gene1還需要提供原源頻,而Gen2僅需要幾個單詞就能生成短視頻。目前早期的生成式AI大都是集中在“文生文”和“文生圖”等方面,但是Runway這家初創公司做的是文生視頻,這算是一個無人區。據悉,Gen-2生成視頻每秒的成本為0.05美元。如此看來,生成式視頻的潛力也巨大。
2023年6月,Runway從谷歌和英偉達那里募集了1.41億美元的投資,目前其估值已飆升至15億美元,比去年12月增長了3倍。英偉達首席執行官黃仁勛表示,生成式 AI 正在改變內容創作行業,Runway的技術為難以想象的故事和想法注入了新的生命。
Cohere是一家總部位于加拿大,專注于企業的生成人工智能初創公司,該公司由谷歌前頂級人工智能研究人員創立。Cohere生產的人工智能工具可以為文案寫作、搜索和摘要提供支持,專注在企業領域,也是為了將自己與OpenAI區別開來,避免競爭的一種表現。2023年6月8日,其在一輪融資中籌集了2.7億美元,投資者中包括英偉達和甲骨文等。最新一輪的融資使其估值達到22億美元左右。
可以看出,英偉達在生成式人工智能競賽當中,選中了不同細分應用的“戰馬”,押寶也算押的全面。
而除了投資押注之外,英偉達還在為其自身的AI發展鞏固護城河。
2023年2月份,英偉達秘密收購了一家初創公司OmniML,官網資料顯示,OmniML成立于2021年,總部位于加利福尼亞州,OmniML由麻省理工學院EECS教授、原深鑒科技聯合創始人韓松博士、前Facebook工程師吳迪博士和斯坦福大學“深度壓縮”技術聯合發明人毛慧子博士創立。
據悉,OmniML是一家專門致力于縮小ML(機器學習)模型的公司,以便將大模型移動到無人機、智能相機和汽車等等邊緣設備當中去。去年,OmniML公司推出了一個名為Omnimizer的平臺,這是一個能使人工智能快速、輕松地進行大規模優化的平臺。除此之外,該平臺還優化了模型,使其甚至能夠在功耗最低的設備上運行。而在被英偉達收購之前,2022年3月,OmniML獲得了GSR Ventures、Foothill Ventures以及高通風投領投的1000萬美元的種子輪資金。
至于為何要收購這家初創公司,從英偉達的邊緣AI布局也不難理解。雖然英偉達憑借其GPU在數據中心AI訓練市場占據主導地位,但是邊緣也是一塊很大的市場,英偉達也有意要爭一爭。目前英偉達主要有三大邊緣產品,分別是用于企業邊緣計算的NVIDIA EGX平臺、用于工業應用的IGX平臺以及用于自主機器和嵌入式邊緣用例的 Jetson。而通過收購OmniML,將OmniML技術集成到其邊緣產品中,英偉達可以優化模型,以便在低端硬件上進行高效部署。考慮到如果將大模型轉移到邊緣,未來可能帶來巨大的價值,英偉達收購這家尚處于起步階段的公司也就不足為奇了。而此舉無疑將進一步增強英偉達全面的邊緣AI戰略,也將鞏固其在AI市場的領導地位。
搶奪英偉達市場,AMD先行一步
而另一邊的AMD早已按捺不住,先是在去年6月份,AMD推出CPU+GPU架構的Instinct MI300正式進軍AI訓練端。緊接著在今年6月的AMD發布會上,祭出AI大模型“專用武器”GPU MI300X,它配備192GB HBM內存,與英偉達的H100相比,MI300X提供了2.4倍的內存和1.6倍的內存帶寬,這將成為AMD的一大優勢,因為內存容量是當下AI大模型的限制因素,192GB的MI300X也讓運行更大的模型成為可能。
MI300X是AMD特意針對大語言模型優化的版本,它是MI300產品的「純GPU」版本,擁有12個5nm的小芯片,晶體管數量達到了1530億個,是AMD Chiplet技術應用的又一杰作。據AMD CEO Lisa Su的介紹,單個MI300X可以在內存中運行多達大約800億個參數的模型,這意味著減少了所需的GPU數量,而且使用多個MI300X疊加可以處理更多的參數。
MI300X看起來是一個強有力的競爭者。不過,MI300X的高密度HBM卻是燒錢神器,與NVIDIA H100相比,AMD可能不會具有顯著的成本優勢。據悉,MI300X將在第三季度出樣,第四季度加大生產。屆時我們可以看看實際的情況。
AMD與英偉達在GPU領域的競爭由來已久,早在2006年,AMD收購加拿大公司ATI獲得了圖形處理技術,這是AMD最重要的一筆收購,自此開啟了與英偉達在GPU領域的長久戰。2022年AMD又收購了DPU芯片廠商Pensando,這些都成為AMD面對生成式AI巨大的市場需求下,能繼續與英偉達抗衡的背后引擎。
要知道,英偉達除了GPU芯片之外,DPU芯片也在生成式AI領域發揮著重要作用。當GPU數量擴展到成千上萬時,性能不再僅依賴于單一CPU,也不再僅依賴于單一服務器,而是更加依賴于網絡的性能。“網絡已經成為生成式AI或AI工廠中的計算單元,就像InfiniBand的DPU不僅僅負責通信,也是計算單元的一部分。因此,我們不僅要考量CPU和GPU提供的計算能力,還需要將網絡的計算能力納入考慮范圍。”英偉達網絡亞太區高級總監宋慶春在此前的一次交流會中指出。
英特爾拿什么打生成式AI市場?
對于如此火爆的生成式AI領域,英特爾自然也想分一杯羹。英特爾在個人電腦市場的搖錢樹正在被逐漸侵蝕,他們早就看中了數據中心以及AI的市場。但在生成式AI領域,不同于英偉達和AMD的做法,英特爾似乎不是靠GPU來打。英特爾雖然也發布了GPU產品,不過其GPU似乎暫時志不在此,而是更加注重其GPU在科學計算領域的優勢。前段時間,英特爾宣布配備了其Max系列CPU和GPU的Aurora超級計算機已經安裝完成,其中包含了63744個Ponte Vecchio 計算GPU,這算是英特爾Max系列GPU的首次大規模部署。
而且英特爾暫時放棄了CPU+GPU Falcon Shores“XPU”組合產品,轉而采用純GPU Falcon Shores。這使得英特爾無法與AMD的 Instinct MI300和Nvidia的Grace Hopper處理器競爭,后兩者均采用混合處理器。延伸閱讀:關于芯片三巨頭的XPU之間的競爭,筆者曾在《英偉達,落后了?》一文中進行過描述。英特爾的這一轉變是由于生成式AI大模型的爆發而做出的調整,英特爾認為,生成式AI市場大部分是來自商業領域,所以原來的XPU策略一方面市場不如標準化芯片市場大,成本會太高,而且標準化芯片不一定會受到客戶的青睞,這引發了英特爾如何構建下一代超級計算芯片的思維轉變。不過,英特爾的Falcon Shores改用純GPU,不知道是否也會像AMD的MI300X一樣做出針對大模型應用產品。
無論如何,在當下這是緊迫的時間節點下,英特爾用來打生成式AI市場的主要產品是其AI芯片——Gaudi 2。
談到Gaudi 2,就不得不從一段收購歷史說起。為了進軍深度學習市場,早在2016年8月,英特爾就花費4億美元收購了Nervana Systems,當時的想法是,通過開發專門用于深度學習的ASIC,它可以獲得與英偉達競爭的優勢。不過2019年12月,英特爾又斥資20億美元收購了芯片功能更強的Habana Labs之后,英特爾也在2020年放棄了Nervana神經網絡處理器(NNP)的研發,轉而集中精力開發Habana AI產品線。
而Nervana被放棄之后,原Nervana創始人Naveen Rao和Nervana的前核心員工Hanlin Tang離開了英特爾,另立門戶于2021年創立了一家生成式AI初創公司MosaicML,他們專注于企業生成式AI的需求,具體而言,MosaicML提供了一個平臺,讓各類型企業都可以輕松地在安全的環境中訓練和部署AI模型。而就在2023年6月28日,MosaicML被大數據巨頭Databricks以13億美元收購,這可以說是今年以來生成式AI領域內公布的最大一筆收購案。
言歸正傳,繼續說回英特爾,被英特爾收購后,Habana一共發布了2款AI芯片,分別是第一代Gaudi 和Gaudi 2。Gaudi平臺從一開始就為數據中心的深度學習訓練和推理工作負載而構建的AI加速器。其中Gaudi 2于2022年推出,相比第一代,Gaudi 2在性能和內存方面的提升,使其成為市場上能夠橫向擴展AI訓練的一大解決方案。
尤為值得一提的是,就在日前,英特爾特意為中國市場推出了專為訓練大語言模型而構建的最新Gaudi 2新產品——HL-225B夾層卡。HL-225B處理器符合美國工業與安全局 (Bureau of Industry and Security, BIS)發布的有關出口規定。Gaudi2夾層卡符合OCP OAM 1.1(開放計算平臺之開放加速器模塊)規范。這樣一來,客戶便可從符合規范的多種產品中做出選擇,靈活地進行系統設計。
Gaudi 2處理器采用7nm,作為對比,第一代Gaudi處理器采用16nm工藝。Gaudi 2具備出色的2.1 Tbps網絡容量可擴展性,原生集成21個100 Gbps ROCE v2 RDMA端口,可通過直接路由實現Gaudi處理器間通信。Gaudi2處理器還集成了專用媒體處理器,用于圖像和視頻解碼及預處理。
HL-225B夾層卡采用的是Gaudi HL-2080處理器,HL-2080處理器擁有24個完全可編程的第四代張量處理器核心(TPC)。這些核心原生設計能夠為廣泛的深度學習工作負載加速,同時還賦予用戶按需進行優化和創新的靈活性。此外,它還集成了96 GB HBM2e內存和48MB SRAM,支持600瓦夾層卡級熱設計功耗(TDP)。
Gaudi 2是為數不多的能替代英偉達H100進行LLM訓練的方案。最近英特爾公布了Gaudi 2在GPT-3(1750億個參數)基本模型的LLM訓練基準的性能結果。MLPerf結果顯示:
Gaudi 2在GPT-3上的訓練時間情況是在384個加速器上花費了311分鐘,作為對比,英偉達和云提供商CoreWeave合作運行的3584 GPU計算機在不到 11 分鐘內完成了這項任務,如下圖所示。以每個芯片為基礎,英偉達H100系統的任務速度是Gaudi2的3.6倍。但是Gaudi 2的優勢在于其成本要比H100低,而且能跑大模型。
Gaudi 2在GPT-3模型上從256個加速器到384個加速器實現了近線性95%擴展;而且它在計算機視覺(ResNet-50 8 加速器和Unet3D 8加速器)以及自然語言處理模型(BERT 8 和 64 加速器)方面均取得了出色的訓練結果;與11月提交的內容相比,Gaudi 2 在BERT和ResNet模型的性能分別提高了10%和4%,代表軟件成熟度在提高。
英特爾聲稱目前在FP16軟件中Gaudi 2比英偉達A100價格更有競爭力,且性能更高,其每瓦性能約為英偉達A100的2倍。而且要計劃在今年9月份在FP8軟件中顯著縮短訓練完成時間,在性價比上打敗英偉達的H100。
除了Gaudi 2,英特爾的另一款可以跑大模型的產品是第四代至強CPU。不過CPU的應用空間相對有局限性,英特爾的CPU只適用于少數從頭開始間歇性訓練大型模型的客戶,并且通常在他們已經部署來運行業務的基于Intel的服務器上使用。所以CPU不算是英特爾用來主打生成式AI市場的產品,可以算作是一個補充方案。
結語
對于比“毒品”還難買到的英偉達GPU而言,英特爾Gaudi 2和AMD MI300X將成為Nvidia H100的有利替代品,不過英偉達留出的時間窗口可不大,據悉,英偉達的H100 GPU直到明年一季度仍處于售罄的狀態,與此同時,英偉達正在不斷增加H100 GPU的出貨量,還訂購了大量用于H100 GPU的晶圓。
無論如何,目前在生成式AI市場,還是芯片巨頭的天下。國內的GPU芯片企業或者SoC企業都需要加把勁了。
更多精彩內容歡迎點擊==>>電子技術應用-AET<<