2024年8月19日,“第四屆滴水湖中國RISC-V產業論壇”在上海滴水湖洲際酒店召開。北京大學講席教授、RISC-V國際基金會人工智能與機器學習專委會主席謝濤做了主題為《萬物智聯時代RISC-V+AI之路》,介紹了國產AI芯片產業如何打破英偉達CUDA生態的壟斷。
近年來隨著AI的爆發,國產AI芯片也獲得了快速的發展,但是同時國產AI芯片也面臨著美國對華先進制程技術封鎖。此外,在軟件生態方面,國產AI芯片的軟件生態的發展也面臨著英偉達CUDA生態的制約。
眾所周知,GPU多年前一直被用于圖形任務處理,直到2012年,英偉達為了推動GPU能夠用于AI計算加速而對于GPU進行改造,采用Tensor Core(張量計算單元),隨后推出了一種協助“CPU任務分發+GPU并行處理”的編程模型/平臺——CUDA。隨后經過近10年的市場培育與發展,CUDA已經成為了全球最大AI軟件開發平臺,目前已經擁有了近500萬名使用英偉達CUDA語言和接口的開發者,形成了一個非常龐大的生態系統,成為了英偉達統治AI芯片市場最為核心的“護城河”。為此,英偉達已累計為CUDA生態投入了高達120億美元的資金。
相比之下,不論是其他的國際AI芯片廠商,還是近年來迅速成長起來的國產AI芯片公司在軟件生態方面都是非常的薄弱。因此,這些公司本著“打不過就加入”的思路,選擇兼容CUDA軟件生態、特別是走GPGPU路線的做法來助力自身的發展。
謝濤指出,這樣的一個道路雖然能夠解燃眉之急,但是長遠來看它還是受制于人。當然,目前走非CUDA路線的AI芯片公司,整體上也是呈“小、散、弱”的局面。這主要是由于:1、指令集不統一,硬件架構分散;2、軟件棧不統一,用戶學習成本高;3、算子覆蓋度低,用戶遷移成本高;4、企業各自為戰,沒有足夠的生態競爭力。
那么,可否借鑒開源的安卓生態( 多樣化的硬件選擇、開放源代碼的自由度、廣泛的應用和服務)或者封閉的iOS生態(高度整合協同的硬件和軟件、卓越的用戶體驗、安全性的保障)的模式,來突破英偉達CUDA生態的封鎖呢?
利用開源的RISC-V生態
對此,謝濤認為,我們可以利用開源的RISC-V生態來團結大家,一起本著開源、開放的原則去共建生態可能更有機會。
此前,中國科學院孫凝暉對信息技術新體系的思考(中國科學院院刊2022.37)當中,對于建立高水平自立自強的計算技術新體系,也有提到三種模式:
A體系(高鐵模式):我國信息化的主流平臺被x86、ARM生態所占領,還光、海思等國產處理器的道路強調“全兼容”——“離了你,我不行?!?/p>
B體系(北斗模式):強調全自主,以龍芯和申威為代表,因為不跟市場主流兼容,所以生態弱——“離了你、我勉強行。”
C體系(5G模式):走全開放的道路,全世界一起來建生態,誰也不控制誰,誰也不能卡誰。比如:RISC-V——“你中有我、我中有你?!?/p>
目前,在CUDA相關的AI軟件生態壟斷下,其實國產AI芯片廠商“A體系”、“B體系”路線都有在做。
比如,A體系:加入CUDA陣營,比如壁仞、阿里平頭哥等。雖然能夠享受英偉達CUDA生態所帶來的各種資源加持,有助于自身的快速發展,但是這種研發永遠處于“跟隨”狀態,被人牽著鼻子走、難以繞過大量專利,只能靠開源的編譯器規避訴訟雖然容易獲得客戶,并且反而加強了CUDA生態。英偉達每發布新一代的新一版本CUDA的時候,會加進去會很好發揮新一代英偉達芯片特性特點的這些API,通過這個手段每次發布新的CUDA版本都能托其它的芯片公司幾年。這也是一個可能的風險,哪一天開源編譯器也不能用、不能編譯非英偉達的AI芯片,這個時候對采用這個路線的企業來說就是一個很大的沖擊了。
B體系:自定義編程語言,比如華為昇騰、寒武紀等。面臨著成本高昂:各公司需維護一整套軟件工程團隊,積累數十年研發投入;人才稀缺:系統軟件、編程語言、編譯器人才稀缺;力量分散:各公司各自為戰,難以形成有效合力與CUDA抗衡等眾多的挑戰。
那么,RISC-V作為一個開源、開放的CPU指令集,談AI芯片及軟件生態又與CPU指令集有什么關系呢?
在今年的世界人工智能大會上,RISC-V國際基金會理事長戴路就有指出:“RISC-V是最適合AI的指令集架構。”知名RISC-V AI芯片廠商TenstorrentInc首席CPU構架師練維漢也表示:“RISC-V架構更適合做AI計算”。
謝濤總結認為,RISC-V AI芯片的兩種主要模式:
1、Integrated模式(緊耦合):適合低功耗領域(RISC-V+AI),以CPU主干為骨架,集成在CPU內部,共享PC、寄存器堆等流水線單元,只是在執行單元部分增加了矩陣或向量單元;
2、Attached模式(松耦合):適合大算力領域(AI+RISC-V),外掛在CPU上的,會有自己獨立的流水線、寄存器堆、緩存等。它是“協處理器”,它可以接收來自一個或多個CPU的指令,異步地執行不同CPU提交過來的任務。
那么基于RISC-V構建AI算力有什么優勢呢?
1、開放與靈活性。AI工作負載變化快,需要特定的優化才能達到最佳性能;RISC-V開放免費的特性為芯片設計者提供了極大的靈活性,可以根據具體需求定制AI加速器;
2、高度可擴展性。RISC-V的指令集精簡且高度擴展,設計者可以根據需要添加自定義指令集擴展,以增強AI計算的性能和效率。例如:可以增加向量擴展或其他專用于AI的指令集,從而提升計算速度和能效;
3、功耗和效率優勢。RISC-V架構通過簡潔設計和定制化擴展,可實現高效的能量使用;RISC-V架構能夠通過小型且高效的處理單元,減少等待數據傳輸的時間,提升整體計算效率;
4、加速壯大的RISC-V生態系統和社區支持。根據RISC-V產業年鑒顯示:2023年全球RISC-V出貨量約200億顆,采用了RISC-V架構的SoC芯片出貨量超過了10億顆,RISC-V全球市場規模接近8億、預計今年將接近10億。截至2023年底,RISC-V國際基金會已經擁有了4423個成員,同比增長28%,遍布全球70多個國家。可以說,RISC-V生態的多樣性和開放性吸引了全球大量開發者和企業加入,為RISC-V的發展提供了強大的推動力和豐富的軟件及IP資源,在RISC-V+AI領域具備了良好的發展前景。
對于國產RISC-V+AI生態來說,目前也是機遇與挑戰并存。謝濤指出,主要的挑戰包括:生態碎片化;資源投入嚴重不足;缺少組織統籌;產學研協同不緊。
那么,如何來應對這些挑戰呢?謝濤給出了自己的思路,將主要圍繞以下三點來進行創新:
1、自下而上。以RISC-V指令集擴展(推動成RISC-V國際基金會標準)+開源系統軟件棧為公共開源根去利用國際開放/開源社區去長葉(基于開源根的商業軟件/芯片),形成“根技術開源”與“葉技術競爭”的技術生態布局。
2、從端到云。聚焦邊緣/中斷側(多樣性、碎片化且大數量算力場景,比如:智能終端、AIPC等)來推動軟件生態的發展與應用,以帶動云上的軟件生態。
3、工具創新。依托日益強大的RISC-V軟硬件生態去聚焦全球開源工具創新。
“現在萬物智聯時代,大家在‘端’上可以作為出發點、最后再去以‘農村包圍城市’這樣的形式在‘云’上和英偉達進行抗衡。我們現在做的不是說像英偉達那樣人海戰術450萬開發者大軍做起來,我們是聚焦在系統軟件棧、編譯等組織全球力量一起去發展和建設?!敝x濤進一步解釋道。
支持“國際標準”+共建“開源社區”兩手抓
除了自主創新之外,要想打破英偉達CUDA生態的壟斷,謝濤表示,我們需要堅持“國際標準+開源社區”兩抓手。
首先,我們應該以推動RISC-V國際標準為抓手,到國際上去借力。把握“根技術”從我國領軍企業共識出發,快速布局新時代的新市場(智能終端、AIPC等),以推動RISC-V國際基金會標準來依托上游國際開源社區來貢獻系統軟件棧。
RISC-V國際基金會推標準是“自下而上”的,需要重多的RISC-V企業共同來推動,雖然大家可能有競爭,但是也有“共同的目標”,所以我們不能只推中國國內的標準,我們也要繼續支持RISC-V國際基金會的標準,并積極參與標準的制定。而且推標準也不是目的,是手段,形成標準之后,這些各大的國際開源主流社區,就會自然的支持你的更新迭代,也會帶來第三方的維護。通常芯片公司要養2/3的工程師都是軟件工程師,現在這種方式極大的減負了,使得整個生態可以一起來分擔。
其次,我們可以以共建國際開源軟件生態為抓手,到國際上借力。因為CUDA這個生態在AI領域的壟斷地位,使得AMD、英特爾、谷歌、微軟等等廠商都不希望英偉達CUDA一家獨大。比如高通、谷歌和英特爾計劃聯手打造全新的AI軟件平臺,來替代CUDA。
另一方面,RISC-V也不是一個排他的思路,英偉達未來可能也會去擁抱它。英偉達開源的系統軟件棧Triton,雖然主要是支撐英偉達的GPGPU,(相當于它是一個“大煙囪”),但是現在也有一些國際公司很看好Triton生態,也是為它壯大生態、都做成了小煙囪。比如:寒武紀也針對Triton發布一些對寒武紀比較優化的算子。所以,大家也可以通過RISC-V團結起來,形成另外一個平行的“大煙囪”,因為英偉達也是積極的支持Triton生態。為了同一個事情我們可以去借力,然后用RISC-V把大家團結起來。包括谷歌等其它廠商也會慢慢的擴展,也許又成為另外一個大煙囪,一起把開放開源的Triton生態做大。
另外就是英特爾主推的SYCL,它也是一個我們依托國際方興未艾、能夠很有生命力、發展很快的軟件生態之一。在這個場景下,北京開源芯片研究院今年成立了多個指令標準集工作組,團結全國的力量來在這方面推動。包括:在今年過年前也發起了一個“甲辰計劃”,呼吁大家一起來建設軟硬件的生態,也有超過40家的開源社區企業加入一起去推動RISC-V的開源生態。