《電子技術應用》
您所在的位置:首頁 > 模擬設計 > 業界動態 > 中國廠商跨界自研芯片的困局

中國廠商跨界自研芯片的困局

2022-07-25
來源:半導體產業縱橫

近些年,隨著數據量暴漲,以及業務形式的多樣化,特別是各種創新業務模式的推出,各家互聯網大廠都遇到了同樣的難題:買不到適用的服務器處理器及相關芯片。最早遇到這類問題的是谷歌(Google),為了解決應用需求,該公司不得不建立了自己的芯片研發團隊,專門為自家的設備定制處理器,大名鼎鼎的TPU就是這樣誕生的。

作為全球第二大互聯網市場,中國也遇到了當初Google遇到的問題,無論是阿里,還是騰訊,都開啟了芯片自研之路。

如今,同樣的問題落在了字節跳動身上。

本周,字節跳動確認了一則傳聞:為了滿足該公司旗下TikTok的應用需求,字節跳動已計劃聘用專家,為其數據中心開發SoC,以處理某些特定的工作負載。字節跳動已在其網站上發布了31個與芯片相關的職位,以組成團隊與芯片開發商合作。至此,字節跳動正式開啟自研芯片之路。

字節跳動副總裁楊震原表示,除了采購x86架構CPU,該公司也會與芯片供應商探索RISC架構芯片在云端的應用。字節跳動的自研芯片探索將主要圍繞自身的視頻推薦業務展開,為大規模推薦服務場景定制硬件優化方案,比如視頻編解碼,云端推理加速等,以提升效率、降低成本。

也就是說,傳統x86架構CPU已經不能滿足TikTok的視頻推薦業務,因為這種業務具有很強的創新性,這也是TikTok很快風靡全球的主要原因。從我們普通抖音用戶的實際體驗也可以感受到,不用去找,抖音會根據用戶的個人喜好,主動推薦相應的短視頻,以形成非常強的用戶粘性。雖然傳統CPU具有AI推理能力,但其在海量大數據面前,信息處理速度慢的短板暴露無遺,這就需要具備快速處理大數據,且AI智能化水平比較高的處理器,再加上TikTok的視頻屬性,還需要有很好的視頻編解碼能力。放眼當下全球芯片廠商,能夠完全滿足這些條件的處理器SoC,還沒有看到。當然,傳統芯片廠商也并非無所作為,幾年前,以英偉達、賽靈思為代表的廠商就已經開始了這方面的研發工作,這些年火爆的DPU(Data Processing Unit)和智能網卡,很大程度上就是為了滿足這類的大數據處理和AI智能化需求,但這些努力還在進行當中,要想完全滿足各大互聯網廠商的需求,還需要時間去打磨。正是在這樣的背景下,字節跳動開啟了自研芯片之路。

先驅Google

前文提到,在互聯網大廠中,最先遇到處理器瓶頸,并自研相關芯片的就是Google,研發的產品名為TPU(Tensor Processing Unit,張量處理器),這是一種專用集成電路(ASIC),是專門為Google的TensorFlow框架(一個符號數學庫,用于機器學習應用程序,如神經網絡)設計的,用于加速機器學習。從2015年開始,Google就已經在內部使用TPU,主要為其云基礎架構服務,據悉,在Google相冊中,單個TPU每天可以處理超過1億張照片。與GPU不同,TPU主要用于進行大量的低精度計算(如8位精度),每焦耳功耗下的輸入/輸出操作更多。當然,除了TPU,Google也會采用傳統的CPU和GPU,用于其它類型的機器學習處理。

目前,TPU已經發展到了第四代,算力不斷提升。

在視頻處理方面,Google也遇到了問題,那就是傳統的英特爾通用CPU數據處理能力已經難以滿足YouTube上海量視頻的處理要求,對此,Google專門自研了Argos視頻編碼器(VCU),據悉,它的視頻處理能力非常高效,取代了數千萬個英特爾CPU。在需要處理海量數據的時候,相對于傳統CPU,專用ASIC優勢非常明顯,VCU就是這樣的ASIC。

在YouTube上,每分鐘內,用戶會以各種格式上傳超過500小時的視頻內容,Google需要快速將內容轉碼為多種分辨率(包括144p,240p,360p,480p,720p,1080p,1440p,2160p和4320p)和高效格式(例如H.264,VP9或AV1),這需要強大的編碼能力。

傳統上,對于視頻的轉碼/編碼,Google有兩種選擇:一是英特爾的視覺計算加速器(VCA),它將三個Xeon(至強)E3 CPU、內置Iris Pro P6300 / P580 GT4e的集成GPU,以及硬件編碼器集成在了一起;二是使用軟件編碼和英特爾Xeon處理器。

Google認為,對于不斷壯大的YouTube工作負載來說,以上這兩種選擇都不夠節能,且數據中心需要占用更多空間,于是自研了VCU。

第一代Argos VCU并沒有完全取代英特爾CPU,因為服務器仍然需要運行操作系統并管理存儲驅動器和網絡連接。VCU類似于一個GPU,需要一個CPU配合工作。

除了內部設計的編碼/轉碼器外,VCU的大多數IP都是從第三方獲得的,以降低開發成本。VCU將盡可能多的高性能編碼/轉碼器集成在一個芯片上(同時保持高能效)。Google將兩個VCU放在一塊板上,每個雙插槽英特爾Xeon服務器安裝10張卡,這大大提高了每個機架的解碼/轉碼性能。

Google表示,與采用英特爾Skylake處理器的服務器系統相比,基于VCU的設備在性能/TCO(系統總體擁有成本)計算效率方面提高了7倍(H.264)和33倍(VP9),這里考慮到了VCU的成本和三年的運營費用。從Google給出的性能數據來看,在進行H.264編解碼時,單個Argos VCU幾乎不比雙向英特爾Skylake服務器快,但是,由于可以將20個VCU安裝到一個服務器中,其效率更高。當進行VP9編解碼時,VCU比英特爾的雙插槽Xeon快5倍,效率優勢明顯。

之所以說了這么多Google自研芯片的內容,就是要說明:字節跳動要自研芯片,大概率是遇到了上面提到的、Google曾經遇到的這些問題。TikTok的數據中心需要支持各種業務,包括視頻平臺、信息和娛樂應用,需要開發視頻編解碼SoC來對用戶上傳的海量視頻流進行處理,同時,為了進一步降低數據中心的功耗和存儲容量,還需要更高效的AI算法及相關硬件。

全行業跟進

海量數據+視頻流處理需求是近些年各大廠商研發新型處理器的核心動力,不止Google和字節跳動這些互聯網大廠,傳統處理器(CPU、GPU、FPGA等)大廠也在不遺余力地進行著研發工作,因為市場有巨大需求。

以DPU為例,這是近些年最火爆的詞語了,英偉達是行業大佬,也有一眾廠商在這一賽道上摸爬滾打。

DPU是以數據為中心構造的專用處理器,采用軟件定義技術支撐基礎設施層資源虛擬化,支持存儲、安全、服務質量管理等服務。2020年,英偉達發布的DPU戰略中將其定位為數據中心繼CPU和GPU之后的“第三顆主力芯片”,掀起了一波行業熱潮。DPU面向的應用更加底層,要解決的核心問題是基礎設施的降本增效,即將CPU處理效率低下、GPU處理不了的負載交由專用DPU處理,從而提升整個計算系統的效率、降低TCO。

DPU最直接的作用是作為CPU的卸載引擎,接管網絡虛擬化、硬件資源池化等基礎設施層服務,釋放CPU的算力到上層應用。以網絡協議處理為例,要線速處理10G的網絡需要大約4個Xeon CPU核,也就是說,單是做網絡數據包處理,就可以占去一個8核高端CPU一半的算力。如果考慮40G、100G的高速網絡,性能開銷就更加難以承受了。而將數據中心開銷全部從CPU卸載到DPU加速卡上,可以給上層應用釋放可觀的算力。

此外,DPU還可以成為新的數據網關,以提升隱私安全級別,DPU也可以成為存儲的入口,將分布式存儲和遠程訪問本地化。

雖然DPU與前文提到的Google和字節跳動自研芯片有所差異,但它們在本質上都是相同的,都是為了解決傳統CPU和GPU難以承受的海量數據處理難題。目前來看,它們與傳統CPU和GPU能夠實現很好的互補,在需要高性能的海量數據處理能力時,則用專用的DPU等ASIC,而平時需要靈活處理的指令則是CPU的專長。

另外,基于FPGA的智能網卡在近些年也有快速發展,它為大型互聯網企業的大數據、高帶寬通信帶來了更多、更好的選擇,賽靈思在這方面很有一套。2018年,該公司將“數據中心優先(Datacenter First)”作為其全新發展戰略。發布了Alveo系列加速卡產品,旨在大幅提升云端和本地數據中心服務器性能。2019 年4月,該公司收購Solarflare通信公司,將FPGA、MPSoC和ACAP解決方案與 Solarflare 的超低時延網絡接口卡(NIC)技術,以及應用加速軟件相結合,實現了全新的SmartNIC解決方案。這些,或許是AMD決定對其進行收購的重要原因。

除了英偉達和賽靈思,CPU霸主英特爾也沒閑著,該公司于2015年收購了Altera,在通用處理器的基礎上,進一步完善硬件加速能力。

2021 年6月,該公司發布了IPU(可以視其為英特爾版本的DPU),將FPGA與Xeon D系列處理器集成,成為了DPU賽道有力的競爭者。IPU是具有強化的加速器和以太網連接的高級網絡設備,它使用緊密耦合、專用的可編程內核加速和管理基礎架構功能。

另外,Marvall發布了OCTEON 10 DPU產品,不僅具備強大的轉發能力,還具有突出的AI處理能力。

當然,研發類似TPU和DPU產品的不止以上這些廠商,目前,越來越多的業內廠商在加大這方面的投入力度,以期在未來的競爭中占得先機。

中國廠商不甘人后

在自研處理器方面,中國各大互聯網企業都很積極,早在字節跳動之前,阿里、騰訊、百度都有行動。例如,阿里擁有自己的AI推理芯片和通用處理器,百度有昆侖AI處理器,騰訊有適用于各種云工作負載的處理器。

以騰訊為例,該公司的自研芯片之路,是從拿FPGA試水開始的,2015年,騰訊團隊研發的圖片編碼FPGA,取得了比CPU編碼和軟件編碼更高的壓縮率和更低的延時,也幫助QQ相冊大幅降低了存儲成本。他們看到了在 FPGA 方向探索和深入的可能性,2016 年,通過FPGA對深度學習模型CNN算法進行加速后,處理性能達到通用CPU的4倍,而單位成本僅為三分之一。

那之后,騰訊在自研芯片方面取得了多個成果,代表作是蓬萊實驗室的AI推理芯片紫霄和視頻轉碼芯片滄海,它們有望于今年實現量產。

2019 年,騰訊迎來云計算業務上的里程碑——云服務器規模突破了 100 萬。隨著服務器接入帶寬不斷提升,服務器用于網絡處理的CPU資源也越來越多,能否以更低成本的方式來實現服務器網絡處理,同時還提供更高的網絡性能?答案是智能網卡。該公司制定了“先從基于FPGA自研智能網卡起步,再開展智能網卡芯片研發”的發展路線。

2020年9月,騰訊第一代基于FPGA的自研智能網卡正式上線,命名為水杉。

水杉投入應用后,第二代智能網卡銀杉的研發工作于2021年10月正式上線,這一代智能網卡的網絡端口翻了一番,達到2*100G,基于此,騰訊云推出了業界首款自研第六代100G云服務器。它的計算性能最大提升220%、存儲性能最大提升100%。單節點接入網絡帶寬相比上一代最大提升4倍,延時下降50%。

目前,騰訊正在研發其首款智能網卡芯片玄靈,采用7nm制程工藝,預計在2022年底流片。據悉,玄靈的性能相對商業芯片可提升4倍,通過將原來運行在主機CPU上的虛擬化、網絡/存儲 IO等功能卸載到芯片,可實現主機CPU的0占用。

不止騰訊,阿里和百度都有各自的芯片研發故事,這里就不一一贅述了。

中國大陸系統廠商(互聯網和設備廠商)自研芯片,也不全是商業原因,有的是受到國際貿易限制,市場上有可用芯片,但買不到。

無論是阿里、騰訊、百度,還是字節跳動,他們自研芯片,主要與Google類似,市場上沒有滿意的芯片,而華為則有些不同,該公司2005年就開始布局自研芯片,主要考慮的是有朝一日如果受到國際貿易限制,能夠有自家芯片頂上,從而掌握主動權。2019年之后,多年擔心的事情還是發生了,但無奈的是,雖然華為的芯片研發能力很強,但由于中國大陸芯片制造能力有限,設計出了高端芯片,制造端受限后,造不出來,非常遺憾。

因此,國際大廠(如Google)自研芯片,完全出于商業原因,而中國大陸系統廠商自研芯片,原因更多,苦難更深。




本站內容除特別聲明的原創文章之外,轉載內容只為傳遞更多信息,并不代表本網站贊同其觀點。轉載的所有的文章、圖片、音/視頻文件等資料的版權歸版權所有權人所有。本站采用的非本站原創文章及圖片等內容無法一一聯系確認版權者。如涉及作品內容、版權和其它問題,請及時通過電子郵件或電話通知我們,以便迅速采取適當措施,避免給雙方造成不必要的經濟損失。聯系電話:010-82306118;郵箱:[email protected]
主站蜘蛛池模板: 亚洲精品日韩专区在线观看 | wwww亚洲| 亚洲毛片在线观看 | 精品精品国产自在久久高清 | 精品国产自在现线看久久 | 黑人巨大交牲老太 | 欧美成人看片一区二区三区 | 波多野结衣在线视频观看 | 国产精品九九九久久九九 | 国产亚洲久久 | 色综合九九 | 一道本久久 | 中文偷拍视频在线观看 | 黄频免费影院 | 久久久久久国产视频 | 国产精品资源手机在线播放 | 91精品国产高清91久久久久久 | 精品国产香蕉伊思人在线 | 精品久久久久亚洲 | 欠草视频 | 三级精品在线观看 | 国产精品久久九九 | 欧美激情毛片裸推荐 | 亚洲精品毛片久久久久久久 | 99久久精品免费看国产 | 日韩性黄色一级 | 九九精品成人免费国产片 | 久久精品国产99久久香蕉 | 国产精品露脸脏话对白 | 日韩成人中文字幕 | 成人精品视频在线观看播放 | 欧美黄色特级视频 | 中文字幕一区二区三 | 国产成人精品aaaa视频一区 | 亚洲福利影视 | 精品国产免费第一区二区 | 久久青草免费线观最新 | 在线观看国产情趣免费视频 | 免费看成人播放毛片 | 欧美激情欧美狂野欧美精品免费 | 亚洲精品欧美精品 |