《電子技術應用》
您所在的位置:首頁 > 模擬設計 > 設計應用 > 稀疏矩陣在C66x上的應用及優化
稀疏矩陣在C66x上的應用及優化
電子技術應用
黃旭東,洪澤,陳振嬌
中國電子科技集團公司第五十八研究所
摘要: 隨著大數據的爆炸式發展,稀疏矩陣已經成為機器學習和邊緣計算的重要一環。在機器學習領域,數據集的稀疏矩陣化既可以保存信息又可以節省內存,已成為不可避免的趨勢。SpMV(稀疏矩陣向量乘)作為稀疏矩陣計算中的核心,其迭代求解過程的空間復雜度和時間復雜度具有重要研究意義。分析稀疏矩陣C00、CSR、ELLPACK和DIA壓縮格式,改變稀疏矩陣的稀疏度和非零元素的分布,得出COO讀取數據、CSR進行計算的SpMV通用性更強。利用C66x的VLIW指令構架,采用軟件流水的方式對SpMV_CSR算法進行指令并行優化,利用SIMD單指令多數據指令集對SpMV_CSR算法完成數據并行優化。實驗結果表明,優化后的SpMV_CSR算法相較于優化前的加速比平均達到5倍以上。
中圖分類號:TP311 文獻標志碼:A DOI: 10.16157/j.issn.0258-7998.244858
中文引用格式: 黃旭東,洪澤,陳振嬌. 稀疏矩陣在C66x上的應用及優化[J]. 電子技術應用,2024,50(11):23-27.
英文引用格式: Huang Xudong,Hong Ze,Chen Zhenjiao. Application and optimization of sparse matrix vector multiplication on C66x[J]. Application of Electronic Technique,2024,50(11):23-27.
Application and optimization of sparse matrix vector multiplication on C66x
Huang Xudong,Hong Ze,Chen Zhenjiao
China Electronics Technology Group Corporation No.58 Research Institute
Abstract: With the explosive development of big data, sparse matrix has become an important part of machine learning and edge computing. In the field of machine learning, sparse matrix of data sets can not only save information but also save memory, which has become an inevitable trend. Sparse matrix vector multiplication (SpMV) is the core of sparse matrix computation. The space complexity and time complexity of its iterative solution process have important research significance. Analyze the compression format of sparse matrix C00, CSR, ELLPACK and DIA, change the sparsity of sparse matrix and the distribution of non-zero elements, and conclude that the SpMV read by COO and calculated by CSR is more universal. Utilizing the VLIW instruction architecture of C66x, using software pipelining to manage SpMV_CSR algorithm for instruction parallel optimization, utilizing SIMD single instruction multiple data instruction set for SpMV_CSR algorithm completes data parallel optimization. The experimental results indicate that the optimized SpMV_CSR algorithm has an average acceleration ratio of over 5 times compared to before optimization.
Key words : sparse matrix;SpMV;CSR;C66x;software pipelining;SIMD

引言

在機器學習和邊緣計算中,由于樣本數量巨大,大部分數據集都是轉換成稀疏矩陣進行數據處理。問題求解通常轉換成解線性代數方程組AX=B,其中A大部分是稀疏矩陣,因此SpMV 在求解過程中被重復調用,SpMV 的計算效率直接影響了整體求解效率[1]。李億淵實現了SpMV 在申威SW26010處理器上的性能優化[2-3];吳志勇在FPGA上使用并行計算的方式對稀疏矩陣求解進行加速[4];談兆年在異構計算平臺上完成了SpMV劃分優化算法[5];上述文獻方法SpMV 多集中于FPGA、CPU和GPU上的實現和優化,而在高性能DSP C66x內核上的研究還未見報道,因此開展此項工作具有重要意義。

稀疏矩陣具有自身特殊性,矩陣中大部分元素都是0,且0元素分布具有不規則性。大規模矩陣計算大部分都是稀疏矩陣計算,且稀疏度都在90%甚至99%以上,因此高效的稀疏矩陣壓縮格式更利于減少稀疏矩陣計算的空間復雜度[6]。如COO壓縮格式利用行號、列和數值三元組來表示,壓縮方式簡單但不利于減少空間復雜度[7]。ELLPACK壓縮格式用兩個和原始矩陣相同行數的矩陣來存儲數據,DIA對角線壓縮法,按對角線方式存儲,列代表對角線,行代表行[8]。這兩種壓縮格式利于實現稀疏矩陣的應用迭代法(如共軛梯度法),但是抵抗稀疏矩陣的隨機性較弱。CSR采用整體編碼格式,利用數值、列號以及行偏移來表示數據,比起DIA和ELLPACK格式,通用性更高且靈活。

C66x內核采用VLIW構架,集成了單精度和雙精度的浮點運算單元,可以實現定點和浮點的操作。C66x 內核可同時運行多達八項浮點乘法運算,加之高達1.25 GHz的時鐘頻率,單核浮點峰值可以達到20 GFLOPS[9]。目前C66x已經廣泛應用到電力控制,機器視覺,機器人等領域。

本文分析COO、ELLPACK、DIA和CSR壓縮格式的優缺點,利用C66x的軟件流水和SIMD實現SpMV_CSR 算法的性能優化。通過改變稀疏矩陣的規模和稠密度計算優化后與優化前的加速比,比較C66x內核SpMV_CSR 優化效果[10]。


本文詳細內容請下載:

http://www.rjjo.cn/resource/share/2000006205


作者信息:

黃旭東,洪澤,陳振嬌

(中國電子科技集團公司第五十八研究所,江蘇 無錫214035)


Magazine.Subscription.jpg

此內容為AET網站原創,未經授權禁止轉載。
主站蜘蛛池模板: 草草影院ccyy国产日本欧美 | 91资源在线观看 | 国产亚洲精品成人久久网站 | 欧美老妇免费做爰视频 | 成人免费视频网站 | 亚洲韩国日本欧美一区二区三区 | 99精品国产免费久久国语 | 最新欧美精品一区二区三区不卡 | 国产午夜亚洲精品第一区 | 免费亚洲成人 | 美女视频黄a全部免费专区一 | 欧美在线看欧美高清视频免费 | 日韩国产欧美视频 | 国产一级做a爰片在线看 | 国产性生活 | 美女被免费视频的网站 | 精品九九久久国内精品 | 可以看毛片的网址 | 亚洲天堂在线观看视频 | 久久亚洲欧美成人精品 | 成人国产精品久久久免费 | 高清免费国产在线观看 | 亚欧在线视频 | 亚洲精品亚洲人成毛片不卡 | 日产一区两区三区四区 | 盗摄偷拍a在线观看 | 日韩大片高清播放器大全 | 日本成人在线视频网站 | 日本一级大黄毛片免费基地 | 久久久久久久综合色一本 | 午夜一级片 | 欧美色大成网站www永久男同 | 天天做天天爱夜夜大爽完整 | 国产日韩精品一区在线观看播放 | 亚洲天堂在线视频播放 | 特级欧美午夜aa毛片 | 看v片| 国产乱码精品一区二区三区中 | 亚洲欧美综合网 | 国产aⅴ精品一区二区三区久久 | 玖草在线观看 |