中文引用格式: 安鶴男,管聰,鄧武才,等. 基于YOLOX融合自注意力機制的FSA-FPN重構方法[J]. 電子技術應用,2023,49(3):61-66.
英文引用格式: An Henan,Guan Cong,Deng Wucai,et al. FSA-FPN reconstruction method that fused self-attention mechanism based on YOLOX[J]. Application of Electronic Technique,2023,49(3):61-66.
0 引言
目標檢測是致力于解決確定圖像中所需物體類別并標識出物體具體位置的一類任務。自從以卷積神經網絡(Convolutional Neural Networks,CNN)為代表的深度學習技術在多個領域取得突破性成功后,基于CNN的目標檢測方法也憑著卷積運算的特性做到對圖像特征信息的深層次提取,從而達到較為優秀的檢測性能。目前主流目標檢測任務大多還是分為兩類,分別是以Faster-RCNN[1]為代表的雙階段檢測與以YOLO和SSD為代表的單階段檢測算法,它們都以CNN作為特征提取核心。FPN(Feature Pyramid Network)是自頂向下的一種特征融合方式,通過將不同尺寸的特征信息進行融合,對不同尺寸的物體檢測均有較為出色的適應性。整體來說,CNN受制于其卷積層的大小,感受野有限,所以更多地是對局部特征的提取。
Transformer開創了自注意力機制(Self-attention)的先河,在全局特征的提取上有著CNN無法比擬的優勢。而現在的目標檢測算法大部分還是以CNN為主要特征提取手段,雖然也有以ViT、Swin-Transformer等以Self-attention為特征提取核心的目標檢測算法,但是其計算量巨大,且實際落地受到硬件設施、計算資源的限制,通用性不如Faster-RCNN和YOLOv3、SSD等以CNN為特征提取核心的目標檢測算法。
本文對Conformer提出的一種CNN分支與Transformer分支互相彌補語義差距、 消除特征錯位的方法做出改進,并結合Darknet-53的結構,在其FPN的特征融合過程中引入自注意力機制,設計了SAU(Self-Attention Upsample)模塊,通過對特征圖進行重新編碼以對齊自注意力輸入的特征維度,同時設計多次的自注意力計算與上下層之間的聯動結合,提出的FSA-FPN在融合不同尺寸物體的特征時同時也注重了自身全局信息的特征提取以提升其整體檢測效果,在需要更高精度的檢測場景下有更大的使用價值。
本文詳細內容請下載:http://www.rjjo.cn/resource/share/2000005230
作者信息:
安鶴男1,管聰2,鄧武才1,楊佳洲2,馬超2
(1.深圳大學 電子與信息工程學院,廣東 深圳 518000;2.深圳大學 微納光電子學研究院,廣東 深圳 518000)