引用格式:吳孔賢,鄭明魁. 基于邊緣增強和多尺度時空重組的視頻預測方法[J].網絡安全與數據治理,2025,44(3):22-26.
引言
視頻預測[1]旨在通過分析現有的視頻幀來預測未來幀的內容,是一項逐像素的預測任務。視頻預測對于自動駕駛[2]、動作預測[3]、天氣預測[4]等領域具有重要研究意義。與圖像分類和目標檢測等傳統的計算機視覺任務不同,視頻預測要求模型在時間和空間維度上雙重建模,從而捕捉到場景的動態變化和長期的依賴關系。然而,視頻中物體突然變化的運動軌跡以及復雜多樣的背景信息使得預測任務變得困難。
以往的視頻預測模型主要是基于卷積長短期記憶網絡(Convolutional Long Short-Term Memory, ConvLSTM)[4]及其一系列變體來建模時空特性。ConvLSTM通過在長短期記憶網絡(LSTM)單元中引入卷積運算,有效地捕捉了時空數據中的局部空間特征和全局時間動態。其變體PredRNN[5] (Predictive RNN) 提出了一種新的時空記憶單元,并將狀態信息沿之字形進行水平和垂直方向的傳遞和更新。PredRNN++[6]在PredRNN基礎上進行改進,提出了因果長短時記憶單元(Causal LSTM)和梯度高速公路單元(Gradient Highway Unit, GHU)來對長短期時空依賴進行自適應學習,并緩解梯度消失問題。同樣采用此遞歸循環策略來進行模型推理的還有MIM (Memory In Memory)[7] 、 E3D-LSTM(Eidetic 3D LSTM)[8]、MAU (Motion-Aware Unit)[9]、MotionRNN (Motion Recurrent Neural Network)[10] 等。這些遞歸模型通過學習歷史信息的隱藏狀態來生成預測幀,當前幀的生成依賴于上一幀的預測幀。然而,隨著預測幀序列的長度增加,早期預測幀中的誤差會被逐步傳遞和累積,導致后續預測幀的質量和準確性逐漸下降。
近年來的方法中,SimVP(Simpler yet better Video Prediction)[11]打破了這種依靠循環神經網絡(RNN)堆疊的單幀輸入單幀輸出架構的局限性。該方法完全依賴卷積來建模時空相關性,采用多幀輸入多幀輸出(MIMO)的架構,將所有輸入一次性輸入到編碼器中,并從解碼器輸出所有預測幀。后續相關工作進一步改進了時間注意力單元(Temporal Attention Unit,TAU)[12],專注于幀內和幀間相關性。朱俊宏等[13]也提出了一種卷積與內卷算子結合的中間模塊,讓模型擁有多個不同大小的感受野,來提高模型的準確性。李衛軍等[14]通過建立門控時空注意力機制來學習時空變化特征,取得一定效果。雖然此類方法取得了一定研究進展,但仍然存在一些需要改進的問題。例如,此類方法都采用編碼器、翻譯器、解碼器結構,將高維的視頻序列通過卷積下采樣轉換為低維的潛在表示,再經過翻譯器進行時空的學習,最后由解碼器完成對視頻序列的預測。此過程通過跨步卷積下采樣實現降維,會造成像素的丟失,導致圖像細節被忽略,從而導致預測幀細節不夠清晰的問題。其次,翻譯器在捕捉時空信息方面的不足是導致視頻預測效果不理想的關鍵因素。
針對以上問題,本文提出了基于邊緣增強和多尺度時空重組的視頻預測方法,具體貢獻如下:
(1)引入小波變換分離高低頻特征并實現下采樣操作,避免了卷積下采樣造成的像素信息丟失的問題,有效地保留了圖像的細節特征。
(2)設計了一種高頻邊緣增強模塊,通過一階 Sobel 卷積算子提取垂直和水平邊緣信息,并結合小核卷積對邊緣特征進行精細化增強處理,提升模型對高頻信息中細節和紋理特征的敏感性。
(3)設計了一種多尺度時空重組模塊,采用不同尺度的卷積核對視頻的時空信息進行提取,并通過交叉連接進行交互式特征重組,強化了不同感受野下時空信息的融合能力,實現更豐富的時空特征表達。
本文詳細內容請下載:
http://www.rjjo.cn/resource/share/2000006373
作者信息:
吳孔賢,鄭明魁
(福州大學 物理與信息工程學院,福建福州350108)