文獻標識碼: A
DOI:10.16157/j.issn.0258-7998.190950
中文引用格式: 趙淑歡. 基于深淺特征融合的人臉識別[J].電子技術應用,2020,46(2):28-31,35.
英文引用格式: Zhao Shuhuan. Fusion of deep and shallow features for face recognition[J]. Application of Electronic Technique,2020,46(2):28-31,35.
0 引言
人臉識別是模式識別和機器學習領域研究熱點之一,實際圖像中存在的遮擋、光照、姿勢、年齡等變化是人臉識別在實際應用中遇到的主要挑戰。
傳統算法是從圖像中進行特征選擇和提取,降低復雜度,提高效率。特征選擇和特征提取都被視為子空間學習算法,因這些算法均是在一個新空間找到原始高維數據的低維表示。
最著名子空間學習法有主成分分析(Principal Component Analysis,PCA)[1],該算法學習一個投影以保留數據的主要能量。由于其在數據重構和能量保存方面的性能良好,因此在數據處理中PCA常作為數據的預處理技術。研究人員提出一些基于PCA的改進算法,以進一步提高PCA解決人臉識別問題的性能[2]。因PCA算法不能保留數據的幾何結構,研究人員提出LPP(Locality Preserving Projection)[3]、SPP(Sparsity Preserving Projections)[4]、NPE(Neighborhood Preserving Embedding)[5]。盡管這些算法在特征提取上各有優點,但因其提取的特征缺乏判別能力[6],故不適用于分類問題。
LDA(Linear Discriminant Analysis)是模式分類中常用提取判別性特征的算法之一[7]。LDA利用標簽信息學習判別性投影矩陣,最大化類間距離,同時最小化類內距離,以此提高分類準確度。郝靜靜等人[8]結合PCA與LDA算法優勢提高人臉識別性能。LDA還有很多變形以提高性能,例如:OLDA(Orthogonal LDA)[9]、ULDA(Uncorrelated LDA)[10]、2DLDA(2-Dimensional LDA)[11]。Wen Jie等人[12]提出一種魯棒稀疏LDA算法(Robust Sparse Linear Discriminant Analysis,RSLDA),提取的特征對噪聲和投影維數具有更強的魯棒性。
針對人臉中特定問題,研究人員提出各種對應算法,例如:為去除光照影響,文獻[13]提出一種光照正則化方法,引入了色度空間的概念;Hu Changhui等人[14]提出一種新的高頻特征和一種基于高頻的稀疏表示分類用于處理不同光照條件下的單樣本人臉識別;Du Lingshuang等人[15]用基于核范數的誤差模型描述測試樣本中的遮擋和污損;歐陽寧等人[16]將多種算法融合提出人臉圖像光照預處理算法。
以上算法提取的特征均為淺層特征,這些特征在特定的數據和任務中性能優異,但大多數淺層特征普適性差[17],對于新的數據和任務需要新的域知識。
針對淺層特征的局限性,深度學習算法[18-19]從數據中自主學習特征。深度學習思想是建立多層表示獲得數據深層抽象語義特征,這種抽象表示對類內變化具有更強的魯棒性。深度學習處理圖像分類任務的關鍵因素是卷積結構的選用,一個卷積神經網絡(ConvNet)結構[20-21]包含多個訓練階段和有監督分類器。每個階段一般包括三層:卷積組層、非線性處理層和特征池化層。
典型的深度學習網絡有ConvNet和CNNs[22-23],但這些網絡需要豐富的經驗去調試,第一個有清晰數學調試的是小波散度網絡(Wavelet Scattering Networks,ScatNet)[24]。但是這種提前設置好的結構卻不適用于人臉識別,因為人臉中可能包含光照、遮擋使得類內變化較大[25]。Chan Tsung-Han等人[25]提出簡單的PCANet網絡用于圖像分類,以PCA作卷積核,簡化訓練過程,且其分類性能高。
深度特征往往需要大量的有標記的樣本去訓練,且時間消耗較大;而淺層特征提取的判別性信息有限,不能挖掘數據最本質的特征,魯棒性差,但不需要訓練,時間消耗低。針對這些問題,本文將圖像的深淺特征進行融合以提高特征提取的效率和魯棒性,并應用于人臉識別。
1 深淺特征融合分類算法
本文將淺層特征和深度特征進行融合提出基于深淺特征融合的人臉識別算法,目的是充分發揮深淺層特征各自優勢,提高人臉識別性能,同時對深度學習算法的原理進行簡單的分析。算法基本流程如圖1所示。
在淺層特征提取階段,本文采用局部-全局的分步特征提取方案:HOG特征可提取圖像淺層局部特征;考慮到數據的分布特點,選用RSLDA特征可在保留數據分布的基礎上提取數據的全局特征,因此本文算法的淺層特征中包含了局部-全局特征,且保留數據局部性;在深度特征提取階段,為解決少樣本情況下深度特征提取問題,采用PCANet提取網絡的深度特征;然后采用對深淺特征進行融合并分類。
1.1 淺層特征提取
本文采用HOG作淺層特征,HOG(Histogram of Oriented Gradients)特征是圖像的一種簡單有效的局部特征描述符,首先,將圖像劃分成多個區域;然后,計算每個區域的梯度直方圖,再將每個區域劃分成幾塊,計算每塊的梯度直方圖并串聯,構成該區域特征;將所有區域特征串聯起來構成圖像的HOG特征描述符。
1.2 深度特征提取
PCANet 原理如圖2所示,在每個階段選用經典的PCA濾波器作卷積核;非線性層選用最簡單的二進制量化(哈希編碼);特征池化層采用逐塊二進制碼直方圖作為最終的網絡輸出特征。
假設第i層濾波器個數為Li,PCA最小化造成的正交濾波器的重構誤差即:
1.3 判別性信息再選取
本文采用RSLDA算法進一步對深淺層特征進行提煉。RSLDA算法可自適應選取最具判別性的特征,提取的特征不僅能保留大部分能量,且對噪聲具有一定的魯棒性。算法簡要介紹如下:
設有數據集X=[x1,x2,…,xn]∈Rm×n(m表示樣本維數,n表示樣本個數),RSLDA采用l2,1范數,優化方程如下:
其中,Q∈Rm×d(d<m)為判別性投影矩陣;Sb和Sw分別為類間和類內散度矩陣;λ1為平衡參數,u為一個小的正常數用于平衡兩個散度矩陣。通過采用l2,1范數,式(3)可自適應分配特征權重。其中約束條件X=PQTX,PTP=I可以看作PCA的變體用以保留能量,P∈Rm×d為正交重構矩陣。λ2為平衡參數,E表示誤差,是對隨機噪聲的建模。
1.4 特征融合
原理分析:對任意一張給定的圖像I,采用HOG算法提取圖像的淺層局部特征,記為IH,考慮到數據的分布特點,采用RSLDA進一步對HOG特征進行降維,同時在保留數據分布的基礎上提取數據的全局特征,此時特征記為IHR,因此本文算法的淺層特征中包含了局部-全局特征,且保留數據分布性;同時本算法采用PCANet提取網絡的深度特征記為IP,同樣采用RSLDA對PCANet特征進行降維,降維后的特征記為IPR;在特征融合階段首先采用串聯的形式將深淺特征進行簡單融合得到IHP=[IHP,IPR],因融合后的特征會存在一定的冗余信息,因此進一步采用RSLDA對IHP進行降維,同時也提煉出IHP中最具判別力的特征,這也是對深淺特征的進一步融合;最后,訓練SVM分類器進行分類。
2 實驗仿真
為驗證本文算法性能,在AR和Yale B人臉數據庫上進行實驗,并選用SRC、PCANe、PCANet_RSLDA_SRC、HOG_PCA_SRC、HOG_RSLDA_SRC作為對比算法。
2.1 AR數據庫
AR數據庫包含120人每人26張采集于兩個時期的圖片,其中一人的全部圖像如圖3所示。
首先選用120人每人第一個時期采集的13張圖像作訓練樣本,第二個時期樣本作測試集,即訓練和測試樣本的數量均為120×13=1 560張。因此,此實驗的訓練及測試集中均涵蓋了光照、表情、遮擋及時間變化。實驗結果如表1所示。
分析表1的實驗結果可知,各算法性能為HOG_PCA_SRC<HOG_RSLDA_SRC<PCANet_RSLDA_SRC<本文算法。分析HOG_PCA_SRC<HOG_RSLDA_SRC可知RSLDA能夠比PCA更好地保留判別性信息,也更適用于特征降維;此外基于HOG特征算法的性能低于基于PCANet算法性能,說明深度特征比淺層特征更具判別性;本文算法識別率高于單獨的深層特征和淺層特征算法,說明深淺特征融合算法能更好地提取人臉圖像中的判別性信息,且隨著特征維數的降低,本文算法識別率下降的速度明顯低于對比算法,證明本文算法具有一定的魯棒性。
選用第一期的7張無遮擋圖像作訓練樣本,即訓練樣本總數為120×7=840張,選用第二期的口罩和墨鏡遮擋作測試樣本,即測試樣本的個數為120×3=360張。不同情況下各算法的識別率如表2和表3所示。
分析表2和表3結果可知,在墨鏡遮擋的情況下,本文算法能在不同的特征維數下獲得最高的識別率,PCANet_RSLDA_SRC的性能僅次于本文算法性能約1%,其余3種算法的識別率較低,而HOG_RSLDA_SRC 與PCANet_RSLDA_SRC相比其性能相差較多,說明HOG特征不適用于遮擋條件下的人臉識別,而PCANet提取的特征相對于HOG特征對遮擋具有更強的魯棒性。本文算法將兩種算法提取的特征進行融合后作為最終的人臉特征,且實驗結果顯示,融合特征的識別率明顯高于PCANet 和HOG特征所能達到的識別率,說明本文算法的融合方法能夠挑選出強魯棒性特征進行融合。
圍巾遮擋時,因遮擋面積較大,信息損失較多,所以算法性能均大幅下降,但本文算法仍能獲得高于對比算法的識別率。
2.2 Yale B數據庫實驗
Yale B數據庫包含30個人每人64張不同光照條件下的正面照片,部分樣例圖像如圖4所示。實驗隨機選取每人的20張圖片做訓練,30張圖片做測試,重復10次取平均識別結果作為最終的結果,如圖5所示。
由圖5可知,本文算法識別率高于對比算法,證明了本文算法在不同光照條件下對人臉識別具有更強的魯棒性;但與PCANet_RSLDA_SRC相比,二者識別率相差不多,說明在該情況下本文算法性能優勢有限。
3 結論
本文將HOG特征和PCANet網絡提取的特征進行融合,不僅包含數據的淺層局部和數據分布信息,還包含深度判別性信息,在AR及Yale B人臉數據庫的實驗結果驗證了本文算法的有效性和魯棒性。但和典型的PCANet相比本文算法的識別性能略低,而典型的PCANet所提取到的特征維數極高,且需要消耗大量的內存及時間,而本文算法因融合了深淺層特征可以在很小的特征維數下獲得較高的識別率,因此本文算法具有一定的合理性。今后的研究工作中會探索更具判別性更合理的深淺特征進行更有效的融合。
參考文獻
[1] KIRBY M,SIROVICH L.Application of the karhunen-loeve procedure for the characterization of human faces[J].IEEE Transactions on Pattern analysis and Machine intelligence,1990,12(1):103-108.
[2] 首照宇,楊曉帆,莫建文.基于改進的RPCA人臉識別算法[J].電子技術應用,2015,41(9):157-160.
[3] HE X,NIYOGI P.Locality preserving projections[C].Advances in Neural Information Processing Systems,2004:153-160.
[4] QIAO L,CHEN S,TAN X.Sparsity preserving projections with applications to face recognition[J].Pattern Recognition,2010,43(1):331-341.
[5] HE X,CAI D,YAN S,et al.Neighborhood preserving embedding[C].IEEE International Conference on Computer Vision,2005:1208-1213.
[6] QIAO Z,ZHOU L,HUANG J Z.Sparse linear discriminant analysis with applications to high dimensional low sample size data[J].Iaeng International Journal of Applied Mathematics,2009,39(1):48-60.
[7] FAN Z,XU Y,ZHANG D.Local linear discriminant analysis framework using sample neighbors[J].IEEE Transactions on Neural Networks,2011,22(7):1119-1132.
[8] 郝靜靜,李莉.一種基于KPCA與LDA的人臉識別改進算法[J].電子技術應用,2013,39(12):132-137.
[9] YE J,XIONG T.Null space versus orthogonal linear discriminant analysis[C].International Conference on Machine Learning,2006:1073-1080.
[10] YE J,JANARDAN R,LI Q,et al.Feature reduction via generalized uncorrelated linear discriminant analysis[J].IEEE Transactions on Knowledge and Data Engineering,2006,18(10):1312-1322.
[11] YANG J,ZHANG D,YONG X,et al.Two-dimensional discriminant transform for face recognition[J].Pattern Recognition,2005,38(7):1125-1129.
[12] Wen Jie,Fang Xiaozhao,Cui Jinrong,et al.Robust sparse linear discriminant analysis[J].IEEE Transactions on Circuits and Systems for Video Technology,2019,29(2):390-403.
[13] Zhang Wuming,Zhao Xi,JEAN-MARIE M,et al.Improving shadow suppression for illumination robust face recognition[J].IEEE Transactions on Pattern Analysis and Machine Intelligence,2019,41(3):611-624.
[14] Hu Changhui,Lu Xiaobo,Liu Pan,et al.Single sample face recognition under varying illumination via QRCP decomposition[J].IEEE Transactions on Image Processing,2019,28(5):2624-2638.
[15] Du Lingshuang,Hu Haifeng.Nuclear norm based adapted occlusion dictionary learning for face recognition with occlusion and illumination changes[J].Neurocomputing,2019,340:133-144.
[16] 歐陽寧,鐘歡虹,袁華,等.針對光照變化的人臉識別算法研究[J].電子技術應用,2015,41(5):152-155.
[17] BENGIO Y,COURVILLE A,VINCENT P.Representation learning:a review and new perspectives[J].IEEE Transactions on Pattern Analysis and Machine. Intelligence,2013,35(8):1798-1828.
[18] 范葉平,李玉,楊德勝,等.基于深度集成學習的人臉智能反饋認知方法[J].電子技術應用,2019,45(5):5-8.
[19] 黃海新,張東.基于深度學習的人臉活體檢測算法[J].電子技術應用,2019,45(8):44-47.
[20] GOODFELLOW I J,WARDE-FARLEY D,MIRZA M,et al.Maxout networks [C].Processing of 30th ICML,2013:1-9.
[21] KRIZHEVSKY A,SUTSKEVER I,HINTON G E.ImageNet classification with deep convolutional neural network[C].NIPS,2012:1097-1105.
[22] Li Yong,Zeng Jiabei,Shan Shiguang,et al.Occlusion aware facial expression recognition using CNN with attention mechanism[J].IEEE Transactions on Image Processing,2019,28(5):2439-2450.
[23] SHAKEEL M S,LAM K M.Deep-feature encoding-based discriminative model for age-invariant face recognition[J].Pattern Recognition,2019,93:442-457.
[24] BRUNA J,MALLAT S.Invariant scattering convolution networks[J].IEEE Transactions on Pattern Analysis and Machine Intelligence,2013,35(8):1872-1886.
[25] CHAN T H,Jia Kui,Gao Shenghua,et al.PCANet:a simple deep learning baseline for image classification? [J].IEEE Transactions on Image Peocessing,2015,24(12):5017-5032.
作者信息:
趙淑歡
(河北大學 電子信息工程學院,河北 保定071002)