摘 要: 采用自適應遺傳算法(AGA)優化篩選改進高斯核函數支持向量機(SVM)參數模型進行人臉特征分類。支持向量機的泛化性能主要取決于核函數類型和核函數參數及懲罰系數C,本文在傳統高斯核函數基礎上提出改進高斯核函數作為支持向量機的非線性映射函數,并使用自適應遺傳算法優化篩選核函數參數和支持向量機懲罰系數,將優化后的SVM模型用于人臉庫進行實驗仿真。實驗結果表明,本文方法比傳統高斯核函數支持向量機分類器模型有更高識別率。
關鍵詞: 支持向量機;核函數;遺傳算法;人臉識別
0 引言
人臉識別是模式識別研究領域的一個重要研究方向,屬于生物識別的研究領域,與其他人體生物特征識別方式相比,人臉識別具有方式友好、采樣方便、無需接觸等許多優點,此外,人臉特征具有很強的自身穩定性和個體差異性,是身份驗證的理想依據,所以,對人臉識別研究具有重要的學術研究價值和廣闊的應用前景。在實際運用過程中,由于受各種條件限制,通常無法針對每個人都采集大量的圖像樣本。所以,人臉識別相對于維數而言屬于小樣本模式識別問題,而支持向量機在解決小樣本、非線性及高維模式識別問題中,相比較于其他傳統分類器具有很多特有的優勢,SVM能夠在學習性能和泛化能力上找到一個最佳折中,在保證SVM分類性能的同時又具有較好的推廣性。因此,本文選擇SVM作為人臉特征分類器,考慮到支持向量機的泛化性能取決于其核函數類型、核函數參數以及懲罰系數,根據相關文獻介紹,本文在性能較好的高斯徑向基核函數(RBF)基礎上提出改進高斯核函數作為SVM的非線性映射函數。為了得到性能較優的SVM分類器模型,采用自適應遺傳算法優化篩選其參數,再將優化所得SVM分類器模型用于人臉庫進行實驗仿真。實驗結果表明,本文方法比傳統高斯核函數支持向量機模型有更高識別率。
1 支持向量機模型
1.1 支持向量機概述
如圖1所示,SVM方法能夠將一組非線性可分的高維向量(如圖(a))經核函數映射到更高維特征空間使其線性可分(如圖(b))。(b)圖中H為映射后可正確分開兩類樣本的最大分類間隔超平面,H1和H2為平行于H且分別經過離H最近的兩類樣本的超平面,位于H1和H2上的樣本叫做支持向量,超平面函數表達式如式(1):
式中,xi為輸入樣本,yi為樣本xi的所屬類標志,?鬃為核函數,SV為支持向量集,b*為分類閾值,?琢i為每個樣本對應的Lagrange乘子,sgn(·)是符號函數。
1.2 核函數選取
目前常用的核函數有四種:線性核函數、多項式核函數、S形核函數和高斯徑向基核函數(RBF),本文在性能較好的高斯核函數基礎上提出改進高斯核函數作為支持向量機的非線性映射函數,改進高斯核函數能彌補高斯核函數在測試點附近衰減不夠快及在遠離測試點時核函數值趨近于零會產生核截斷現象的兩大不足。相關文獻指出,高斯核函數的兩大缺點在一定程度上會降低分類性能。本文將改進高斯核函數用于人臉識別問題中,以驗證其有效性和較之傳統高斯核函數的優越性。
高斯核函數表達式如下:
其中,xc為測試點,是核帶寬變量。
高斯徑向基核函數圖像如圖2所示。
改進高斯核函數表達式如下:
式中,xc是測試點,?滓是核帶寬變量,p是位移參數。
本文將高斯核函數和改進高斯核函數的?滓均取為0.3,改進高斯核函數的p取為0.2,將兩者做實驗對比,圖3為兩種核函數在測試點附近衰減特性的比較,圖4為兩者在遠離測試點時的衰減速度比較。
由圖3和圖4可見,本文提出的改進高斯核函數能較好地改善高斯核函數存在的兩大缺陷,即在測試點附近的衰減速度更快,而在遠離測試點時的衰減速度又比高斯核函數慢得多以不至于很快趨于零。故將本文改進高斯核函數用于非線性分類問題中,可發揮其錯誤率低的特點。
2 遺傳算法優化SVM參數模型
2.1 遺傳算法
本文采用能夠對搜索過程中的某個解提供最佳交叉概率和變異概率的自適應遺傳算法優化篩選SVM參數。該算法中交叉概率Pc和變異概率Pm由以下公式計算:
其中,favg是群體平均適應值,fmax是群體最大適應值,f是參與交叉的兩個體中較大適應值,f ′是變異個體的適應值,k1、k2、k3、k4為常數。
自適應遺傳算法中的選擇策略采用輪盤賭方法,適應度函數設計如下:
2.2 遺傳算法優化SVM參數模型
改進高斯核函數SVM模型包含3個參數,分別為核函數帶寬變量、核函數位移參數p以及懲罰系數C。為了得到最優分類器模型,采用自適應遺傳算法優化篩選其參數,優化步驟如下:
(1)隨機產生個體數目一定的初始種群,確定每個變量的大致取值范圍和編碼長度,對每個個體進行二進制編碼。
(2)根據式(6)計算個體的適應度值,并判斷是否符合優化準則,若符合,輸出最佳個體及其代表的最優解,并結束計算,否則轉向第(3)步。
(3)依據適應度值選擇再生個體,適應度高的個體被選中的概率高,適應度低的個體可能被淘汰。
(4)根據交叉概率執行交叉操作生成新個體。
(5)根據變異概率執行變異操作產生新個體。
(6)由交叉和變異產生新一代的種群,返回到第(2)步。
3 實驗仿真
本文采用標準的人臉數據庫ORL作為實驗數據集來源,任意選取其中20個人的圖像作為實驗對象,將每人的前5張圖像作為訓練集,后5張作為測試集,以PCA特征為分類特征,分別采用改進高斯核函數SVM分類器模型和高斯核函數SVM分類器模型對其分類識別。實驗中,取自適應遺傳算法的系數為:初始種群大小30,迭代次數20(經實驗驗證自適應遺傳算法收斂速度較快,故進化代數不需設置太大),k1=0.5,k2=0.9,k3= 0.02,k4=0.05,?滓的精度為0.000 1,C和p的精度均為0.01,C的搜索范圍為(0,500),?滓的搜索范圍為(0,1),p的搜索范圍為(0,50)。實驗數據如下:
(1)為了選擇最佳維數PCA特征,經多次實驗,選取改進高斯核函數SVM模型的參數分別為:?滓=0.730 82,p=30.264 9,C=364.416,在不同維數PCA特征下對20個人的后100張圖像進行10次測試識別,取其平均值得到圖5所示函數關系曲線。
根據實驗結果可知,54維PCA特征為最佳特征,故本文選擇54維PCA特征作為本文識別特征,接著做后續實驗。
(2)同樣取(1)中所設參數,以改進高斯核函數SVM模型進行人臉識別,得到正確識別和錯誤識別的截圖,如圖6和圖7所示。
(3)基于自適應遺傳算法優化改進高斯核函數SVM分類器模型進行人臉識別的結果如表1。
實驗數據表明,基于自適應遺傳算法優化支持向量機參數分類器模型擁有較理想識別率,且收斂速度也較理想。
(4)經多次實驗知高斯核函數SVM模型中,懲罰系數C的取值對模型分類性能影響很小,而?滓在(0,12)范圍內取值時,對分類器性能影響較大,且最高識別率也出現在該區間內,本文取C=95,繪制出?滓在(0,12)區間范圍內取不同值時對應識別率的曲線圖如圖8所示。
由圖8可知,當C值固定時,在(0,12)范圍內,人臉識別率隨σ的取值大體呈遞增趨勢。當σ大于7時,識別率收斂于95%。
(5)將高斯核函數SVM模型參數的取值范圍限定為C∈(0,100),σ∈(0,10],用自適應遺傳算法優化其參數,優化后的分類器模型用于人臉識別,所得結果與表1中識別率做對比,對比數據如表2。
實驗結果表明改進高斯核函數SVM模型比高斯核函數SVM模型有更高識別率。
4 結束語
本文針對傳統高斯核函數的兩大不足,提出能克服其缺點的改進高斯核函數作為支持向量機的非線性映射函數,并使用自適應遺傳算法優化篩選其參數及支持向量機的懲罰系數C,將優化的支持向量機模型用于ORL人臉庫進行實驗仿真,實驗結果表明,其性能比高斯核函數支持向量機分類器模型的性能要好。本文方法的不足之處在于魯棒性和通用性不強,只在ORL人臉庫20個人共200張人臉圖像的小樣本情況下才取得較好識別率,對整個ORL人臉庫的40人共400張圖像仿真識別時,并未取得很理想的識別率,所以后續工作是在人臉圖像特征提取上做深入研究,以及在SVM核函數及其參數選擇上再做改進,以增強分類器的魯棒性和通用性及進一步提高人臉識別率。
參考文獻
[1] 張錚,王艷平,薛桂香.數字圖像處理與機器視覺[M].北京:人民郵電出版社,2010.
[2] 閻曉娜.支持向量機的核方法在人臉識別中的應用研究[D].青島:中國海洋大學,2012.
[3] 龔純,王正林.精通MATLAB最優化計算[M].北京:電子工業出版社,2009.
[4] 趙書蘭.數字圖像處理與分析實例教程[M].北京:化學工業出版社,2009.
[5] 楊淑瑩,張樺.群體智能與仿生計算——Matlab技術實現[M].北京:電子工業出版社,2012.