《電子技術應用》
您所在的位置:首頁 > 嵌入式技術 > 設計應用 > 基于聽覺模型的說話人語音特征提取
基于聽覺模型的說話人語音特征提取
來源:微型機與應用2012年第1期
何朝霞,潘 平
(貴州大學 計算機科學與信息學院,貴州 貴陽 550025)
摘要: 基于聽覺模型的特性,仿照MFCC參數提取過程,提出了一種基于Gammatone濾波器組的說話人語音特征提取方法。該方法用Gammatone濾波器組代替三角濾波器組求得倒譜系數,并且可以調整Gammatone濾波器組的通道數和帶寬。將該方法所求得的特征在高斯混合模型識別系統中進行仿真實驗,實驗結果表明,該特征在一定情況下優于MFCC特征在系統的識別率,同時在Gammatone濾波器組通道數較高或濾波器帶寬較小的情況下,系統具有較高的識別率。
Abstract:
Key words :

摘  要: 基于聽覺模型的特性,仿照MFCC參數提取過程,提出了一種基于Gammatone濾波器組的說話人語音特征提取方法。該方法用Gammatone濾波器組代替三角濾波器組求得倒譜系數,并且可以調整Gammatone濾波器組的通道數和帶寬。將該方法所求得的特征在高斯混合模型識別系統中進行仿真實驗,實驗結果表明,該特征在一定情況下優于MFCC特征在系統的識別率,同時在Gammatone濾波器組通道數較高或濾波器帶寬較小的情況下,系統具有較高的識別率。
關鍵詞: 聽覺模型;Gammatone濾波器組;MFCC;特征;識別率

 聲音的感受細胞在內耳的耳蝸部分,而基底膜是耳蝸接收聲音最重要的組織。聲波在外耳腔引起空氣振動,從而引起行波沿基底膜的傳播[1]。基底膜內有許多平行走向的膠原樣纖維,稱為聽弦。聽弦長短不同,靠近蝸底較窄,靠近蝸頂較寬。基底膜約有24 000條聽弦,能夠對不同頻率的聲音產生共鳴,分別反映不同頻率的聲音[2]。不同頻率的聲音產生不同的行波,其峰值出現在基底膜的不同位置上,研究發現,不同的聲音頻率沿著基底膜的分布是對數型的[3]。
 早在1992年,PATTERSON R就提出了耳蝸模型,該模型是基于一系列帶通濾波器——Gammatone濾波器組[4]實現的,該濾波器組能夠很好地模擬基底膜的分頻特性。本文提出了一種基于Gammatone濾波器組的特征提取方法,該方法能夠很好地提取說話人語音信號的特征,并且具有很高的識別率。


 



 從圖6可以看出,64通道的GFCC靜態特征參數比MFCC靜態特征具有更好的識別率。
 同時,將不同order值、不同濾波器組通道數所得的GFCC參數在識別系統中進行了識別率比較,如圖7所示。其中,order值分別為0.1、0.5、1,濾波器組通道數分別為48、64、128。從圖7可以看出,濾波器組通道數越高,識別率越高;order值越小,識別率越高。

 本文介紹了基于人耳聽覺特性的Gammatone濾波器組的特征提取方法,并通過實驗驗證了該特征在濾波器通道數較多或ERB(f)較小時具有較高的識別率。但是同時也得出只有在濾波器組通道數較高時才有較高的識別率,增加了數據的復雜度。在以后的研究中需要考慮通過降低濾波器組的通道數提高識別率的方法。
參考文獻
[1] JOHANNESMA P I M. The pre-response stimulus ensemble of neurons in the cochlear nucleus[C]. Proceedings of the Symposium on Hearing Theory, 1972:58-69.
[2] COOKE M P. Modeling auditory proeessing and organization[M]. Cambridge,U.K: Cambridge University Press,1993.
[3] 韓紀慶,張磊,鄭浩然.語音信號處理[M].北京:清華大學出版社,2008.
[4] SLANEY M. An efficient implementation of the patterson-holdswort auditory filter bank. Apple ComPuter Teehnieal RePort#35 Pereeption GrouP-Advaneed Technology GrouP[R]. ComPuter, Inc:Apple, 1993.
[5] Shao Yang, Wang Deliang. Robust speaker identification using auditory features and computational auditory scene analysis[C]. IEEE International Conference on Acoustics, Speech, and Signal Processing,2008,5:1589.
[6] SRINIVASAN S, Wang Deliang. Transforming Binary uncertainties for robust speech recognition[C]. IEEE Transactions on Audio, Speech and Language Processing, 2007,15(7):2130-2140.
[7] Wang  Deliang, BROWN G J. Computational auditory scene analysis: principles, algorithms, and applications[M]. Hoboken, NJ: Wiley-IEEE Press, 2006.
[8] 王男,錢志鴻,王雪,等.基于伽馬通濾波器組的聽覺特征提取算法研究[J].電子學報,2010,38(3).

此內容為AET網站原創,未經授權禁止轉載。
主站蜘蛛池模板: 久草中文在线 | 131的美女午夜爱爱爽爽视频 | 国产黄色片在线免费观看 | 美女张开腿让人桶 | 免费观看欧美精品成人毛片能看的 | 国产人成亚洲第一网站在线播放 | 免费成年人在线观看视频 | 日本特黄aaaaaaa大片 | 久久久久99精品成人片三人毛片 | 国产精品久久久久无码av | 日本阿v视频在线观看高清 日本波多野结衣视频 | 国产成人精选免费视频 | 日韩 欧美 自拍 | 欧美视频精品在线 | 欧美一区二区三区精品 | 国产第一页在线观看 | 欧美乱大交xxxxx在线观看 | 亚洲自偷自偷图片在线高清 | 91情侣在线偷精品国产 | 三级视频中文字幕 | 国产最爽的乱淫视频国语对 | 日本免费不卡在线一区二区三区 | 欧美 亚洲 中文字幕 | 久久免费在线观看 | 欧美日韩一区二区三区免费不卡 | a级国产乱理伦片在线观看 a级国产乱理伦片在线观看99 | 国产性色 | 欧美视频一区 | 国产成人一区二区三区在线播放 | 亚洲精品一区二区三区 | 成人亚洲国产精品久久 | 精品精品国产欧美在线观看 | a黄视频| 看真人一级毛片 | 一级全黄视频 | 一区二区三区欧美在线 | 久久久久久久久久久久久久久久久久 | 欧美亚洲日本 | 国产在线精品一区二区三区 | 成人在线中文字幕 | 精品小视频在线观看 |