《電子技術(shù)應(yīng)用》
您所在的位置:首頁(yè) > 其他 > 設(shè)計(jì)應(yīng)用 > 基于深度學(xué)習(xí)的詞語(yǔ)級(jí)中文唇語(yǔ)識(shí)別
基于深度學(xué)習(xí)的詞語(yǔ)級(jí)中文唇語(yǔ)識(shí)別
2022年電子技術(shù)應(yīng)用第12期
陳紅順1,陳觀明1,2
1.北京師范大學(xué)珠海分校 信息技術(shù)學(xué)院,廣東 珠海519087;2.珠海歐比特宇航科技股份有限公司,廣東 珠海519080
摘要: 在無(wú)聲或噪聲干擾嚴(yán)重的環(huán)境下,或?qū)τ诖嬖诼?tīng)覺(jué)障礙的人群,唇語(yǔ)識(shí)別至關(guān)重要。針對(duì)詞語(yǔ)級(jí)中文唇語(yǔ)識(shí)別的問(wèn)題,提出了SinoLipReadingNet模型,前端采用Conv3D+ResNet34結(jié)構(gòu)用于時(shí)空特征提取,后端分別采用Conv1D結(jié)構(gòu)和Bi-LSTM結(jié)構(gòu)用于分類預(yù)測(cè),并引入Self-Attention、CTCLoss對(duì)Bi-LSTM后端進(jìn)行改進(jìn)。最終在新網(wǎng)銀行唇語(yǔ)識(shí)別數(shù)據(jù)集上進(jìn)行實(shí)驗(yàn),結(jié)果表明,SinoLipReadingNet模型在識(shí)別準(zhǔn)確率上明顯優(yōu)于中科院D3D模型,多模型融合的預(yù)測(cè)準(zhǔn)確率達(dá)到了77.64%,平均字錯(cuò)率為21.68%。
中圖分類號(hào): TP391.4
文獻(xiàn)標(biāo)識(shí)碼: A
DOI:10.16157/j.issn.0258-7998.222903
中文引用格式: 陳紅順,陳觀明. 基于深度學(xué)習(xí)的詞語(yǔ)級(jí)中文唇語(yǔ)識(shí)別[J].電子技術(shù)應(yīng)用,2022,48(12):54-58.
英文引用格式: Chen Hongshun,Chen Guanming. Chinese word-level lip reading based deep learning[J]. Application of Electronic Technique,2022,48(12):54-58.
Chinese word-level lip reading based deep learning
Chen Hongshun1,Chen Guanming1,2
1.School of Information Technology,Beijing Normal University(Zhuhai),Zhuhai 519087,China; 2.Zhuhai Orbita Aerospace Science & Technology Co.,Ltd.,Zhuhai 519080,China
Abstract: Lip reading is crucial in the silent environment or environments with serious noise interference, or for people with hearing impairment. For word-level Chinese lip reading problem, SinoLipReadingNet model is proposed, the front end of which with Conv3D and ResNet34 is used to extract temporal-spatial features, and the back end of which with Conv1D and Bi-LSTM are used for classification and prediction respectively. Also, self-attention and CTCLoss are added to improve the back end with Bi-LSTM. Finally,the SinoLipReadingNet model is tested on XWBank lipreading dataset and results show that the prediction accuracy is significantly better than that of D3D model, the prediction accuracy and avrage CER of multi-model fusion reaches 77.64% and 21.68% respectively.
Key words : lip reading;ResNet;Bi-LSTM;CTCLoss;self-attention

0 引言

    語(yǔ)言是人類溝通交流的主要方式,語(yǔ)音是人類語(yǔ)言交流的主要載體之一。在無(wú)聲或噪聲干擾嚴(yán)重的環(huán)境下,或?qū)τ诖嬖诼?tīng)覺(jué)障礙的人群,如何利用通過(guò)嘴唇運(yùn)動(dòng)進(jìn)行語(yǔ)言識(shí)別至關(guān)重要。唇語(yǔ)識(shí)別是指通過(guò)觀察和分析人說(shuō)話時(shí)唇部運(yùn)動(dòng)的特征變化,識(shí)別出人所說(shuō)話的內(nèi)容。唇語(yǔ)識(shí)別具有廣闊的應(yīng)用前景:在醫(yī)療健康領(lǐng)域,可以借助唇語(yǔ)識(shí)別輔助患有聽(tīng)力障礙的病人溝通交流[1];在安防領(lǐng)域,人臉識(shí)別同時(shí)通過(guò)唇語(yǔ)識(shí)別以提高活體識(shí)別的安全性[2];在視頻合成領(lǐng)域, 利用唇語(yǔ)識(shí)別可以合成特定人物講話場(chǎng)景的視頻[3],或者合成高真實(shí)感的虛擬人物動(dòng)畫(huà)等。

    唇語(yǔ)識(shí)別主要包含4個(gè)步驟[4]:人臉關(guān)鍵點(diǎn)檢測(cè)與跟蹤、唇語(yǔ)區(qū)域提取、時(shí)空特征提取和分類與解碼。其中,時(shí)空特征提取和分類與解碼是唇語(yǔ)識(shí)別的研究重點(diǎn)。近年來(lái),隨著大規(guī)模數(shù)據(jù)集[5]的出現(xiàn),基于深度學(xué)習(xí)的方法可以自動(dòng)抽取深層特征,逐漸成為唇語(yǔ)識(shí)別研究的主流方法[6]。如圖1所示,基于深度學(xué)習(xí)的唇語(yǔ)學(xué)習(xí)方法將一系列的唇部圖像送入前端以提取特征,然后傳遞給后端以進(jìn)行分類預(yù)測(cè),并以端到端的形式進(jìn)行訓(xùn)練。




本文詳細(xì)內(nèi)容請(qǐng)下載:http://www.rjjo.cn/resource/share/2000005040




作者信息:

陳紅順1,陳觀明1,2

(1.北京師范大學(xué)珠海分校 信息技術(shù)學(xué)院,廣東 珠海519087;2.珠海歐比特宇航科技股份有限公司,廣東 珠海519080)




wd.jpg

此內(nèi)容為AET網(wǎng)站原創(chuàng),未經(jīng)授權(quán)禁止轉(zhuǎn)載。
主站蜘蛛池模板: 香蕉521av网站永久地址 | 97国产大学生情侣11在线视频 | 国产精品欧美亚洲日本综合 | jul-179在线中文字幕 | 亚洲精品美女视频 | 两性色午夜视频免费国产 | 欧美毛片日韩一级在线 | 日韩在线欧美 | 成人区视频爽爽爽爽爽 | 国产日韩线路一线路二 | 欧美一级v片 | www成人| 日韩欧美在线综合网高清 | 欧美日韩在线观看一区二区 | 毛片视频网址 | 亚洲精品网址 | 国产欧美自拍 | 国产精品欧美一区二区在线看 | 国产2021中文天码字幕 | 精品国产香蕉伊思人在线 | 最新国产精品自拍 | 天天夜天干天天爽 | 在线播放一区二区三区 | 免费看a级毛片 | 国产成人18黄网站在线观看网站 | 香港三级88久久经典 | 国产不卡在线观看视频 | 欧美日韩免费一区二区三区 | 成人黄色在线观看 | 亚洲午夜网站 | 性高湖久久久久久久久aaaaa | 久久精品亚洲一区二区 | 欧美综合视频 | 手机看片日韩国产一区二区 | 波多野结衣一区在线观看 | 色久综合网 | 欧美一二三 | 国产成人精品亚洲2020 | 欧美三级欧美成人高清www | www.av在线.com | 日韩欧美亚洲天堂 |