引用格式:吳瑜,嚴李強,徐梓恒,等. 藏文網絡敏感信息檢測研究[J].網絡安全與數據治理,2025,44(4):79-83.
引言
隨著網絡基礎設施和信息通信技術的提升,互聯網的規模迅速擴大。根據2024年發布的第53次《中國互聯網絡發展狀況統計報告》,我國網民人數已達10.92億,互聯網普及率達到77.5%[1]。互聯網的發展帶來了信息傳播的便利,也帶來了信息安全和內容監管方面的挑戰。在西藏等少數民族地區,這一挑戰尤為顯著。西藏地處中國的邊疆地區,擁有悠久的歷史和豐富的文化遺產,同時也面臨著綜合治理的重大挑戰。網絡上發布的敏感信息,其中包含惡意攻擊和歧視性語言等,嚴重侵犯了個人權利和尊嚴,導致個體心理、價值觀和行為規范的扭曲。此外,虛假新聞或謠言的泛濫可能會破壞社會信任,嚴重違反社會公德和法律法規,很容易引起社會大眾的不滿與抵制,還會給社會秩序、國家穩定與團結帶來不利影響[2]。
針對網絡敏感信息的自動檢測和過濾問題,相關研究者采用了各種方法來提高檢測的效率和準確性。袁斐洋等[3]根據藏文敏感詞權重值對網頁進行等級劃分,對含有敏感信息的網頁進行攔截,避免不法言論和信息的傳播,以優化藏區網絡環境。南奎娘若等[4]采用基于不同特征加權及權重度量的方法抽取基于敏感的藏文自動摘要。江濤等[5]提出了基于藏文網頁的輿情監控系統,系統監控藏文網頁的“敏感點”并對“熱點”實現預警。湯烈等[6]提出了一個基于K最近鄰算法的網絡不良信息過濾模型。在樣本預處理時對訓練樣本進行了篩選,使系統的查準率、查全率和處理速度都有一定的提高,更適應實時在線系統的不良信息過濾。普措才仁[7]根據不良信息的特點對潛在語義分析進行了簡化,并設計了基于簡化的潛在語義分析的藏文Web不良信息檢索算法。該檢索算法能夠對具有關于某個主題的特定傾向的文本進行過濾,對于那些冗長文本中因為關鍵字分散而造成的假匹配,通過語義分析可以很好地甄別處理,從而提高系統的召回率。陸向艷[8]提出一種基于支持向量機(Support Vector Machine,SVM)的不良信息識別方法,包括文本標記、文本分詞、Doc2Vec文本向量化、SVM不良信息分類器訓練、SVM不良信息測試5個步驟。實驗結果表明該方法能有效識別網絡不良信息,為網絡不良信息的甄別提供了一種方法參考。
傳統的藏文敏感信息檢測方法在處理大規模、多樣化的藏文文本時效率低下,已無法滿足快速增長的在線內容需求。因此,將深度學習技術應用于藏文敏感信息檢測以提高檢測的準確性,已成為亟待研究的重要課題。本文采用一種基于混合神經網絡模型——CINODPCNN,用于藏文網絡敏感信息的檢測。首先利用面向中國少數民族語言的多語言預訓練模型(Chinese Minority Pretrained Language Model,CINO)對敏感信息文本進行動態的詞向量構建,捕獲藏文文本的語義信息,之后深度卷積神經網絡層(Deep Pyramid Convolutional Neural Networks,DPCNN)通過卷積和池化操作對詞向量進行局部特征提取,以獲得文本的重要模式和特征,最后加入全連接層和分類器實現對敏感信息的識別與分類。
本文詳細內容請下載:
http://www.rjjo.cn/resource/share/2000006417
作者信息:
吳瑜,嚴李強,徐梓恒,卓瑪央金
(西藏大學信息科學技術學院,西藏拉薩850000)