文獻標識碼: A
DOI: 10.20044/j.csdg.2097-1788.2022.01.012
引用格式: 劉向宇,燕瑋,孟星妤,等. 一種基于網絡表示學習的網絡安全用戶發現方法[J].網絡安全與數據治理,2022,41(1):78-82.
0 引言
發現社交媒體中的網絡安全用戶可以有效追蹤網絡安全動態,對網絡安全防護具有重要意義。實際上,識別社交網絡中的網絡安全用戶也是對社交網絡節點進行分類發現。
現實生活中,人們傾向于與類似的人發展社會關系,所以社交用戶的好友會分享更多的屬性,如種族、民族、宗教和職業——這就是所謂的“同質性原則”[1]。這導致了在Twitter上相互關注的人通常有共同的話題興趣,可以通過相互關注關系來推斷社交媒體用戶的屬性。另外,社交用戶還具備其他可以獲取的數據,如社交文本和用戶資料,這些資料構成新的用戶屬性,也有助于推斷用戶的興趣或者職業,與用戶的社交關系形成互補。
當前已經有大量的用戶分類工作都是基于網絡拓撲結構進行節點的分類。比如,網絡表示學習方法直接對網絡結構特征進行學習提取,將得到的特征用于分類可以取得不錯的效果。然而,現有的網絡表示學習方法缺乏對社交文本和社交基本資料特征的學習,極大地限制了其分類效果。相對于單純利用社交網絡結構對用戶進行分類,當前主流的圖神經網絡算法創新性地融入了網絡節點的其他屬性特征,獲得了更高的分類準確率。本文針對網絡表示學習方法缺乏社交文本特征的問題,通過改進Node2vec[2]方法,使其融合多種網絡屬性特征而更加有利于分類,從而識別出社交媒體中的網絡安全用戶。
本文的創新性工作包括:
(1)利用網絡表示學習模型Node2vec來進行網絡節點的特征表示,將結構特征向量和相應用戶節點的文本特征向量進行拼接,形成社交用戶節點的向量表示。
(2)標注了部分網絡安全用戶,初步形成網絡安全用戶資料庫。對于每個用戶節點,生成其網絡安全文本特征。
(3)利用自監督學習方法進行分類模型的訓練樣本擴充,提升了分類效果。
結果表明,在已經收集的Twitter數據集上,所提方法的平均識別準確率為96.37%,比現有常用的算法平均高出0.48%~3.67%。
本文詳細內容請下載:http://www.rjjo.cn/resource/share/2000004615
作者信息:
劉向宇,燕 瑋,孟星妤,侯開茂
(華北計算機系統工程研究所,北京100083)