引用格式:李雄清,李永,王駿飛,等. 基于改進FP-growth的多品類打包推薦算法[J].網絡安全與數據治理,2025,44(3):47-53.
引言
多品類打包推薦作為現代推薦系統中的一類重要問題,在服裝搭配[1]、電子商務[2]等眾多領域受到了廣泛關注。該問題的核心在于如何挖掘多個不同類型產品間的關聯性并將其捆綁組合,以滿足用戶多樣化需求并提升用戶體驗。隨著推薦系統處理數據量的增長,現有的多品類打包推薦面臨諸多挑戰:一是即時響應需求高,擬打包產品數據會根據現實情況實時更新,推薦算法需要能夠即時準確地完成數據處理;二是數據規模龐大,需要推薦算法從海量數據中高效挖掘出產品間的關聯關系;三是數據稀疏性高,即數據中僅有少部分產品出現頻次很高,其余大部分產品的出現頻次極低,難以發掘出產品間關聯關系。
目前,應用于多品類打包的方法主要包括貝葉斯個性化推薦[3]、基于序列的方法[4-5]、基于圖的方法[6-7]等。其中,貝葉斯個性化推薦[3]利用貝葉斯定理更新用戶對產品的偏好概率,能夠處理用戶點擊等隱式反饋。基于序列的方法將待生成捆綁包視作產品序列,應用序列模型實現產品建模及捆綁包生成。He等[2]應用Transformer架構實現了捆綁包的預生成,并通過多輪對話框架進一步對捆綁包進行優化,能夠有效緩解交互稀疏性問題。Wei等[4]通過引入類型的嵌入向量,提高了對不同類型產品的建模精度,并采用非自回歸方式并行計算,提高了生成效率。基于圖的方法利用圖結構構建產品間關聯關系,能夠實現對復雜關系的精準建模。Chang等[6]使用多個視圖分別構建了產品、捆綁包和用戶的兩兩間關系,并設計了束搜索算法以實現捆綁包生成。Gong等[7]將打包推薦歸為圖的最大團問題,并提出了一種具有多頭自注意力編碼器和帶注意力機制解碼器的圖注意力網絡,實現了較高的打包準確率。
然而,上述方法模型訓練時間較長,難以滿足部分推薦系統的即時響應需求。例如,在航空旅游零售領域,機票、酒店等產品的價格、庫存等信息經常發生變動,推薦系統需要能夠即時快速響應,根據更新后的數據即時產出新的推薦結果。關聯規則挖掘是一種基于頻繁項集的方法,能夠有效挖掘出單品類產品間隱藏的關聯關系,同時由于關聯規則可以存儲在數據庫中,在實際應用中具有較高的推薦效率。Apriori算法[8]是關聯規則挖掘中最經典的方法,其不足在于需要頻繁掃描數據庫,運算耗時長。為解決這一問題,Zaki等[9]提出了Eclat算法,加入倒排思想,降低了數據庫掃描次數;Han等[10]提出了FP-growth算法,采用另一種更為高效的數據結構FP-Tree,有效壓縮了數據,提高了運算效率。
不過,在現實場景中,多品類產品數量龐大,包含不同品類產品的訂單數量較少,產品間關聯信息往往更為稀疏,導致Apriori、FP-growth等傳統關聯規則挖掘算法需要海量訂單數據才能進行有效挖掘。為此,本文提出一種基于改進FP-growth的多品類打包推薦算法,將頻繁項集中的項從產品替換為產品屬性,從挖掘產品間的關聯規則轉變為挖掘產品屬性間的關聯規則,有效降低潛在規則數量,提高稀疏數據的挖掘效率,減少挖掘過程所需訂單數量。
本文詳細內容請下載:
http://www.rjjo.cn/resource/share/2000006377
作者信息:
李雄清1,2,李永1,2,王駿飛1,2,臧凌1,2,劉德志1,3,
卞宇軒1,3,柴閱林1,3,李卓瀟 1,3,劉云韜1,3
(1.北京市民航大數據工程技術研究中心, 北京101318;
2.中國民航信息網絡股份有限公司, 北京101318;
3.北京航空航天大學, 北京100191)