姜建武,李景文,陸妍玲,葉良松
(桂林理工大學 測繪地理信息學院,廣西 桂林 541004)
摘要:針對傳統信息推送服務由于缺少對用戶個人綜合因素的考慮,存在針對性差、推廣轉化率低的問題,在大數據理論基礎上提出了一種基于用戶畫像的智能信息推送方法。該方法將用戶抽象為結構化信息本體,通過構建行為-主題、主題-詞匯及行為-詞匯三位一體的數學模型,研究基于用戶畫像的信息本體提取方法。采用包含對象、時間、地點、內容、行為和重返次數六方面內容的事件描述法計算本體權重,以此構建用戶畫像。設計了基于用戶畫像的智能信息推送系統,為大數據環境下面向用戶的智能信息推送提供了一種新的方法。
關鍵詞:用戶畫像;信息推送;信息本體;大數據
中圖分類號:TP399文獻標識碼:ADOI: 10.19358/j.issn.16747720.2016.23.025
引用格式:姜建武,李景文,陸妍玲,等. 基于用戶畫像的信息智能推送方法[J].微型機與應用,2016,35(23):86-89,92.
0引言
基于“用戶畫像”的信息智能推送服務已經廣泛應用于亞馬遜、京東、阿里、百度、百分點、騰訊等電商和信息服務企業,國內外眾多學者也對其進行了深入研究。彭藝等研究了云環境下智能推送服務在數字化教學中的應用[1];顏友軍研究了移動平臺上基于本體知識庫的問答與Web服務推送系統[2];赫磊研究了基于云平臺的智慧旅游信息推送系統[3];黃舒榕提出了基于JXTA的移動智能小區信息推送服務平臺[4];劉海等采用4C理論構建了服裝領域的“用戶畫像”數據庫,并在此基礎上構建了精準營銷細分模型[5];莫靜泱構建了B/S架構的用戶健康消費智能推送系統[6];肖鋒等圍繞LBS服務、情景模型和智能信息推送,提出了基于位置的智能信息服務模式[78]。然而,這些研究都是傳統的信息推送方法,缺少對用戶的偏好、時間、購買力等個人因素的考慮,導致推送信息泛濫,缺乏精準性。本文研究了用戶畫像數學模型的構建及基于用戶畫像的智能信息推送方法,通過對用戶網絡行為數據和個人信息數據的采集、處理,建立用戶畫像數學模型,提取信息本體、計算本體權重,構建用戶個人信息畫像,并融入信息智能推送過程,提供面向用戶的個性化精準信息推送服務。
1構建用戶畫像數學模型
1.1信息本體的確定
用戶畫像又稱用戶角色[9],是一種大數據環境下用戶信息標簽化方法。信息本體是一種語義本體,分為靜態(如人口屬性、商業屬性等)和動態兩類。靜態本體來自用戶注冊信息,該類本體自成標簽,在實際提取中主要進行數據清洗工作。動態本體隱藏于用戶隨機互聯網行為中,具有隱蔽性,需通過數據分析,挖掘隱藏信息并提取本體,其提取過程如圖1所示。
圖1中,K表示主題集合,M表示行為集合,Nm表示第m個行為中的詞匯個數,α,β為先驗參數。
動態本體的提取分為數據預處理、行為主題建模、主題詞匯建模和行為詞匯建模四個部分,其中行為主題模型與主題詞匯模型服從Dirichlet分布,行為詞匯模型服從Multiomial分布。
(1)行為數據預處理
首先過濾用戶行為數據,去除非文本信息,且只保留行為文本中的動詞和名詞[10],然后求解各詞匯的TFIDF指標,保留指標在70%以上的詞匯,構成動態本體數據源。
其中,TF指詞項頻率,TFIDF指逆文檔頻率[11],TFIDF指標的計算公式為:
式(1)中,N代表互聯網行為總集,ni為詞匯i出現過的行為集合,j為某一行為記錄,fi,j表示詞i在j中出現的次數[12]。
(2)行為主題建模
從參數為α的Dirichlet分布中抽取各文檔M對應的行為主題分布模型,記為θm,則有[10]:
其中整個行為庫中主題的生成概率為:
(3) 主題-詞匯建模
從參數為β的Dirichlet分布中抽取各主題K對應的主題-詞匯分布模型,記為φk,則:
其中所有主題中詞匯生成的概率為:
根據主題生成概率和詞匯生成概率得出主題詞匯的聯合分布為:
(4) 行為 詞匯建模
根據主題 詞匯分布模型和行為主題分布模型,則行為m對應的第n個詞匯的計算過程為:
① 從θm中采樣一個主題,記為Zm,n,則 [10]:
② 根據計算的主題Zm,n,從φk中取出與Zm,n對應的特定單詞Wm,n:
在以上求解過程中,Wm,n為獲取量,Zm,n為隱含量,本文采用Gibbs Sampling采樣法求解Zm,n,由于圖1中①和②兩過程均服從Dirichlet-Multiomial共軛分布,根據前述所得的聯合分布p(w,z|α,β),并將行為Z中的第i個詞對應的主題記為Zi,i表示去除下標為i的詞,假設已經觀測的詞wi=t,則有如下推導:
mk和kt是對應的兩個Dirichlet后驗分布在貝葉斯框架下的參數估計,根據Dirichlet參數估計公式得[13]:
根據以上兩式,得到最終行為-詞匯模型的Gibbs Sampling公式如下[13-14]:
通過以上步驟,提取用戶隨機互聯網行為中的動態信息本體,綜合靜態信息本體,構成用戶畫像數學模型的label參數。label只能表示用戶的興趣偏向內容,而無法體現偏向程度,需計算label權重p(i)。
1.2本體權重的計算
權重用于表示用戶對某一本體的偏向程度。靜態本體相對穩定,權重設為1。目前,用戶畫像標簽權重的計算主要考慮對象、時間、地點、內容4個因素,文中提出用戶隨機互聯網行為的對象、時間、地點、內容、行為和重返次數6因素事件描述法,可更全面地描述用戶的隨機互聯網行為。采用6因素事件描述法表示的互聯網隨機行為動態本體的權重計算方法如下:
(1) 對象
對象即互聯網上區分用戶的標識(Cookie、IP、Email、身份證等),不同標識的可信度不同。對象權重為該標識可信度值與可信度值總和的比值,即:
(2) 時間
時間包含時間戳和時間間隔兩方面內容。時間戳用于標識事件發生、結束的時刻,時間間隔用于標識瀏覽時間,則時間對動態本體的權重T(label)記為瀏覽本體的時間與用戶所有上網時間的比值,即:
(3) 地點(接觸點)
地點是用戶互聯網行為的接觸點(天貓、官網等),用戶行為接觸點的不同,對標簽的影響亦不同。為不同接觸點設置重要程度度量值,則地點對本體的權重L(label)為:
(4) 內容
內容是動態本體權重的重要組成部分,標識了一個互聯網行為的核心,用C(label)表示,即該動態本體包含詞匯的最大TFIDF指標:
(5) 行為
行為是用戶對網站內容的操作,如瀏覽、收藏等,不同的行為具有的權重不同,用A(label)表示,計算公式為:
(6) 重返次數
重返次數體現了用戶對該網站(產品、內容)的關注程度,這將在很大程度上影響該次互聯網行為的“有效性”。重返次數采用R(label)表示,其權重為該行為的重返次數與用戶所有瀏覽次數的比值,計算公式為:
1.3用戶畫像最終數學模型
用戶畫像最終數學模型如式(18)所示。
式中labeli表示某一方面用戶的信息標簽,p(i)表示該標簽的權重,Obj(label)、T(label)、L(label)、C(label)、 A(label)、R(label)為事件對應六方面內容對標簽的權重,r為衰減因子,用來描述信息本體對某一標簽的興趣隨著時間變化的衰減程度。
2基于用戶畫像的智能信息推送系統
推送技術的模式分為操作式推送和觸發式推送兩種[15]。基于用戶畫像的智能信息推送系統是操作式推送與觸發式推送的結合體,即客戶端操作觸發信息推送與服務器主動推送二者相結合。該系統分為數據獲取及處理、信息本體獲取及權重計算、信息推送三個階段,具體過程如下:
(1) 數據獲取及處理
用戶基本數據(年齡、體重等)通過注冊信息獲取,該部分信息相對穩定,為靜態信息本體(如表1所示),權重定為1。動態本體隱藏于用戶行為中,通過用戶互聯網行為抓取,實現電商、社交、媒體等信息的獲取。對數據進行預處理,主要獲取網頁的標題信息,過濾用戶行為中非文本信息,只保留動詞與名詞,且只保留TFIDF指標在70%以上的詞匯,并按照對象、時間、地點、內容、行為五方面內容以天為單位存儲至數據庫(如表2所示)。
(2)動態信息本體獲取
通過行為主題建模、主題詞匯建模、行為詞匯建模三個過程,從用戶行為庫中挖掘動態信息本體,提取行為主體及主題詞匯。
(3)動態信息本體權重計算
根據對象、時間、地點、內容、行為五個方面,依據動態信息本體權重計算公式求解其聯合影響權重。
(4)用戶畫像構建
根據步驟(1)、(2)、(3)所得結果,結合用戶畫像數學模型,構建特定用戶的用戶畫像,采用非關系型數據庫MongoDB以Bson格式存儲。對用戶畫像做可視化處理,直觀顯示用戶偏向內容及偏向程度,如圖2所示。
(5)信息推送
將用戶畫像中各信息本體按照權重排列,采用LBS技術定位用戶實時位置,以位置和信息本體為查詢條件,查詢信息數據庫,將查詢結果組合、排序,為用戶提供符合個人情況的智能信息,如圖3。
3結束語
本文提出的信息本體概念利于用戶描述和計算機處理,基于行為主題、主題詞匯及行為詞匯模型的信息本體提取方法和采用對象、時間、地點、內容、行為和重返次數的聯合影響權重計算方法構建的用戶畫像數學模型,能夠較好地描述用戶偏好。本文設計的基于用戶畫像的智能信息推送系統,為大數據環境下的精準營銷提供了一種新的方法。
參考文獻
[1] Peng Yi .An application for digital teaching of intelligent push technology under the cloud environment[C].International Conference on Social Science and Education,2013:398-403.
[2] 顏友軍.移動平臺上基于本體知識庫的問答與Web服務推送系統[D].南京:南京大學,2013.
[3] 赫磊.基于云平臺的智慧旅游信息推送系統研究[D].西安:西安工業大學,2014.
[4] 黃舒榕.基于JXTA的移動智能小區信息推送服務平臺的設計與實現[D].廈門:廈門大學,2014.
[5] 劉海,盧慧,阮金花,等.基于“用戶畫像”挖掘的精準營銷細分模型研究[J].絲綢,2015,52(12):37-42.
[6] 莫靜泱.基于數據挖掘的用戶個性化健康消費智能推送系統設計與實現[D].南京:南京郵電大學,2015.
[7] 肖鋒,侯岳,王留召,等.基于LBS的智能信息推送技術研究[J].測繪與空間地理信息,2015 (6):125-127.
[8] 肖鋒,侯岳,賈寶.情境建模下的LBS智能信息服務推送方法[J].測繪通報,2016(4):96-98.
[9] 余孟杰.產品研發中用戶畫像的數據建模——從具象到抽象[J].設計藝術研究,2014,4(6):62-64.
[10] 何建云,陳興蜀,杜敏,等.基于改進的在線LDA模型的主題演化分析[J].中南大學學報(自然科學版),2015(2):547-553.
[11] 周品.云時代的大數據[M].北京:電子工業出版社,2013.
[12] 張亮.數字圖書館多層次閱讀擴展系統[D].杭州:浙江大學,2010.
[13] LDA math LDA [EB/OL].(2013-02-03)[2016-07-30].https://www.baidu.com/link?url=7pX4p07QnrELNMnz Fp8w_tOVaZQjd_M_YCzHJ3K76EkWWlLdGHKTz7O0 BUQlsgOrp5zWAa87JtJ082036AWV_DTPWUPvUrK 0x9U8Wc44_&wd=&eqid=d0a6f0b80002a92f000000035672ad45.
[14] GREGOR Heinrich. Parameter estimation for text analysis[R].Darmstadt: Fraunhofer,2009:17-30.
[15] 石巖.基于智能推送技術的個性化服務系統研究[J].現代情報,2006,26(10):146-148.