一種自適應網頁結構化信息提取方法 | |
所屬分類:技術論文 | |
上傳者:aetmagazine | |
文檔大小:509 K | |
標簽: 信息提取 結構化信息 分類模型 | |
所需積分:0分積分不夠怎么辦? | |
文檔介紹:面向互聯網信息采集挖掘應用,針對傳統的網站信息整頁采集方式存在采集信息混雜、無法直接使用,而人工結構化采集方式成本高、工作效率低的問題,研究提出了一種自適應網頁結構化信息提取方法,實現了網頁分類算法、基于子樹的標題項、內容項的結構化信息提取算法。基于典型網站網頁分類標注數據集進行分類模型的學習建模,可以自適應不同網站的差異,對網頁進行分類,按照網頁分類分別提取出網頁中的列表項結構化信息、內容項結構化信息。該技術對提高網站信息結構化采集處理的自動化水平及處理效率具有重要作用。 | |
現在下載 | |
VIP會員,AET專家下載不扣分;重復下載不扣分,本人上傳資源不扣分。 |
Copyright ? 2005-2024 華北計算機系統工程研究所版權所有 京ICP備10017138號-2