《電子技術應用》
您所在的位置:首頁 > 模擬設計 > 設計應用 > 基于Lucene的中文是非問答系統的設計與實現
基于Lucene的中文是非問答系統的設計與實現
2020年信息技術與網絡安全第11期
羅東霞,卿粼波,吳曉紅
四川大學 電子信息學院,四川 成都610065
摘要: 針對中文是非問句,設計并實現了基于Lucene的問答系統,主要包括問句預處理、索引創建和答案整理三部分。問句預處理部分,引入句法成分權重和命名實體權重改進TextRank算法,得到一種提取問句核心詞的方法。在索引創建部分,針對本地的多源數據進行文檔融合創建索引,降低數據多樣性帶來的復雜度。在答案整理部分,對查詢索引結果進行答案判決,輸出肯定或否定含義的答案。實驗結果表明,數據融合能有效減少索引創建耗時,改進TextRank的核心詞提取方法準確率明顯高于TextRank,系統具有較為不錯的性能。
中圖分類號: TP391.1
文獻標識碼: A
DOI: 10.19358/j.issn.2096-5133.2020.11.012
引用格式: 羅東霞,卿粼波,吳曉紅. 基于Lucene的中文是非問答系統的設計與實現[J].信息技術與網絡安全,2020,39(11):74-78.
Design and implementation of Chinese yes-no question answering system based on Lucene
Luo Dongxia,Qing Linbo,Wu Xiaohong
College of Electronic Information,Sichuan University,Chengdu 610065,China
Abstract: A Chinese yes-no question answering system based on Lucene around Chinese yes-no questions is designed and implemented,and this system includes three parts:question preprocessing,index creation, and answer sorting. In the first part, introducing the syntactic component weights and named entity weights to improve the TextRank algorithm, a method for extracting the core words of the question sentence is obtained. In the second part, the document fusion is created for the multi-source data to reduce the complexity which is caused by data diversity. In the last section, the query index results are judged by the answer,and then the answers with positive or negative meanings are output. The experimental results show that data fusion can effectively reduce the index creation time, and the accuracy rate of the improved TextRank core word extraction method is significantly higher than TextRank, which means the system has good performance.
Key words : yes-no question answering;Lucene;TextRank;core word extraction

0 引言

    隨著人工智能技術的飛速發展,傳統搜索引擎已不能滿足用戶需求,自動問答系統逐漸成為信息檢索領域的研究熱點,并具有廣泛應用前景[1]。自動問答系統指允許用戶以自然語言的形式描述問句,并將簡潔答案返回給用戶的一種信息檢索系統[2]

    近年來,自動問答系統相關的研究和應用十分廣泛。2011年,IBM公司的深度問答系統首次將自然語言處理與深度學習結合起來,使得眾多機構和企業紛紛效仿。2013年3月,京東上線京東JIMI 客服機器人,提供客戶常規咨詢服務;2016年10月,百度推出百度醫療大腦,實現健康在線咨詢[3]。但目前關于中文自動問答系統的研究多是圍繞特指問句,其開放性的回答方式不適用于是非問句的二值答案。例如,對JIMI提問:“京東自營滿88包郵對嗎?”,JIMI的答案是京東自營商品包郵的詳細說明,而非是非問句要求的“對”或“不對”的二值答案。中文是非問答系統的設計與實現,能夠彌補目前中文自動問答僅能作答特指問句的不足,幫助用戶快速獲取簡潔的答案,對自動問答系統的研究和應用有著極其重要的意義。

    本文利用Lucene設計并實現一種中文是非問答系統,主要工作包括:(1)引入句法成分權重和命名實體權重,改進TextRank算法[4-5],提出一種問句核心詞提取方法;(2)針對MySQL、Neo4j和本地新聞文件中的多源數據,提出一種多源數據融合索引創建方法,減少索引創建耗時;(3)查詢索引并對索引結果判決,獲得是非問句的二值答案。




本文詳細內容請下載:http://www.rjjo.cn/resource/share/2000003183




作者信息:

羅東霞,卿粼波,吳曉紅

(四川大學 電子信息學院,四川 成都610065)

此內容為AET網站原創,未經授權禁止轉載。
主站蜘蛛池模板: 日韩国产免费一区二区三区 | 欧美老妇免费做爰视频 | 国产高清在线精品一区在线 | 国产一区二区三区免费观看 | 成人国产精品一级毛片视频 | 亚洲欧美卡通成人制服动漫 | 日韩在线视频线视频免费网站 | 亚洲制服丝袜美腿亚洲一区 | 久草视频免费在线看 | www.av日韩| a级做爰片毛片视频 | 日韩欧美一级毛片在线 | 韩国美女毛片 | 日韩欧美理论片 | 国产一级a毛片 | 色婷婷久久综合中文久久蜜桃 | 美女网站色免费 | 亚洲国产高清在线精品一区 | 91精品国产一区二区三区四区 | 在线a人片免费观看国产 | 日美三级 | 欧美毛片| 国产午夜免费视频片夜色 | 国产激情视频在线播放 | 成人久久免费视频 | 日本特黄特色大片免费看 | 亚洲欧美成人综合在线 | 国产成人综合亚洲 | 国产日产欧产精品精品推荐小说 | 男女无遮挡拍拍拍免费1000 | 91青青国产在线观看免费 | 欧美色视频日本片高清在线观看 | 欧美日韩亚洲第一页 | 一级毛片私人影院免费 | 成人无遮挡毛片免费看 | 国产三级日本三级日产三 | 免费一级肉体全黄毛片高清 | 亚洲成av人影片在线观看 | 久久国产毛片 | 中文字幕在线观看日韩 | 成人看的午夜免费毛片 |