文獻標識碼: A
DOI: 10.19358/j.issn.2096-5133.2021.05.014
引用格式: 王濤. 基于顏色分割的發票識別與自校正系統研究[J].信息技術與網絡安全,2021,40(5):80-85.
0 引言
發票是企業經營或人們日常消費生活中不可或缺的一部分。面對日益增長的發票管理需求,無論是紙質發票還是電子發票,企業或個人都需要在發票信息的錄入、存儲及后續管理上花費很多時間。因此,應用現代技術對發票內容信息進行自動掃描識別并提取成為財務會計、計算機和軟件應用等多個領域共同希望解決的課題。何文琦[1]在分析了高校財務報銷難題后,提出了直接采用OCR技術對票據圖片進行識別,提取發票中的關鍵信息,減少網上報銷過程中的手工錄入環節。王林水[2]等提出了一個自動票據識別系統,采用圖像預處理技術將圖像進行二值化,通過版面分析后進行字符識別。王貴新[3]等人建立了利用隱態馬爾可夫模型(HMMs)的銀行票據識別系統,系統首先通過光電掃描設備將用戶填寫的票據掃描成灰度圖像,然后去掉票據的底色,使之變為黑白圖像,對黑白圖像進行去噪處理后,再進行文字的分割。
縱觀上述文獻,現有的研究都是將采集的發票圖像進行二值化處理,忽略掉圖片本身的顏色信息,其次不區分二維碼、印章等圖片組成,直接采用版式分析的方法或者OCR的方法對圖片中的文字進行識別,這必然帶來識別準確率的降低。而且上述方法都是對票面信息進行提取,并不進行驗證,這導致存在最終結果上的差錯率,在實際使用過程中還需要輔助人工驗證。鑒于此,本文提出通過顏色分割方法對發票圖片進行信息分層,得到二維碼、印章區域和文字區域,針對文字區域按照預設的格式進行文字識別,獲得發票上所記載的發票代碼、發票號碼、開票日期、購方稅號、銷方稅號、金額和稅額等信息;針對二維碼圖片進行自動掃描從互聯網服務器獲取發票代碼、發票號碼、開票日期、購方稅號、銷方稅號、金額和稅額等信息。然后將兩部分信息進行比對驗證發票的真偽。驗證為正確的發票分別將原始圖片和信息數據存入數據庫,對用戶的發票憑證進行統一的信息管理。驗證為錯誤的信息以二維碼獲取得信息為準存入數據庫,并在數據中進行標記以備后續查詢。
本文詳細內容請下載:http://www.rjjo.cn/resource/share/2000003556
作者信息:
王 濤
(同濟大學浙江學院 電子與信息工程系,浙江 嘉興314000)