文獻標識碼: A
DOI:10.16157/j.issn.0258-7998.180564
中文引用格式: 林付春,張榮芬,何倩倩,等. 機器視覺中的智能無人零售系統設計[J].電子技術應用,2018,44(9):96-98,103.
英文引用格式: Lin Fuchun,Zhang Rongfen,He Qianqian,et al. Design of intelligent unmanned vending system in machine vision[J]. Application of Electronic Technique,2018,44(9):96-98,103.
0 引言
零售行業是距離消費者最近的行業,也是對體驗和性能要求最高的行業。隨著人工智能和深度學習技術的快速發展,計算機視覺被廣泛應用到各個領域。其中在無人零售中,計算機視覺將前端人貨關系重構表現得淋漓盡致。傳統的無人售貨機只能銷售少量類別的商品,或者采用RFID技術為每件商品貼上標簽,浪費資源和人力物力[1]。除此之外,需要購買者彎腰去拿,對顧客很不尊重。而新型無人售貨機購物者可以開門自己拿想買的各種商品。在國內,阿里巴巴開設無人超市,人們隨意自由購物。繽果盒子無人超市內置專業掃描識別機器,用于快速識別和結算,效率很高,但成本也很高[2]。市場上也有一些智能售貨柜企業以視覺方案切入,不過大多數產品都還停留在概念階段,并且產品成本非常高,無法解決零售的實際問題。
本系統在無人售貨柜中裝有各種傳感器模塊組與攝像頭,攝像頭會對顧客的動作進行捕捉,通過運用人工智能(AI)圖像檢測和圖像處理技術識別出顧客拿走的商品,同時配合各種傳感器數據與服務器數據進行比對,從而得出最終的結果。這種方式不僅可以大幅度地節省消費者的購物時間,還可以根據不同場景快速變化銷售物品種類,解決了目前無人零售的痛點。在人工智能潮流的趨勢下,新零售行業被推到風口浪尖。人工智能應用在新零售行業是將來零售行業的大趨勢。
1 智能無人零售系統的總體設計
整體無人零售系統工作流程:顧客掃描,服務器收到顧客開門通知,服務器通知前端硬件開門。顧客在無人零售柜自由選擇各種商品,顧客選擇完商品關門,同時前端采集商品圖像數據,各種傳感器數據上傳服務器,服務器對圖像和數據進行處理,并與后臺數據庫比對,得到顧客購買的商品,并進行自動結算。
本文主要介紹視覺系統部分設計,系統由基于嵌入式技術的前端采集、通信傳輸系統、遠程云服務器識別與數據庫計算系統組成。前端硬件采集傳輸采用基于三星Cortex-A9架構的核心板,搭載攝像頭模塊組、壓力傳感器模塊組、紅外傳感器模塊組、WiFi通信模塊和4G通信模塊構建智無人零售系統的硬件平臺。攝像頭分別拍攝動態和靜態商品的圖像,由主控芯片用預先板載的壓縮算法對采集的圖像進行壓縮,壓縮后的圖像在WiFi或者4G模塊作用下傳送到云服務器上[3]。采用云平臺服務器作為智能無人零售系統的數據處理中心,在服務器上同時對前端靜態和動態圖像進行識別與分析,然后將結果返回給數據庫。智能無人零售系統的總體設計如圖1所示。
2 智能無人零售系統硬件系統設計
本系統硬件采用基于嵌入式的四核ARM9作為前端圖像采集控制器,利用它實現對整個智能無人零售系統各個單元模塊上的數據信息進行匯總分析和處理,對各個功能模塊發出控制指令,協調整個系統穩定運行。每個無人售貨柜的結構分為4層2列共8個格子,每個格子放一類商品。在每個格子上方安裝一個500萬像素的CMOS攝像頭,用來靜態采集每個格子里商品的數量。每個格子下面各安裝一個壓力傳感器,用來判斷顧客拿走了哪一類商品,然后將這個格子的圖像傳到服務器進行識別和計數,以此來精確判斷顧客拿走了幾個商品。同時壓力傳感器的數據發送給服務器數據庫進行分析比對。柜子內部頂端安裝一個1 000萬像素攝像頭,用來動態采集商品種類。同時柜子每一層格子前方安裝兩對紅外傳感器,當紅外傳感器檢測到顧客拿完商品之后,柜子頂端攝像頭對顧客手中的商品進行動態拍攝,中央控制器對采集的圖像在前端進行壓縮,通過WiFi或者4G模塊上傳到服務器。硬件系統流程圖如圖2所示。
3 智能無人零售系統軟件系統設計
近幾年來,深度學習卷積神經網絡算法在圖像檢測、分割和識別上表現出越來越卓越的效果,因此,許多優秀的深度學習算法被應用在工業界。本系統軟件設計由兩部分組成,分別是對商品靜態識別和對商品動態識別。采用的是目前流行的深度學習框架——Caffe框架[4],主要采用C++/CUDA高級語言來實現對深度學習網絡的訓練和圖像的識別。商品靜態識別算法基于經典的YOLO(You Only Look Once)網絡模型優化[5];商品動態識別算法基于典型的Alexlet網絡模型進行優化。
3.1 對商品進行靜態識別
靜態識別是服務器從每個格子得到壓力傳感器的數據,通過數據分析質量格子質量變化,得到顧客取出的是哪個格子的那種物品。同時前端攝像頭拍攝這個格子的圖像,在前端處理后上傳到服務器。在服務器上通過深度學習算法(YOLO)對圖像進行檢測、定位和識別?;诰矸e神經網絡的YOLO模型在2015年被提出,能夠實時地對物體進行檢測和識別,是對物體進行位置檢測準確率和識別準確率綜合最好的網絡模型之一,同時也是實時性最好的網絡模型,模型采用卷積神經網絡結構。模型的卷積層提取圖像特征,全連接層預測輸出概率。模型結構類似于GoogleNet網絡模型,最終輸出為其網絡模型,如圖3所示。本系統在此網絡模型基礎上對其進行優化,分別在其全連接層和卷積層進行修改,減少卷積層和filter,最終輸出為7×7×18的tensor。其網絡模型如圖4所示。
3.2 對商品動態識別
動態識別算法由兩部分組成,當紅外傳感器檢測到信號,1 000萬像素攝像頭拍攝的圖像經過壓縮上傳到服務器后,在OpenCV庫平臺下,先采用傳統視覺算法通過手勢識別裁剪出商品圖像,然后將圖像放入訓練好的卷積神經網絡進行識別,以此來提高這個系統識別準確性。
基于卷積神經網絡的Alexlet網絡模型是2012年的Imagnet比賽的冠軍[6]。其網絡模型如圖5所示,本系統在此網絡模型基礎上對其進行優化,分別對其全連接層和卷積層進行修改,為了減少過擬合,優化Dropout值為0.5,對網絡進行訓練測試[7]。其網絡模型如圖6所示。
4 系統測試
在智能無人售貨系統中挑選日常生活中常見的可口可樂、加多寶、壓縮餅干、酸奶、香皂、泡面、洗衣液和茶杯8種商品,對其進行數據集采集。靜態識別中多采用多個物品在一張圖片上,共80 000張圖片,其中10 000張圖片做測試集,70 000張圖片作為訓練集。動態識別中采用每類10 000張圖片作為訓練集,共80 000張圖片。每類1 000張圖片作為測試。在靜態測試中,運用圖4網絡模型在Caffe框架上對其進行訓練和測試,得到如圖7所示的準確率和loss值。當迭代次數達到27 000左右時,靜態測試準確率達到99%的準確率。同時在迭代次數達到31 000左右時,靜態測試值損失值減到最小,并且趨于穩定。
動態測試中,運用圖6網絡模型在Caffe框架上對其進行訓練和測試,得到如圖8所示的準確率和loss值。當迭代次數達到23 000左右時,動態測試準確率達到99%。同時,在迭代次數達到30 000左右時,動態測試值損失值減到最小,并且趨于穩定。
5 結論
本文完成了智能無人零售視覺系統的軟件和硬件設計;實現了前端硬件攝像頭模塊組對圖像的靜態和動態拍攝、壓力傳感器組的數據傳輸、紅外傳感器組的數據采集以及各個模塊之間的通信;軟件上完成了神經網絡對圖像的檢測定位與識別;通過與前端APP和后臺數據庫結合,可實現新的智能無人新零售系統。本文將人工智能視覺系統應用到新零售行業,能使顧客擁有掃描開門、自己取貨、關門自動結算的新體驗,方便了顧客,也節約了產品成本。未來智能無人新零售將取代傳統售貨機,分布在城市的各個角落。
參考文獻
[1] 王汝傳,馬守明,葉寧,等.基于射頻識別標簽和傳感器網絡的智能零售市場構建方法:中國,CN 103714465 B[P].2014-04-09.
[2] 宋杰.無人智能零售店來了[J].中國經濟周刊,2017(28):86-87.
[3] 何騰鵬,張榮芬,劉超,等.基于機器視覺的智能導盲眼鏡設計[J].電子技術應用,2017,43(4):58-61.
[4] JIA Y,SHELHAMER E,DONAHUE J,et al.Caffe:convolutional architecture for fast feature embedding[C].Proceedings of ACM International Conference on Multimedia.ACM,2014:675-678.
[5] REDMON J,DIVVALA S,GIRSHICK R,et al.You only look once: unified, real-time object detection[C].Computer Vision and Pattern Recognition.IEEE,2016:779-788.
[6] KRIZHEVSKY A,SUTSKEVER I,HINTON G E.ImageNet classification with deep convolutional neural networks[C].International Conference on Neural Information Processing Systems.Curran Associates Inc.,2012:1097-1105.
[7] HINTON G E,SRIVASTAVA N,KRIZHEVSKY A,et al.Improving neural networks by preventing co-adaptation of feature detectors[J].Computer Science,2012,3(4):212-223.
作者信息:
林付春,張榮芬,何倩倩,劉宇紅
(貴州大學 大數據與信息工程學院,貴州 貴陽550025)