中文引用格式: 于惠鈞,鄒志豪,康帥. 基于SAM和pix2pix的商品數據集生成網絡[J]. 電子技術應用,2025,51(4):23-28.
英文引用格式: Yu Huijun,Zou Zhihao,Kang Shuai. Product data set generation network based on SAM and pix2pix[J]. Application of Electronic Technique,2025,51(4):23-28.
引言
在現代零售和無人結算系統中[1],商品識別技術[2]的準確性和效率對于提升用戶體驗和優化商業運營至關重要。然而,隨著商品包裝的快速變化,數據集的采集和標注工作變得愈發復雜和耗時,數據集的缺少[3]成為制約商品識別模型性能和應用的主要瓶頸。傳統的數據集生成方法依賴大量人工標注,不僅耗費大量人力和時間,而且數據集更新不及時,無法適應市場中商品包裝的頻繁變化,導致模型的泛化能力不足,識別精度下降。
目前,盡管一些數據集增強方法已經在圖像識別領域取得了進展,但它們在應對商品包裝快速變化方面仍然面臨諸多挑戰。首先,現有的商品識別模型大多依賴于靜態數據集,這些數據集無法涵蓋所有可能的商品包裝變化。其次,數據集的多樣性和豐富性對模型的訓練效果至關重要,但現有方法在生成具有高度真實感的多樣化數據集時表現有限。此外,隨著商品種類的增加和市場變化的加速,傳統數據集生成方式顯得尤為笨重,難以滿足實際應用的需求。因此,如何有效生成與實際結算場景相似的數據集,以提高商品識別模型的魯棒性和識別精度,成為當前亟需解決的問題。
為了解決商品數據集采集和標注工作的繁瑣問題,本文提出了一種基于分割一切模型(Segment Anything Model,SAM)[4]和圖像到圖像轉換網絡(Pixel to Pixel,pix2pix)[5]的商品數據集生成網絡,旨在突破傳統數據集生成中的瓶頸。該網絡以單個商品的多角度圖像作為輸入,首先利用基于SAM改進的圖像分割網絡,從單個商品多角度圖像中精準提取出包含目標商品的部分。提取后的商品目標圖像經過姿態擬合后,隨機擺列組合形成商品拼接圖像。最后,這些拼接圖像通過基于pix2pix的圖像生成網絡轉換為接近實際結算場景的商品結算圖像。
由于單個商品的多角度圖像易于獲得,并且同一角度的商品只需標注一次,這種方法能夠生成多種拼接圖像,擴展商品擺放的多樣性,以應對實際結算中不同商品擺放的情況。此外,基于pix2pix的圖像生成網絡可以針對各種實際結算場景進行訓練,從而有效降低環境因素對商品識別準確率的影響。這一系列優化措施使得商品識別系統在快速變化的商業環境中更加靈活和準確
本文詳細內容請下載:
http://www.rjjo.cn/resource/share/2000006389
作者信息:
于惠鈞1,2,鄒志豪1,康帥1
(1.湖南工業大學 軌道交通學院,湖南 株洲 412007;
2.湖南工業大學 電氣與信息工程學院,湖南 株洲 412007)