近期,曠視科技南京研究院發布學術界內目前最大的商品識別數據集——RPC,其圖像數量和類別數量皆是該領域之最。同時,該數據集針對新零售場景定義了一個新問題,即視覺自動收銀(automatic check-out, ACO),模擬零售真實結算場景。此外,還針對 ACO 任務給出了一套完整的 Baseline Method,以及“整單準確率”cAcc為代表的一系列評測指標,更有可以直接安裝的 Python 版本評測工具。同名 GitHub 項目主頁上有 Leaderboard,歡迎大家來刷榜!
論文鏈接:https://arxiv.org/abs/1901.07249
項目鏈接:https://rpc-dataset.github.io/
零售業是人力密集型行業,其中收銀結算占有相當高的成本。隨著深度學習發展,借助圖像識別技術實現零售行業的降本增效已是大勢所趨。自動收銀結算(Automatic Check-Out/ACO)是其中的核心場景,旨在根據收銀場景圖像生成結算清單,并與計算機視覺技術的融合不斷加深。
CV 技術+場景,從來不是一條坦途。從圖像識別角度講,ACO 的落地布滿靳棘,其中既有來自數據本身的問題,也有模型訓練的因素,最后可歸結為 4 個方面: 1)large-scale,2)fine-grained,3) few-shot 和 4)cross-domain。
盡管存在上述問題,ACO 還是有著潛在的研究與商業價值。如果有標注精良的數據集,這一問題或可迎刃而解。為此,曠視科技南京研究院打造了一個目前最大的商品識別數據集——RPC(Retail Product Checkout),來推動新零售自動收銀場景的相關研究和技術進步,它的商品種類高達 200,圖像總量達 83k,真實模擬零售場景,且逼真度超過現有同類數據集,同時充分體現出 ACO 問題的細粒度特性。
圖 2:RPC 數據集對比同類數據集。
RPC 數據集有兩種形態的圖像:1)單品圖(exemplar image),在受限環境下拍攝,只包含單一產品,對應于網購商品圖;2)結算圖( checkout image),包含用戶購買場景下的多個商品,有助于研究者解決相關子問題,比如檢測或計數。
數據集的基準還在進行之中,目前最好的基線來自基于 Cycle-GAN 的數據合成方法。
ACO 任務
當顧客走進商店,把要購買的商品放在收銀臺上,一個理想的 ACO 系統可以自動識別每個商品,并一次性準確給出購物清單,如圖 1 所示。
圖 1:ACO 圖示。
因此,ACO 本質上是識別任意商品組合中每個商品的出現并計數的一個系統。
一般來講,為保證性能,訓練 ACO 識別系統的圖像應該和實際收銀場景一模一樣。但是由于海量的商品類別加之不斷更新,讓識別模型窮盡所有的商品組合是不現實的,因此一個可行的解決方案是在特定環境下采集一類單品圖像,并將其復用至實際結算中。
RPC 數據集特點
曠視提出的 RPC 數據集具有 6 個方面的特性。
量大:無論是從圖像數量還是商品種類(SKU)上來看,RPC 都是該領域之最:SKU 達 200 個,圖像數量 83,739 張,其中單品圖 53,739 張,結算圖 30,000 張。
跨域:RPC 中圖像數據分為單品圖和結算圖兩種形態。模型需在單品圖上進行訓練,但真正測試環境則為結算圖。
圖 3:單品圖。
圖 4:結算圖。
2025-04-29 22:24
2025-04-29 22:23
2025-04-29 22:22
2025-04-29 22:22
2025-04-29 22:21
2025-04-29 22:20
2025-04-29 22:19
2025-04-29 22:18
2025-04-29 22:17
2025-04-29 22:16