層級:200 類商品隸屬于 17 個商品大類(如方便面、紙巾、飲料等),天然構成了層次的結構,并可作為輔助監督信息用于進一步的訓練。
圖 6:17 個商品大類。
難易:針對結算圖設計了三種難度:Easy、Medium 和 Hard,包含的商品類別數和數量分別為:
表 2:結算圖的三種難度。
強弱:在監督信息層面,我們為每張 RPC 的結算圖均提供了由弱(Shopping List)到中(Point)再到強(Product BBox)的三種強度監督信息。
圖 5:結算圖的三種強度監督信息。
RPC 數據集基準
ACO 基線方法
曠視在本文提出了 4 個 ACO 基線方法,分別是 1)Single,2)Syn,3)Render 和 4)Syn+Render。
只使用 RPC 數據集單品圖的標注信息,且直截了當地把這些單品圖用于訓練,這種策略即是首個基線方法,稱之為 Single。另外,本文使用的檢測器是 ResNet101 作為 Backbone 的特征金字塔網絡 FPN。
通過把剪裁出來的單品隨機粘貼在背景上以合成 10,000 張結算圖,接著用其訓練檢測器,這是第二種基線方法,表示為 Syn。
為把上面合成的結算圖渲染的更加逼真,曠視借助 Cycle-GAN 轉化合成圖,如圖 9 所示。接著用這 10,000 張渲染的圖像訓練檢測器,這是第三種基線方法,表示為 Render。
圖 9:合成結算圖與渲染結算圖實例對比。
此外,還可以混合使用合成圖與渲染圖訓練檢測器,這是第四種基線方法,表示為 Syn+Render。
針對 ACO 任務提出的整個方法的 pipeline 如圖 10 所示:
圖 10:基線方法 pipeline。
實驗結果
在進入到實驗結果之前,需要說明的一點是最優的評測指標并不是傳統檢測任務中的 mAP50、mmAP 等指標,而是本文提出的 cAcc(Checkout Accuracy),即正確核驗一張圖像內所有商品的精度,簡單來說,就是“整單正確率”。
這里按照上述的 Easy、Medium、Hard 三種 mode 測試了 ACO 任務在 RPC 數據集上的實驗結果,如表 3 所示:
表 3:實驗結果。
研究展望
雖然 RPC 數據集跨域檢測方法適用于解決 ACO 問題,但并非其他方法行不通。其他研究方向也可從 RPC 數據集獲得啟發:
在線學習解決 ACO 問題。實際的零售場景中,商品種類將會不斷翻新。快速迭代模型而無需重新訓練成為首要問題,這時在線學習就派上用場了。
ACO 任務的一個潛在解決方案是在不借助商品檢測技術的前提下,直接從結算圖中獲取商品清單。這本質上是把 ACO 問題轉化為一個物品計數問題。
利用結算圖的監督信息。RPC 數據集有著不同層次的結算圖的監督信息,如何將其利用起來更好地完成 ACO 任務仍值得進一步研究。
作為其他計算機視覺任務的補充數據集。雖然 RPC 數據集針對 ACO 問題而設計,但是標注有商品的 ground truth 定位/邊界框,也就適用于物體檢索、few-shot/弱監督/全監督物體檢測等領域的研究。
結論
曠視在本文中發布了目前學術界最大的商品識別數據集 RPC,并定義了 ACO 任務和對應的評測指標。RPC 數據集含 200 個商品類別,83,739 張圖像,包含單品圖和結算圖兩種形態,并且配有不同監督強度的標注。借助這一數據集,本文清晰界定了 ACO 問題,并使用 4 種基線方法基準化這一數據集。實驗結果表明,在這一數據集上 ACO 仍有較大提升空間。同時,該數據集還適用于多個潛在的研究方向。
曠視是全球領先的人工智能產品和解決方案公司。自2011年成立起,便意識到人工智能將為世界帶來巨大變革,而深度學習是支撐人工智能革命的關鍵。以深度學習為曠視的核心競爭力,我們得以持續不斷地推動全球技術創新,并率先開始將前沿技術商業化。
依托自研的新一代AI生產力平臺Brain++,專注于算法能創造極大價值的領域:個人物聯網、城市物聯網和供應鏈物聯網,向客戶提供包括算法、軟件和硬件產品在內的全棧式、一體化解決方案,幫助客戶及終端用戶降本增效,并帶來極致體驗。目前,曠視擁有近3000名員工,業務遍及全球,服務數十萬開發者和超過3000家行業客戶。
作為全球領先的人工智能產品和解決方案公司,曠視從2017年開始就進入智慧物流領域,基于云、邊、端等平臺的深度神經網絡算法創新,打造智能物流裝備及“智慧大腦”曠視河圖,并聚合行業合作伙伴,向工業物流及商業物流場景提供高度智慧化的行業解決方案及全生命周期服務,幫助企業降本增效、簡化管理,為工業數字化升級提供創新引擎。
在算法方面,曠視依托自主研發的新一代人工智能生產力平臺Brain++,結合物流場景的實際需求,能夠為不同的物流場景定制化輸出算法,讓新算法的生成更高效、更經濟地服務物流場景的客戶。
在軟件方面,曠視打造了業界首個機器人物聯網操作系統——河圖操作系統,具備生態連接、協同智能、數字孿生三大特性,使曠視得以在各類物流環境中智能協調軟件、物聯網設備和人,幫助客戶一站式解決規劃、仿真、實施、運營全流程。目前河圖已經成功落地百余個項目。
在硬件方面,曠視正在不斷推出新一代物料搬運AGV、智能圓形播種機、AI+堆垛機等多款自研機器人及AI物流裝備,全面覆蓋搬運、存儲、輸送分揀場景。目前,曠視在北京、寧波、蘇州擁有3家研發制造基地,用于機器人及智能物流裝備的測試與生產。今年下半年,曠視還將推出多款機器人及人工智能物流裝備。
此外,曠視也在不斷聯合產、學、研、用等產業各方的力量,共同推動智慧物流的快速發展。
目前,曠視已將供應鏈物聯網業務擴展至10余個國家和地區,累計向智能制造、零售電商、3PL、汽車、鞋服、醫藥、教育等數10個行業的數百家客戶提供端到端的智慧物流解決方案。
2025-04-29 22:24
2025-04-29 22:23
2025-04-29 22:22
2025-04-29 22:22
2025-04-29 22:21
2025-04-29 22:20
2025-04-29 22:19
2025-04-29 22:18
2025-04-29 22:17
2025-04-29 22:16