谷歌和 Waymo 的 4D-Net 旨在解決在遠處準確檢測物體(如其他車輛和行人)的問題,提供了一種新穎且可推廣的傳感器融合方法,并取得了一些令人印象深刻的結果。
4D-Net 旨在找到隨時間捕獲的 2D 圖像和 3D 點云數據之間的鏈接,極大地促進了遠程目標檢測。
安全、可靠的自動駕駛汽車的關鍵——甚至高于其車載自動駕駛系統的智能程度——可能在于它處理傳感器數據的效率。就像人類駕駛員的視力測試一樣,重要的是要知道自動駕駛汽車系統可以發現危險并做出相應的反應——無論問題有多小或多遠。
傳統的二維攝像頭系統和三維傳感器,如 LiDAR(光檢測和測距),可能不足以實現完全的可靠性和安全性,谷歌和 Alphabet 的自動駕駛汽車子公司 Waymo 的一個團隊研究了第四維: 4D-Net,一種對象檢測方法,將二維和三維數據與第四維時間融合在一起,聲稱性能顯著提高。
時間足夠
谷歌研究科學家和論文合著者 AJ Piergiovanni 和 Anelia Angelova 在一份關于工作。“我們還引入了一種動態連接學習方法,該方法通過跨兩種特征表示執行連接學習來整合來自場景的 4D 信息。”
4D-Net 方法源于一個簡單的觀察:大多數配備傳感器的現代車輛包括二維和三維傳感器,通常采用多個攝像頭模塊和 LiDAR 的形式,數據是在一段時間內收集的——但是很少有人努力將所有內容集中在一個地方并作為一個整體進行處理。
4D-Net 系統旨在通過將二維相機圖像與 3D 點云數據相結合來提高遠距離物體識別的準確性——所有這些數據都被收集起來以捕捉運動。
4D-Net 解決了這一差距,將 3D 點云數據與可見光相機圖像混合,同時通過處理在設定時間段內捕獲的一系列數據來混合時間元素。其成功的秘訣:一種新穎的學習技術,它可以自主地發現和建立數據之間的聯系,在不同的層次上動態地融合它,以便單獨提高任何數據饋送的性能。
“時間圖像信息量很大,并且與靜止圖像和 PCiT [時間點云] 相輔相成,”研究人員解釋了該方法的好處。“事實上,對于具有挑戰性的檢測案例,運動可能是一個非常有力的線索。雖然可以在 3D 中捕獲運動,但純粹基于 PC [點云] 的方法可能會因為傳感稀疏性而錯過此類信號'’——順便說一句,同樣的問題意味著 LiDAR 傳感器可能會錯過遠處或小的物體,但在可見光攝像系統或駕駛員的肉眼上拾取。
機器學習時間
為了處理這兩種類型的數據,團隊轉向一系列預處理步驟。3D 點云數據通過 PointPillars 運行,PointPillars 是一種用于將數據轉換為偽圖像的系統,可以使用為二維數據設計的卷積神經網絡 (CNN) 進行進一步處理,每個點添加一個時間指示器以創建包括運動在內的更密集的表示。還使用了轉換為固定大小的表示,有效地對點云進行二次采樣——這種方法在數據稀疏的地方使點云變密,在數據密集的地方使其稀疏,從而提高遠距離的性能。
與此同時,二維相機數據通過 Tiny Video Networks 處理成特征圖,然后投影數據以將 3D 點與 2D 圖像上的對應點對齊——這一過程假設“校準和同步傳感器”。對于位于車輛攝像頭視野之外的點云數據,應用零向量。
使用多種分辨率的圖像和視頻饋送的 4D-Net 系統變體被證明是理想的,在基準測試中比單饋送變體提供額外的精度增益。
然而,4D-Net 系統真正聰明的部分在于其連接架構搜索的形式——它能夠從融合數據中提取最多、最合適的信息。一次性輕量級可微架構搜索可在 3D 和時間中找到相關信息,并將其連接到兩種不同的傳感模式 - 并學習兩個傳感器在不同抽象級別的特征表示組合。
“[This] 非常強大!“該團隊解釋說:“因為它允許學習不同級別的特征抽象和不同特征來源之間的關系。為了進一步調整自動駕駛汽車的方法,該團隊根據自我注意機制的概念將連接修改為動態的,允許網絡動態選擇特定的可見光數據塊進行信息提取——這意味著它可以學習如何和在哪里根據可變輸入選擇特征。
令人印象深刻的結果
測試系統的單流和多流變體,后者以靜態圖像和以不同分辨率運行的視頻饋送形式引入額外的輸入流,該團隊聲稱與競爭對手的狀態相比取得了一些令人印象深刻的收益-最先進的方法。
針對 Waymo 開放數據集進行測試,4D-Net 提高了所有測試競爭對手方法的平均精度 (AP)。雖然平均而言,它的性能被證明在較短的距離上較弱,但據報道,它識別更遠物體的能力——尤其是 50 米以上的范圍——是無與倫比的,尤其是在多流模式下運行時。
該團隊的實驗表明,4D-Net 在中遠距離與競爭對手的方法相比有顯著的準確度提升,盡管在較短的檢測距離下準確度有所下降。
“我們展示了改進的最先進性能和具有競爭力的推理運行時間。”該團隊總結道:“盡管及時使用了 4D 傳感和兩種模式。在不失一般性的情況下,相同的方法可以擴展到其他 RGB 圖像流,例如,為高度遮擋的對象提供關鍵信息的側攝像頭,或用于 PC [點云] 或圖像的各種可學習特征表示,或其他傳感器。”
研究人員建議,4D-Net 方法也可以用于自動駕駛領域之外,只要需要通過自動對齊音頻、視頻、文本和圖像數據來捕獲同一領域的不同方面。
該團隊的工作在 2021 年計算機視覺國際會議 (ICCV) 上進行了介紹,并已在開放獲取條款下提供。Google AI 博客上提供了 AJ Piergiovanni 和 Anelia Angelova 的支持性文章。研究人員已承諾在開源許可下提供他們的代碼,但在撰寫本文時尚未發布。
2025-04-24 08:29
2025-04-24 08:26
2025-04-24 08:25
2025-04-24 08:24
2025-04-24 08:24
2025-04-24 08:23
2025-04-24 08:22
2025-04-24 08:21
2025-04-23 11:50
2025-04-23 11:50