曠視科技孫劍團(tuán)隊(duì)首次披露AutoML相關(guān)成果,通過構(gòu)建一個(gè)簡(jiǎn)化的超網(wǎng)絡(luò)來解決訓(xùn)練過程中面對(duì)的主要挑戰(zhàn)。在在ImageNet上的實(shí)驗(yàn)結(jié)果超過了谷歌、Facebook等AutoML技術(shù)的成績(jī)。
曠視首次曝光自家AutoML技術(shù)。
今天,曠視科技首席科學(xué)家孫劍團(tuán)隊(duì)發(fā)布論文Single Path One-Shot Neural Architecture Search with Uniform Sampling,首次披露AutoML中的重要子領(lǐng)域神經(jīng)結(jié)構(gòu)搜索的最新成果——單路徑One-Shot模型。
單路徑One-Shot模型用來解決訓(xùn)練過程中面對(duì)的主要挑戰(zhàn),其核心思想是構(gòu)建一個(gè)簡(jiǎn)化的超網(wǎng)絡(luò)——單路徑超網(wǎng)絡(luò)(Single Path Supernet),這個(gè)網(wǎng)絡(luò)按照均勻的路徑采樣方法進(jìn)行訓(xùn)練,在ImageNet上的實(shí)驗(yàn)證明,這一方法在精度、內(nèi)存消耗、訓(xùn)練時(shí)間、模型搜索的有效性及靈活性方面結(jié)果最優(yōu),超過了谷歌、Facebook等公司AutoML技術(shù)的成績(jī)。
設(shè)計(jì)神經(jīng)網(wǎng)絡(luò)非常耗費(fèi)時(shí)間,并且需要專業(yè)知識(shí),幾年前谷歌創(chuàng)建了AutoML的方法,通常使用強(qiáng)化學(xué)習(xí)或進(jìn)化算法來設(shè)計(jì)新的神經(jīng)網(wǎng)絡(luò)架構(gòu),也證明神經(jīng)網(wǎng)絡(luò)可以設(shè)計(jì)神經(jīng)網(wǎng)絡(luò)。
論文的作者之一、曠視上海研究院負(fù)責(zé)人危夷晨表示,深度學(xué)習(xí)是非常通用的技術(shù),但在實(shí)際落地時(shí)會(huì)面臨在不同行業(yè)、不同場(chǎng)景、不同計(jì)算設(shè)備上尋找最優(yōu)算法和工程實(shí)現(xiàn)的問題。自動(dòng)神經(jīng)網(wǎng)絡(luò)搜索是用“計(jì)算換智能”的新范式,可以極大地加速我們的產(chǎn)品及解決方案在各行業(yè)的落地。
單路徑One-Shot模型:模型搜索框架的新變體
深度學(xué)習(xí)終結(jié)了手工設(shè)計(jì)特征的時(shí)代,同時(shí)解決了權(quán)重優(yōu)化問題。NAS(神經(jīng)網(wǎng)絡(luò)模型搜索)則旨在通過另一個(gè)方法——模型搜索(architecture search),終結(jié)人工設(shè)計(jì)架構(gòu)。
早期的NAS方法使用嵌套式優(yōu)化,從搜索空間采樣出模型結(jié)構(gòu),接著從頭訓(xùn)練其權(quán)重,缺點(diǎn)是對(duì)于大型數(shù)據(jù)集來講計(jì)算量過大。新近的NAS方法則采用權(quán)重共享策略減少計(jì)算量。本文提出的超網(wǎng)絡(luò)則包含所有子結(jié)構(gòu),只訓(xùn)練一次,所有子結(jié)構(gòu)便可以直接從超網(wǎng)絡(luò)獲得其權(quán)重,無(wú)需從頭訓(xùn)練。即使在大型數(shù)據(jù)集上,計(jì)算也十分高效。
大多數(shù)權(quán)重共享方法使用連續(xù)的搜索空間,將模型結(jié)構(gòu)分布不斷參數(shù)化。這些參數(shù)在超網(wǎng)絡(luò)訓(xùn)練期間與網(wǎng)絡(luò)權(quán)重進(jìn)行聯(lián)合優(yōu)化。因此可以在優(yōu)化時(shí)進(jìn)行模型搜索,從分布中采樣最優(yōu)的架構(gòu)。其公式化表示優(yōu)雅而理論完備。但是存在兩個(gè)問題:
第一,超網(wǎng)絡(luò)的權(quán)重深度耦合。目前尚不清楚為什么特定結(jié)構(gòu)的復(fù)用權(quán)重(inherited weights)依然有效。
第二,聯(lián)合優(yōu)化導(dǎo)致了模型參數(shù)和超網(wǎng)絡(luò)權(quán)重的進(jìn)一步耦合。梯度方法的貪婪天性不可避免地在結(jié)構(gòu)分布和超網(wǎng)絡(luò)權(quán)重中引入偏差。這很容易誤導(dǎo)模型搜索。精細(xì)地微調(diào)超參數(shù)和優(yōu)化過程被用于先前方法之中。
One-shot(一步法)是一種新范式。它定義了超網(wǎng)絡(luò),并以相似的方式做權(quán)重復(fù)用。但是并沒有將模型結(jié)構(gòu)分布參數(shù)化。模型搜索從超網(wǎng)絡(luò)訓(xùn)練中解耦,并且解決步驟是獨(dú)立的。因此,One-shot具有序列性。它結(jié)合了上述嵌套式和聯(lián)合式優(yōu)化方法的優(yōu)點(diǎn),因此靈活而高效。
盡管第二個(gè)問題已解決,現(xiàn)有One-shot并未很好地解決第一個(gè)問題。超網(wǎng)絡(luò)的權(quán)重依然耦合。優(yōu)化依然復(fù)雜,并包含敏感的超參數(shù),導(dǎo)致在大型數(shù)據(jù)集上表現(xiàn)欠佳。
曠視提出方法的動(dòng)機(jī)旨在吸收One-shot的優(yōu)點(diǎn),克服其缺點(diǎn)。One-shot成功的關(guān)鍵是使用復(fù)用權(quán)重的模型的精度可以用來預(yù)測(cè)從頭訓(xùn)練模型的精度。因此,曠視研究院提出,超網(wǎng)絡(luò)訓(xùn)練應(yīng)是隨機(jī)的。這樣所有子結(jié)構(gòu)的權(quán)重能夠被同時(shí)且均勻地優(yōu)化。
為減少超網(wǎng)絡(luò)的權(quán)重耦合,曠視研究院提出一個(gè)單路徑超網(wǎng)絡(luò),在每次迭代訓(xùn)練中只有單路徑結(jié)構(gòu)被激活。訓(xùn)練中不需要任何超參數(shù)來指導(dǎo)子結(jié)構(gòu)的選擇,采用均勻采樣的方式,平等對(duì)待所有子結(jié)構(gòu)。
本文方法簡(jiǎn)單而靈活,超網(wǎng)絡(luò)訓(xùn)練中沒有超參數(shù)。其簡(jiǎn)易性允許設(shè)計(jì)豐富的搜索空間,包括新設(shè)計(jì)通道單元和位寬單元。模型搜索過程十分高效,因?yàn)橹恍枰诔W(wǎng)絡(luò)的權(quán)重進(jìn)行前向計(jì)算。進(jìn)化算法則用來輕松支持多種約束。
綜合性消融實(shí)驗(yàn)及在大型數(shù)據(jù)集(ImageNet)上的實(shí)驗(yàn)證明了這一方法在精度、內(nèi)存消耗、訓(xùn)練時(shí)間、模型搜索的有效性及靈活性方面都表現(xiàn)良好,達(dá)到了當(dāng)前最優(yōu)的結(jié)果。
方法詳解
如上所述,耦合式模型搜索和權(quán)重優(yōu)化是存在挑戰(zhàn)和問題的。通過回顧發(fā)現(xiàn),早期使用嵌套優(yōu)化的 NAS 方法在于解決公式 (1) 和 (2) 的優(yōu)化問題,這不禁引起思考,問題解耦和權(quán)重共享的優(yōu)點(diǎn)是否可以兼得?
這一考慮誕生了所謂的 One-shot 。這些方法依然只訓(xùn)練一次超網(wǎng)絡(luò),并允許各結(jié)構(gòu)共享其中的權(quán)重。
但是,超網(wǎng)絡(luò)訓(xùn)練及模型搜索作為先后次序的兩個(gè)步驟是解耦的。請(qǐng)注意,這不同于嵌套優(yōu)化或聯(lián)合優(yōu)化。
首先,超網(wǎng)絡(luò)權(quán)重被優(yōu)化為:
相比公式 (4)
公式 (5) 已經(jīng)不存在搜索空間的連續(xù)參數(shù)化,只有網(wǎng)絡(luò)權(quán)重被優(yōu)化。
其次,搜索部分被表示為:
公式 (6) 與公式 (1) 、 (2) 的最大區(qū)別是其權(quán)重是預(yù)先初始化的。評(píng)估僅需要推理。沒有微調(diào)或者再訓(xùn)練。因此搜索非常有效。
通過借助進(jìn)化算法,搜索同樣非常靈活。像等式 (3)
對(duì)模型結(jié)構(gòu)進(jìn)行的約束可以精確地滿足。并且一旦訓(xùn)練好一個(gè)超網(wǎng)絡(luò),可在同一超網(wǎng)絡(luò)內(nèi)基于不同約束(比如 100ms 和 200ms 延遲)重復(fù)搜索。這些特性是先前方法所缺失的,將使 One-Shot NAS 方法對(duì)實(shí)際任務(wù)更具吸引力。
但依然存在一個(gè)問題。在等式 (5) 中,超網(wǎng)絡(luò)訓(xùn)練的圖節(jié)點(diǎn)權(quán)重是耦合的,復(fù)用權(quán)重是否適用于任意子結(jié)構(gòu)尚不清楚。
單路徑超網(wǎng)絡(luò)和均勻采樣
按照基本原理重新出發(fā),會(huì)使 One-Shot 范式更有效。在等式 (5) 中,模型搜索成功的關(guān)鍵在于,在驗(yàn)證集中,使用復(fù)用權(quán)重(沒有額外的微調(diào))的任意子結(jié)構(gòu)的精度是高度可信的。正如等式 (1) 是理想情況,需要權(quán)重
近似最優(yōu)權(quán)重
。近似的效果和訓(xùn)練損失函數(shù)
被最小化的程度成正比。這推導(dǎo)出一個(gè)原則:超網(wǎng)絡(luò)權(quán)重
的優(yōu)化應(yīng)當(dāng)與搜索空間中所有子結(jié)構(gòu)的優(yōu)化同時(shí)進(jìn)行。這可表示為:
請(qǐng)注意,等式 (7) 是等式 (5) 的實(shí)現(xiàn)。在優(yōu)化的每一步中,子結(jié)構(gòu)是隨機(jī)采樣的,只有對(duì)應(yīng)的權(quán)重被激活和更新。這不僅節(jié)省內(nèi)存空間,而且高效。由此,超網(wǎng)絡(luò)本身不再是一個(gè)有效的網(wǎng)絡(luò),而變成一個(gè)隨機(jī)的網(wǎng)絡(luò)。
為減少節(jié)點(diǎn)權(quán)重之間的協(xié)同適應(yīng),曠視研究院提出最大化簡(jiǎn)化搜索空間。它只包含單一路徑架構(gòu),如圖 1 所示。
圖 1:?jiǎn)我宦窂匠W(wǎng)絡(luò)架構(gòu)圖
在每次訓(xùn)練時(shí)僅保留一個(gè)。不存在任何調(diào)優(yōu)。訓(xùn)練在本文實(shí)驗(yàn)中收斂良好。
先驗(yàn)分布很重要。曠視研究員通過實(shí)驗(yàn)發(fā)現(xiàn),均勻采樣已經(jīng)足夠好。這并不讓人驚訝。這是因?yàn)閷?shí)際任務(wù)常常期望有多個(gè)模型結(jié)構(gòu),以滿足不同的約束。圖 2 表明,兩個(gè)采樣方法皆工作良好,均勻約束采樣方法表現(xiàn)稍好,本文默認(rèn)使用它。
圖 2:不同采樣策略的單路徑超網(wǎng)絡(luò)的進(jìn)化模型搜索
2025-03-28 08:34
2025-03-28 08:31
2025-03-28 08:28
2025-03-28 08:27
2025-03-28 08:27
2025-03-28 08:26
2025-03-28 08:25
2025-03-28 08:24
2025-03-28 08:22