Deep Learning for Image Super-resolution: A Survey
超分辨簡介
圖像超分辨率是計算機視覺和圖像處理領(lǐng)域一個非常重要的研究問題,在醫(yī)療圖像分析、生物特征識別、視頻監(jiān)控與安全等實際場景中有著廣泛的應(yīng)用。隨著深度學習技術(shù)的發(fā)展,基于深度學習的圖像超分方法在多個測試任務(wù)上,取得了目前最優(yōu)的性能和效果。本篇綜述給出了一個統(tǒng)一的深度學習視角,來回顧最近的超分技術(shù)進展,主要包括三個方面:
給出了綜合性的基于深度學習的圖像超分技術(shù)綜述,包括問題設(shè)置、數(shù)據(jù)集、性能度量、一組基于深度學習的圖像超分方法集合,特定領(lǐng)域的圖像超分方法應(yīng)用等等。
為最近基于深度學習的圖像超分算法提供了系統(tǒng)性、結(jié)構(gòu)化的視角,并總結(jié)了高效圖像超分解決方案中的優(yōu)勢與劣勢。
-
討論了這個領(lǐng)域的挑戰(zhàn)與開放問題,并總結(jié)了最近的新趨勢與未來的發(fā)展方向。
在這里插入圖片描述
最新進展
1. 超分網(wǎng)絡(luò)的升采樣結(jié)構(gòu)
根據(jù)升采樣(upsampling)在網(wǎng)絡(luò)結(jié)構(gòu)中的位置和使用方式,可以把超分網(wǎng)絡(luò)結(jié)構(gòu)設(shè)計分為四大類:前端升采樣(pre-upsampling)超分網(wǎng)絡(luò)、后端(post-upsampling)升采樣超分網(wǎng)絡(luò)、漸進式升采樣(progressive upsampling)超分網(wǎng)絡(luò)、升降采樣迭代式(iterativeup-and-down sampling)超分網(wǎng)絡(luò)。
前端升采樣網(wǎng)絡(luò),一般使用雙三次(bicubic)插值直接將低分辨率圖像插值到目標分辨率,然后深度卷積網(wǎng)絡(luò)等模型重建高質(zhì)量細節(jié)信息,這類方法顯著降低了學習的難度,但是預先設(shè)定的升采樣方法會引入模糊(noise)、噪聲放大(noise amplification)等問題,同時因為網(wǎng)絡(luò)在前端即進行插值到高分辨率空間,所需的存儲空間和耗時都遠高于其他類型超分網(wǎng)絡(luò)。
后端升采樣網(wǎng)絡(luò),一般在網(wǎng)絡(luò)結(jié)構(gòu)的最后一層或幾層,使用端到端可學習的升采樣層,絕大部分映射變換都在低分辨率空間進行,計算復雜度和空間復雜度都明顯降低,同時訓練和測試速度也都明顯提高,被多前主流超分網(wǎng)絡(luò)框架所使用。
漸進式升采樣網(wǎng)絡(luò),主要是解決多個超分倍增系數(shù)(scaling factor)和大的超分倍增系數(shù),升采樣不是一步完成的,而是采用拉普拉斯金字塔或者級聯(lián)CNN等方式,產(chǎn)生一些中間(intermediate)的重建圖像作為后續(xù)模塊的輸入圖像(“base images”),另外諸如課程學習(curriculum learning)和多級監(jiān)督(multi-supervision)等學習策略也可以被引入進來,這類方法可以降低學習難度,特別是在大的超分倍增系數(shù)時。另外,在多尺度超分問題上也可以減少參數(shù)量和耗時。
升降采樣迭代式超分網(wǎng)絡(luò),借鑒了反向投影(back-projection)的思想,通常會交替地使用升采樣和降采樣層,最終重建的高分辨率結(jié)果會用到之前全部中間層得到高分辨率特征圖,這類方法的思想剛被引入圖像超分問題不久,已經(jīng)取得了非常好的性能和效果,有很大的潛力,值得關(guān)注和探索。
2. 可學習的升采樣方法
轉(zhuǎn)置卷積(transposed convolution),也就是所謂的反卷積(deconvolution),相當于正常卷積的反向操作,可以嵌入到端到端的網(wǎng)絡(luò)結(jié)構(gòu)中,但是容易產(chǎn)生棋盤格效應(yīng)。
-
亞像素(sub-pixel)卷積,同樣可以嵌入到端到端的網(wǎng)絡(luò)結(jié)構(gòu)中,使用正常的卷積結(jié)構(gòu),但是輸出的通道數(shù)(channel)與目標分辨率有關(guān),隨后對這些通道進行“洗牌”(shuffle)操作,類似于像素重排,得到與目標分辨率相同的輸出。亞像素卷積與轉(zhuǎn)置卷積相比,最大的優(yōu)勢在于神經(jīng)元的感受野較大,可以為超分辨率重建提供更多上下文信息,但是這些神經(jīng)元感受野的分布是不均勻的,像素“洗牌”操作中同一個小塊狀區(qū)域(blocky region)的感受野相同,容易在一些邊緣區(qū)域產(chǎn)生偽影現(xiàn)象。
在這里插入圖片描述
3. 全局和局部網(wǎng)絡(luò)結(jié)構(gòu)設(shè)計
殘差學習(residual learning),在ResNet被提出之前,在超分領(lǐng)域?qū)埐钸M行學習的思想已經(jīng)在很多研究工作中出現(xiàn)。其中,全局殘差學習(global residual learning)只是學習插值后得到的圖像和高分辨率圖像之間的殘差,通過學習一張殘差圖來恢復高頻細節(jié);而局部殘差學習(local residual learning)則類似于ResNet中的短連接(shortcut connection)。
遞歸學習(recursive learning)可以不引入額外參數(shù)的同時,大大增加網(wǎng)絡(luò)的感受野,做法就是遞歸地多次使用同個模塊,例如對同一卷積層遞歸使用多次,還有將大的超分倍增系數(shù)的問題,分解成多個子問題,使用遞歸的網(wǎng)絡(luò)子結(jié)構(gòu)來解決等等。但是,遞歸學習容易出現(xiàn)梯度消失和爆炸的問題,需要將殘差學習和多級監(jiān)督等策略融入進來以減輕這些問題。
多支路學習(multi-path learning)主要思路是為網(wǎng)絡(luò)設(shè)計多條支路來提升模型的容量和表達能力,分為全局多支路學習(global multi-path learning)、局部多支路學習(localmulti-path learning)、尺度相關(guān)的多支路學習(scale-specificmulti-path learning)等
稠密連接(dense connections),是與DenseNet緊密聯(lián)系的,稠密連接被引入圖像超分問題,不僅可以減輕梯度消失的問題,還可以對特征進行重用,提升效果,在使用小的增長率(growth rate)時,可以很好地控制參數(shù)量,目前越來越受到關(guān)注和使用。
通道重縮放(channel attention)是考慮特征表達中不同通道之間的關(guān)系,通常是引入一些額外的小結(jié)構(gòu)來按通道(channel-wise)進行重縮放(rescale)。
高級卷積結(jié)構(gòu)(advanced convolution),近來受到關(guān)注的主要是空洞卷積(dilated convolution)和成組卷積(group convolution)兩種。
像素遞歸學習(pixel recursive learning),這類方法是逐像素生成(pixel-by-pixel generation)高分辨率圖像的,可以更好地捕獲全局上下文信息和像素序列生成時的相關(guān)性,但是計算代價很高,同時訓練也比較復雜。
金字塔池化(pyramid pooling)通常使用多個不同的尺度參數(shù),來聚合全局和局部上下文信息。
小波域變換(wavelet transformation)分別對高分辨圖像和低分辨率圖像進行小波變換,在不同的子頻帶(sub-bands)進行映射學習。
4. 損失函數(shù)設(shè)計
像素級(pixel loss),主要比較兩幅圖像像素級的差別,包括L1和L2損失,近來研究表明L1損失可以取得更好的性能和收斂速度。這類損失沒有對圖像內(nèi)容和語義進行評價,通常會產(chǎn)生過于平滑的超分結(jié)果。
內(nèi)容損失(content loss),主要是從圖像內(nèi)容理解和感知層面對圖像質(zhì)量進行評價,通常使用預訓練好的圖像識別(如VGG和ResNet等)網(wǎng)絡(luò),比較中間某些層的特征圖之間的歐式空間距離。
紋理損失(texture loss),想法來源于風格遷移工作中,重建圖像應(yīng)該與原始圖像有相同的風格(顏色、紋理、對比度等)。因此,紋理損失又稱為風格重建損失(style reconstruction loss),一般使用不同特征通道的相關(guān)性來度量。
競爭生成損失(adversial loss),隨著GAN的興起,競爭生成網(wǎng)絡(luò)中生成器和判別器的思路被引入超分問題,超分網(wǎng)絡(luò)即是生成器(generator),另外定義一個判別器來判斷輸入的圖像是否為生成的。在這種損失函數(shù)中,也可以借鑒內(nèi)容損失的想法,判別器使用圖像的高層表達來進行判斷。
往復一致性保持損失(cycle consistency loss),受CycleGAN的啟發(fā),通常是在兩階段生成時,保持再次生成的圖像和原始輸入相同。
全變分損失(total variation loss),主要是為了抑制生成圖像中的噪聲,一般定義是相鄰像素之間差的絕對值,引入全變分損失可以使圖像變得平滑。
基于先驗知識的損失(prior-based loss),通過一些外部已知的先驗,作為一些約束放入損失函數(shù),例如人臉超分對關(guān)鍵點的約束等。
5. 批歸一化
批歸一化(BatchNormalization,BN)層在很多視覺任務(wù)中被驗證有效,但是在最近關(guān)于超分中使用BN層存在一些爭議,部分研究者指出使用BN層會丟失圖像的尺度信息和網(wǎng)絡(luò)參數(shù)的自由范圍變化,導致超分效果下降。
6. 課程學習
課程學習(curriculumlearning)從簡單的子任務(wù)開始逐漸增加難度,因為圖像超分問題存在很多困難情形,如大的超分倍增系數(shù),噪聲,模糊等,這種從易到難的策略可以起到很大幫助。例如,可以將8x的超分問題分解成三個子問題,1x到2x,2x到4x,4x到8x,為每個子問題單獨學習一個網(wǎng)絡(luò)。
7. 多級監(jiān)督
多級監(jiān)督(multi-supervision)為網(wǎng)絡(luò)的學習增加多個額外的監(jiān)督信號,可以有效減輕梯度消失和爆炸問題,例如在遞歸式結(jié)構(gòu)中就可以使用多級監(jiān)督策略,對每一級遞歸產(chǎn)生的結(jié)果進行監(jiān)督,通常多級監(jiān)督的表現(xiàn)形式是在損失函數(shù)里添加了若干相關(guān)項。
8. 其他網(wǎng)絡(luò)設(shè)計和學習策略
上下文融合網(wǎng)絡(luò)(context-wise network fusion,CNF),將多個超分網(wǎng)絡(luò)模型的結(jié)果使用stacking的策略融合起來。
數(shù)據(jù)增強(data augmentation),常見的隨機裁剪、翻轉(zhuǎn)、縮放、旋轉(zhuǎn)、顏色微小抖動等,最近也出現(xiàn)了隨機打亂RGB三個通道的方法。
多任務(wù)學習(multi-task learning),通過訓練數(shù)據(jù)中和超分相關(guān)聯(lián)的任務(wù)蘊含的專有領(lǐng)域的信息來提升模型的泛化性能。例如可以分別訓練一個去噪網(wǎng)絡(luò)和一個超分網(wǎng)絡(luò),或者嵌入預訓練好的語義分割網(wǎng)絡(luò)來提供語義信息等。
網(wǎng)絡(luò)插值(network interpolation),為了平衡視覺質(zhì)量和圖像保真度,可以對兩個網(wǎng)絡(luò)相應(yīng)參數(shù)進行插值,來生成中間模型,不需要重訓練就可以得到折中的超分結(jié)果。
圖像自融合(self ensemble),又稱預測增強(enhanced prediction),將一張圖像多種旋轉(zhuǎn)角度后,得到一組圖像,分別得到超分辨圖像,然后逆旋轉(zhuǎn)回到原始角度,將所有這組超分辨率圖像進行加權(quán)平均或者取中值,得到最終的超分結(jié)果。
9. 無監(jiān)督圖像超分辨率
監(jiān)督學習的圖像超分辨率,基本上是學習了人為設(shè)計的圖像降質(zhì)過程的逆過程,需要LR-HR的圖像對(image pairs),與實際場景中的圖像超分問題不太符合。實際中的超分問題,只有不成對(unpaired)的低分辨率和高分辨圖像可以用來進行訓練。無監(jiān)督的圖像超分辨率也受到越來越多關(guān)注。
- 零樣本學習的圖像超分
考慮到圖像自身內(nèi)容就可以為超分提供統(tǒng)計信息,因此,可以不用在大數(shù)據(jù)集上訓練一個普適超分模型,而是在測試階段訓練一個專有圖像的超分網(wǎng)絡(luò),比如可以使用核估計(kernel estimation)的方法在單張測試圖像中估計降質(zhì)過程,但是這類方法每張圖像測試時都需要學習一個網(wǎng)絡(luò),非常耗時。
- 弱監(jiān)督學習的圖像超分
近來弱監(jiān)督學習的圖像超分主要有兩類方法,一類是學習HR到LR的降質(zhì)過程,一類是同時學習LR到HR,HR到LR這種往復的映射(cycle-in-cycle)關(guān)系。
- 深度圖像先驗
深度圖像先驗(DeepImage Prior)目前主要是使用隨機初始化的CNN作為手工設(shè)計的先驗去進行超分。
10. 超分在專有領(lǐng)域的應(yīng)用
目前圖像在專有領(lǐng)域的超分,主要有深度圖像超分、人臉圖像超分、高光譜圖像超分、視頻圖像超分、檢測分割中的小物體超分等。
發(fā)展趨勢
下面從超分網(wǎng)絡(luò)結(jié)構(gòu)設(shè)計、學習策略、評價指標、無監(jiān)督學習、實際場景等幾個方面,來闡述一下圖像超分領(lǐng)域的發(fā)展趨勢。
1. 網(wǎng)絡(luò)結(jié)構(gòu)設(shè)計
融合局部和全局信息
融合底層和高層信息
不同上下文信息區(qū)別對待的注意力機制
輕量化網(wǎng)絡(luò)結(jié)構(gòu)
升采樣層的改進
2. 學習策略
精確表達圖像差異的損失函數(shù)設(shè)計
適合圖像超分的歸一化方法
3. 評價指標
全面評價超分圖像質(zhì)量的主客觀統(tǒng)一指標
無參考圖像的圖像質(zhì)量評價
4. 無監(jiān)督的圖像超分
- 不成對的低分辨率和高分辨圖像之間的降質(zhì)過程進行學習,而不再使用人工設(shè)計好的降質(zhì)過程去生成低分辨率和高分辨率圖像對。
5. 實際場景中的圖像超分
適應(yīng)多種多樣的降質(zhì)過程
專有領(lǐng)域圖像超分的應(yīng)用
任意尺寸縮放的圖像超分