論文地址：https://arxiv.org/abs/1802.10349
代碼地址：https://github.com/wasidennis/AdaptSegNet

1. Introduction

??有時source和target 領(lǐng)域有很大的不同，使用監(jiān)督模型的效果不是很好，為了解決這個問題，已提出知識轉(zhuǎn)移或領(lǐng)域適應(yīng)技術(shù)，以縮小源和目標域之間的差距。然而，不同于圖像分類的任務(wù)，特征適應(yīng)的語義分割。可能會受到高維度特性的復(fù)雜性的影響，這些特征需要對不同的視覺線索進行編碼，包括外觀、形狀和上下文。這激勵我們開發(fā)一種有效的方法來適應(yīng)像素級的預(yù)測任務(wù)，而不是使用特征適應(yīng)。
??在語義分割中，我們注意到輸出空間包含了豐富的信息，無論是在空間上還是在局部。例如，即使兩個域的圖像在外觀上非常不同，它們的分割輸出也有大量的相似點，例如，基于這個觀察的空間和局部上下文，我們在輸出空間中處理像素級的域適應(yīng)問題。
??本文提出了一種端到端的基于CNN的領(lǐng)域自適應(yīng)算法，鑒別器區(qū)分輸入是否來自源或目標分割輸出。基于對抗網(wǎng)絡(luò)，這個被提出的模型由兩部分組成:1)一個分割模型去預(yù)測輸出結(jié)果;2)提出的分割模型具有對抗性的損失，目的是為了欺騙鑒別器，目標是在輸出空間中生成類似的分布，用于源或目標圖像。
??但是，一個問題是，較低級別的特性可能無法很好地適應(yīng)，因為它們遠離高級別的輸出標簽。為了解決這個問題，我們開發(fā)了一個多層次的trategy，通過在不同特征層次的分割模型中加入對抗性學習。
??本文的貢獻有兩個，第一是提出了一個領(lǐng)域自適應(yīng)方法對于像素級的語義分割通過對抗學習；第二是證明了在輸出(分割)空間中的適應(yīng)可以有效地對齊場景布局和局部上下文在源和目標圖像之間。第三，開發(fā)了一種多層次的對抗學習方案，以適應(yīng)不同層次的細分模型，從而提高了性能。我們使用像素級預(yù)測是結(jié)構(gòu)化輸出的屬性。這包含了空間和局部的信息，提出了有效的領(lǐng)域適應(yīng)算法的對抗在輸出空間中學習。

2. Algorithmic Overview

2.1 Overview of the Proposed Model

??這個算法由兩部分組成:一個是分割網(wǎng)絡(luò)G一個是判別器D。在這里，i指出了多級對抗性學習中的鑒別器的水平。兩組圖像I_s和I_t分別表示源和目標域。首先將源圖像I_s(帶標注)轉(zhuǎn)發(fā)給分割網(wǎng)絡(luò)進行優(yōu)化，然后我們預(yù)測圖像I_t(沒有標注)的分割softmax輸出p_t。因為我們的目標是對源和目標圖像進行分割預(yù)測。我們將這兩個預(yù)測作為鑒別器的輸入，以區(qū)分輸入是來自源還是目標域。通過對目標預(yù)測的對抗性損失，網(wǎng)絡(luò)從D i到G傳播梯度，這將鼓勵G在目標域生成類似的分割分布到源預(yù)測。

2.2 Objective Function for Domain Adaptation

??損失函數(shù):

L_seg是交叉損失熵，使用真實標簽在源領(lǐng)域。L_adv是對抗損失，通過對目標圖像的預(yù)測分割，對源預(yù)測的分布進行預(yù)測。lambda_adv是平衡兩個損失的權(quán)重。

3 Output Space Adaptation

??不同于圖像分類，基于描述圖像的全局視覺信息的特征，在語義分割中學習的高維特征編碼復(fù)雜的表示。

3.1. Single-level Adversarial Learning

??分割softmax輸出P=G(I)(H x W x C)C是類別數(shù)目。將P輸入到全卷積判別器D中使用交叉損失熵L_d（兩個類，一個是源領(lǐng)域一個是目標領(lǐng)域），損失函數(shù)如下：

如果這個樣本是來自于目標領(lǐng)域，z=0；如果是來自源領(lǐng)域，z=1.

Segmentation Network Training

??首先定義源領(lǐng)域的分割損失，

Y_s是真實標簽，P_s=G(I_s)是分割輸出；第二，在目標領(lǐng)域的圖片，前向傳播到G獲得預(yù)測P_t=G(I_t)，為了使P_t的分布更接近P_s，使用對抗損失L_adv:

這種損失是為了訓練分割網(wǎng)絡(luò)，通過最大化目標預(yù)測被認為是源預(yù)測的概率來欺騙鑒別器。

3.2 Multi-level Adversarial Learning

??雖然對抗學習可以調(diào)整預(yù)測，但是低級特征可能調(diào)整的不是很好，因為他們離輸出比較遠，和深度監(jiān)督學習方法相似，使用額外損失，合并附加的對抗模塊在低級特征空間為了增強自適應(yīng)。訓練目標如下:

其中，i表示用于預(yù)測分割輸出的級別。我們注意到，在每個特征空間中仍然可以預(yù)測分割輸出，然后再通過個體鑒別器進行對抗性學習。優(yōu)化標準是：

最終的目標是盡量減少源圖像中G的分割損失，同時最大化目標預(yù)測的概率作為源預(yù)測。

Network Architecture and Training

Discriminator

??判別器網(wǎng)絡(luò)是由5個卷積層，核是4 x 4，步幅是2，通道數(shù)量是64,128,256,512,1.除了最后一層每一個卷積層后面都有一個leaky
Relu，參數(shù)是0.2.最后再添加一個上采樣層 resize到和輸入大小一樣，不使用BN。使用一個小的batch size一起訓練判別器和分割網(wǎng)絡(luò).

Segmentation Network

??采用DeepLab-v2模型，以ResNet-101預(yù)訓練在ImageNet作為分割網(wǎng)絡(luò)。本文沒有使用多尺度的混合策略.我們移除最后一個分類層，并將最后兩個卷積層的跨度從2調(diào)整為1，使輸出特性圖的分辨率有效地達到輸入圖像大小的1/8。為了增大感受視野，本文在conv4和conv5卷積層分別stride是2和4.最后一個卷積層后使用了空洞空間金字塔池化作為最終的分類器，最后使用了上采樣與softmax輸出一起，以匹配輸入的大小圖像。

Multi-level Adaptation Model

??我們構(gòu)建了上述的鑒別器和分割網(wǎng)絡(luò)作為我們的單級適應(yīng)模型。對于多級結(jié)構(gòu)，我們從conv4層提取feature map，并添加ASPP模塊作為輔助分類器。類似地，在adversarial學習中添加了具有相同體系結(jié)構(gòu)的鑒別器。

Network Training

??本文發(fā)現(xiàn)聯(lián)合訓練分割網(wǎng)絡(luò)和判別器是有效的。在每一個訓練batch中，首先前向傳播這個原圖片I_s優(yōu)化分割網(wǎng)絡(luò)得到L_seg和產(chǎn)生輸出P_s，對于目標圖片I_t，獲得分割輸出I_t。把它和P_s一起傳遞到判別器中優(yōu)化L_d,還要計算對抗損失L_adv對于多級預(yù)測，僅僅是重復(fù)一樣的過程對于每一個自適應(yīng)模塊。
??訓練分割網(wǎng)絡(luò)，使用SGD，Nesterov加速，momentum是0.9，weight decay是10e-4,初始化學習率是2.5 x 10e-4，使用poly學習率減少，power=0.9。訓練判別器，使用Adam優(yōu)化器，學習率為10e-4和分割網(wǎng)絡(luò)一樣的學習率下降方式，momentum設(shè)置為0.9和0.99。
??lamda_adv=0.001,所提出的適應(yīng)方法。輸出空間的性能優(yōu)于特征中的。適應(yīng)在特征空間對λ_adv更敏感,導致訓練過程更困難，而輸出空間適應(yīng)允許更廣泛的范圍。其中一個原因是由于在高維空間中進行了特征適應(yīng)，因此鑒別器的問題變得更加容易。因此，這種適應(yīng)性模型不能通過對抗性學習有效地匹配源域和目標域之間的分布。由于低水平的輸出攜帶較少的信息來預(yù)測分割，所以我們在分割和對抗性損失中使用更小的權(quán)重。λ_seg_2= 0.1和λ_adv_2= 0.0002,λ_seg_1= 1和λ_adv_2= 0.001)。評價結(jié)果表明，我們的多層次對抗性適應(yīng)進一步提高了分割的準確性。