文章地址。[1907.00516] Learning to Blindly Assess Image Quality in the Laboratory and Wild
這篇主要解決的問題是不同dataset之間subjected-rate的評價scale不一致的問題,眾所周知圖像質(zhì)量評價的數(shù)據(jù)庫一般是由[圖像-主觀評價標(biāo)簽]這種形式構(gòu)成的,主觀評價標(biāo)簽一般是MQS(mean quality score),大概操作方法可能就是搞了很多人來給圖片打分最后取個平均分啥的,但是由于不同數(shù)據(jù)庫構(gòu)建的時候采取的打分標(biāo)準(zhǔn)不一樣,比如有的是百分制,有的是五分制啦,或者告訴參與者的打分標(biāo)準(zhǔn)不一樣,這些數(shù)據(jù)不能一起用于訓(xùn)練。本來圖片質(zhì)量評估這塊數(shù)據(jù)就少,train的效果和dataset又息息相關(guān)。
主要思路也很簡單,拋棄原來的scores,只保留ranking信息,對j個數(shù)據(jù)庫分別做pairs sampling,用二值標(biāo)簽標(biāo)記這些pairs來表明rank。就是說雖然原來做的那些subjected test有不同的scale,我們不能采用他們打的分,但是rank信息卻是可靠的,一個pairs里哪張圖好哪張圖不好我們是可以確定的。我們現(xiàn)在需要做的是,尋找一個依賴于參數(shù)組ω的函數(shù)Fω(x),它把輸入圖片x轉(zhuǎn)化成一個表示標(biāo)準(zhǔn)感知質(zhì)量的scalar,而且根據(jù)這個函數(shù)的轉(zhuǎn)化結(jié)果與我們不同pairs里面的ranking標(biāo)簽有最大似然。在這個圖片→感知質(zhì)量轉(zhuǎn)化器之下,最有可能實(shí)現(xiàn)我們的這些ranking分布。
核心想法就是不直接利用主觀評價的分?jǐn)?shù),而是利用主觀評價的ranking,這樣就可以利用不同dataset里的數(shù)據(jù)。
網(wǎng)絡(luò)結(jié)構(gòu)也很簡單。輸入結(jié)構(gòu)是(x,y,r),同一個數(shù)據(jù)庫里的兩張圖片以及他們的二值ranking。網(wǎng)絡(luò)框架是ResNet-34,優(yōu)化方法是Adam(其實(shí)就是Momentum+RMSProp的結(jié)合,然后再修正其偏差。?),Loss函數(shù)用的是交叉熵。
