Google AI最新研究用無監(jiān)督數(shù)據(jù)增強推進(jìn)半監(jiān)督學(xué)習(xí),取得令人矚目的成果。該方法超越了所有現(xiàn)有的半監(jiān)督學(xué)習(xí)方法,并實現(xiàn)了僅使用極少量標(biāo)記樣本即可達(dá)到使用大量標(biāo)記樣本訓(xùn)練集的精度。
深度學(xué)習(xí)之所以能夠成功的關(guān)鍵因素,是算法的進(jìn)步,以及并行處理硬件(GPU / TPU)以及大型標(biāo)記數(shù)據(jù)集(如ImageNet)。
然而,當(dāng)標(biāo)記數(shù)據(jù)稀缺時,深度學(xué)習(xí)就像缺了一條腿。在這種情況下,需要應(yīng)用數(shù)據(jù)增強方法,例如對句子進(jìn)行釋義或?qū)D像進(jìn)行旋轉(zhuǎn),以有效地增加標(biāo)記的訓(xùn)練數(shù)據(jù)的量。
如今,在諸如自然語言處理(NLP),視覺和語音等各種領(lǐng)域的數(shù)據(jù)增強方法的設(shè)計上,已經(jīng)取得了重大進(jìn)展。不幸的是,數(shù)據(jù)增加通常僅限于監(jiān)督學(xué)習(xí),需要標(biāo)簽從原始示例轉(zhuǎn)移到增強示例。
上圖:基于文本(頂部)或基于圖像(底部)訓(xùn)練數(shù)據(jù)的示例增強操作。
在谷歌最近“用于一致性訓(xùn)練的無監(jiān)督數(shù)據(jù)增強(UDA)”的研究中,證明還可以對未標(biāo)記數(shù)據(jù)執(zhí)行數(shù)據(jù)增強,以顯著改善半監(jiān)督學(xué)習(xí)(SSL)。
谷歌的結(jié)果促進(jìn)了半監(jiān)督學(xué)習(xí)的復(fù)興,而且還發(fā)現(xiàn)3點有趣的現(xiàn)象:
(1)SSL可以匹配甚至優(yōu)于使用數(shù)量級更多標(biāo)記數(shù)據(jù)的純監(jiān)督學(xué)習(xí)。
(2)SSL在文本和視覺兩個領(lǐng)域都能很好地工作。
(3)SSL能夠與遷移學(xué)習(xí)很好地結(jié)合。
此外谷歌還開放了代碼在GitHub。
GitHub地址:
https://github.com/google-research/uda
無監(jiān)督數(shù)據(jù)擴(kuò)充
無監(jiān)督數(shù)據(jù)增強同時使用標(biāo)記數(shù)據(jù)和未標(biāo)記數(shù)據(jù)。在標(biāo)記數(shù)據(jù)方面,它使用監(jiān)督學(xué)習(xí)的標(biāo)準(zhǔn)方法來計算損失函數(shù)以訓(xùn)練模型,如下圖的左側(cè)部分所示。
而對于未標(biāo)記的數(shù)據(jù),則應(yīng)用一致性訓(xùn)練來強制預(yù)測未標(biāo)記的示例和增強的未標(biāo)記示例是否相似,如下圖的右側(cè)部分所示。
這里,相同的模型被同時應(yīng)用于未標(biāo)記的示例和增強的對應(yīng)物,以產(chǎn)生兩個模型預(yù)測,從中計算一致性損失(即,兩個預(yù)測分布之間的距離)。
然后,UDA通過聯(lián)合優(yōu)化標(biāo)記數(shù)據(jù)的監(jiān)督損失和未標(biāo)記數(shù)據(jù)的無監(jiān)督一致性損失,來計算最終損失。
通過最小化一致性損失,UDA允許標(biāo)簽信息從標(biāo)記的示例平滑地傳播到未標(biāo)記的示例。
直覺上,人們可以將UDA視為隱含的迭代過程:該模型依賴于少量標(biāo)記的示例,來對一些未標(biāo)記的示例進(jìn)行正確的預(yù)測,從中通過一致性損失,并將標(biāo)簽信息傳播到增強的對應(yīng)物。隨著時間的推移,越來越多未標(biāo)記的示例終將被正確預(yù)測,這反映了模型的改進(jìn)的泛化。
谷歌對各種其他類型的噪聲進(jìn)行一致性訓(xùn)練測試(例如高斯噪聲、對抗性噪聲等)后,在各種各樣的噪聲上實現(xiàn)了最先進(jìn)的性能。
UDA根據(jù)任務(wù)應(yīng)用不同的現(xiàn)有增強方法,包括反向翻譯、自動增強和TF-IDF單詞替換。
新的NLP和計算機(jī)視覺的基準(zhǔn)
UDA在低數(shù)據(jù)體系中出乎意料地有效。只用20個標(biāo)記示例,UDA通過50000個未標(biāo)記的示例,在IMDb情緒分析任務(wù)中實現(xiàn)了4.20的錯誤率。
該結(jié)果優(yōu)于先前使用25000個標(biāo)記示例訓(xùn)練的最先進(jìn)模型(錯誤率為4.32)。在大數(shù)據(jù)制度中,通過完整的訓(xùn)練集,UDA也提供了強大的收益。
IMDb的基準(zhǔn),是一種情緒分析任務(wù)。UDA在不同培訓(xùn)規(guī)模的監(jiān)督學(xué)習(xí)中超越了最先進(jìn)的成果,如下圖。
在CIFAR-10半監(jiān)督學(xué)習(xí)基準(zhǔn)測試中,UDA的表現(xiàn)同樣優(yōu)于所有現(xiàn)有的SSL方法,如VAT、ICT和MixMatch。
在4k示例情況下,UDA實現(xiàn)了5.27的錯誤率,與使用50k示例的完全監(jiān)督模型的性能相匹配。
此外,通過更先進(jìn)的PyramidNet+ShakeDro架構(gòu)p,UDA實現(xiàn)了2.7的新的最新錯誤率,與之前的最佳半監(jiān)督結(jié)果相比,錯誤率降低了45%以上。
在SVHN上,UDA僅使用250個標(biāo)記示例,就實現(xiàn)了2.85的錯誤率,與使用70k標(biāo)記示例訓(xùn)練的完全監(jiān)督模型的性能相匹配。
CIFAR-10的SSL基準(zhǔn)測試,圖像分類任務(wù)。UDA超越了所有現(xiàn)有的半監(jiān)督學(xué)習(xí)方法,所有這些方法都使用Wide-ResNet-28-2架構(gòu)。在4000個示例中,UDA將完全監(jiān)督設(shè)置的性能與50000個示例相匹配。
在具有10%標(biāo)記示例的ImageNet上,UDA將TOP 1精度從55.1%提高到68.7%。
在具有完全標(biāo)記集和1.3M額外未標(biāo)記示例的高數(shù)據(jù)體系中,UDA繼續(xù)為前1精度提供78.3%至79.0%的增益。
為了幫助大家讓學(xué)習(xí)變得輕松、高效,給大家免費分享一大批資料,讓AI越來越普及。有啥不懂的可以加微信交流:Tzy1419957767,交流討論,學(xué)習(xí)交流,共同進(jìn)步。
當(dāng)真正開始學(xué)習(xí)的時候難免不知道從哪入手,導(dǎo)致效率低下影響繼續(xù)學(xué)習(xí)的信心。
但最重要的是不知道哪些技術(shù)需要重點掌握,學(xué)習(xí)時頻繁踩坑,最終浪費大量時間,所以擁有有效資源還是很有必要的。