人工數(shù)據(jù)合成的概念通常包含兩種不同的變體:第一種是白手起家創(chuàng)造新的數(shù)據(jù);第二種是已經(jīng)有了一小部分帶標(biāo)簽的訓(xùn)練集,然后擴(kuò)充為一個(gè)大的訓(xùn)練集

人工數(shù)據(jù)合成

人工數(shù)據(jù)合成
字符識(shí)別的更大的訓(xùn)練集: 現(xiàn)代計(jì)算機(jī)通常都有一個(gè)很大的字體庫,庫中有很多不同類型的字體,然后將字體粘貼到其他隨機(jī)的背景圖像前面(第一種)。然后模糊操作讓圖像變形,比如均勻等比例縮放或者一些旋轉(zhuǎn)操作等等(第二種)。
語音識(shí)別的更大的訓(xùn)練集:自動(dòng)地為純凈的音頻片段添加這些不同的背景聲音(高斯隨機(jī)噪聲?)

人工數(shù)據(jù)合成
建議:
1.產(chǎn)生大量人工訓(xùn)練樣本之前,通常最好應(yīng)該先保證你已經(jīng)有了一個(gè)低偏差的分類器,這樣得到大量的數(shù)據(jù)才真的會(huì)起作用
2.考慮要付出多少工作量來獲得10倍于我們現(xiàn)有的數(shù)據(jù)量
3."眾包"(crowd sourcing),雇傭標(biāo)記人幫你為數(shù)據(jù)加上標(biāo)簽

建議