2019-01-31 “人工數(shù)據(jù)合成”(artificial data synthesis)

人工數(shù)據(jù)合成的概念通常包含兩種不同的變體:第一種是白手起家創(chuàng)造新的數(shù)據(jù);第二種是已經(jīng)有了一小部分帶標(biāo)簽的訓(xùn)練集,然后擴(kuò)充為一個(gè)大的訓(xùn)練集

人工數(shù)據(jù)合成
人工數(shù)據(jù)合成

字符識(shí)別的更大的訓(xùn)練集: 現(xiàn)代計(jì)算機(jī)通常都有一個(gè)很大的字體庫,庫中有很多不同類型的字體,然后將字體粘貼到其他隨機(jī)的背景圖像前面(第一種)。然后模糊操作讓圖像變形,比如均勻等比例縮放或者一些旋轉(zhuǎn)操作等等(第二種)。

語音識(shí)別的更大的訓(xùn)練集:自動(dòng)地為純凈的音頻片段添加這些不同的背景聲音(高斯隨機(jī)噪聲?)

人工數(shù)據(jù)合成

建議:

1.產(chǎn)生大量人工訓(xùn)練樣本之前,通常最好應(yīng)該先保證你已經(jīng)有了一個(gè)低偏差的分類器,這樣得到大量的數(shù)據(jù)才真的會(huì)起作用

2.考慮要付出多少工作量來獲得10倍于我們現(xiàn)有的數(shù)據(jù)量

3."眾包"(crowd sourcing),雇傭標(biāo)記人幫你為數(shù)據(jù)加上標(biāo)簽

建議
?著作權(quán)歸作者所有,轉(zhuǎn)載或內(nèi)容合作請(qǐng)聯(lián)系作者
【社區(qū)內(nèi)容提示】社區(qū)部分內(nèi)容疑似由AI輔助生成,瀏覽時(shí)請(qǐng)結(jié)合常識(shí)與多方信息審慎甄別。
平臺(tái)聲明:文章內(nèi)容(如有圖片或視頻亦包括在內(nèi))由作者上傳并發(fā)布,文章內(nèi)容僅代表作者本人觀點(diǎn),簡書系信息發(fā)布平臺(tái),僅提供信息存儲(chǔ)服務(wù)。

相關(guān)閱讀更多精彩內(nèi)容

  • 聲明:作者翻譯論文僅為學(xué)習(xí),如有侵權(quán)請(qǐng)聯(lián)系作者刪除博文,謝謝! 翻譯論文匯總:https://github.com...
    SnailTyan閱讀 12,776評(píng)論 1 27
  • 關(guān)于Mongodb的全面總結(jié) MongoDB的內(nèi)部構(gòu)造《MongoDB The Definitive Guide》...
    中v中閱讀 32,328評(píng)論 2 89
  • 今早看了一篇微文——《你的孩子不需要一個(gè)完美媽媽,他們更需要一個(gè)快樂媽媽》,媽媽是一個(gè)能量場,所言所行對(duì)孩...
    靈妹妹1026閱讀 151評(píng)論 0 0
  • 越是碎片化的時(shí)代,越需要系統(tǒng)學(xué)習(xí)——特訓(xùn)營第三天。不同于之前,今天有充足的時(shí)間可以留給特訓(xùn)營。躺在床上,回...
    cium_ead3閱讀 246評(píng)論 0 0
  • 相知相許,志趣相投,十年通信與苦戀,終于贏來短暫的恩愛纏綿。然而,幸福的時(shí)光太短,貧病交迫的生活,竟導(dǎo)致朱生豪撒手...
    后羿不射日閱讀 1,391評(píng)論 0 36

友情鏈接更多精彩內(nèi)容