日韩三级理伦,99re国精品

文章題目：基于眾包的數(shù)據(jù)清洗模型研究

作者：葉晨、王宏志

來(lái)源：中國(guó)人工智能學(xué)會(huì) 學(xué)會(huì)通訊 2017年第3期

文章主要內(nèi)容

1、提出了一種將主動(dòng)學(xué)習(xí)與眾包平臺(tái)相結(jié)合來(lái)進(jìn)行數(shù)據(jù)清洗的新方法。

2、在真實(shí)數(shù)據(jù)集上驗(yàn)證了本文提出的模型，證明了所提方法的有效性。

學(xué)習(xí)點(diǎn)

1、由現(xiàn)有方法的問(wèn)題提出新的方法來(lái)解決問(wèn)題。

?????? 本文中提到的現(xiàn)有概率方法、經(jīng)驗(yàn)方法、基于規(guī)則方法等具有兩個(gè)問(wèn)題：（1）缺少足夠的知識(shí)（2）復(fù)雜的數(shù)學(xué)計(jì)算。從而本文提出了基于眾包的主動(dòng)學(xué)習(xí)模型，將主動(dòng)學(xué)習(xí)與眾包相結(jié)合對(duì)劣質(zhì)數(shù)據(jù)進(jìn)行數(shù)據(jù)清洗。通過(guò)眾包手段進(jìn)行數(shù)據(jù)清洗保證一定的精確度，同時(shí)結(jié)合主動(dòng)學(xué)習(xí)模型減少眾包的開(kāi)銷。

2、解決本文問(wèn)題的三個(gè)步驟。

? ? （1）首先通過(guò)初始少量訓(xùn)練數(shù)據(jù)集訓(xùn)練一個(gè)機(jī)器學(xué)習(xí)模型M。該機(jī)器學(xué)習(xí)模型可以是貝葉斯、決策樹(shù)，或者支持向量機(jī)等模型。

??? （2）使用該機(jī)器學(xué)習(xí)模型M對(duì)每個(gè)元組u進(jìn)行確認(rèn)，計(jì)算該元組的不確定度Score(u)。

??? （3）根據(jù)不確定度選擇一部分元組利用眾包平臺(tái)進(jìn)行確認(rèn)，再將眾包的反饋結(jié)果添加到訓(xùn)練數(shù)據(jù)集中再訓(xùn)練，直到滿足給定的條件。

3、主動(dòng)學(xué)習(xí)模型

主動(dòng)學(xué)習(xí)模型

????? 此模型適用于一些初始訓(xùn)練集信息量就已經(jīng)非常有效的情況，還有對(duì)精度要求非常高而使訓(xùn)練集的記錄只能是正確記錄的情況。

（1）學(xué)習(xí)模型的初始化。通過(guò)初始訓(xùn)練集中的少量記錄對(duì)學(xué)習(xí)模型中的各個(gè)分量分類器進(jìn)行訓(xùn)練，從而得到一個(gè)初始的總體分類器模型。

（2）選擇待標(biāo)記記錄。利用候選修復(fù)記錄在各個(gè)分量分類器中的不一致分?jǐn)?shù)來(lái)排序，將不一致分?jǐn)?shù)最高的n個(gè)記錄作為待標(biāo)記記錄，剩下的候選記錄集繼續(xù)利用訓(xùn)練模型標(biāo)記，直到準(zhǔn)確度滿足需要為止。

（3）學(xué)習(xí)模型重訓(xùn)練。眾包平臺(tái)上的工人對(duì)學(xué)習(xí)模型挑選出來(lái)的待標(biāo)記記錄進(jìn)行標(biāo)記，工人給出候選真值集中其認(rèn)為正確的答案。對(duì)于每一個(gè)給出結(jié)果的工人我們對(duì)其的可信度進(jìn)行計(jì)算評(píng)估，然后將最可能的真值返回。學(xué)習(xí)模型重新訓(xùn)練，去除掉那些已經(jīng)得到標(biāo)記的記錄，在剩下的記錄產(chǎn)生待標(biāo)記記錄集合。

（4）結(jié)果反饋。直到分類結(jié)果已經(jīng)達(dá)到一定準(zhǔn)確率，合并眾包記錄集和機(jī)器學(xué)習(xí)記錄集產(chǎn)生最終的修復(fù)結(jié)果，數(shù)據(jù)集的修復(fù)完成。

4、交互主動(dòng)學(xué)習(xí)模型

??????? 交互主動(dòng)學(xué)習(xí)模型是指將眾包標(biāo)記過(guò)的記錄反饋到訓(xùn)練集，對(duì)學(xué)習(xí)組件進(jìn)行重新訓(xùn)練。

交互主動(dòng)學(xué)習(xí)模型

（1）學(xué)習(xí)模型的初始化。

（2）選擇待標(biāo)記記錄。對(duì)每個(gè)候選修復(fù)記錄，每個(gè)分量分類器都給出其預(yù)測(cè)結(jié)果，最后根據(jù)各個(gè)分量分類器的判決結(jié)果選擇信息價(jià)值最大的記錄進(jìn)行修復(fù)。

（3）結(jié)果反饋和學(xué)習(xí)模型重訓(xùn)練。在這個(gè)階段，眾包平臺(tái)上的工人對(duì)學(xué)習(xí)模型挑選出來(lái)的待標(biāo)記記錄進(jìn)行標(biāo)記，收集眾包平臺(tái)的結(jié)果，通過(guò)優(yōu)化算法得到已標(biāo)記記錄。學(xué)習(xí)模型重新訓(xùn)練，去除掉那些已經(jīng)得到標(biāo)記的記錄，在剩下的記錄產(chǎn)生待標(biāo)記記錄集合。

（4）循環(huán)訓(xùn)練。重復(fù)階段1~3，直到已經(jīng)達(dá)到一定準(zhǔn)確率Q，則數(shù)據(jù)集的修復(fù)完成。

5、實(shí)驗(yàn)階段

????? 在實(shí)驗(yàn)階段，本文將測(cè)試選擇最不確定的眾包記錄(uncertainty/entropy)方法的有效性，我們將其與隨機(jī)算法(random)和投票算法(vote)對(duì)比。在隨機(jī)算法中，將隨機(jī)選擇記錄進(jìn)行眾包標(biāo)記；在投票算法中，選擇占比最大的候選值作為真值。

? ? ? 本文提出的眾包記錄最大不確定度選擇方法在二次迭代準(zhǔn)確率就超過(guò)了投票算法，而且準(zhǔn)確率隨著迭代次數(shù)的增加穩(wěn)步上升，可以看出我們采用最大熵方法作為最不確定的眾包記錄對(duì)比投票算法和隨機(jī)算法有很大的優(yōu)勢(shì)。

眾包實(shí)驗(yàn)結(jié)果一

色偷偷精品伊人,欧洲久久精品,欧美综合婷婷骚逼,国产AV主播,国产最新探花在线,九色在线视频一区,伊人大交九欧美,1769亚洲,黄色成人av

論文閱讀筆記（二）

論文閱讀筆記（二）

相關(guān)閱讀更多精彩內(nèi)容

友情鏈接更多精彩內(nèi)容

色偷偷精品伊人,欧洲久久精品,欧美综合婷婷骚逼,国产AV主播,国产最新探花在线,九色在线视频一区,伊人大交九 欧美,1769亚洲,黄色成人av

論文閱讀筆記（二）

相關(guān)閱讀更多精彩內(nèi)容

友情鏈接更多精彩內(nèi)容

色偷偷精品伊人,欧洲久久精品,欧美综合婷婷骚逼,国产AV主播,国产最新探花在线,九色在线视频一区,伊人大交九欧美,1769亚洲,黄色成人av