論文閱讀筆記(二)

文章題目:基于眾包的數(shù)據(jù)清洗模型研究

作者:葉晨、王宏志

來(lái)源:中國(guó)人工智能學(xué)會(huì) 學(xué)會(huì)通訊 2017年 第3期

文章主要內(nèi)容

1、提出了一種將主動(dòng)學(xué)習(xí)與眾包平臺(tái)相結(jié)合來(lái)進(jìn)行數(shù)據(jù)清洗的新方法。

2、在真實(shí)數(shù)據(jù)集上驗(yàn)證了本文提出的模型,證明了所提方法的有效性。

學(xué)習(xí)點(diǎn)

1、由現(xiàn)有方法的問(wèn)題提出新的方法來(lái)解決問(wèn)題。

?????? 本文中提到的現(xiàn)有概率方法、經(jīng)驗(yàn)方法、基于規(guī)則方法等具有兩個(gè)問(wèn)題:(1)缺少足夠的知識(shí)(2)復(fù)雜的數(shù)學(xué)計(jì)算。從而本文提出了基于眾包的主動(dòng)學(xué)習(xí)模型,將主動(dòng)學(xué)習(xí)與眾包相結(jié)合對(duì)劣質(zhì)數(shù)據(jù)進(jìn)行數(shù)據(jù)清洗。通過(guò)眾包手段進(jìn)行數(shù)據(jù)清洗保證一定的精確度,同時(shí)結(jié)合主動(dòng)學(xué)習(xí)模型減少眾包的開(kāi)銷。

2、解決本文問(wèn)題的三個(gè)步驟。

? ? (1)首先通過(guò)初始少量訓(xùn)練數(shù)據(jù)集訓(xùn)練一個(gè)機(jī)器學(xué)習(xí)模型M。該機(jī)器學(xué)習(xí)模型可以是貝葉斯、決策樹(shù),或者支持向量機(jī)等模型。

??? (2)使用該機(jī)器學(xué)習(xí)模型M對(duì)每個(gè)元組u進(jìn)行確認(rèn),計(jì)算該元組的不確定度Score(u)。

??? (3)根據(jù)不確定度選擇一部分元組利用眾包平臺(tái)進(jìn)行確認(rèn),再將眾包的反饋結(jié)果添加到訓(xùn)練數(shù)據(jù)集中再訓(xùn)練,直到滿足給定的條件。

3、主動(dòng)學(xué)習(xí)模型

主動(dòng)學(xué)習(xí)模型

????? 此模型適用于一些初始訓(xùn)練集信息量就已經(jīng)非常有效的情況,還有對(duì)精度要求非常高而使訓(xùn)練集的記錄只能是正確記錄的情況。

(1)學(xué)習(xí)模型的初始化。通過(guò)初始訓(xùn)練集中的少量記錄對(duì)學(xué)習(xí)模型中的各個(gè)分量分類器進(jìn)行訓(xùn)練,從而得到一個(gè)初始的總體分類器模型。

(2)選擇待標(biāo)記記錄。利用候選修復(fù)記錄在各個(gè)分量分類器中的不一致分?jǐn)?shù)來(lái)排序,將不一致分?jǐn)?shù)最高的n個(gè)記錄作為待標(biāo)記記錄,剩下的候選記錄集繼續(xù)利用訓(xùn)練模型標(biāo)記,直到準(zhǔn)確度滿足需要為止。

(3)學(xué)習(xí)模型重訓(xùn)練。眾包平臺(tái)上的工人對(duì)學(xué)習(xí)模型挑選出來(lái)的待標(biāo)記記錄進(jìn)行標(biāo)記,工人給出候選真值集中其認(rèn)為正確的答案。對(duì)于每一個(gè)給出結(jié)果的工人我們對(duì)其的可信度進(jìn)行計(jì)算評(píng)估,然后將最可能的真值返回。學(xué)習(xí)模型重新訓(xùn)練,去除掉那些已經(jīng)得到標(biāo)記的記錄,在剩下的記錄產(chǎn)生待標(biāo)記記錄集合。

(4)結(jié)果反饋。直到分類結(jié)果已經(jīng)達(dá)到一定準(zhǔn)確率,合并眾包記錄集和機(jī)器學(xué)習(xí)記錄集產(chǎn)生最終的修復(fù)結(jié)果,數(shù)據(jù)集的修復(fù)完成。

4、交互主動(dòng)學(xué)習(xí)模型

??????? 交互主動(dòng)學(xué)習(xí)模型是指將眾包標(biāo)記過(guò)的記錄反饋到訓(xùn)練集,對(duì)學(xué)習(xí)組件進(jìn)行重新訓(xùn)練。

交互主動(dòng)學(xué)習(xí)模型

(1)學(xué)習(xí)模型的初始化。

(2)選擇待標(biāo)記記錄。對(duì)每個(gè)候選修復(fù)記錄,每個(gè)分量分類器都給出其預(yù)測(cè)結(jié)果,最后根據(jù)各個(gè)分量分類器的判決結(jié)果選擇信息價(jià)值最大的記錄進(jìn)行修復(fù)。

(3)結(jié)果反饋和學(xué)習(xí)模型重訓(xùn)練。在這個(gè)階段,眾包平臺(tái)上的工人對(duì)學(xué)習(xí)模型挑選出來(lái)的待標(biāo)記記錄進(jìn)行標(biāo)記,收集眾包平臺(tái)的結(jié)果,通過(guò)優(yōu)化算法得到已標(biāo)記記錄。學(xué)習(xí)模型重新訓(xùn)練,去除掉那些已經(jīng)得到標(biāo)記的記錄,在剩下的記錄產(chǎn)生待標(biāo)記記錄集合。

(4)循環(huán)訓(xùn)練。重復(fù)階段1~3,直到已經(jīng)達(dá)到一定準(zhǔn)確率Q,則數(shù)據(jù)集的修復(fù)完成。

5、實(shí)驗(yàn)階段

????? 在實(shí)驗(yàn)階段,本文將測(cè)試選擇最不確定的眾包記錄(uncertainty/entropy)方法的有效性,我們將其與隨機(jī)算法(random)和投票算 法(vote)對(duì)比。在隨機(jī)算法中,將隨機(jī)選擇記錄進(jìn)行眾包標(biāo)記;在投票算法中,選擇占比最大的候選值作為真值。

? ? ? 本文提出的眾包記錄最大不確定度選擇方法在二次迭代準(zhǔn)確率就超過(guò)了投票算法,而且準(zhǔn)確率隨著迭代次數(shù)的增加穩(wěn)步上升,可以看出我們采用最大熵方法作為最不確定的眾包記錄對(duì)比投票算法和隨機(jī)算法有很大的優(yōu)勢(shì)。

眾包實(shí)驗(yàn)結(jié)果一
最后編輯于
?著作權(quán)歸作者所有,轉(zhuǎn)載或內(nèi)容合作請(qǐng)聯(lián)系作者
【社區(qū)內(nèi)容提示】社區(qū)部分內(nèi)容疑似由AI輔助生成,瀏覽時(shí)請(qǐng)結(jié)合常識(shí)與多方信息審慎甄別。
平臺(tái)聲明:文章內(nèi)容(如有圖片或視頻亦包括在內(nèi))由作者上傳并發(fā)布,文章內(nèi)容僅代表作者本人觀點(diǎn),簡(jiǎn)書系信息發(fā)布平臺(tái),僅提供信息存儲(chǔ)服務(wù)。

相關(guān)閱讀更多精彩內(nèi)容

友情鏈接更多精彩內(nèi)容