機(jī)器學(xué)習(xí)并非“萬能”:5個(gè)機(jī)器學(xué)習(xí)的真實(shí)失敗案例

題記:春節(jié)臨近,也懶得寫一些深度的技術(shù)性文章來分享給大家,最近看了一些東西,感覺很有意思,且對大家很有啟發(fā),現(xiàn)share給大家。這篇文章是發(fā)表于2018年12月28日《計(jì)算機(jī)世界》報(bào)紙的一篇文章,由Bob Violino寫作,Charles編譯的,題目為:盲目冒進(jìn):機(jī)器學(xué)習(xí)的5 個(gè)失敗案例。本人將主要內(nèi)容提煉出來,并加上個(gè)人觀點(diǎn),供大家參考。

機(jī)器學(xué)習(xí)如此火熱,導(dǎo)致目前很多領(lǐng)域都積極進(jìn)行“機(jī)器學(xué)習(xí)化”和“人工智能融合”,相比較于傳統(tǒng)的學(xué)科或工具,如統(tǒng)計(jì)學(xué)、運(yùn)籌學(xué)、概率論等,機(jī)器學(xué)習(xí)對建模的理論假設(shè)要求相對寬松,更注重預(yù)測的效果,其訓(xùn)練過程常常是個(gè)“黑箱子”,尤其是深度學(xué)習(xí)。

機(jī)器學(xué)習(xí)如此強(qiáng)大,但是它是“萬能”的嗎?或者說只要給出一系列特征變量及其“大數(shù)據(jù)”,就能建立模型并預(yù)測嗎?

然也,機(jī)器學(xué)習(xí)也可能會(huì)出現(xiàn)嚴(yán)重錯(cuò)誤,讓你后悔當(dāng)初的沖動(dòng)。本文借鑒真實(shí)企業(yè)在機(jī)器學(xué)習(xí)上的實(shí)際經(jīng)驗(yàn),介紹機(jī)器學(xué)習(xí)可能出錯(cuò)的5 種方式,讓你有所思考與啟發(fā)。

教訓(xùn)一:錯(cuò)誤的假設(shè)會(huì)讓機(jī)器學(xué)習(xí)出現(xiàn)偏差

該案例來自一家Projector PSA的美國公司,它是一家設(shè)計(jì)和構(gòu)建專業(yè)服務(wù)自動(dòng)化軟件的公司,用于幫助咨詢公司XX更好地經(jīng)營其業(yè)務(wù)。其中有一項(xiàng)專業(yè)服務(wù)自動(dòng)化就是為咨詢公司的項(xiàng)目人員配置、人力資源優(yōu)勢有效發(fā)揮提供幫助。

咨詢公司XX的員工都是訓(xùn)練有素的專業(yè)顧問,并在多年的項(xiàng)目工作中積累了大量的數(shù)據(jù)(包括項(xiàng)目的資金、參與員工、工作時(shí)間等等),這些數(shù)據(jù)都被Projector PSA自動(dòng)化軟件跟蹤并記錄下來,現(xiàn)在Projector PSA公司想根據(jù)這些數(shù)據(jù)進(jìn)行機(jī)器學(xué)習(xí)訓(xùn)練,來預(yù)測每個(gè)項(xiàng)目所需要的時(shí)間,并與實(shí)際完成時(shí)間相比較,從而評判項(xiàng)目經(jīng)理們的工作規(guī)劃的準(zhǔn)確性。

首席運(yùn)營官Steve Chong 介紹說,Projector PSA 已經(jīng)開始和一家客戶開展了一項(xiàng)研究,該客戶聘用了數(shù)百名項(xiàng)目經(jīng)理,根據(jù)一部分項(xiàng)目經(jīng)理們的以往數(shù)據(jù)作為數(shù)據(jù)集進(jìn)行訓(xùn)練,然后,再根據(jù)機(jī)器學(xué)習(xí)算法學(xué)到的知識,對其他的項(xiàng)目經(jīng)理進(jìn)行分類。

預(yù)測結(jié)果很糟糕:一些經(jīng)驗(yàn)最豐富、訓(xùn)練最有素的項(xiàng)目經(jīng)理歸類為最糟糕的違規(guī)者,因?yàn)樗麄兊念A(yù)測工作時(shí)間和實(shí)際工作時(shí)間的差異性很大。而某個(gè)項(xiàng)目經(jīng)理A因?yàn)檩^小的預(yù)測方差和差異性,而被機(jī)器學(xué)習(xí)評價(jià)很高。

Chong 解釋說:“這些錯(cuò)誤不是由機(jī)器學(xué)習(xí)算法本身造成的,而是由我們最初訓(xùn)練時(shí)所采用的假設(shè)造成的。還有一個(gè)原因是最初僅依賴于數(shù)據(jù),而沒有充分理解數(shù)據(jù)所代表的現(xiàn)實(shí)?!?/p>

一些經(jīng)驗(yàn)最豐富、訓(xùn)練最有素的項(xiàng)目經(jīng)理往往被公司指派到最困難的項(xiàng)目上,而那個(gè)評價(jià)很高的項(xiàng)目經(jīng)理A在公司發(fā)送自己實(shí)際工作時(shí)間時(shí),往往比較夸大,導(dǎo)致從來沒有超出或者低于預(yù)算的情況。

后來,該公司訓(xùn)練了其機(jī)器學(xué)習(xí)算法來識別這些新的配置文件,感覺它能更好地反映現(xiàn)實(shí)了。

教訓(xùn)二:對機(jī)器學(xué)習(xí)訓(xùn)練結(jié)果缺乏人為監(jiān)督會(huì)出現(xiàn)意想不到的偏差

來自巴西金融服務(wù)公司Mejor Trato的一個(gè)案例,該公司的人力資源部門,使用該公司內(nèi)部開發(fā)的機(jī)器學(xué)習(xí)聊天機(jī)器人,與未來的新員工進(jìn)行溝通,進(jìn)行實(shí)時(shí)聊天和電話回答一系列問題。

在初次使用聊天機(jī)器人時(shí),出現(xiàn)了兩個(gè)關(guān)鍵問題。一是發(fā)錯(cuò)了給求職者的個(gè)人資料/職業(yè)表格,另一個(gè)問題是,面試時(shí)間與人力資源部門會(huì)議時(shí)間相沖。在開始的幾個(gè)星期里,人力資源部門必須派人監(jiān)督每次談話,以便在必要時(shí)糾正聊天機(jī)器人。

首席技術(shù)官Cristian Rennella說:我們犯了一個(gè)錯(cuò)誤,以為一切都解決了,而沒有去監(jiān)督聊天機(jī)器人。教訓(xùn)是,一定至少要有幾個(gè)月的時(shí)間全時(shí)監(jiān)督聊天機(jī)器人。Rennella 介紹說:“機(jī)器學(xué)習(xí)在開始的時(shí)候能用于90%的答案,但是剩下的10%應(yīng)該有人類進(jìn)行監(jiān)督以糾正算法?!?/p>

隨著時(shí)間的推移,90%這一比例會(huì)增長到高達(dá)99%,她說:“但我們不能停止關(guān)注可能出現(xiàn)的偏差,以及新出現(xiàn)的情況——當(dāng)我們開始這個(gè)項(xiàng)目時(shí),這些都是出乎意料的。”

教訓(xùn)三:糟糕的數(shù)據(jù)標(biāo)簽會(huì)損害機(jī)器學(xué)習(xí)結(jié)果

俄羅斯的兩家聯(lián)營公司 Ashmanov Neural Networks 和 SOVA (Smart Open Virtual Assistant)為其商業(yè)客戶開發(fā)了基于機(jī)器學(xué)習(xí)的產(chǎn)品。這包括視頻分析、自然語言處理、信號處理和神經(jīng)網(wǎng)絡(luò)。

同時(shí)擔(dān)任兩家公司首席執(zhí)行官的Stanislav Ashmanov 介紹說,兩家公司在機(jī)器學(xué)習(xí)上遇到的最大問題之一是難以標(biāo)注的糟糕的數(shù)據(jù)。Ashmanov 說:“幾乎不可能提供高質(zhì)量的數(shù)據(jù)標(biāo)簽。通常,從事數(shù)據(jù)標(biāo)記工作的人很草率,因?yàn)樗麄児ぷ髌饋砜偸呛艽颐?。更重要的?真的是很難讓每個(gè)人都以同樣的方式去理解怎樣接替這些任務(wù)?!?/p>

結(jié)果,數(shù)據(jù)包含了多個(gè)標(biāo)記樣本,例如圖片中錯(cuò)誤識別的輪廓,這嚴(yán)重影響了被訓(xùn)練的神經(jīng)網(wǎng)絡(luò)的表現(xiàn)。在短時(shí)間內(nèi)收集大量數(shù)據(jù)也是很有挑戰(zhàn)性的。Ashmanov 說,數(shù)據(jù)收集可能需要幾個(gè)月的時(shí)間。而且,從公開可用來源收集的數(shù)據(jù),例如在互聯(lián)網(wǎng)上找到的數(shù)據(jù),并不能總是準(zhǔn)確地反映現(xiàn)實(shí)。

例如,在演播室或者實(shí)驗(yàn)室拍攝的圖像與真實(shí)街景或者工廠生產(chǎn)車間得到的快照截然不同。結(jié)果,神經(jīng)網(wǎng)絡(luò)的性能會(huì)降低。作為客戶項(xiàng)目的一部分,當(dāng)公司訓(xùn)練神經(jīng)網(wǎng)絡(luò)來識別網(wǎng)絡(luò)上發(fā)布的自拍照中的眼鏡時(shí),便出現(xiàn)了這種出錯(cuò)的例子。他們從社交媒體上收集了一些照片,并對其進(jìn)行標(biāo)記。Ashmanov 說,神經(jīng)網(wǎng)絡(luò)的表現(xiàn)很差,因?yàn)樗延泻谘廴Φ娜苏`認(rèn)為戴著眼鏡。

另一位客戶提交了一個(gè)城市的兩張衛(wèi)星圖像。任務(wù)是找出圖像中的汽車,教會(huì)神經(jīng)網(wǎng)絡(luò)去識別它們,并計(jì)算它們的近似程度。這個(gè)例子的問題是,神經(jīng)網(wǎng)絡(luò)把建筑物屋頂?shù)拇芭_(tái)識別為汽車,因?yàn)樗鼈冊谕庥^上相似——小、矩形,并且大部分顏色是黑的。

Ashmanov 說:“這一切都?xì)w結(jié)于對邊緣的仔細(xì)劃分,創(chuàng)建啟發(fā)式方法,以及改進(jìn)初步數(shù)據(jù)處理和后處理證據(jù)檢查等。”

教訓(xùn)四:有細(xì)微差別的分類問題會(huì)讓機(jī)器學(xué)習(xí)產(chǎn)生混淆

Casepoint 是為法律部門和其他市場提供電子發(fā)現(xiàn)技術(shù)的一家美國公司,該公司采用機(jī)器學(xué)習(xí)進(jìn)行文檔分類和預(yù)測分析。通過使用該技術(shù),法律部門能夠顯著減少對文檔進(jìn)行審查和分類所花費(fèi)的時(shí)間。

使用機(jī)器學(xué)習(xí)對文檔進(jìn)行分類是有效的,但并非完美無缺。該公司發(fā)現(xiàn)的一個(gè)缺點(diǎn)是過分依賴于機(jī)器學(xué)習(xí)來解決有細(xì)微差別的微妙的分類問題。例如,在法律領(lǐng)域,機(jī)器學(xué)習(xí)文檔分類器經(jīng)常用于識別能夠符合“生成文檔請求”的文檔。甲方要求提供有關(guān)某一主題或者內(nèi)容的文檔,乙方則使用機(jī)器學(xué)習(xí)文檔分類器幫助篩選文檔庫,找到對應(yīng)的文檔。

Carns 說,這種方法效果非常好,律師們已經(jīng)開始經(jīng)常使用這種文件技術(shù)輔助審查(TAR)方法。他說,“如此的成功導(dǎo)致了盲目地使用機(jī)器學(xué)習(xí)文檔分類器進(jìn)行更精細(xì)和更細(xì)微的分類,例如找到受律師客戶特權(quán)保護(hù)的文檔?!?/p>

盡管很容易使用機(jī)器學(xué)習(xí)來訓(xùn)練文檔分類器以找到特權(quán)文檔的內(nèi)容,但是文檔是否具有法律特權(quán)在很大程度上取決于文檔的受眾、機(jī)密性、接收時(shí)間以及與法律建議或者訴訟的關(guān)系。Carns說,大多數(shù)機(jī)器學(xué)習(xí)文檔分類器不能對這些附加的情景線索進(jìn)行詳細(xì)的分類。

Carns 說,“這并不意味著機(jī)器學(xué)習(xí)文檔分類器不能幫助對潛在的特權(quán)文檔進(jìn)行下拉選擇和分類。但法律專業(yè)人士不應(yīng)該僅僅依靠機(jī)器學(xué)習(xí)來確定特權(quán)?!彼f,目前人類律師需要手動(dòng)審查可能享有特權(quán)的文檔,以便就法律特權(quán)是否適用作出最終裁決。

教訓(xùn)五:測試/訓(xùn)練污染會(huì)讓機(jī)器學(xué)習(xí)感到困惑

美國自動(dòng)化公司Indico 多年來為客戶提供企業(yè)人工智能和深度學(xué)習(xí)服務(wù),一直困擾該公司最大的一個(gè)問題是機(jī)器學(xué)習(xí)測試和訓(xùn)練數(shù)據(jù)的污染。

一名客戶創(chuàng)建了模型來確定一條新聞是否會(huì)影響其股價(jià)。由于很難準(zhǔn)確地確定影響時(shí)間,因此公司創(chuàng)建了一個(gè)模型來預(yù)測第二天的影響。首席技術(shù)官Victoroff 說:“他們沒有意識到,自己忽略了確保清潔的測試/訓(xùn)練分類的數(shù)據(jù)科學(xué)基礎(chǔ)。因此,他們在預(yù)測次日影響的任務(wù)上表現(xiàn)出接近100%的準(zhǔn)確性,而實(shí)際上,該模型并不比隨機(jī)預(yù)測好多少?!?/p>

另一個(gè)例子來自關(guān)注其內(nèi)部自然語言處理(NLP)系統(tǒng)的客戶。該客戶的某個(gè)部門多年來一直在為機(jī)器學(xué)習(xí)模型創(chuàng)建和更新特性,并且基于相同的搜索集來不斷地測試它們。該部門也體驗(yàn)到了測試/訓(xùn)練污染的影響。Victoroff 說:“只要你看到出現(xiàn)測試錯(cuò)誤并改變算法以糾正測試錯(cuò)誤時(shí),你的數(shù)據(jù)就不再準(zhǔn)確了。”

在這個(gè)特殊案例中,人們沒能很好地理解問題。在內(nèi)部,該模型對于某一任務(wù)的準(zhǔn)確率達(dá)到近100%的程度。Victoroff 說:“但在實(shí)際中,這個(gè)系統(tǒng)幾乎不起作用,因?yàn)樗鼈儫o意中污染了自己的結(jié)果。任何企業(yè)在機(jī)器學(xué)習(xí)領(lǐng)域都會(huì)犯的最嚴(yán)重的錯(cuò)誤就是測試/訓(xùn)練污染問題。

筆者認(rèn)為這條教訓(xùn)讓人不是很理解,但是也是大家疏忽的,因?yàn)槲覀冊谧鰴C(jī)器學(xué)習(xí)訓(xùn)練時(shí),經(jīng)常會(huì)采用不同算法去測試統(tǒng)一數(shù)據(jù)集,只有在集成學(xué)習(xí)、神經(jīng)網(wǎng)絡(luò)或深度學(xué)習(xí)等方面會(huì)有通過機(jī)器學(xué)習(xí)來對測試技數(shù)據(jù)進(jìn)行調(diào)整的,如boosting、誤差反向傳播算法等。但對于該類問題還不是很清楚。

?著作權(quán)歸作者所有,轉(zhuǎn)載或內(nèi)容合作請聯(lián)系作者
【社區(qū)內(nèi)容提示】社區(qū)部分內(nèi)容疑似由AI輔助生成,瀏覽時(shí)請結(jié)合常識與多方信息審慎甄別。
平臺(tái)聲明:文章內(nèi)容(如有圖片或視頻亦包括在內(nèi))由作者上傳并發(fā)布,文章內(nèi)容僅代表作者本人觀點(diǎn),簡書系信息發(fā)布平臺(tái),僅提供信息存儲(chǔ)服務(wù)。

相關(guān)閱讀更多精彩內(nèi)容

  • 0.前言## 機(jī)器學(xué)習(xí)[Machine Learning]在當(dāng)今社會(huì)的火熱程度有目共睹,自己也一直想寫一下自己對M...
    城市中迷途小書童閱讀 1,234評論 0 7
  • 首頁 資訊 文章 資源 小組 相親 登錄 注冊 首頁 最新文章 IT 職場 前端 后端 移動(dòng)端 數(shù)據(jù)庫 運(yùn)維 其他...
    Helen_Cat閱讀 4,159評論 1 10
  • Object.defineProperty() 方法會(huì)直接在一個(gè)對象上定義一個(gè)新屬性,或者修改一個(gè)對象的現(xiàn)有屬性,...
    5jing閱讀 525評論 0 0
  • 盛夏的午后,因今晨的小雨而收斂了狂熱,天空一縷縷游絲一樣的云,蜿蜒著腰姿,占了大半邊的天空,紅日被多情的云擋...
    jq0285麗琴閱讀 816評論 0 7
  • 阿扎站在一只水桶旁邊弓著腰洗臉,晶瑩的水滴隨著猛然起身的動(dòng)作如珠簾線斷般唰一下甩出去,然后聽見碰的一聲,什么東西掉...
    云曉拉閱讀 182評論 0 0

友情鏈接更多精彩內(nèi)容