吳恩達深度學(xué)習(xí)-神經(jīng)網(wǎng)絡(luò)基礎(chǔ)(第7課:機器學(xué)習(xí)(ML)策略2)

2.1 進行誤差分析(Carrying out error analysis)

從舉的例子中我理解這里的誤差分析,其實就是通過分析誤差因素來選擇優(yōu)化系統(tǒng)的正確方向。

所以總結(jié)一下,進行錯誤分析,你應(yīng)該找一組錯誤樣本,可能在你的開發(fā)集里或者測試集里,觀察錯誤標(biāo)記的樣本,看看假陽性(false positives)和假陰性(false negatives),統(tǒng)計屬于不同錯誤類型的錯誤數(shù)量。在這個過程中,你可能會得到啟發(fā),歸納出新的錯誤類型,就像我們看到的那樣。如果你過了一遍錯誤樣本,然后說,天,有這么多Instagram濾鏡或Snapchat濾鏡,這些濾鏡干擾了我的分類器,你就可以在途中新建一個錯誤類型??傊ㄟ^統(tǒng)計不同錯誤標(biāo)記類型占總數(shù)的百分比,可以幫你發(fā)現(xiàn)哪些問題需要優(yōu)先解決,或者給你構(gòu)思新優(yōu)化方向的靈感。

2.2 清除標(biāo)注錯誤的數(shù)據(jù)(Cleaning up Incorrectly labeled data)

如果你發(fā)現(xiàn)你的數(shù)據(jù)有一些標(biāo)記錯誤的樣本,你該怎么辦?
1、首先,深度學(xué)習(xí)算法對于訓(xùn)練集中的隨機錯誤是相當(dāng)健壯的(robust)。只要你的標(biāo)記出錯的樣本,只要這些錯誤樣本離隨機錯誤不太遠,有時可能做標(biāo)記的人沒有注意或者不小心,按錯鍵了,如果錯誤足夠隨機,那么放著這些錯誤不管可能也沒問題,而不要花太多時間修復(fù)它們。
2、當(dāng)然你瀏覽一下訓(xùn)練集,檢查一下這些標(biāo)簽,并修正它們也沒什么害處。有時候修正這些錯誤是有價值的,有時候放著不管也可以,只要總數(shù)據(jù)集總足夠大,實際錯誤率可能不會太高。
3、深度學(xué)習(xí)算法對隨機誤差很健壯,但對系統(tǒng)性的錯誤就沒那么健壯了。

最后我講幾個建議:
在構(gòu)造實際系統(tǒng)時,通常需要更多的人工錯誤分析,更多的人類見解來架構(gòu)這些系統(tǒng)。

其次,不知道為什么,我看一些工程師和研究人員不愿意親自去看這些樣本,也許做這些事情很無聊,坐下來看100或幾百個樣本來統(tǒng)計錯誤數(shù)量,但我經(jīng)常親自這么做。當(dāng)我?guī)ьI(lǐng)一個機器學(xué)習(xí)團隊時,我想知道它所犯的錯誤,我會親自去看看這些數(shù)據(jù),嘗試和一部分錯誤作斗爭。我想就因為花了這幾分鐘,或者幾個小時去親自統(tǒng)計數(shù)據(jù),真的可以幫你找到需要優(yōu)先處理的任務(wù),我發(fā)現(xiàn)花時間親自檢查數(shù)據(jù)非常值得,所以我強烈建議你們這樣做,如果你在搭建你的機器學(xué)習(xí)系統(tǒng)的話,然后你想確定應(yīng)該優(yōu)先嘗試哪些想法,或者哪些方向。

2.3 快速搭建你的第一個系統(tǒng),并進行迭代(Build your first system quickly, then iterate)

老師的意思就是,先別管現(xiàn)在是啥樣,系統(tǒng)能上就先上,然后再進行不斷優(yōu)化。

1、快速搭好你的第一個系統(tǒng),然后開始迭代。
2、快速設(shè)立開發(fā)集和測試集還有指標(biāo),這樣就決定了目標(biāo)所在,如果你的目標(biāo)定錯了,之后改也是可以的。但一定要設(shè)立某個目標(biāo),然后我建議你馬上搭好一個機器學(xué)習(xí)系統(tǒng)原型,然后找到訓(xùn)練集,訓(xùn)練一下,看看效果,開始理解你的算法表現(xiàn)如何,在開發(fā)集測試集,你的評估指標(biāo)上表現(xiàn)如何。當(dāng)你建立第一個系統(tǒng)后,你就可以馬上用到之前說的偏差方差分析,還有之前最后幾個視頻討論的錯誤分析,來確定下一步優(yōu)先做什么。

重要的是:機器學(xué)習(xí)算法應(yīng)用到新的應(yīng)用程序里,主要目標(biāo)是弄出能用的系統(tǒng),搭建快速而粗糙的實現(xiàn),然后用它做偏差/方差分析,用它做錯誤分析,然后用分析結(jié)果確定下一步優(yōu)先要做的方向。

2.4 使用來自不同分布的數(shù)據(jù),進行訓(xùn)練和測試(Training and testing on different distributions)
2.5 數(shù)據(jù)分布不匹配時,偏差與方差的分析(Bias and Variance with mismatched data distributions)

定義一組新的數(shù)據(jù)訓(xùn)練-開發(fā)集。

2.6 處理數(shù)據(jù)不匹配問題(Addressing data mismatch)

2.7 遷移學(xué)習(xí)(Transfer learning)
所謂的遷移學(xué)習(xí),指的是在A上學(xué)習(xí)得到的模型應(yīng)用到B上。

2.8 多任務(wù)學(xué)習(xí)(Multi-task learning)

2.9 什么是端到端的深度學(xué)習(xí)?(What is end-to-end deep learning?)
2.10 是否要使用端到端的深度學(xué)習(xí)?(Whether to use end-to-end learning?)

第七課:機器學(xué)習(xí)(ML)策略(2)
Deep Learning in Health Care slides (by Pranav)

最后編輯于
?著作權(quán)歸作者所有,轉(zhuǎn)載或內(nèi)容合作請聯(lián)系作者
【社區(qū)內(nèi)容提示】社區(qū)部分內(nèi)容疑似由AI輔助生成,瀏覽時請結(jié)合常識與多方信息審慎甄別。
平臺聲明:文章內(nèi)容(如有圖片或視頻亦包括在內(nèi))由作者上傳并發(fā)布,文章內(nèi)容僅代表作者本人觀點,簡書系信息發(fā)布平臺,僅提供信息存儲服務(wù)。

相關(guān)閱讀更多精彩內(nèi)容

友情鏈接更多精彩內(nèi)容