Andrew會(huì)花很多時(shí)間來(lái)教授案例,這樣的好處是往往能夠避免我們?nèi)プ邉e人已經(jīng)走過(guò)的彎路,以便于我們開(kāi)發(fā)機(jī)器學(xué)習(xí)系統(tǒng)的時(shí)候不會(huì)變成花6個(gè)月去研究機(jī)器學(xué)習(xí)系統(tǒng)卻出了大毛病的人的一員
監(jiān)督學(xué)習(xí)
現(xiàn)在實(shí)例監(jiān)督學(xué)習(xí),后面解釋
監(jiān)督學(xué)習(xí)意思是給出一個(gè)算法,需要部分?jǐn)?shù)據(jù)集已經(jīng)有正確答案。
回歸問(wèn)題
意思是要預(yù)測(cè)一個(gè)連續(xù)值的輸出,比如房?jī)r(jià)。
實(shí)際上是離散值,所以往往看作標(biāo)量
分類問(wèn)題
對(duì)應(yīng)的問(wèn)題是:給定腫瘤的大小,你能否給出腫瘤為良性還是惡性的概率的對(duì)應(yīng)大小

在別的學(xué)習(xí)算法中,可能用到更多特征,在最有意思的學(xué)習(xí)算法中,能夠用無(wú)窮多的特征
當(dāng)使用支持向量機(jī)的算法時(shí),就知道存在簡(jiǎn)潔的數(shù)學(xué)方法能夠讓計(jì)算機(jī)處理無(wú)窮多的特征。
不是寫(xiě)下五六個(gè)特征,而是寫(xiě)下一個(gè)無(wú)窮長(zhǎng)的特征表
總結(jié)
監(jiān)督學(xué)習(xí)當(dāng)中,我們有數(shù)據(jù)集并且已經(jīng)知道我們的正確輸出應(yīng)該是什么樣的(訓(xùn)練集),并且試圖找出輸入和輸出之間的關(guān)系。
監(jiān)督學(xué)習(xí)分為回歸和分類問(wèn)題
回歸問(wèn)題試圖預(yù)測(cè)連續(xù)值輸出,我們?cè)噲D將輸入變量映射到一些連續(xù)函數(shù)上。
分類問(wèn)題試圖預(yù)測(cè)離散輸出,我們?cè)噲D將輸入變量映射到一些離散類別上。
例1:給定房產(chǎn)大小,預(yù)測(cè)房?jī)r(jià)。價(jià)格是大小的連續(xù)函數(shù),這是回歸問(wèn)題。
我們也可以把它變成分類問(wèn)題,給定某個(gè)閾值價(jià)格,高于它賣(mài)出,低于它不賣(mài),這樣就將問(wèn)題轉(zhuǎn)化為“以高于或者低于給定價(jià)格賣(mài)出?”的二分類問(wèn)題
例2:
(a)回歸問(wèn)題:給定某人照片,基于這張照片預(yù)測(cè)年齡
(b)分類問(wèn)題:知道某個(gè)患腫瘤的病人信息,預(yù)測(cè)腫瘤是惡性(malignant)還是良性(benign)
無(wú)監(jiān)督學(xué)習(xí)
監(jiān)督學(xué)習(xí)每個(gè)樣本都標(biāo)注為正樣本負(fù)樣本,但是無(wú)監(jiān)督不知道這些數(shù)據(jù)是什么意思,問(wèn)題是:我給你一堆數(shù)據(jù),你能找到這些數(shù)據(jù)的某種結(jié)構(gòu)嗎?
聚類算法的應(yīng)用:google news會(huì)將相似新聞組成新聞專題
基因芯片的概念,將相似的基因段分類
四大無(wú)監(jiān)督學(xué)習(xí)應(yīng)用:
- 組織計(jì)算機(jī)集群,找到總是在一起協(xié)同工作的計(jì)算機(jī)組以便精簡(jiǎn)機(jī)房
- 社交網(wǎng)絡(luò)分析
- 營(yíng)銷場(chǎng)景
- 天文數(shù)據(jù)分析
雞尾酒聚會(huì)問(wèn)題
在不同距離有不同的麥克風(fēng),兩個(gè)發(fā)言者同時(shí)對(duì)這些麥克風(fēng)說(shuō)話
算法實(shí)現(xiàn)了兩個(gè)人的不同語(yǔ)音的分離增強(qiáng)
算法還實(shí)現(xiàn)了單獨(dú)人說(shuō)話時(shí),和他的背景音樂(lè)的分離增強(qiáng)

Andrew Ng:在Java或者C++中實(shí)現(xiàn)這個(gè)算法要好多行,現(xiàn)在Python由于庫(kù)函數(shù)的原因變得很容易,但是他說(shuō)的這兩大語(yǔ)言還是要注意