機器學(xué)習(xí)(或統(tǒng)計學(xué)習(xí))算法的目標是減少預(yù)期的泛化誤差,這也被稱為損失(Loss)。如果我們知道真實的分布 P(X,Y),那么使損失最小化就是一個可以通過優(yōu)化算法來解決的最優(yōu)化任務(wù)。
但是,我們并不知道真實分布的形態(tài),只是有一堆可用于訓(xùn)練的樣本而已。因此,我們需要基于給定的樣本攢出一個優(yōu)化問題,即最小化在訓(xùn)練集上的誤差,并由訓(xùn)練集所定義的經(jīng)驗分布近似真實的期望分布。
1.1 統(tǒng)計學(xué)習(xí)
- 統(tǒng)計學(xué)習(xí)的特點
統(tǒng)計學(xué)習(xí)(statistical learning):是關(guān)于計算機基于數(shù)據(jù)構(gòu)建概率統(tǒng)計模型并運用模型對數(shù)據(jù)進行分析與預(yù)測的一門學(xué)科。是計算機系統(tǒng)通過運用統(tǒng)計方法從數(shù)據(jù)中提煉潛在的模式與關(guān)系,從而提高系統(tǒng)性能的機器學(xué)習(xí)。
(1)、以計算機及網(wǎng)絡(luò)為平臺
(2)、以數(shù)據(jù)為研究對象(數(shù)據(jù)驅(qū)動)
(3)、以分析和預(yù)測為研究目的
(4)、以概率論、統(tǒng)計學(xué)、信息論、優(yōu)化理論、計算機科學(xué)為基礎(chǔ)學(xué)科 - 統(tǒng)計學(xué)習(xí)的對象
數(shù)據(jù)(data):數(shù)字、文字、圖象、視頻、音頻及其組合。 - 統(tǒng)計學(xué)習(xí)的目的
(1)、分析:獲取新知識,帶來新發(fā)現(xiàn)
(2)、預(yù)測:提升系統(tǒng)性能 - 統(tǒng)計學(xué)習(xí)的步驟
(1)、獲取訓(xùn)練集(有限的)
(2)、確定假設(shè)空間(模型的集合,假設(shè)函數(shù))
(3)、確定學(xué)習(xí)策略(風(fēng)險函數(shù))
(4)、確定優(yōu)化算法
(5)、學(xué)習(xí)得到最優(yōu)模型
(6)、模型分析與預(yù)測
1.2 統(tǒng)計學(xué)習(xí)的分類
1.2.1 基本分類
(1)、監(jiān)督學(xué)習(xí)(supervised learning):從標注數(shù)據(jù)中學(xué)習(xí)預(yù)測模型的機器學(xué)習(xí)問題。

注:模型實際上都是定義在特征空間上的。

注:監(jiān)督學(xué)習(xí)的基本假設(shè)要求隨機變量X和Y服從聯(lián)合概率分布P(X,Y),它可以是PMF也可以是PDF,但只是假設(shè)其存在,對學(xué)習(xí)系統(tǒng)來說,聯(lián)合概率分布的具體定義是未知的,因為如果知道了P(X,Y),就可以求出條件概率分布P(Y|X),也就不需要學(xué)習(xí)了。

(2)、無監(jiān)督學(xué)習(xí)(unsupervised learning):從無標注數(shù)據(jù)中學(xué)習(xí)預(yù)測模型的機器學(xué)習(xí)問題,其本質(zhì)是學(xué)習(xí)數(shù)據(jù)中的統(tǒng)計規(guī)律或潛在結(jié)構(gòu),例如聚類、降維、概率估計。

(3)、強化學(xué)習(xí)(reinforcement learning):智能系統(tǒng)在與環(huán)境的連續(xù)互動中學(xué)習(xí)最優(yōu)行為策略的機器學(xué)習(xí)問題。
1.2.2 按模型分類
(1)、概率模型(probabilistic model):也叫生成模型,即模型表示了從 x 產(chǎn)生 y 的生成關(guān)系。

(2)、非概率模型(nonprobabilistic model):也叫判別模型,判別模型關(guān)心的是 x 應(yīng)該預(yù)測什么樣的 y。

注:
概率模型一定可以表示為聯(lián)合概率分布的形式,而非概率模型則不能;
概率模型收斂速度更快;
概率模型可以存在隱變量,而非概率模型則不能。
判別模型直接面對預(yù)測,準確率更高;
判別模型可以定義高度抽象的特征工程,因此可以簡化學(xué)習(xí)問題。
1.3 統(tǒng)計學(xué)習(xí)方法三要素
1.3.1 假設(shè)空間(假設(shè)函數(shù)的集合)

注:假設(shè)空間中的模型一般有無窮多個。
1.3.2 風(fēng)險函數(shù)(損失函數(shù))
期望風(fēng)險(expected risk)

經(jīng)驗風(fēng)險(empirical risk)

結(jié)構(gòu)風(fēng)險(structural risk)= 經(jīng)驗風(fēng)險 + 正則化項

1.3.3 優(yōu)化算法
求解目標函數(shù)

注:統(tǒng)計學(xué)習(xí)方法具體采用的損失函數(shù)未必是模型評估時使用的評估函數(shù)
補:J(f)是正則化項,它是模型復(fù)雜度的單調(diào)遞增函數(shù),模型越復(fù)雜,正則化值就越大,正則化項一般定義為模型參數(shù)向量的范數(shù)(L1,L2)。在凸優(yōu)化中,目標函數(shù)經(jīng)正則化得到的最優(yōu)值是原問題最優(yōu)值的下界,證明如下:
正則化符合奧卡姆剃刀(Occam's razor)原理:在所有可能選擇的模型中,能夠很好地解釋已知數(shù)據(jù)并且十分簡單才是最好的模型。
1.6 泛化能力
泛化能力(generalization ability):學(xué)習(xí)方法對未知數(shù)據(jù)的預(yù)測能力。

1.6.2 泛化誤差及其上界
注:泛化誤差就是期望風(fēng)險


