久久久噜噜噜噜天堂,台湾佬大香蕉

返回主頁

機器學(xué)習(xí)（或統(tǒng)計學(xué)習(xí)）算法的目標是減少預(yù)期的泛化誤差，這也被稱為損失（Loss）。如果我們知道真實的分布 P(X,Y)，那么使損失最小化就是一個可以通過優(yōu)化算法來解決的最優(yōu)化任務(wù)。

但是，我們并不知道真實分布的形態(tài)，只是有一堆可用于訓(xùn)練的樣本而已。因此，我們需要基于給定的樣本攢出一個優(yōu)化問題，即最小化在訓(xùn)練集上的誤差，并由訓(xùn)練集所定義的經(jīng)驗分布近似真實的期望分布。

1.1 統(tǒng)計學(xué)習(xí)

統(tǒng)計學(xué)習(xí)的特點
統(tǒng)計學(xué)習(xí)（statistical learning）：是關(guān)于計算機基于數(shù)據(jù)構(gòu)建概率統(tǒng)計模型并運用模型對數(shù)據(jù)進行分析與預(yù)測的一門學(xué)科。是計算機系統(tǒng)通過運用統(tǒng)計方法從數(shù)據(jù)中提煉潛在的模式與關(guān)系，從而提高系統(tǒng)性能的機器學(xué)習(xí)。
（1）、以計算機及網(wǎng)絡(luò)為平臺
（2）、以數(shù)據(jù)為研究對象（數(shù)據(jù)驅(qū)動）
（3）、以分析和預(yù)測為研究目的
（4）、以概率論、統(tǒng)計學(xué)、信息論、優(yōu)化理論、計算機科學(xué)為基礎(chǔ)學(xué)科
統(tǒng)計學(xué)習(xí)的對象
數(shù)據(jù)（data）：數(shù)字、文字、圖象、視頻、音頻及其組合。
統(tǒng)計學(xué)習(xí)的目的
（1）、分析：獲取新知識，帶來新發(fā)現(xiàn)
（2）、預(yù)測：提升系統(tǒng)性能
統(tǒng)計學(xué)習(xí)的步驟
（1）、獲取訓(xùn)練集（有限的）
（2）、確定假設(shè)空間（模型的集合，假設(shè)函數(shù)）
（3）、確定學(xué)習(xí)策略（風(fēng)險函數(shù)）
（4）、確定優(yōu)化算法
（5）、學(xué)習(xí)得到最優(yōu)模型
（6）、模型分析與預(yù)測

1.2 統(tǒng)計學(xué)習(xí)的分類
1.2.1 基本分類
（1）、監(jiān)督學(xué)習(xí)（supervised learning）：從標注數(shù)據(jù)中學(xué)習(xí)預(yù)測模型的機器學(xué)習(xí)問題。

特征空間

注：模型實際上都是定義在特征空間上的。

輸入輸出對又稱為樣本（sample）

注：監(jiān)督學(xué)習(xí)的基本假設(shè)要求隨機變量X和Y服從聯(lián)合概率分布P(X,Y)，它可以是PMF也可以是PDF，但只是假設(shè)其存在，對學(xué)習(xí)系統(tǒng)來說，聯(lián)合概率分布的具體定義是未知的，因為如果知道了P(X,Y)，就可以求出條件概率分布P(Y|X)，也就不需要學(xué)習(xí)了。

監(jiān)督學(xué)習(xí)

（2）、無監(jiān)督學(xué)習(xí)（unsupervised learning）：從無標注數(shù)據(jù)中學(xué)習(xí)預(yù)測模型的機器學(xué)習(xí)問題，其本質(zhì)是學(xué)習(xí)數(shù)據(jù)中的統(tǒng)計規(guī)律或潛在結(jié)構(gòu)，例如聚類、降維、概率估計。

無監(jiān)督學(xué)習(xí)

（3）、強化學(xué)習(xí)（reinforcement learning）：智能系統(tǒng)在與環(huán)境的連續(xù)互動中學(xué)習(xí)最優(yōu)行為策略的機器學(xué)習(xí)問題。

1.2.2 按模型分類
（1）、概率模型（probabilistic model）：也叫生成模型，即模型表示了從 x 產(chǎn)生 y 的生成關(guān)系。

條件概率分布

（2）、非概率模型（nonprobabilistic model）：也叫判別模型，判別模型關(guān)心的是 x 應(yīng)該預(yù)測什么樣的 y。

注：
概率模型一定可以表示為聯(lián)合概率分布的形式，而非概率模型則不能；
概率模型收斂速度更快；
概率模型可以存在隱變量，而非概率模型則不能。
判別模型直接面對預(yù)測，準確率更高；
判別模型可以定義高度抽象的特征工程，因此可以簡化學(xué)習(xí)問題。

1.3 統(tǒng)計學(xué)習(xí)方法三要素
1.3.1 假設(shè)空間（假設(shè)函數(shù)的集合）

F是假設(shè)空間，theta是參數(shù)向量，R是n維參數(shù)空間

注：假設(shè)空間中的模型一般有無窮多個。

1.3.2 風(fēng)險函數(shù)（損失函數(shù)）
期望風(fēng)險（expected risk）

經(jīng)驗風(fēng)險（empirical risk）

結(jié)構(gòu)風(fēng)險（structural risk）= 經(jīng)驗風(fēng)險 + 正則化項

1.3.3 優(yōu)化算法
求解目標函數(shù)

目標函數(shù)的一般形式

注：統(tǒng)計學(xué)習(xí)方法具體采用的損失函數(shù)未必是模型評估時使用的評估函數(shù)

補：J(f)是正則化項，它是模型復(fù)雜度的單調(diào)遞增函數(shù)，模型越復(fù)雜，正則化值就越大，正則化項一般定義為模型參數(shù)向量的范數(shù)（L1,L2）。在凸優(yōu)化中，目標函數(shù)經(jīng)正則化得到的最優(yōu)值是原問題最優(yōu)值的下界，證明如下：