此本來自自己碩士論文的綜述部分。
1 偏最小二乘法(Partial least squares, PLS)
偏最小二乘法可以分為偏最小二乘回歸法(Partial least square regression, PLSR)與偏最小二乘法判別分析(Partial least square discriminate analysis, PLS-DA)。PLSR實現(xiàn)的主要思想是將自變量和因變量分別進行線性組合分析,再將求得的數(shù)據(jù)進行關(guān)聯(lián)分析,所以其為主成分分析、典型相關(guān)性分析與多元線性回歸建模的組合。PLS-DA是有監(jiān)督的判別分析法,Gottfries等首先報道了PLS-DA使用,而后Barker與Rayens明確了其用于判別分析的理論基礎(chǔ),并且對于其應(yīng)用的優(yōu)缺點由Brereton與Lloyd進一步闡釋(Gottfries et al 1995, Barker and Rayens 2003, Brereton and Lloyd 2014 )。其與PLSR區(qū)別是因變量是類別,而不是連續(xù)的變量,一般是在PLSR分析后加入一個邏輯判別函數(shù)如Sigmoid函數(shù)(在邏輯回歸判別中將詳述)。因為兩者前面分析部分相似,故這里主要介紹PLSR算法。PLSR中自變量與因變量的基礎(chǔ)結(jié)構(gòu)公式為:
X = TPT + E
Y = UQT + F
PLSR一般基于非線性迭代最小二乘算法(NIPALS)建立。其步驟為(1)對自變量X和因變量Y同時提取各自的主成分t1(x1、x2...xn的線性組合)與u1(y1、y2...yn的線性組合),并且要求這兩個主成分相關(guān)性最大;(2)再進行X與Y分別對t1與u1的回歸,若方程達(dá)到了設(shè)置的滿意度,則停止計算;(3)否則,再利用t1對X解釋后剩余的信息和u1對Y解釋后剩余的信息重新按照(1)進行,再次循環(huán),直到符合設(shè)定的閾值。最終X可能會提取到t1、t2...tn個主成分,Y提取到u1、u2…un,使Y的u組合對t1、t2...tn進行回歸,進而轉(zhuǎn)化成Y對x1、x2...xn的回歸方程(Wold et al 2001)。
PLSR是基于FT-MIR建立模型研究中使用最為廣泛和經(jīng)典的算法,上述關(guān)于基于FT-MIR檢測牛奶脂肪酸、蛋白質(zhì)及氨基酸和抗生素殘留的定量模型研究中均使用了PLSR算法,可見其應(yīng)用之普遍。PLS-DA已在食品分析中的產(chǎn)品認(rèn)證、醫(yī)學(xué)診斷中的疾病分類和代謝組分析中進行廣泛應(yīng)用,并且Gromski等在綜述代謝組的分析中,將其和隨機森林與支持向量機進行了比較(Gromski et al 2015, Lee et al 2018)。
PLS的優(yōu)點:(1)能處理樣本量遠(yuǎn)小于特征屬性數(shù)量的數(shù)據(jù);(2)能處理特征屬性間存在多重共線性的問題;(3)建立的模型時包含自變量與因變量的信息。其缺點有:(1)不能很好的處理非線性問題;(2)容易過擬合,需注意主成分?jǐn)?shù)的選擇。
.2 主成分分析-線性判別分析(PCA-LDA)
主成分分析(Principal Component Analysis,PCA)是一種無監(jiān)督的降維分析方法。PCA降維的基本原則是使降維后方差最大與損失最小,如圖1-2。其實現(xiàn)的基本過程:(1)對所有樣本進行中心化處理;(2)計算樣本的協(xié)方差矩陣;(3)對協(xié)方差矩陣進行特征值分解;(4)對得到的特征值進行排序,取前n個組成新矩陣;(5)以新矩陣來代替原來樣本的特征(Abdi and Williams 2010, Jolliffe and Cadima 2016)。
線性判別分析(Linear discriminat analysis,LDA)是一種有監(jiān)督的降維與判別分析方法。LDA降維原則是類別內(nèi)方差最小,類別間方差最大,這樣的特點更有利于進行判別分析(Anandkumar et al 2015)。其實現(xiàn)的基本過程為(1)計算樣本各類別內(nèi)的類內(nèi)散度矩陣Sw;(2)計算樣本各類別間的散度矩陣Sb;(3)對Sw做奇異分解,得到Sw-1;(4)對Sw-1Sb做特征分解;(5)取上一步得到的前n特征向量以最大似然法求得各類別的均值和方差做后續(xù)的判別分析。
LDA不適用自變量遠(yuǎn)遠(yuǎn)大于樣本的情況,而PCA可以,故這里將兩個算法進行聯(lián)用,先以PCA進行降維,再以LDA進行判別分析(Yang and Yang 2003)。

PCA-LDA的優(yōu)點:(1)兩個算法的聯(lián)用可以同時對原數(shù)據(jù)進行降維和判別分析;(2)LDA采用的是各類均值,算法較優(yōu)。其缺點有(1)只適合符合高斯分布的樣本數(shù)據(jù)分析;(2)可能會有過擬合的風(fēng)險。
3 決策樹(Decision Tree, DT)
決策樹是基礎(chǔ)的分類和回歸方法,本研究主要集中在其用于分類上。決策樹是通過樹狀結(jié)構(gòu)對具有特征屬性的樣本進行分類。每一個決策樹都包括根節(jié)點(第一個特征屬性),內(nèi)部節(jié)點(其他特征屬性)以及葉子節(jié)點(類別),通用的為每個內(nèi)部節(jié)點有兩個分支(Kaminski et al 2018)。其實現(xiàn)的基本步驟:(1)在所有屬性中選擇最優(yōu)屬性,通過其將樣本分類;(2)將分類的樣本再通過另一個特征屬性再次分類,一直循環(huán)直到將樣本分到各葉子節(jié)點;(3)對生成的樹進行剪枝(包含預(yù)剪枝與后剪枝)。決策樹選擇特征屬性的算法不同會有不同結(jié)果,典型算法包括:CART算法(Breiman et al 1984)、ID3算法(Quinlan 1986)、C4.5算法(Quinlan 1992)等,但這些方法生成的過程相似。
CART采用基尼指數(shù)最小化原則,進行特征選擇,遞歸地生成二叉樹,該算法只能對特征進行二分。ID3算法在各個節(jié)點上采用信息增益來選擇特征,每一次選擇的特征均使信息增益最大,逐步構(gòu)建決策樹,但缺點是其會選擇取值較多的特征,而C4.5算法采用信息增益比選擇特征,解決了ID3的缺點。
DT的優(yōu)點:(1)運行速度相對較快;(2)可同時處理不同類型的數(shù)據(jù),基本不需要預(yù)處理;(3)結(jié)果容易解釋,并可進行可視化。其缺點:(1)容易過擬合,導(dǎo)致泛化能力不強;(2)不支持在線學(xué)習(xí),若有新樣本,DT需要全部重建;(3)當(dāng)各類別數(shù)據(jù)樣本不平衡時,結(jié)果會偏向有更多數(shù)值的特征;(4)不能處理樣本特征屬性之間的相關(guān)性(James et al 2013, Painsky and Rosset 2015)。
4 人工神經(jīng)網(wǎng)絡(luò)(Artificial neural network,ANN)
人工神經(jīng)網(wǎng)絡(luò)是以神經(jīng)元為單位模仿生物神經(jīng)網(wǎng)絡(luò)的結(jié)構(gòu)與功能的數(shù)學(xué)算法模型(Marcel and Sander 2018)。其可以進行線性與非線性的判別分析,屬于有監(jiān)督的學(xué)習(xí)分類法,主要分為前饋型神經(jīng)網(wǎng)絡(luò)、反饋型神經(jīng)網(wǎng)絡(luò)與自組織神經(jīng)網(wǎng)絡(luò)。
單位神經(jīng)元如圖1-3中A,一般有多個輸入的“樹突”,再分別給予不同的權(quán)重求和,與閾值比較,達(dá)到閾值的通過激活函數(shù)求出輸出數(shù)據(jù),最后進行輸出。激活函數(shù)f通常分為三類:閾值函數(shù)、分段函數(shù)、雙極性連續(xù)函數(shù)。

這里以經(jīng)典的單隱層神經(jīng)網(wǎng)絡(luò)為例進行講解,如圖1-3中B。其輸入層包含三個神經(jīng)元,隱含層有四個神經(jīng)元,輸出層有兩個神經(jīng)元。其運算過程為由輸入層輸入數(shù)據(jù),隨機設(shè)定權(quán)重和閾值,通過隱藏層計算再傳遞到輸出層,輸出層會根據(jù)設(shè)定的期望進行判斷,如果不符合,則返回重新改變權(quán)重和閾值,進入循環(huán),直到符合設(shè)定的期望再停止運算,這樣就能得到模型的權(quán)重和閾值,可對新數(shù)據(jù)進行判別,這種運算法即為常見的反饋型神經(jīng)網(wǎng)絡(luò)(Tu 1996)。多層神經(jīng)網(wǎng)絡(luò)屬于深度學(xué)習(xí),以卷積神經(jīng)網(wǎng)絡(luò)為基礎(chǔ)進行構(gòu)建。
ANN的優(yōu)點:(1)能夠自主學(xué)習(xí);(2)能解決線性與非線性的問題;(3)可處理因變量之間的相互作用。其缺點:(1)需要設(shè)置大量的參數(shù)進行約束;(2)結(jié)果解釋性差,為黑箱算法;(3)計算學(xué)習(xí)時間長;(4)容易過擬合(Tu 1996)。