關(guān)于統(tǒng)計(jì)模型和機(jī)器學(xué)習(xí)模型的區(qū)別

我經(jīng)常被問到的一個(gè)問題是如何在一個(gè)假設(shè)檢驗(yàn)中解釋機(jī)器學(xué)習(xí)模型的結(jié)果?

這個(gè)問題的矛盾源于本身這兩類模型是有區(qū)別的,然而由于使用的方法和技術(shù)太過重疊,所以非常容易混淆。直覺上機(jī)器學(xué)習(xí)模型和統(tǒng)計(jì)模型沒有嚴(yán)格的劃分界限,但他們本身是在使用目的上有很大差異的兩類模型。機(jī)器學(xué)習(xí)適用于盡可能最大限度準(zhǔn)確預(yù)測,而統(tǒng)計(jì)是用于分析變量之間的關(guān)系。雖然在使用上,統(tǒng)計(jì)模型也經(jīng)常用于預(yù)測,但顯然統(tǒng)計(jì)模型不追求高準(zhǔn)確性,而更多在于分析變量對于數(shù)據(jù)的解釋能力。

需要明確的是,統(tǒng)計(jì)學(xué)是對于數(shù)據(jù)的數(shù)學(xué)研究,以數(shù)據(jù)的分布假設(shè)為前提,公式和運(yùn)算非常重要,通過構(gòu)建一個(gè)理論方程進(jìn)行數(shù)據(jù)擬合,進(jìn)而分析變量的關(guān)系和推斷。統(tǒng)計(jì)模型,最關(guān)注參數(shù)的穩(wěn)定性和殘差的變化特征是否表現(xiàn)為匹配數(shù)據(jù)的假設(shè)分布。例如研究人員通常希望能夠通過模型解釋x對y的影響,必須構(gòu)建出線性或者非線性的回歸方程進(jìn)行擬合,即需要明確模型的形式規(guī)則,x以何種方式影響了y方程,模型包括了2部分,線性或者非線性的關(guān)系和隨機(jī)的噪聲數(shù)據(jù),通過最小化擬合值與實(shí)際觀測值的方差獲得線性模型具體參數(shù),僅用于分析已有的數(shù)據(jù),止步于統(tǒng)計(jì)推斷和評估參數(shù)的穩(wěn)定性,很少用于預(yù)測新的數(shù)據(jù)。

合理的線性擬合模型需要符合以下5個(gè)假設(shè):

  1. 變量之間的獨(dú)立性;
  2. 方差齊次性;
  3. 自變量服從正態(tài)分布;
  4. 殘差符合正態(tài)分布;
  5. 樣本之間的獨(dú)立性;

而機(jī)器學(xué)習(xí)本身就不認(rèn)為數(shù)據(jù)符合某一種特定的假設(shè)分布,默認(rèn)數(shù)據(jù)的關(guān)系本身是復(fù)雜的,x對于y的解釋是不確定的。機(jī)器學(xué)習(xí)的線性回歸,是首先將數(shù)據(jù)劃分為訓(xùn)練集和測試集,通過對訓(xùn)練集的擬合,再通過測試集檢驗(yàn),獲得的參數(shù)是使得測試集表現(xiàn)最好的參數(shù)集合。

關(guān)于機(jī)器學(xué)習(xí)模型和統(tǒng)計(jì)模型的區(qū)別在20年前就已經(jīng)有討論,RandomForest的發(fā)明人Leo Breiman在2001年發(fā)表文章,提出了重要的區(qū)別思想并回答了3個(gè)問題,

Rashomon: the multiplicity of good models
Occam: the conflict between simplicity and accuracy
Bellman: dimensionality—curse or blessing?

Breiman的對比分析結(jié)果表明模型確實(shí)不是唯一的,機(jī)器學(xué)習(xí)模型可以兼容簡潔性和準(zhǔn)確性(在統(tǒng)計(jì)模型中難以做到),并且認(rèn)為數(shù)據(jù)的維度特征越多可以提供更多的信息。這些并不表明統(tǒng)計(jì)模型沒用,Brieman認(rèn)為對于簡單問題或簡單的系統(tǒng)建模,統(tǒng)計(jì)模型很適用。

以一個(gè)具體的例子來說明,我在分析一個(gè)生態(tài)學(xué)研究的數(shù)據(jù)集合,包括了30個(gè)樣地的多樣性數(shù)據(jù)和14個(gè)環(huán)境因子變量,根據(jù)生態(tài)學(xué)理論,我希望檢驗(yàn)環(huán)境因子對于多樣性高低的影響。所以我應(yīng)該使用統(tǒng)計(jì)模型,我做出環(huán)境因子和多樣性數(shù)據(jù)的關(guān)系為線性關(guān)系的假設(shè),對數(shù)據(jù)經(jīng)過轉(zhuǎn)化后都符合正態(tài)分布,經(jīng)過模型篩選我保留4個(gè)變量作為解釋變量,最后的模型結(jié)果顯示出4個(gè)環(huán)境因子對于多樣性的模型解釋率,即R2=30%。這個(gè)結(jié)果表明我證明了這4個(gè)環(huán)境因子對于多樣性的影響具有一定的統(tǒng)計(jì)意義,然而這個(gè)模型對于預(yù)測是沒有意義的;即便是我一定使用機(jī)器學(xué)習(xí)模型保留進(jìn)行預(yù)測分析,準(zhǔn)確性再高我也無法進(jìn)一步討論環(huán)境變量和多樣性之間的關(guān)系。

關(guān)于這兩種模型的討論給我們提供了一種新的交互思路,如果在高準(zhǔn)確性的前提下,進(jìn)一步完善理論模型,進(jìn)而構(gòu)建出可以被檢驗(yàn)的統(tǒng)計(jì)模型具體分析變量關(guān)系。

最后編輯于
?著作權(quán)歸作者所有,轉(zhuǎn)載或內(nèi)容合作請聯(lián)系作者
【社區(qū)內(nèi)容提示】社區(qū)部分內(nèi)容疑似由AI輔助生成,瀏覽時(shí)請結(jié)合常識與多方信息審慎甄別。
平臺聲明:文章內(nèi)容(如有圖片或視頻亦包括在內(nèi))由作者上傳并發(fā)布,文章內(nèi)容僅代表作者本人觀點(diǎn),簡書系信息發(fā)布平臺,僅提供信息存儲服務(wù)。

相關(guān)閱讀更多精彩內(nèi)容

  • 首頁 資訊 文章 資源 小組 相親 登錄 注冊 首頁 最新文章 IT 職場 前端 后端 移動端 數(shù)據(jù)庫 運(yùn)維 其他...
    Helen_Cat閱讀 4,159評論 1 10
  • 大概在所有殺手眼里世界都是這種槍炮是溝通的語言,武器武力就是最大的道理,不存在金錢,不存在背景,管你有什么身份什么...
    云染舒倦閱讀 489評論 0 1
  • 要倒計(jì)時(shí)了,莫名的有一絲絲慌亂
    SatelliteW閱讀 175評論 0 0
  • 常人說:“不登山,不知山高;不涉水,不曉水深;不賞奇景,怎知其絕妙。”“讀萬卷書,還須行萬里路。”只有親身實(shí)踐,身...
    九天玄女_e992閱讀 282評論 0 0

友情鏈接更多精彩內(nèi)容