2022.7.21 深夜加班統(tǒng)計學(xué),望周知

一、統(tǒng)計學(xué)習(xí)以及監(jiān)督學(xué)習(xí)概論:

1.統(tǒng)計學(xué)

1.1.定義:

是一門關(guān)于計算機基于 數(shù)據(jù)構(gòu)建概率統(tǒng)計模型并運用模型對數(shù)據(jù)進行預(yù)測與分析 的學(xué)科。

1.2.特點:

  • 以計算機及網(wǎng)絡(luò)為平臺,并建立在他們倆上;
  • 以數(shù)據(jù)為研究對象,是數(shù)據(jù)驅(qū)動的學(xué)科(假設(shè)同類數(shù)據(jù)有一定統(tǒng)計規(guī)律性);
  • 目的為對數(shù)據(jù)進行預(yù)測與分析;
  • 方法 為中心,構(gòu)建模型并應(yīng)用它來進行預(yù)測與分析;
  • 是一門涵蓋多個領(lǐng)域的交叉學(xué)科(連學(xué)科都要內(nèi)卷)。

1.3.目的:

讓機器從數(shù)據(jù)中學(xué)習(xí)一些知識,再從中進行預(yù)測(從已知到未知

1.4.實現(xiàn)步驟:

  • ①得到一個有限的訓(xùn)練數(shù)據(jù)集合(用于訓(xùn)練);
  • ②確定包含所有可能的模型的假設(shè)空間——模型;
  • ③確定模型選擇的準(zhǔn)則——策略;
  • ④實現(xiàn)求解最優(yōu)模型的算法——算法
  • ⑤通過學(xué)習(xí)方法(就是②到④)選擇最優(yōu)模型;
  • ⑥利用⑤對新數(shù)據(jù)進行預(yù)測/分析(實際應(yīng)用

2.統(tǒng)計學(xué)習(xí)的分類

統(tǒng)計學(xué)習(xí)的分類方式

2.1.基本分類

分類方式:根據(jù)學(xué)習(xí)的數(shù)據(jù)中所包含的標(biāo)注信息來區(qū)分。
(1)監(jiān)督學(xué)習(xí):
標(biāo)注數(shù)據(jù)中學(xué)習(xí)預(yù)測模型的機器學(xué)習(xí)問題。其本質(zhì)為學(xué)習(xí)輸入到輸出的映射(兩個集合中元素相對應(yīng)關(guān)系)的統(tǒng)計規(guī)律。

  • 預(yù)測模型: 對給定的輸入產(chǎn)生相應(yīng)的輸出(映射);
  • 輸入/出空間: 輸入/出的 所有可能取值 的集合;
  • 特征空間: 所有 特征向量 存在的空間,其每一維對應(yīng)于一個特征,有時候假設(shè)輸入控件與特征空間為相同的,而有時會假設(shè)不同(核技巧);
  • 實例: 每個具體的輸入,通常由特征向量表示;
  • 樣本: 輸入與輸出對——回歸問題輸入/出皆為連續(xù)變量 的預(yù)測問題、分類問題輸出變量為有限個離散變量 的預(yù)測問題,而 標(biāo)注問題 是 *輸入/出變量結(jié)尾變量序列(多個變量)的預(yù)測問題;
  • 基本假設(shè):假設(shè)輸入與輸出的隨機變量X和Y都遵循聯(lián)合概率分布P(X,Y)
  • 學(xué)習(xí)目的: 找到最好的由輸入到輸出的映射模型
監(jiān)督學(xué)習(xí)流程圖

通過學(xué)習(xí)所得模型分為 *條件概率分布P(Y|X)或決策函數(shù)Y=f(X)
那么預(yù)測系統(tǒng)對于給定的預(yù)測輸入x n+1則由模型y n+1 = agr max(y) P(y|x n+1)/ f(x n+1)給定相應(yīng)的輸出(取max是為了確??赡苄宰畲蟮模?/p>

*** (2)無監(jiān)督學(xué)習(xí):***
無標(biāo)注數(shù)據(jù)中學(xué)習(xí)預(yù)測模型的機器學(xué)習(xí)問題。其中,無標(biāo)記數(shù)據(jù)是指自然得到的數(shù)據(jù)(只有輸入,而輸出為潛在數(shù)據(jù))。其 本質(zhì) 為學(xué)習(xí)數(shù)據(jù)中的統(tǒng)計規(guī)律或潛在結(jié)構(gòu)。

  • 預(yù)測模型: 表示數(shù)據(jù)的類別、轉(zhuǎn)換或概率;
  • 輸入和輸出空間可以是 有限元素集合歐氏空間(賦予了一些運算的集合);
  • 輸入為實例,用 特征向量 表示,而輸出則是 對于輸入的分析結(jié)構(gòu);
  • 作用: 可以用于對已有數(shù)據(jù)的分析,也可以用于對未來數(shù)據(jù)的預(yù)測;
  • 學(xué)習(xí)過程: 學(xué)習(xí)系統(tǒng)從訓(xùn)練數(shù)據(jù)集學(xué)習(xí),得到一個最優(yōu)模型表示為函數(shù)z=g(x),條件概率分布P(z|x)或P(x|z);
    無監(jiān)督學(xué)習(xí)流程圖

*** (3)強化學(xué)習(xí):***
指的是智能系統(tǒng)在與環(huán)境的連續(xù) 互動 中學(xué)習(xí)最有行為策略的機器學(xué)習(xí)問題。本質(zhì) 是學(xué)習(xí)最優(yōu)的序貫決策。

強化學(xué)習(xí)流程圖

  • 流程: 在每一步t,智能系統(tǒng)從環(huán)境中觀測到一個狀態(tài)st與一個獎勵rt,采取一個動作at。而環(huán)境根據(jù)智能系統(tǒng)選擇的動作,決定下一步t+1的狀態(tài)st+1與獎勵rt+1;
  • 目標(biāo): 長期累積獎勵的最大化。

1.3統(tǒng)計學(xué)習(xí)方法三要素

方法 = 模型 + 策略 + 算法

1.3.1 模型

監(jiān)督學(xué)習(xí) 中,模型就是索要學(xué)習(xí)的條件概率分布或決策函數(shù)。

  • 若講假設(shè)空間F定義為決策函數(shù)的集合:
    F = {f|Y= f(X)} (f(x)=w(1)x(1) + ... +w(n)x(n)
    這時F通常由一個參數(shù)向量決定的函數(shù)族:
    F={f|Y=fθ(X),θ ∈ Rn}
    其中參數(shù)向量θ取值于參數(shù)空間Rn(n維歐氏空間);
  • 若講假設(shè)空間F定義為條件概率的集合:
    F={P|P(Y|X)}
    這時F通常由一個參數(shù)向量決定的分布族:
    F={P|Pθ(Y|X), θ∈Rn}
    Rn同上。

1.3.2.策略

按照什么樣的準(zhǔn)則學(xué)習(xí)/選擇最優(yōu)模型 (即學(xué)習(xí)目標(biāo))

(下面好多都是算式,就這樣吧)

?著作權(quán)歸作者所有,轉(zhuǎn)載或內(nèi)容合作請聯(lián)系作者
【社區(qū)內(nèi)容提示】社區(qū)部分內(nèi)容疑似由AI輔助生成,瀏覽時請結(jié)合常識與多方信息審慎甄別。
平臺聲明:文章內(nèi)容(如有圖片或視頻亦包括在內(nèi))由作者上傳并發(fā)布,文章內(nèi)容僅代表作者本人觀點,簡書系信息發(fā)布平臺,僅提供信息存儲服務(wù)。

相關(guān)閱讀更多精彩內(nèi)容

友情鏈接更多精彩內(nèi)容