【1】MDP(S【狀態(tài)集】,A【動作集】,{Psa}【狀態(tài)轉換分布】,γ【貼現因子】,R【獎勵函數】)
【過程】
從狀態(tài)0出發(fā),選擇一個動作a0,

選擇a1,

總的回報:

γ∈[0,1)狀態(tài)1比狀態(tài)0的回報少
選擇活動使其最大:

政策policy:

定義值函數:

回報加權和期望
【2】隱馬爾科夫模型
三要素 λ=(A,B,π)
兩個基本假設:
(1)齊次馬爾可夫性假設,隱馬爾科夫鏈t的狀態(tài)只和t-1狀態(tài)有關。

(2)觀測獨立性假設,觀測只和當前時刻狀態(tài)有關。

觀測序列生成:
輸入:隱馬爾科夫模型?λ=(A,B,π)觀測序列長度T


(2)令t=1


(5)令t=t+1,如果t<T,轉(3),否則終止。
隱馬爾科夫三個基本問題:
(1)概率計算
【前向算法】

輸入:隱馬爾科夫模型λ,觀測序列O
輸出:觀測序列概率P(O|λ)
初值:

遞推:

終止:

【后向算法】

輸入:λ,O
輸出:p(O|λ)

(ii)對t=T-1,T-2,...,1

(iii)

(2)學習算法
【監(jiān)督學習算法】
【baum-welch算法】






約束條件



(3)預測計算
【近似算法】


【維特比算法】
動態(tài)規(guī)劃解概率最大路徑,一個路徑對應一個狀態(tài)序列。