【2018-09-28】馬爾科夫決策過程MDP

【1】MDP(S【狀態(tài)集】,A【動作集】,{Psa}【狀態(tài)轉換分布】,γ【貼現因子】,R【獎勵函數】)

【過程】

從狀態(tài)0出發(fā),選擇一個動作a0,

選擇a1,

總的回報:


γ∈[0,1)狀態(tài)1比狀態(tài)0的回報少

選擇活動使其最大:


政策policy:


定義值函數:


回報加權和期望

【2】隱馬爾科夫模型

三要素 λ=(A,B,π)

兩個基本假設:

(1)齊次馬爾可夫性假設,隱馬爾科夫鏈t的狀態(tài)只和t-1狀態(tài)有關。


(2)觀測獨立性假設,觀測只和當前時刻狀態(tài)有關。


觀測序列生成:

輸入:隱馬爾科夫模型?λ=(A,B,π)觀測序列長度T

(2)令t=1

(5)令t=t+1,如果t<T,轉(3),否則終止。

隱馬爾科夫三個基本問題:

(1)概率計算

【前向算法】

輸入:隱馬爾科夫模型λ,觀測序列O

輸出:觀測序列概率P(O|λ)

初值:


遞推:

終止:


【后向算法】

輸入:λ,O

輸出:p(O|λ)

(ii)對t=T-1,T-2,...,1

(iii)

(2)學習算法

【監(jiān)督學習算法】

【baum-welch算法】

約束條件






(3)預測計算

【近似算法】


【維特比算法】

動態(tài)規(guī)劃解概率最大路徑,一個路徑對應一個狀態(tài)序列。

?著作權歸作者所有,轉載或內容合作請聯系作者
【社區(qū)內容提示】社區(qū)部分內容疑似由AI輔助生成,瀏覽時請結合常識與多方信息審慎甄別。
平臺聲明:文章內容(如有圖片或視頻亦包括在內)由作者上傳并發(fā)布,文章內容僅代表作者本人觀點,簡書系信息發(fā)布平臺,僅提供信息存儲服務。

相關閱讀更多精彩內容

友情鏈接更多精彩內容