四要素,SMAR-P
state 狀態(tài),系統(tǒng)的狀態(tài)集合
model 模型 狀態(tài)經(jīng)過動作后的轉(zhuǎn)移 T(S,a,S')
action 可以執(zhí)行的動作集合
reward 某個動作的獎勵,可以是R(s),R(s,a),R(s,a,s')
這樣的一個過程,要求解的是一個行動策略
P(s)->a, 使得獎勵最大化。隱含的假設(shè)是時間無盡
四要素,SMAR-P
state 狀態(tài),系統(tǒng)的狀態(tài)集合
model 模型 狀態(tài)經(jīng)過動作后的轉(zhuǎn)移 T(S,a,S')
action 可以執(zhí)行的動作集合
reward 某個動作的獎勵,可以是R(s),R(s,a),R(s,a,s')
這樣的一個過程,要求解的是一個行動策略
P(s)->a, 使得獎勵最大化。隱含的假設(shè)是時間無盡