9亚州综合一页,欧美激情精品久久久久,在线有码中文字草久久

Multiagent cooperation and competition with deep reinforcement learning

論文復現(xiàn) :

tensorflow_2player_pong

論文詳述

Multiagent cooperation and competition with deep reinforcement learning

pong game-two agents

基礎模型：pong game, two agents
算法結構：dqn
- reward：scoring:(-1,1) conceding(-1)
  未擊中球得-1，擊中球得分between (-1,1)
  雙方均擊中球得分0，游戲繼續(xù)

reward

訓練參數(shù)
- 50 epochs, 250000 time steps each.
- exploration rate: 1.0 to 0.05(in the 1000000 time steps) and stays fixed at that value

parameters.png

結果分析
- 是否收斂:monitor average maximal Q-values of 500 randomly selected game situations, set aside before training begins
  
  Q values
- 訓練效果反饋:
  - Average paddle-bounces per point 在一方得分前球在players間來回的次數(shù)
  - Average wall-bounces per paddle-bounce 球在到達一方前撞墻的次數(shù)
  - Average serving time per point 球丟了以后players restart game的反應時間(一些rewarding scheme下players不希望重啟游戲，serving time很長，如p = -1)

結果分析

scoring = -1時，雙方為合作狀態(tài)（均不希望球掉落）
最終雙方均升至頁面最上方，球水平傳來傳去
合作模式video-youtube

1.png
scoring = 1時，雙方為競爭模式(希望自己多得分)
競爭模式video-youtube

2.png
p range from -1 to 1

3.png

multiplayer dqn vs single-player
(score表示a勝b的得分)

4

本文遵守知識共享協(xié)議：署名-非商業(yè)性使用-相同方式共享 (BY-NC-SA)及簡書協(xié)議
轉載請注明：作者空空格格，首發(fā)簡書 Jianshu.com

最后編輯于：2018.05.11 09:09:37

?著作權歸作者所有,轉載或內容合作請聯(lián)系作者
【社區(qū)內容提示】社區(qū)部分內容疑似由AI輔助生成，瀏覽時請結合常識與多方信息審慎甄別。
平臺聲明：文章內容（如有圖片或視頻亦包括在內）由作者上傳并發(fā)布，文章內容僅代表作者本人觀點，簡書系信息發(fā)布平臺，僅提供信息存儲服務。

色偷偷精品伊人,欧洲久久精品,欧美综合婷婷骚逼,国产AV主播,国产最新探花在线,九色在线视频一区,伊人大交九欧美,1769亚洲,黄色成人av

Multiagent cooperation and competition with deep reinforcement learning

Multiagent cooperation and competition with deep reinforcement learning

論文復現(xiàn) :

論文詳述

結果分析

相關閱讀更多精彩內容

友情鏈接更多精彩內容

色偷偷精品伊人,欧洲久久精品,欧美综合婷婷骚逼,国产AV主播,国产最新探花在线,九色在线视频一区,伊人大交九 欧美,1769亚洲,黄色成人av

Multiagent cooperation and competition with deep reinforcement learning

論文復現(xiàn) :

論文詳述

結果分析

相關閱讀更多精彩內容

友情鏈接更多精彩內容

色偷偷精品伊人,欧洲久久精品,欧美综合婷婷骚逼,国产AV主播,国产最新探花在线,九色在线视频一区,伊人大交九欧美,1769亚洲,黄色成人av