带有MADDPG的网球：在Pytorch上实现MADDPG-源码项目3：合作与竞争介绍在这种环境

文件名称: 带有MADDPG的网球：在Pytorch上实现MADDPG-源码

所属分类: 其它

开发工具:

文件大小: 45mb

下载次数: 0

上传时间: 2021-02-14

提供者: weixin_********

下载 (45mb)

不能下载？报告错误

详细说明：项目3：合作与竞争介绍在这种环境下，两名特工控制球拍在球网上弹跳球。如果探员将球击中网，则得到+0.1的奖励。如果探员让一个球击中地面或越界将球击中，则其收益为-0.01。因此，每个特工的目标是保持比赛中的球权。观察空间由8个变量组成，分别对应于球和球拍的位置和速度。每个代理都会收到自己的本地观察结果。有两个连续的动作可用，分别对应于朝向（或远离）网络的运动和跳跃。下图显示了最终的奖励进度。环境在1820集中得到解决算法：为了解决此环境，我实现了Multi-DDPG算法。实现的功能如下：每个特工都有独立的演员和评论家集中培训：每个代理的批评者不仅将自己的演员的行为和状态作为输入，而且还将所有其他代理的状态和行为作为输入。由于在测试过程中仅使用参与者，并且参与者仅取决于相应参与者的状态，因此代理可以自由地学习自己的奖励结构。下图[来源：：

(系统自动生成,下载前可以参看下载内容)