3D MuJoCo中高维连续控制问题的单调策略优化算法将具有非线性函数逼近器的强化学习应用于高维连续

文件名称: 3D MuJoCo中高维连续控制问题的单调策略优化算法

所属分类: 其它

开发工具:

文件大小: 1mb

下载次数: 0

上传时间: 2021-03-08

提供者: weixin_********

下载 (1mb)

不能下载？报告错误

详细说明：将具有非线性函数逼近器的强化学习应用于高维连续控制问题的一个挑战是，由许多现有算法产生的更新策略可能无法提高策略性能，甚至导致策略性能严重下降。为了应对这一挑战，本文提出了政策改进的新下限，其中对国家空间上的平均政策分歧进行了惩罚。据我们所知，这是当前政策下限的最佳结果。直接优化策略改进的下限非常困难，因为它需要大量的计算开销。根据信任区域策略优化（TRPO）的理想，本文还提出了一种单调策略优化算法，该算法基于本文介绍的策略改进的新下限，可以生成一系列单调改进策略，适用于大规模的连续控制问题。本文还对提出的算法与现有的一些算法进行了比较，并将其与具有挑战性的机器人运动任务进行比较。

(系统自动生成,下载前可以参看下载内容)