您好,欢迎光临本网站![请登录][注册会员]  

搜索资源列表

  1. 3D MuJoCo中高维连续控制问题的单调策略优化算法

  2. 将具有非线性函数逼近器的强化学习应用于高维连续控制问题的一个挑战是,由许多现有算法产生的更新策略可能无法提高策略性能,甚至导致策略性能严重下降。 为了应对这一挑战,本文提出了政策改进的新下限,其中对国家空间上的平均政策分歧进行了惩罚。 据我们所知,这是当前政策下限的最佳结果。 直接优化策略改进的下限非常困难,因为它需要大量的计算开销。 根据信任区域策略优化(TRPO)的理想,本文还提出了一种单调策略优化算法,该算法基于本文介绍的策略改进的新下限,可以生成一系列单调改进策略,适用于大规模的连续控制
  3. 所属分类:其它

    • 发布日期:2021-03-08
    • 文件大小:1048576
    • 提供者:weixin_38655878