您好,欢迎光临本网站![请登录][注册会员]  

搜索资源列表

  1. DRL-2018:结合策略梯度方法(香草PG,Actor-Critic,PPO)和进化策略的实验-源码

  2. DRL-2018 该存储库的功能是2018年夏季深度强化学习研究项目的工作(由Keith Ross教授建议,由纽约大学上海分校院长本科研究基金资助)。 在此项目中,我们尝试将“策略梯度”方法(香草策略梯度(aka REINFORCE),Actor-Critic和PPO)与“进化策略”相结合,以设计出一种提高样本效率的混合算法。 在MuJoCo基准上评估了所提出算法的性能。 参考: 加强:罗纳德·J·威廉姆斯。 用于连接符增强学习的简单统计梯度跟踪算法。 机器学习,8(3-4):229–25
  3. 所属分类:其它

    • 发布日期:2021-03-22
    • 文件大小:15360
    • 提供者:weixin_42109598