您好,欢迎光临本网站![请登录][注册会员]  

搜索资源列表

  1. testsafetystarteragent-源码

  2. 状态:存档(代码按原样提供,预计不会更新) 安全启动代理 论文“在深度强化学习中对安全探索进行基准测试”的配套回购,其中包含各种不受约束和受约束的RL算法。 此存储库包含用于在“基准安全勘探”论文中获得结果的PPO,TRPO,PPO-Lagrangian,TRPO-Lagrangian和CPO的实现,以及本文中未使用的SAC和SAC-Lagrangian的实验性实现。 请注意,此处的PPO实现遵循的是而不是的约定:它们使用早期停止技巧,省略观察和奖励归一化,并且不使用限幅值损失以及其他可能的
  3. 所属分类:其它

    • 发布日期:2021-03-07
    • 文件大小:44032
    • 提供者:weixin_42132354