您好,欢迎光临本网站![请登录][注册会员]  

搜索资源列表

  1. trpo:使用TensorFlow和OpenAI Gym优化信任区域策略-源码

  2. 广义优势估计的信任域策略优化 帕特里克·科迪(Patrick Coady): 概要 注意:代码已重构为使用TensorFlow 2.0和PyBullet(而不是MuJoCo)。 请参阅tf1_mujoco分支以获取旧版本。 该项目的最初目标是使用相同的算法来“解决” 。 并且,具体地说,要在不手动调整每个环境的超参数(网络大小,学习速率和TRPO设置)的情况下实现此目的。 这是具有挑战性的,因为环境的范围从具有单个控制输入的简单手推车杆问题到具有17个受控关节和44个观察变量的类人动物。 该项
  3. 所属分类:其它

    • 发布日期:2021-02-06
    • 文件大小:652288
    • 提供者:weixin_42114046