您好,欢迎光临本网站![请登录][注册会员]  

搜索资源列表

  1. RLFromHumanPrefrences:加强从人类偏好中学习,以产生与预期不符的行为,并通过Garner工具通过人类偏好进行学习-源码

  2. RLFromHumanPrefrences 通过通过人的偏好学习,从人的偏好中加强学习,以产生与环境奖励不符的行为。 工具。 要求 Python 3(它可能与Python 2兼容,但我没有对其进行测试) 为了安装要求,请遵循: # PyTorch conda install pytorch torchvision -c soumith # Baselines for Atari preprocessing git clone https://github.com/openai/baselin
  3. 所属分类:其它

    • 发布日期:2021-02-13
    • 文件大小:409600
    • 提供者:weixin_42163404