您好,欢迎光临本网站![请登录][注册会员]  

搜索资源列表

  1. mbpo_pytorch:基于模型的强化学习算法MBPO的pytorch复制-源码

  2. 概述 这是pytorch中基于模型的RL算法MBPO的重新实现,如下文所述:。 该代码基于的使用张量流集成模型重现了结果,但使用pytorch集成模型却表现出明显的性能下降。 这段代码使用pytorch重新实现了集成动力学模型,并缩小了差距。 转载结果 比较是在两个任务上完成的,而其他任务没有经过测试。 但是在经过测试的两个任务上,与官方的tensorflow代码相比,pytorch实现获得了类似的性能。 依存关系 MuJoCo 1.5和MuJoCo 2.0 用法 python main_mb
  3. 所属分类:其它

    • 发布日期:2021-03-25
    • 文件大小:176128
    • 提供者:weixin_42168830
  1. DRL-2018:结合策略梯度方法(香草PG,Actor-Critic,PPO)和进化策略的实验-源码

  2. DRL-2018 该存储库的功能是2018年夏季深度强化学习研究项目的工作(由Keith Ross教授建议,由纽约大学上海分校院长本科研究基金资助)。 在此项目中,我们尝试将“策略梯度”方法(香草策略梯度(aka REINFORCE),Actor-Critic和PPO)与“进化策略”相结合,以设计出一种提高样本效率的混合算法。 在MuJoCo基准上评估了所提出算法的性能。 参考: 加强:罗纳德·J·威廉姆斯。 用于连接符增强学习的简单统计梯度跟踪算法。 机器学习,8(3-4):229–25
  3. 所属分类:其它

    • 发布日期:2021-03-22
    • 文件大小:15360
    • 提供者:weixin_42109598
  1. transition:论文“学习复杂技能的学习过渡政策”的正式代码(ICLR 2019)-源码

  2. 通过学习过渡政策来构成复杂技能 内容描述 此项目是TensorFlow实施,,已在发布。 我们提供本文中提出的模型,环境和基线的代码。 人类通过利用先前学习的技能并在它们之间进行转换来获得复杂的技能。 为了赋予机器这种能力,我们提出了一种方法,该方法可以学习过渡策略,该策略可以有效地连接原始技能以执行顺序任务,而无需手工奖励。 为了有效地训练我们的过渡政策,我们引入了接近度预测器,这些预测器会诱使人们将奖励衡量为接近下一个技能的合适初始状态。 在传统的策略梯度方法难以解决的两足运动和机械臂操
  3. 所属分类:其它

    • 发布日期:2021-03-17
    • 文件大小:5242880
    • 提供者:weixin_42120541
  1. self-imitation-via-reduction-源码

  2. 通过还原自我模仿 论文: 项目网站: : 。 开始使用 先决条件: Ubuntu 16.04 CUDA 10.0 版本2.0。 您可以获取许可证并从其网站下载二进制文件。 安装: 运行conda env create -f environment.yml 。 如果您在安装mujoco-py遇到问题,可以参考。 怎么跑 脚本exp_push.sh , exp_fetchstack.sh , exp_masspoint.sh包含分别用于在Push , Stack和Maze场景中运行不同算
  3. 所属分类:其它

    • 发布日期:2021-03-13
    • 文件大小:888832
    • 提供者:weixin_42097914
  1. jax_rl:具有连续动作空间的深度强化学习的软演员关键(SAC)的Jax(亚麻)实现-源码

  2. 贾克斯(亚麻)柔软演员评论家 这是的Jax(Flax)实现,。 该存储库的目标是提供一个简单而干净的实现,以在此基础上进行研究。 请不要将此存储库用于基线结果,而应使用SAC的原始实现。 安装 安装并激活Anaconda环境 conda env create -f environment.yml conda activate jax-sac 如果要在GPU上运行此代码,请按照说明进行操作。 请按照使用快速的无头GPU渲染构建mujoco-py。 跑 OpenAI Gym MuJoCo任务
  3. 所属分类:其它

    • 发布日期:2021-03-11
    • 文件大小:1048576
    • 提供者:weixin_42134143
  1. jax-sac:具有连续动作空间的深度强化学习的软演员关键(SAC)的Jax(亚麻)实现-源码

  2. 贾克斯(亚麻)柔软演员评论家 这是的Jax(Flax)实现,。 该存储库的目标是提供一个简单而干净的实现,以在此基础上进行研究。 请不要将此存储库用于基线结果,而应使用SAC的原始实现。 安装 安装并激活Anaconda环境 conda env create -f environment.yml conda activate jax-sac 如果要在GPU上运行此代码,请按照说明进行操作。 请按照使用快速的无头GPU渲染构建mujoco-py。 跑 OpenAI Gym MuJoCo任务
  3. 所属分类:其它

    • 发布日期:2021-03-11
    • 文件大小:1048576
    • 提供者:weixin_42134143
  1. sim2real4real:^-源码

  2. 基于图像的RL与Asym Actor评论家 这是DDPG +和的pytorch实现 要求 Python= 3.6 openai-gym(支持mujoco200) mujoco-py最新版本 pytorch最新版本 mpi4py最新版本 指令运行代码 run2.sh,run.sh和run3.sh文件由运行各种模型的代码组成。 播放演示 python demo.py --env-name= 下载预训练的模型 请从下载它们,然后将saved_models放在当前文件夹下。 结果 训练表现 通过使
  3. 所属分类:其它

    • 发布日期:2021-03-11
    • 文件大小:26214400
    • 提供者:weixin_42181319
  1. MEEE-源码

  2. 复制MEEE的指令 在MEEE中重现实验的代码。 请注意,该代码主要基于 安装 在~/.mujoco/mujoco200安装MuJoCo 2.0 ,并将您的许可证密钥复制到~/.mujoco/mjkey.txt ,例如,您需要首先为Linux平台安装以下依赖项: sudo yum install patchelf sudo yum install mesa-libGL-devel mesa-libGLU-devel sudo yum install mesa-libOSMesa-devel s
  3. 所属分类:其它

    • 发布日期:2021-03-08
    • 文件大小:103424
    • 提供者:weixin_42133861
  1. CRIL:循环-源码

  2. 循环 这是关于CRIL模拟实验的官方资料库:高崇凯,海川,郭尚琪,张天仁和陈峰通过生成动力学模型进行的连续机器人模仿学习。 CRIL是专门为连续机器人模仿学习而设计的专用深度生成重放算法,该算法同时使用动态预测器和WGAN-GP进行轨迹重放。 仿真和真实世界实验的结果以及生成的图像如下: 目录 安装 CRIL的仿真实验基于MuJoCo和Meta-World基准测试,需要预先安装。 您可以按照以下说明安装和 。 跑步 引用CRIL 致谢 我们要感谢苏欣,杨志乐和江益州对DGR理论和GAN实验
  3. 所属分类:其它

    • 发布日期:2021-03-07
    • 文件大小:2048
    • 提供者:weixin_42152298
  1. multi-agent-predator-prey:在多主体环境中模拟猎物与捕食者之间的相互作用-源码

  2. 状态:存档(代码按原样提供,预计不会更新) 多主体出现环境 环境生成代码() 安装 该存储库取决于软件包。 您将需要克隆mujoco-worldgen存储库并安装它及其依赖项: pip install -r mujoco-worldgen/requirements.txt pip install -e mujoco-worldgen/ pip install -e multi-agent-emergence-environments/ 仅在Mac OS X和带有Python 3.6的Ubunt
  3. 所属分类:其它

    • 发布日期:2021-03-05
    • 文件大小:72351744
    • 提供者:weixin_42107561
  1. 简单轨迹跟踪:平滑的机器人轨迹跟踪算法-源码

  2. 简单轨迹跟踪 平滑的机器人轨迹跟踪算法。 算法 来源:' : ' 结果 依存关系 使用以下命令安装依赖项: pip3 install -r requirements.txt 按照->' '上的说明安装mujoco-py 接触 电子邮件:
  3. 所属分类:其它

    • 发布日期:2021-02-28
    • 文件大小:149504
    • 提供者:weixin_42127020
  1. mujoco-py:MuJoCo是一个物理引擎,用于进行带接触的详细,有效的刚体模拟。 mujoco-py允许使用Python 3中的MuJoCo-源码

  2. 状态:维护(预计错误修复和次要更新) 穆乔皮 是一个物理引擎,可进行带触点的详细,有效的刚体模拟。 mujoco-py允许使用Python 3中的MuJoCo。 该库已更新为与2018年10月1日发布的MuJoCo版本2.0兼容。 概要 要求 当前支持以下平台: Linux和Python 3.6及更高版本。 有关系统依赖关系的规范列表,请参阅 。 带有Python 3.6及更高版本的OSX。 以下平台已弃用且不受支持: Windows支持已被弃用,并已在删除。 一个已知的良好过去版本
  3. 所属分类:其它

    • 发布日期:2021-02-27
    • 文件大小:3145728
    • 提供者:weixin_42118701
  1. HGG扩展大师-源码

  2. 通过后见目标生成进行探索 这是TensorFlow实施的论文主题,该目标基于稀疏奖励深度强化学习的基于目标的后视目标生成,用于机器人对象操纵(Matthias Brucker,2020)它基于HRG论文的实现,被NeurIPS 2019接受了进行探索。 要求 Ubuntu 16.04(较新的版本,例如18.04也应该工作) Python 3.5.2(3.6.9等较新的版本也应该工作) MuJoCo == 1.50.1.68 看看python软件包版本的requirements.txt(例如
  3. 所属分类:其它

    • 发布日期:2021-02-25
    • 文件大小:19922944
    • 提供者:weixin_42156940
  1. pddm-源码

  2. PDDM 用于学习灵巧操纵的深度动力学模型 ,Kurt ,Sergey Levine, 。 请注意,这是研究代码,因此仍在构建中。 此代码实现了PDDM中提供的基于模型的RL算法。 如有疑问或疑虑,请联系Anusha Nagabandi。 本自述文件的内容: A.入门 1)Mujoco: 按照他们的说明将mujoco(v1.5)下载并安装到〜/ .mujoco (包括在~/.bashrc文件中设置LD_LIBRARY_PATH ) 2)如果使用GPU: 根据您的系统规格设置C
  3. 所属分类:其它

    • 发布日期:2021-02-20
    • 文件大小:27262976
    • 提供者:weixin_42134769
  1. rl-laplacian:在强化学习中学习拉普拉斯表示-源码

  2. 在强化学习中学习拉普拉斯表示 该代码库实现了的表示学习方法 。 该实施包括(i)表示学习和(ii)使用所学习的重新设置进行奖励整形。 该代码库是重新实现的,不是本文中用于生成实验结果的代码库。 实验代码仅包括网格世界环境,而不包括Mujoco控件环境。 请参考run_full_experiments.sh来运行表示学习,奖励整形和可视化表示。 plot_curves.py用于绘制不同形状的奖励之间的学习曲线比较。 该代码适用于Python> = 3.6和PyTorch> =
  3. 所属分类:其它

    • 发布日期:2021-02-15
    • 文件大小:241664
    • 提供者:weixin_42140716
  1. SAPIEN4 MuJoCo-源码

  2. SAPIEN4 MuJoCo
  3. 所属分类:其它

    • 发布日期:2021-02-13
    • 文件大小:1024
    • 提供者:weixin_42181545
  1. Mujoco-源码

  2. 超现实机器人套件 最新更新 [03/08/2020]添加了新的来调整相机的姿势 :camera: [02/08/2020]使用Franka Emika的臂添加了模型和环境 :panda_face: [12/10/2019]在我们的v0.3.0版本中迁移到MuJoCo 2.0(通过安装) :party_popper: 超现实机器人套件是由支持的可复制和模拟基准,用于可重复的机器人研究。 当前版本专注于机器人操纵的强化学习。 该库旨在与平滑地互操作。 强化学习一直是机器人技术中强大而通用的
  3. 所属分类:其它

    • 发布日期:2021-02-12
    • 文件大小:66060288
    • 提供者:weixin_42121905
  1. MetaRLSAS-源码

  2. Meta_RL_For_SAS 工具 Meta_RL_For_SAS MAML 使用模型不可知的元学习(MAML)进行强化学习模型不可知的元学习(MAML)的实现应用于Pytorch中的强化学习问题。 该存储库包括在( ; )中引入的环境:多臂匪,表格MDP,使用MuJoCo进行连续控制以及2D导航任务。 入门 为了避免与现有的Python设置发生任何冲突,并使该项目保持独立,建议使用在虚拟环境中工作。 要安装virtualenv : pip install --upgrade virt
  3. 所属分类:其它

    • 发布日期:2021-02-07
    • 文件大小:62914560
    • 提供者:weixin_42166918
  1. trpo:使用TensorFlow和OpenAI Gym优化信任区域策略-源码

  2. 广义优势估计的信任域策略优化 帕特里克·科迪(Patrick Coady): 概要 注意:代码已重构为使用TensorFlow 2.0和PyBullet(而不是MuJoCo)。 请参阅tf1_mujoco分支以获取旧版本。 该项目的最初目标是使用相同的算法来“解决” 。 并且,具体地说,要在不手动调整每个环境的超参数(网络大小,学习速率和TRPO设置)的情况下实现此目的。 这是具有挑战性的,因为环境的范围从具有单个控制输入的简单手推车杆问题到具有17个受控关节和44个观察变量的类人动物。 该项
  3. 所属分类:其它

    • 发布日期:2021-02-06
    • 文件大小:652288
    • 提供者:weixin_42114046
  1. reaver:Reaver:模块化深度强化学习框架。 专注于《星际争霸2》。 支持Gym,Atari和MuJoCo-源码

  2. Reaver:模块化深度强化学习框架 项目状态:不再维护! 不幸的是,我不再能够进一步开发该项目或为其提供支持。 介绍 Reaver是一个模块化的深度强化学习框架,专注于各种基于StarCraft II的任务,紧随DeepMind的脚步,他们通过玩具有类似于人机界面的现代视频游戏的镜头推动了该领域的最新发展,局限性。 这包括观察与人类玩家感知到的视觉特征相似(但不完全相同)的视觉特征,以及从人类玩家可能拥有的相似选项中选择动作。 有关更多详细信息,请参见《文。 尽管开发是以研究为驱动力的,但
  3. 所属分类:其它

    • 发布日期:2021-02-06
    • 文件大小:52224
    • 提供者:weixin_42134234
« 12 »