模仿学习限制螺栓-源码带有约束螺栓的异物仿制学习额外的学习案例在强化学习中，发现建模精确的奖励函

文件名称: 模仿学习限制螺栓-源码

所属分类: 其它

开发工具:

文件大小: 160mb

下载次数: 0

上传时间: 2021-02-15

提供者: weixin_********

下载 (160mb)

不能下载？报告错误

详细说明：带有约束螺栓的异物仿制学习额外的学习案例在强化学习中，发现建模精确的奖励函数（导致代理商的期望行为）具有挑战性是一个常见的问题。逆向强化学习旨在从专家代理提供的一组动作和观察中提取奖励功能，这可以是另一种训练有素的模型，基于模型的方法甚至是人类。模仿学习是学习者从专家的行为中尝试的技术。在该存储库中，探索了“约束螺栓”方法，该方法在一文中有详细描述（De Giacomo等，2020年）。环境：突围特征目标：卸下所有砖柱。至少有1行3列砖专家在左边。用火作为摧毁砖块的行动。学习者在右边。使用弹跳球摧毁砖块。在顶部添加一个额外的桨来响应击球。设置在Ubuntu 18.04中测试。搭建环境设置虚拟环境，并安装其他依赖项。该存储库包括一个基本的准备好的环境，可以通过pipenv访问该环境，我们鼓励使用该环境来处理这些库。克隆此存储库： git c

(系统自动生成,下载前可以参看下载内容)