深度城市导航-源码深度Q学习导航：香蕉选取器该项目实施了Deep Q Learning策略，以在具

文件名称: 深度城市导航-源码

所属分类: 其它

开发工具:

文件大小: 1kb

下载次数: 0

上传时间: 2021-02-15

提供者: weixin_********

下载 (1kb)

不能下载？报告错误

详细说明：深度Q学习导航：香蕉选取器该项目实施了Deep Q Learning策略，以在具有蓝色和黄色香蕉的环境中导航，目的是仅摘取黄色香蕉。使用Unity完成环境模拟。与环境交互的代理选择黄色香蕉获得+1的奖励，而选择蓝色香蕉则获得-1的奖励。如果该代理在单个情节中获得的累积分数达到13，则认为该代理已成功浏览环境。导航环境的主体在学习如何实现其目标时采用了深度学习方法。在Python中使用，该问题通过以下方式解决：该模型对于每次交互，代理都会观察环境的当前状态，选择一个动作并根据所采取的动作获得奖励。在这种情况下，动作可以是以下任一动作：前进，后退，左转或右转。使用神经网络来建立模型，以针对给定状态选择最佳动作。可以在model.py文件中找到代码实现。该网络具有3个完全连接的层，可以选择首选数量的单元（神经元）。此处使用的默认值为64。随着模型的训练，辍学将

(系统自动生成,下载前可以参看下载内容)