rubik：学习如何使用强化学习来解决魔方-源码魔方学习如何使用强化学习来解决魔方状态模型正在

文件名称: rubik：学习如何使用强化学习来解决魔方-源码

所属分类: 其它

开发工具:

文件大小: 95kb

下载次数: 0

上传时间: 2021-02-16

提供者: weixin_********

下载 (95kb)

不能下载？报告错误

详细说明：魔方学习如何使用强化学习来解决魔方状态模型正在学习一些东西。我尝试调整模型的结构，但无法达到低于18的损失，这似乎很高。仅需1个深度的贪婪搜索就足以解决5次旋转扰乱的多维数据集。下一步：在get_td_value_examples和贪婪求解器中批量调用模型。实施A *。进一步调查模型的行为：比损失多的指标（例如平均L1误差）通过标签对度量进行切片：我们是否更擅长将立方体距已解决状态更近或更远？以1 / {为打乱而进行的旋转次数}为单位进行举重训练示例。实现既有价值头又有政策头的模型实施MCTS。参考 Agostinelli，F.，McAleer，S.，Shmakov，A。等。通过深度强化学习和搜索解决魔方。 Nat Mach Intell 1，356–363（2019）。 DeepCubeA。 DNN使用TD（0）学习值函数更复杂的网

(系统自动生成,下载前可以参看下载内容)