搜索资源 - softlearning：Softlearning是用于在连续域中训练最大熵策略的强化学习框架。包括SoftActor-Critic算法的正式实现-源码

搜索资源列表

softlearning：Softlearning是用于在连续域中训练最大熵策略的强化学习框架。包括Soft Actor-Critic算法的正式实现-源码
软学习软学习是一种深度强化学习工具箱，用于在连续域中训练最大熵策略。该实现相当薄，并且主要针对我们自己的开发目的进行了优化。对于大多数模型类（例如策略和值函数），它都使用tf.keras模块。我们使用Ray进行实验编排。 Ray Tune和Autoscaler实现了几项简洁的功能，使我们能够无缝运行与用于本地原型制作的实验脚本相同的实验脚本，以在任何选定的云服务（例如GCP或AWS）上启动大规模实验，并智能地并行化和分发培训以提高效率。资源分配。此实现使用Tensorflow。对于
所属分类：其它
- 发布日期：2021-02-04
- 文件大小：160768
- 提供者：weixin_42120550