点数信息
www.dssz.net
注册会员
|
设为首页
|
加入收藏夹
您好,欢迎光临本网站!
[请登录]
!
[注册会员]
!
首页
移动开发
云计算
大数据
数据库
游戏开发
人工智能
网络技术
区块链
操作系统
模糊查询
热门搜索:
源码
Android
整站
插件
识别
p2p
游戏
算法
更多...
在线客服QQ:632832888
当前位置:
资源下载
搜索资源 - alpha-bomber:我们正在开发最先进的强化学习技术,以解决Bomberman的古老游戏-源码
下载资源分类
移动开发
开发技术
课程资源
网络技术
操作系统
安全技术
数据库
行业
服务器应用
存储
信息化
考试认证
云计算
大数据
跨平台
音视频
游戏开发
人工智能
区块链
在结果中搜索
所属系统
Windows
Linux
FreeBSD
Unix
Dos
PalmOS
WinCE
SymbianOS
MacOS
Android
开发平台
Visual C
Visual.Net
Borland C
CBuilder
Dephi
gcc
VBA
LISP
IDL
VHDL
Matlab
MathCAD
Flash
Xcode
Android STU
LabVIEW
开发语言
C/C++
Pascal
ASM
Java
PHP
Basic/ASP
Perl
Python
VBScript
JavaScript
SQL
FoxBase
SHELL
E语言
OC/Swift
文件类型
源码
程序
CHM
PDF
PPT
WORD
Excel
Access
HTML
Text
资源分类
搜索资源列表
alpha-bomber:我们正在开发最先进的强化学习技术,以解决Bomberman的古老游戏-源码
机器学习基础知识2020/2021的最终项目代码模板: : 我们的任务:我们正在开发最先进的强化学习技术,以解决Bomberman的古老游戏。 强化学习-快速概述: 常见的RL方法可以分为基于策略和基于价值的方法。值方法输出代表当前状态质量的值,并在值迭代过程中学习。从选择随机值函数开始,此过程将迭代地改进该函数,直到达到最佳值函数为止。然后可以从该函数中得出最佳策略。 另一方面,基于策略的方法旨在直接改善代理的策略,即状态与行为之间的映射。 流行的方法有: (深度)Q学习(值方法) 策略梯
所属分类:
其它
发布日期:2021-03-22
文件大小:4194304
提供者:
weixin_42127754
alpha-bomber:我们正在开发最先进的强化学习技术,以解决Bomberman的古老游戏-源码
机器学习基础知识2020/2021的最终项目代码模板: : 我们的任务: 我们正在开发最先进的强化学习技术,以解决Bomberman的古老游戏。 强化学习-快速概述: 常见的RL方法可以分为基于策略和基于价值的方法。 值方法输出代表当前状态质量的值,并在值迭代过程中学习。 从选择随机值函数开始,此过程将迭代地改进该函数,直到达到最佳值函数为止。 然后可以从该函数中得出最佳策略。 另一方面,基于策略的方法旨在直接改善代理的策略,即状态与行为之间的映射。 流行的方法有: (深度)Q学习(
所属分类:
其它
发布日期:2021-03-04
文件大小:4194304
提供者:
weixin_42178688