多武装强盗：分析n武装强盗问题和MDP的算法-源码多武装盗贼分析n武装匪徒问题的算法多武装匪徒问

文件名称: 多武装强盗：分析n武装强盗问题和MDP的算法-源码

所属分类: 其它

开发工具:

文件大小: 6kb

下载次数: 0

上传时间: 2021-02-15

提供者: weixin_********

下载 (6kb)

不能下载？报告错误

详细说明：多武装盗贼分析n武装匪徒问题的算法多武装匪徒问题（UCB稍后实施）在第一部分中，我们尝试形象化了Q学习在提取最大奖励方面的完美程度，在预测中间奖励方面的成功程度以及最终对提供最大累积奖励的老虎机的预测程度在第二部分中，我们检查了Q值如何饱和以及选择的最佳操作百分比随迭代次数如何稳定我们已经使用Bell曲线在python random.gauss（）函数中生成了随机数。因此，每台这样的Bandit或Slot机器都将具有一条特性曲线（特别是在设置了它们的均值和标准差时，其值由用户输入（通常应将其关闭，并且用户不应看到实际的值） Mu和Sigma均为每种，但出于实验目的，由用户自己设置）。 E =步长（或当前Q值选择的过去奖励的权重）； epsilon = 0-1之间的探索概率； R =初始奖励，可以更快更好地搜索奖励；运行说明后缀_exp（实验文件夹）的文件是nbandi

(系统自动生成,下载前可以参看下载内容)