文件名称:
mlprague-2021:MLPrague 2021研讨会的材料-源码
开发工具:
文件大小: 1mb
下载次数: 0
上传时间: 2021-02-25
详细说明:MLPrague 2020-如何制定数据驱动型决策:情境多臂匪徒的案例
其他名称:联想强化学习,联想土匪,带有部分反馈的学习,具有辅助信息的土匪
强化学习的要素
除了主体和环境之外,还可以识别强化学习系统的四个主要子元素:策略,奖励信号,价值函数以及(可选)环境模型。
策略-定义学习代理在给定时间的行为方式。 粗略地说,策略是从感知到的环境状态到处于这些状态时要采取的措施的映射。 它对应于心理学中所谓的一组刺激-React规则或联想。 在某些情况下,策略可能是简单的函数或查找表,而在其他情况下,策略可能涉及大量的计算,例如搜索过程。 该政策是强化学习代理的核心,就其本身而言,它足以确定行为。 通常,策略可能是随机的,为每个操作指定概率。
奖励信号-定义强化学习问题的目标。 在每个时间步骤中,环境都会向强化学习代理发送一个称为奖励的数字。 代理商的唯一目标是在长期内获得最大的总回报。 因
(系统自动生成,下载前可以参看下载内容)
下载文件列表
相关说明
- 本站资源为会员上传分享交流与学习,如有侵犯您的权益,请联系我们删除.
- 本站是交换下载平台,提供交流渠道,下载内容来自于网络,除下载问题外,其它问题请自行百度。
- 本站已设置防盗链,请勿用迅雷、QQ旋风等多线程下载软件下载资源,下载后用WinRAR最新版进行解压.
- 如果您发现内容无法下载,请稍后再次尝试;或者到消费记录里找到下载记录反馈给我们.
- 下载后发现下载的内容跟说明不相乎,请到消费记录里找到下载记录反馈给我们,经确认后退回积分.
- 如下载前有疑问,可以通过点击"提供者"的名字,查看对方的联系方式,联系对方咨询.