mlprague-2021：MLPrague 2021研讨会的材料-源码MLPrague 2020-

文件名称: mlprague-2021：MLPrague 2021研讨会的材料-源码

所属分类: 其它

开发工具:

文件大小: 1mb

下载次数: 0

上传时间: 2021-02-25

提供者: weixin_********

下载 (1mb)

不能下载？报告错误

详细说明：MLPrague 2020-如何制定数据驱动型决策：情境多臂匪徒的案例其他名称：联想强化学习，联想土匪，带有部分反馈的学习，具有辅助信息的土匪强化学习的要素除了主体和环境之外，还可以识别强化学习系统的四个主要子元素：策略，奖励信号，价值函数以及（可选）环境模型。策略-定义学习代理在给定时间的行为方式。粗略地说，策略是从感知到的环境状态到处于这些状态时要采取的措施的映射。它对应于心理学中所谓的一组刺激－React规则或联想。在某些情况下，策略可能是简单的函数或查找表，而在其他情况下，策略可能涉及大量的计算，例如搜索过程。该政策是强化学习代理的核心，就其本身而言，它足以确定行为。通常，策略可能是随机的，为每个操作指定概率。奖励信号-定义强化学习问题的目标。在每个时间步骤中，环境都会向强化学习代理发送一个称为奖励的数字。代理商的唯一目标是在长期内获得最大的总回报。因

(系统自动生成,下载前可以参看下载内容)