您好,欢迎光临本网站![请登录][注册会员]  

搜索资源列表

  1. 具有约束条件和不同折现系数的第一代马尔可夫决策过程

  2. 本文着重讨论可数状态和具有多约束,状态相关折扣因子以及可能无穷大成本的紧缩Borel动作空间中的第一遍离散时间马尔可夫决策过程(DTMDP)的约束最优性问题(COP)。 通过策略的所谓占用度量的性质,我们证明了约束最优性问题等同于带有约束的占用度量集上的(无限维)线性规划,从而证明了存在在适当条件下的最佳政策。 此外,利用约束的最优性问题和线性规划之间的等价关系,我们获得了有限状态和作用情况下最优策略的精确形式。 最后,以一个示例为例,给出了一个受控排队系统来说明我们的结果。
  3. 所属分类:其它

    • 发布日期:2021-02-25
    • 文件大小:178176
    • 提供者:weixin_38528680