您好,欢迎光临本网站![请登录][注册会员]  

搜索资源列表

  1. 强化学习(五)用时序差分法(TD)求解

  2. 作者:刘建平            编辑:田   旭            前  言 在强化学习(四)用蒙特卡罗法(MC)求解中,我们讲到了使用蒙特卡罗法来求解强化学习问题的方法,虽然蒙特卡罗法很灵活,不需要环境的状态转化概率模型,但是它需要所有的采样序列都是经历完整的状态序列。如果我们没有完整的状态序列,那么就无法使用蒙特卡罗法求解了。本文我们就来讨论可以不使用完整状态序列求解强化学习问题的方法:时序差分(Temporal-Difference, TD)。 时序差分这一篇对应Sutt
  3. 所属分类:其它

    • 发布日期:2021-01-06
    • 文件大小:285696
    • 提供者:weixin_38729221