您好,欢迎光临本网站![请登录][注册会员]  

搜索资源列表

  1. 强化学习笔记(4)无模型控制Model-Free Control(On-policy learning, off-policy learning, GLIE, Sarsa, Q-learning)

  2. 文章目录Introduction概念On-Policy learningOff-Policy learningMonte-Carlo Control问题1:使用行为价值函数代替状态价值函数贪婪策略基于行为价值函数的更新:问题2:使用贪婪算法的局限性例解决方案:ϵ−greedy\epsilon-greedyϵ−greedyGLIE定理:GLIE Monte-Carlo Control定理TD ControlSarsa​算法描述定理缺点:Sarsa(λ)Sarsa(\lambda)Sarsa(λ)n
  3. 所属分类:其它

    • 发布日期:2021-01-07
    • 文件大小:519168
    • 提供者:weixin_38503233