文章目录Introduction概念On-Policy learningOff-Policy learningMonte-Carlo Control问题1:使用行为价值函数代替状态价值函数贪婪策略基于行为价值函数的更新:问题2:使用贪婪算法的局限性例解决方案:ϵ−greedy\epsilon-greedyϵ−greedyGLIE定理:GLIE Monte-Carlo Control定理TD ControlSarsa算法描述定理缺点:Sarsa(λ)Sarsa(\lambda)Sarsa(λ)n