您好,欢迎光临本网站![请登录][注册会员]  

搜索资源列表

  1. MarkovDecisionProcesses:运行策略迭代,值迭代和Q学习算法来解决MDP问题-源码

  2. 马尔可夫决策过程 概述 该存储库运行3种强化算法:策略迭代,值迭代和Q学习,以解决2个MDP问题:悬崖行走和20X20冻湖网格,并比较它们的性能。 运行步骤 需要Python 3.6 使用pip从Requirements.txt安装需求 使用python 3运行以下命令以创建数据和图形文件: python run_experiment.py-全部 python run_experiment.py --plot 获得的结果 有关获得的结果的更多信息,请参考Analysis.pdf。 悬崖行走
  3. 所属分类:其它

    • 发布日期:2021-02-20
    • 文件大小:3145728
    • 提供者:weixin_42135753