您好,欢迎光临本网站![请登录][注册会员]  

搜索资源列表

  1. 2020年研究生华为杯,数学建模竞赛C题.rar

  2. 那我们讲一下它的 algorithm。假设我们 learn 了一个 Q-function,Q-function 就是 input s 跟 a,output 就是 Q^{\pi}(s,a)Q π (s,a)。那接下来,我们要 learn 一个 actor,这个 actor 的工作就是解这个 arg max 的 problem。这个 actor 的工作就是 input 一个 state s,希望可以 output 一个 action a。这个 action a 被丢到 Q-function 以后
  3. 所属分类:其它

    • 发布日期:2020-10-15
    • 文件大小:95420416
    • 提供者:qq_41346728