您好,欢迎光临本网站![请登录][注册会员]  

搜索资源列表

  1. IBM排产软件PPO-ILOG培训资料

  2. 卷烟生产模式属于制造行业,其生产模式正根据市场的拉动变成柔性制丝生产 ,因此APS的应用非常重要。PPO-ILOG是IBM解决APS排产软件。该培训资料是培训PPO的时候的资料。其中对PPO-ILOG的基本概念,特别是重要的几个概念:配方,物料,活动,资源等。 并针对制造行业的例子,举例说明了如何建立一个模型,并形成从成品到原料、辅料的需求;以及对库存的要求。 ILOG支持工厂建模,可以对具体工厂虚拟建模,根据ILOG的优化算法,最终得到可行的优化解。
  3. 所属分类:制造

    • 发布日期:2011-08-17
    • 文件大小:2097152
    • 提供者:lh_xmu
  1. ppo web 页面的一些很小的东西

  2. ppo web 页面的一些很小的东西,是关于js的最基础的东西
  3. 所属分类:Java

    • 发布日期:2011-12-22
    • 文件大小:1048576
    • 提供者:xm2012hz
  1. 深度强化学习PPO算法(python)

  2. 基于Tensorflow实现的PPO算法,依赖库:tensorflow-1.4及以上,gym
  3. 所属分类:深度学习

    • 发布日期:2018-08-23
    • 文件大小:6144
    • 提供者:azcgiaxpqa
  1. BDP、MCA和改性高岭土对PPO/HIPS合金的阻燃性能研究

  2. BDP、MCA和改性高岭土对PPO/HIPS合金的阻燃性能研究,曾挚,高山俊,研究采用磷系阻燃剂BDP、氮系的阻燃剂MCA(三聚氰胺氰尿酸盐)和改性高岭土对PPO/HIPS合金进行无卤阻燃。结果表明:BDP对材料的阻燃效�
  3. 所属分类:其它

    • 发布日期:2020-01-08
    • 文件大小:195584
    • 提供者:weixin_38564598
  1. 强化学习PPO算法.zip

  2. 强化学习PPO算法论文
  3. 所属分类:深度学习

    • 发布日期:2020-01-04
    • 文件大小:2097152
    • 提供者:bornfree5511
  1. 3.ppo.ipynb

  2. 关于ppo的例子,适合初学者对深度强化学习ppo的认识和了解
  3. 所属分类:讲义

    • 发布日期:2019-09-02
    • 文件大小:43008
    • 提供者:m0_37384317
  1. DRL-2018:结合策略梯度方法(香草PG,Actor-Critic,PPO)和进化策略的实验-源码

  2. DRL-2018 该存储库的功能是2018年夏季深度强化学习研究项目的工作(由Keith Ross教授建议,由纽约大学上海分校院长本科研究基金资助)。 在此项目中,我们尝试将“策略梯度”方法(香草策略梯度(aka REINFORCE),Actor-Critic和PPO)与“进化策略”相结合,以设计出一种提高样本效率的混合算法。 在MuJoCo基准上评估了所提出算法的性能。 参考: 加强:罗纳德·J·威廉姆斯。 用于连接符增强学习的简单统计梯度跟踪算法。 机器学习,8(3-4):229–25
  3. 所属分类:其它

    • 发布日期:2021-03-22
    • 文件大小:15360
    • 提供者:weixin_42109598
  1. Team-SIPPO.github.io:S!PPO的网页-源码

  2. Team-SIPPO.github.io:S!PPO的网页
  3. 所属分类:其它

    • 发布日期:2021-03-22
    • 文件大小:40894464
    • 提供者:weixin_42175516
  1. PPO:与“对象编程基础”(AGH-UST)学术课程相关的项目-源码

  2. PPO:与“对象编程基础”(AGH-UST)学术课程相关的项目
  3. 所属分类:其它

    • 发布日期:2021-03-15
    • 文件大小:33792
    • 提供者:weixin_42135773
  1. PPO-源码

  2. 根据OpenAI 提供的伪代码,PPO算法中的第一步。 受的简单实现启发,通过使用Actor和Critic网络创建轨迹
  3. 所属分类:其它

    • 发布日期:2021-03-15
    • 文件大小:35840
    • 提供者:weixin_42098892
  1. PPO-源码

  2. PPO
  3. 所属分类:其它

    • 发布日期:2021-03-04
    • 文件大小:1024
    • 提供者:weixin_42097189
  1. Lyotropic Liquid Crystals Formed by Brij 97/PEO-PPO-PEO Mixtures

  2. Lyotropic Liquid Crystals Formed by Brij 97/PEO-PPO-PEO Mixtures
  3. 所属分类:其它

    • 发布日期:2021-02-20
    • 文件大小:240640
    • 提供者:weixin_38591291
  1. pytorch-lunarlander:在月球着陆器中,实现ppo算法-源码

  2. pytorch-lunarlander:在月球着陆器中,实现ppo算法
  3. 所属分类:其它

    • 发布日期:2021-02-18
    • 文件大小:5120
    • 提供者:weixin_42144086
  1. DeepReinforcementLearning:深度RL实施。 在pytorch中实现的DQN,SAC,DDPG,TD3,PPO和VPG。 经过测试的环境:LunarLander-v2和Pendulum-v0-源码

  2. 使用Pytorch实现的深度RL算法 算法列表: 关于深入探讨 实验结果: 算法 离散环境:LunarLander-v2 连续环境:Pendulum-v0 DQN -- VPG -- DDPG -- TD3 -- SAC -- PPO -- 用法: 只需直接运行文件/算法。 在我学习算法时,它们之间没有通用的结构。 不同的算法来自不同的来源。 资源: 未来的项目: 如果有时间,我将为使用RL的电梯添加一个简单的程序。 更好的图形
  3. 所属分类:其它

    • 发布日期:2021-02-13
    • 文件大小:400384
    • 提供者:weixin_42099070
  1. CuriosityDriven-PPO:通过引导功能松散的好奇心驱动探索-源码

  2. 通过引导功能来放松好奇心驱动的探索 七月7,2018 描述 此回购是对OpenAI的论文《一个松散的重述。 该算法训练一种策略,使游戏完全摆脱内部预测错误产生的奖励。 该过程可以可视化为策略和试图预测环境未来状态的模型(称为前向动力学模型)之间的决斗。 该政策是通过培训的,除了将环境奖励替换为前向动力学模型的误差外。 更具体地说,用于PPO的奖励是前向动力学模型的预测的平方误差。 前向动力学模型的预测目标是环境中下一个状态的低维表示。 这称为内在奖励。 前向动力学模型越不准确,给定时间步长的奖
  3. 所属分类:其它

    • 发布日期:2021-02-09
    • 文件大小:128000
    • 提供者:weixin_42128015
  1. batch-ppo:在TensorFlow中进行高效的批量增强学习-源码

  2. 批量PPO 该项目为强化学习提供了优化的基础架构。 它将扩展到多个并行环境,并允许在TensorFlow中实现代理并执行批量计算。 首先,我们提供BatchPPO,这是的优化实现。 如果您在研究中使用该项目的代码,请引用: article { hafner2017agents , title = { TensorFlow Agents: Efficient Batched Reinforcement Learning in TensorFlow } , author = { Haf
  3. 所属分类:其它

    • 发布日期:2021-02-06
    • 文件大小:72704
    • 提供者:weixin_42116791
  1. 闪烁体PPO-POPOP多元溶液体系

  2. 本文报导闪烁体PPO-POPOP多元体系为溶液激光体系.变更PPO-POPOP的浓度即可获得3600~4200(?)波长区域的增强荧光谱带.有关体系的无辐射能量转移和偶极弛豫机制将进一步探讨.
  3. 所属分类:其它

    • 发布日期:2021-02-06
    • 文件大小:1048576
    • 提供者:weixin_38608055
  1. 超级马里奥兄弟PPO-pytorch:超级马里奥兄弟的近距离策略优化(PPO)算法-源码

  2. [PYTORCH]玩超级马里奥兄弟的近战策略优化(PPO) 介绍 这是我的python源代码,用于训练特工玩超级马里奥兄弟。 通过使用纸张近端策略优化算法推出近端政策优化(PPO)算法。 说到性能,我经过PPO培训的代理可以完成29/32个级别,这比我一开始的预期要好得多。 供您参考,PPO是OpenAI提出的算法,用于训练OpenAI Five,这是第一款在电竞游戏中击败世界冠军的AI。 具体而言,OpenAI五人队在2018年8月派出了一支由MMR排名的脚轮和前职业球员组成的团队,在Do
  3. 所属分类:其它

    • 发布日期:2021-02-05
    • 文件大小:180355072
    • 提供者:weixin_42139302
  1. imitation_learning:PyTorch实现的一些强化学习算法:优势演员评论(A2C),近距离策略优化(PPO),V-MPO,行为克隆(BC)。 将添加更多算法-源码

  2. 模仿学习 此仓库包含一些强化学习算法的简单PyTorch实现: 优势演员评论家(A2C) 的同步变体 近端策略优化(PPO)-最受欢迎的RL算法 , ,, 策略上最大后验策略优化(V-MPO)-DeepMind在其上次工作中使用的算法 (尚不起作用...) 行为克隆(BC)-一种将某些专家行为克隆到新策略中的简单技术 每种算法都支持向量/图像/字典观察空间和离散/连续动作空间。 为什么回购被称为“模仿学习”? 当我开始这个项目并进行回购时,我认为模仿学习将是我的主要重点,并且无模型方法
  3. 所属分类:其它

    • 发布日期:2021-02-02
    • 文件大小:11534336
    • 提供者:weixin_42128015
  1. 强化学习算法:此存储库包含大多数基于pytorch实现的经典深度强化学习算法,包括-DQN,DDQN,Dualling Network,DDPG,SAC,A2C,PPO,TRPO。 (更多算法仍在进行中)-源码

  2. 深度强化学习算法 该存储库将使用PyTorch实现经典的深度强化学习算法。 该存储库的目的是为人们提供清晰的代码,以供他们学习深度强化学习算法。 将来,将添加更多算法,并且还将保留现有代码。 当前实施 深度Q学习网络(DQN) 基本DQN 双Q网络 决斗网络架构 深度确定性策略梯度(DDPG) 优势演员评判(A2C) 信任区域策略梯度(TRPO) 近端政策优化(PPO) 使用克罗内克因素信任区域(ACKTR)的演员评论家 软演员评论(SAC) 更新信息 :triangu
  3. 所属分类:其它

    • 发布日期:2021-01-30
    • 文件大小:3145728
    • 提供者:weixin_42117150
« 12 3 4 5 »