搜索资源 - PPO - 点数信息

点数信息

注册会员 | 设为首页 | 加入收藏夹

您好，欢迎光临本网站！[请登录] ！[注册会员]！

热门搜索： 源码 Android 整站插件识别 p2p 游戏算法更多...

在线客服QQ:632832888

当前位置：

搜索资源 - PPO

下载资源分类

移动开发

开发技术

课程资源

网络技术

操作系统

安全技术

数据库

行业

服务器应用

存储

信息化

考试认证

云计算

大数据

跨平台

音视频

游戏开发

人工智能

区块链

资源分类

搜索资源列表

IBM排产软件PPO－ILOG培训资料
卷烟生产模式属于制造行业，其生产模式正根据市场的拉动变成柔性制丝生产，因此ＡＰＳ的应用非常重要。ＰＰＯ－ILOG是IBM解决APS排产软件。该培训资料是培训PPO的时候的资料。其中对PPO－ILOG的基本概念，特别是重要的几个概念：配方，物料，活动，资源等。并针对制造行业的例子，举例说明了如何建立一个模型，并形成从成品到原料、辅料的需求；以及对库存的要求。 ILOG支持工厂建模，可以对具体工厂虚拟建模，根据ILOG的优化算法，最终得到可行的优化解。
所属分类：制造
- 发布日期：2011-08-17
- 文件大小：2097152
- 提供者：lh_xmu

ppo web 页面的一些很小的东西
ppo web 页面的一些很小的东西，是关于js的最基础的东西
所属分类：Java
- 发布日期：2011-12-22
- 文件大小：1048576
- 提供者：xm2012hz

深度强化学习PPO算法(python)
基于Tensorflow实现的PPO算法，依赖库：tensorflow-1.4及以上，gym
所属分类：深度学习
- 发布日期：2018-08-23
- 文件大小：6144
- 提供者：azcgiaxpqa

BDP、MCA和改性高岭土对PPO/HIPS合金的阻燃性能研究
BDP、MCA和改性高岭土对PPO/HIPS合金的阻燃性能研究，曾挚，高山俊，研究采用磷系阻燃剂BDP、氮系的阻燃剂MCA（三聚氰胺氰尿酸盐）和改性高岭土对PPO/HIPS合金进行无卤阻燃。结果表明：BDP对材料的阻燃效�
所属分类：其它
- 发布日期：2020-01-08
- 文件大小：195584
- 提供者：weixin_38564598

强化学习PPO算法.zip
强化学习PPO算法论文
所属分类：深度学习
- 发布日期：2020-01-04
- 文件大小：2097152
- 提供者：bornfree5511

3.ppo.ipynb
关于ppo的例子，适合初学者对深度强化学习ppo的认识和了解
所属分类：讲义
- 发布日期：2019-09-02
- 文件大小：43008
- 提供者：m0_37384317

DRL-2018:结合策略梯度方法（香草PG，Actor-Critic，PPO）和进化策略的实验-源码
DRL-2018 该存储库的功能是2018年夏季深度强化学习研究项目的工作（由Keith Ross教授建议，由纽约大学上海分校院长本科研究基金资助）。在此项目中，我们尝试将“策略梯度”方法（香草策略梯度（aka REINFORCE），Actor-Critic和PPO）与“进化策略”相结合，以设计出一种提高样本效率的混合算法。在MuJoCo基准上评估了所提出算法的性能。参考：加强：罗纳德·J·威廉姆斯。用于连接符增强学习的简单统计梯度跟踪算法。机器学习，8（3-4）：229–25
所属分类：其它
- 发布日期：2021-03-22
- 文件大小：15360
- 提供者：weixin_42109598

Team-SIPPO.github.io:S！PPO的网页-源码
Team-SIPPO.github.io:S！PPO的网页
所属分类：其它
- 发布日期：2021-03-22
- 文件大小：40894464
- 提供者：weixin_42175516

PPO:与“对象编程基础”（AGH-UST）学术课程相关的项目-源码
PPO:与“对象编程基础”（AGH-UST）学术课程相关的项目
所属分类：其它
- 发布日期：2021-03-15
- 文件大小：33792
- 提供者：weixin_42135773

PPO-源码
根据OpenAI 提供的伪代码，PPO算法中的第一步。受的简单实现启发，通过使用Actor和Critic网络创建轨迹
所属分类：其它
- 发布日期：2021-03-15
- 文件大小：35840
- 提供者：weixin_42098892

PPO-源码
PPO
所属分类：其它
- 发布日期：2021-03-04
- 文件大小：1024
- 提供者：weixin_42097189

Lyotropic Liquid Crystals Formed by Brij 97/PEO-PPO-PEO Mixtures
Lyotropic Liquid Crystals Formed by Brij 97/PEO-PPO-PEO Mixtures
所属分类：其它
- 发布日期：2021-02-20
- 文件大小：240640
- 提供者：weixin_38591291

pytorch-lunarlander：在月球着陆器中，实现ppo算法-源码
pytorch-lunarlander：在月球着陆器中，实现ppo算法
所属分类：其它
- 发布日期：2021-02-18
- 文件大小：5120
- 提供者：weixin_42144086

DeepReinforcementLearning：深度RL实施。在pytorch中实现的DQN，SAC，DDPG，TD3，PPO和VPG。经过测试的环境：LunarLander-v2和Pendulum-v0-源码
使用Pytorch实现的深度RL算法算法列表：关于深入探讨实验结果：算法离散环境：LunarLander-v2 连续环境：Pendulum-v0 DQN -- VPG -- DDPG -- TD3 -- SAC -- PPO -- 用法：只需直接运行文件/算法。在我学习算法时，它们之间没有通用的结构。不同的算法来自不同的来源。资源：未来的项目：如果有时间，我将为使用RL的电梯添加一个简单的程序。更好的图形
所属分类：其它
- 发布日期：2021-02-13
- 文件大小：400384
- 提供者：weixin_42099070

CuriosityDriven-PPO：通过引导功能松散的好奇心驱动探索-源码
通过引导功能来放松好奇心驱动的探索七月7，2018 描述此回购是对OpenAI的论文《一个松散的重述。该算法训练一种策略，使游戏完全摆脱内部预测错误产生的奖励。该过程可以可视化为策略和试图预测环境未来状态的模型（称为前向动力学模型）之间的决斗。该政策是通过培训的，除了将环境奖励替换为前向动力学模型的误差外。更具体地说，用于PPO的奖励是前向动力学模型的预测的平方误差。前向动力学模型的预测目标是环境中下一个状态的低维表示。这称为内在奖励。前向动力学模型越不准确，给定时间步长的奖
所属分类：其它
- 发布日期：2021-02-09
- 文件大小：128000
- 提供者：weixin_42128015

batch-ppo：在TensorFlow中进行高效的批量增强学习-源码
批量PPO 该项目为强化学习提供了优化的基础架构。它将扩展到多个并行环境，并允许在TensorFlow中实现代理并执行批量计算。首先，我们提供BatchPPO，这是的优化实现。如果您在研究中使用该项目的代码，请引用： article { hafner2017agents , title = { TensorFlow Agents: Efficient Batched Reinforcement Learning in TensorFlow } , author = { Haf
所属分类：其它
- 发布日期：2021-02-06
- 文件大小：72704
- 提供者：weixin_42116791

闪烁体PPO-POPOP多元溶液体系
本文报导闪烁体PPO-POPOP多元体系为溶液激光体系.变更PPO-POPOP的浓度即可获得3600～4200(?)波长区域的增强荧光谱带.有关体系的无辐射能量转移和偶极弛豫机制将进一步探讨.
所属分类：其它
- 发布日期：2021-02-06
- 文件大小：1048576
- 提供者：weixin_38608055

超级马里奥兄弟PPO-pytorch：超级马里奥兄弟的近距离策略优化（PPO）算法-源码
[PYTORCH]玩超级马里奥兄弟的近战策略优化（PPO）介绍这是我的python源代码，用于训练特工玩超级马里奥兄弟。通过使用纸张近端策略优化算法推出近端政策优化（PPO）算法。说到性能，我经过PPO培训的代理可以完成29/32个级别，这比我一开始的预期要好得多。供您参考，PPO是OpenAI提出的算法，用于训练OpenAI Five，这是第一款在电竞游戏中击败世界冠军的AI。具体而言，OpenAI五人队在2018年8月派出了一支由MMR排名的脚轮和前职业球员组成的团队，在Do
所属分类：其它
- 发布日期：2021-02-05
- 文件大小：180355072
- 提供者：weixin_42139302

imitation_learning：PyTorch实现的一些强化学习算法：优势演员评论（A2C），近距离策略优化（PPO），V-MPO，行为克隆（BC）。将添加更多算法-源码
模仿学习此仓库包含一些强化学习算法的简单PyTorch实现：优势演员评论家（A2C）的同步变体近端策略优化（PPO）-最受欢迎的RL算法，，，策略上最大后验策略优化（V-MPO）-DeepMind在其上次工作中使用的算法（尚不起作用...）行为克隆（BC）-一种将某些专家行为克隆到新策略中的简单技术每种算法都支持向量/图像/字典观察空间和离散/连续动作空间。为什么回购被称为“模仿学习”？当我开始这个项目并进行回购时，我认为模仿学习将是我的主要重点，并且无模型方法
所属分类：其它
- 发布日期：2021-02-02
- 文件大小：11534336
- 提供者：weixin_42128015

强化学习算法：此存储库包含大多数基于pytorch实现的经典深度强化学习算法，包括-DQN，DDQN，Dualling Network，DDPG，SAC，A2C，PPO，TRPO。（更多算法仍在进行中）-源码
深度强化学习算法该存储库将使用PyTorch实现经典的深度强化学习算法。该存储库的目的是为人们提供清晰的代码，以供他们学习深度强化学习算法。将来，将添加更多算法，并且还将保留现有代码。当前实施深度Q学习网络（DQN）基本DQN 双Q网络决斗网络架构深度确定性策略梯度（DDPG）优势演员评判（A2C）信任区域策略梯度（TRPO）近端政策优化（PPO）使用克罗内克因素信任区域（ACKTR）的演员评论家软演员评论（SAC）更新信息 :triangu
所属分类：其它
- 发布日期：2021-01-30
- 文件大小：3145728
- 提供者：weixin_42117150

« 12 3 4 5 »