您好,欢迎光临本网站![请登录][注册会员]  

搜索资源列表

  1. 强化学习领域的课程学习:一个框架和综述.pdf

  2. 强化学习(RL)是一种流行的处理顺序决策任务的范式,其中agent只有有限的环境反馈。尽管在过去的三十年里取得了许多进步,但是在许多领域的学习仍然需要大量的与环境的交互,这在现实的场景中是非常昂贵的。为了解决这个问题,迁移学习被应用于强化学习,这样在一个任务中获得的经验可以在开始学习下一个更困难的任务时得到利用。
  3. 所属分类:机器学习

    • 发布日期:2020-03-22
    • 文件大小:1048576
    • 提供者:syp_net
  1. 百度开源的深度强化学习框架PARL源代码

  2. ARL 框架的名字来源于 PAddlepaddle Reinfocement Learning,是一款基于百度 PaddlePaddle 打造的深度强化学习框架。PARL 与现有强化学习工具和平台相比,具有更高的可扩展性、可复现性和可复用性,支持大规模并行和稀疏特征,能够快速 对工业级应用案例的验证。 这个在 github 上是开源的,但是鉴于有些朋友工具受限下载很慢,所以特地搬运过来!
  3. 所属分类:深度学习

    • 发布日期:2020-06-16
    • 文件大小:25165824
    • 提供者:qq_42067550
  1. 基于深度强化学习的电网紧急控制策略研究.pdf

  2. :提出一种基于深度强化学习的电网切机控制策略,所 提控制策略依据电网运行环境信息,通过数据分析得到切机 控制策略。首先介绍强化学习框架,阐述学习算法原理,并 详细介绍Q-Learning 方法。然后介绍深度学习基本概念和 深度卷积网络原理,提出利用深度卷积网络提取电网运行特 征,构建切机策略的思路。再结合深度学习和强化学习,构 建深度强化学习框架,其中深度学习采用深度卷积神经网络 模型用于提取特征,强化学习采用双重Q-Learning 和竞争 Q-Learning 模型计算Q 值,通过比较Q 值
  3. 所属分类:讲义

    • 发布日期:2020-09-05
    • 文件大小:1048576
    • 提供者:SparkQiang
  1. 基于强化学习的未知环境下异构多目标机器人向目标搜索的进化

  2. 本文在未知环境下的多目标搜索过程中,采用了强化学习框架来指导和促进异构多机器人系统(HMRS)的行为演化。 为了保证HMRS行为进化的可行性和有效性,提出了两个阶段,分别称为感知/识别和基于强化学习的行为进化。 在第一阶段,通过与异构多源传感器进行数据融合来感知和识别周围的环境(学习之前)。 在第二阶段,通过Q学习算法和有效的环境感知和识别知识信息,更新了向目标搜索的行为演变,从而为HMRS制定了搜索路径计划,以尽快获取目标(学习后)。 一系列的仿真实验结果通过将学习后的学习结果与学习前的学习结
  3. 所属分类:其它

    • 发布日期:2021-03-24
    • 文件大小:1048576
    • 提供者:weixin_38690095
  1. dialogue-agent:强化学习框架可为用户对话创建面向目标的代理-源码

  2. 对话代理 内容 对话代理的目标是什么? 对话代理是一个框架,该框架使用强化学习为涉及真实用户的对话用例训练面向目标的代理。 最终代理将帮助用户实现特定目标,例如预订与所传达标准相对应的电影票。 为此,代理以基于回合的方式与用户通信,以询问并响应他们的话语,并询问其他问题以确定用户的意愿。 对话代理的功能: 选择要由代理执行的下一步操作,该操作最有可能是成功实现用户目标的步骤(基于以前的经验) 在决策过程中包括先前的对话历史记录 不学行为 对“正确”或最佳行为的先验知识 手动规范规则 提供
  3. 所属分类:其它

    • 发布日期:2021-03-13
    • 文件大小:93184
    • 提供者:weixin_42113794
  1. PARL:强化学习的高性能分布式培训框架-源码

  2. English || PARL是一种灵活而高效的强化学习框架。 特征 可重现。 我们提供的算法可以稳定地重现许多有影响力的强化学习算法的结果。 大规模的。 能够支持数千个CPU和多GPU的高性能并行训练。 可重用。 通过定义前向网络,可以直接将存储库中提供的算法用于新任务,并且将自动构建训练机制。 可扩展的。 通过继承框架中的抽象类,快速构建新算法。 抽象化 PARL旨在建立一个代理来训练算法来执行复杂的任务。 PARL引入的用于递归构建代理的主要抽象如下: 模型 抽象Model以构建
  3. 所属分类:其它

    • 发布日期:2021-03-05
    • 文件大小:35651584
    • 提供者:weixin_42131618
  1. GNN_RL:pytorch几何库进行强化学习-源码

  2. GNN_RL pytorch几何库进行强化学习 在强化学习框架上测试图神经网络的可行性。 使用具有美白基线的REINFORCE算法和carpole-v1环境 GATConv(图形关注网络)也可以作为选择
  3. 所属分类:其它

    • 发布日期:2021-03-04
    • 文件大小:32768
    • 提供者:weixin_42134234
  1. awesome-rl:精选强化学习资源-源码

  2. 很棒的强化学习 专门用于强化学习的精选资源列表。 我们还有其他主题的页面: ,, : , 我们正在寻找更多的贡献者和维护者! 贡献 请随时 目录 代号 理查德·萨顿和安德鲁·巴托的《强化学习:入门》中的示例和练习代码 强化学习控制问题的仿真代码 (用于RL的标准接口)和 -基于Python的增强学习,人工智能和神经网络 -用于教育和研究的基于价值函数的强化学习框架 用于python强化学习中问题的机器学习框架 基于Java的强化学习框架 实现Q学习和其他RL算法的平台 贝叶斯强化学习库和工
  3. 所属分类:其它

    • 发布日期:2021-02-25
    • 文件大小:11264
    • 提供者:weixin_42116805
  1. 一文读懂AlphaGo背后的强化学习

  2. 毕竟,对任何机器学习实践者来说,RL(强化学习,即ReinforcementLearning)都是一种十分有用的工具,特别是在AlphaGo的盛名之下。第一部分,我们将具体了解了MDPs(马尔可夫决策过程)以及强化学习框架的主要组成部分;第二部分,我们将构建并学习有关价值函数和Bellman(贝尔曼方程)的理论知识,它是强化学习中最重要公式,我们将一步一步地推导、解释,以揭开强化学习的神秘面纱。当然,本文只是尽力用最快、最直观的方式带你来理解强化学习背后的理论,而要加深自己在该话题上的理解,Su
  3. 所属分类:其它

    • 发布日期:2021-02-25
    • 文件大小:233472
    • 提供者:weixin_38687807
  1. rlpy:RLPy强化学习框架-源码

  2. RLPy-强化学习框架 RLPy是进行顺序决策实验的框架。 该项目的当前重点在于基于价值功能的强化学习。 该项目根据3条款BSD许可进行分发。 重要连结 官方源代码存储库: : Bitbucket镜像: : 说明文件: : 问题追踪器: : 安装 可以在上找到安装说明。
  3. 所属分类:其它

    • 发布日期:2021-02-23
    • 文件大小:1048576
    • 提供者:weixin_42101384
  1. SLM-Lab:PyTorch中的模块化深度强化学习框架。 《深度强化学习基础》一书的同伴库-源码

  2. SLM实验室 PyTorch中的模块化深度强化学习框架。 说明文件: BeamRider 爆发 功夫大师 女士 傍 奎伯特 海上任务 入侵者 蚂蚁 半猎豹 料斗 人形生物 双悬臂 倒立摆 到达者 沃克
  3. 所属分类:其它

    • 发布日期:2021-02-21
    • 文件大小:414720
    • 提供者:weixin_42103587
  1. nugi-强化学习框架-源码

  2. 强化学习框架
  3. 所属分类:其它

    • 发布日期:2021-02-20
    • 文件大小:306176
    • 提供者:weixin_42108948
  1. huskarl:深度强化学习框架+算法-源码

  2. 胡斯卡尔 Huskarl是专注于模块化和快速原型设计的深度强化学习框架。 它基于TensorFlow 2.0构建,并在可能的情况下使用tf.keras API以获得简洁性和可读性。 Huskarl使跨多个CPU内核的环境动态计算的并行化变得容易。 这对于加速基于策略的学习算法很有用,该算法可从多个并发的经验来源(例如A2C或PPO)中受益。 它对于计算密集型环境(例如基于物理的环境)特别有用。 与环境无缝。 计划支持多代理环境和。 演算法 实现了几种算法,并计划了更多算法。 深度Q学习
  3. 所属分类:其它

    • 发布日期:2021-02-06
    • 文件大小:32505856
    • 提供者:weixin_42127020
  1. reaver:Reaver:模块化深度强化学习框架。 专注于《星际争霸2》。 支持Gym,Atari和MuJoCo-源码

  2. Reaver:模块化深度强化学习框架 项目状态:不再维护! 不幸的是,我不再能够进一步开发该项目或为其提供支持。 介绍 Reaver是一个模块化的深度强化学习框架,专注于各种基于StarCraft II的任务,紧随DeepMind的脚步,他们通过玩具有类似于人机界面的现代视频游戏的镜头推动了该领域的最新发展,局限性。 这包括观察与人类玩家感知到的视觉特征相似(但不完全相同)的视觉特征,以及从人类玩家可能拥有的相似选项中选择动作。 有关更多详细信息,请参见《文。 尽管开发是以研究为驱动力的,但
  3. 所属分类:其它

    • 发布日期:2021-02-06
    • 文件大小:52224
    • 提供者:weixin_42134234
  1. tensorforce:Tensorforce:用于应用强化学习的TensorFlow库-源码

  2. Tensorforce:用于应用强化学习的TensorFlow库 介绍 Tensorforce是一个开源的深度强化学习框架,重点是模块化的灵活库设计以及在研究和实践中的应用程序的直接可用性。 Tensorforce建立在之上,需要Python 3。 Tensorforce遵循了一系列高级设计选择,这些选择使其与其他类似的库区别开来: 基于模块化组件的设计:最重要的是,功能实现应尽可能地普遍适用和可配置,这可能需要忠实地类似于介绍文章的细节而付出一些代价。 RL算法和应用程序的分离:算法与输
  3. 所属分类:其它

    • 发布日期:2021-02-06
    • 文件大小:15728640
    • 提供者:weixin_42131367
  1. DeepPath:我的EMNLP论文“ DeepPath:知识图推理的强化学习方法”的代码和文档-源码

  2. 知识图论的深度强化学习 我们研究在大型知识图(KG)中学习推理的问题。 更具体地说,我们描述了一种用于学习多跳关系路径的新颖的强化学习框架:我们使用基于知识图嵌入的具有连续状态的基于策略的代理,这通过对最有希望的关系进行采样来在KG向量空间中进行扩展它的路径。 与以前的工作相比,我们的方法包括一种奖励功能,该功能考虑了准确度,多样性和效率。 实验表明,在Freebase和Never-Ending Language Learning数据集上,我们提出的方法优于基于路径排序的算法和知识图嵌入方法。
  3. 所属分类:其它

    • 发布日期:2021-02-06
    • 文件大小:6291456
    • 提供者:weixin_42116650
  1. 教练:英特尔AI实验室的强化学习教练可轻松进行最新的强化学习算法实验-源码

  2. 教练 Coach是一个python强化学习框架,其中包含许多最新算法的实现。 它公开了一组易于使用的API,用于试验新的RL算法,并允许简单集成新环境来解决。 基本的RL组件(算法,环境,神经网络体系结构,探索策略等)已很好地分离,因此扩展和重用现有组件非常容易。 培训代理以解决环境就像运行一样容易: coach -p CartPole_DQN -r (初始版本) (当前版本) 目录 基准测试 建立研究项目或基于已发布算法的解决方案时的主要挑战之一是,获得一个具体可靠的基准,
  3. 所属分类:其它

    • 发布日期:2021-02-05
    • 文件大小:42991616
    • 提供者:weixin_42137032
  1. AgentNet:用于人类的深度强化学习库-源码

  2. 代理网 一个轻量级的库,用于使用Theano + Lasagne构建和培训深度强化学习和自定义递归网络 什么是AgentNet? 没有时间玩游戏吗? 让机器为您做这件事! AgentNet是一个深度强化学习框架,旨在简化Markov决策流程的深度学习模型的研究和原型设计。 抛开所有技术泡沫,您可以使用它来训练您的宠物神经网络玩游戏! [例如OpenAI体育馆] 我们对Lasagne深度学习库提供全面的支持,这使您可以访问所有卷积,maxout,池,辍学等。等等。 AgentNet处理离
  3. 所属分类:其它

    • 发布日期:2021-02-04
    • 文件大小:11534336
    • 提供者:weixin_42116650
  1. PokerRL:扑克中多智能体深度强化学习的框架-源码

  2. 扑克RL 扑克游戏中的多智能体深度强化学习框架。 背景 解决不完善的信息游戏的研究主要围绕直到最近才遍历整个游戏树的方法(例如,请参见 , , )。 神经虚拟自我播放(NFSP) ,后悔策略梯度(RPG) ,深反事实后悔最小化(Deep CFR) 和单深CFR 等新算法最近将深(强化)使用常规方法(例如CFR和虚拟游戏)进行学习,以仅在访问游戏状态的一小部分时即可了解近似的纳什均衡。 PokerRL框架 PokerRL算法的组成部分 您的算法由相互交互的工作人员(绿色)组成。 训练运
  3. 所属分类:其它

    • 发布日期:2021-02-04
    • 文件大小:332800
    • 提供者:weixin_42110469
  1. softlearning:Softlearning是用于在连续域中训练最大熵策略的强化学习框架。 包括Soft Actor-Critic算法的正式实现-源码

  2. 软学习 软学习是一种深度强化学习工具箱,用于在连续域中训练最大熵策略。 该实现相当薄,并且主要针对我们自己的开发目的进行了优化。 对于大多数模型类(例如策略和值函数),它都使用tf.keras模块。 我们使用Ray进行实验编排。 Ray Tune和Autoscaler实现了几项简洁的功能,使我们能够无缝运行与用于本地原型制作的实验脚本相同的实验脚本,以在任何选定的云服务(例如GCP或AWS)上启动大规模实验,并智能地并行化和分发培训以提高效率。资源分配。 此实现使用Tensorflow。 对于
  3. 所属分类:其它

    • 发布日期:2021-02-04
    • 文件大小:160768
    • 提供者:weixin_42120550
« 12 3 4 5 6 7 8 9 10 »