搜索资源 - 无模型强化学习 - 点数信息

点数信息

注册会员 | 设为首页 | 加入收藏夹

您好，欢迎光临本网站！[请登录] ！[注册会员]！

热门搜索： 源码 Android 整站插件识别 p2p 游戏算法更多...

在线客服QQ:632832888

当前位置：

搜索资源 - 无模型强化学习

下载资源分类

移动开发

开发技术

课程资源

网络技术

操作系统

安全技术

数据库

行业

服务器应用

存储

信息化

考试认证

云计算

大数据

跨平台

音视频

游戏开发

人工智能

区块链

资源分类

搜索资源列表

BAT机器学习面试1000题系列
BAT机器学习面试1000题系列 1 前言 1 BAT机器学习面试1000题系列 2 1 归一化为什么能提高梯度下降法求解最优解的速度？ 22 2 归一化有可能提高精度 22 3 归一化的类型 23 1）线性归一化 23 2）标准差标准化 23 3）非线性归一化 23 35. 什么是熵。机器学习 ML基础易 27 熵的引入 27 3.1 无偏原则 29 56. 什么是卷积。深度学习 DL基础易 38 池化，简言之，即取区域平均或最大，如下图所示（图引自cs231n） 40 随机梯度下降 4
所属分类：机器学习
- 发布日期：2018-03-07
- 文件大小：10485760
- 提供者：qq_38873863

【机器学习、深度学习入门、进阶、深入指南】每一阶段必读论文arxiv.org免费下载链接+课程链接+github代码链接
人工智能研究专家Flood Sung针对近几年深度学习的研究进展提供了一个非常详细的阅读清单。如果你在深度学习领域是一个新手，你可以会想知道如何从哪篇论文开始阅读学习，人工智能研究专家Flood Sung制定了这一份详细的paper list，包括深度学习历史和基础知识、深度学习方法（涉及模型、优化、无监督学习、RNN、深度强化学习等）、深度学习应用（自然语言处理、目标检测、视觉跟踪、图像描述生成、机器翻译、机器人、目标分割等），建议你收藏，仔细学习
所属分类：深度学习
- 发布日期：2018-01-14
- 文件大小：521216
- 提供者：zhuf14

蒙特卡洛算法.docx
动态规划方法计算状态处的值函数时利用了模型P_(ss^,)^a而在无模型强化学习中，模型P_(ss^,)^a是未知的。无模型的强化学习算法要想利用策略评估和策略改善的框架，必须采用其他的方法对当前策略进行评估（计算值函数）。
所属分类：机器学习
- 发布日期：2020-01-08
- 文件大小：640000
- 提供者：Josephq_ssp

多智能体深度强化学习的若干关键科学问题
强化学习作为一种用于解决无模型序列决策问题的方法已经有数十年的历史, 但强化学习方法在处理高维变量问题时常常会面临巨大挑战。
所属分类：机器学习
- 发布日期：2020-05-25
- 文件大小：892928
- 提供者：syp_net

神经网络深度学习-2020最新资料+数学.rar
前馈神经网络；卷积神经网络；循环神经网络；网络优化与正则化；记忆与注意力机制；无监督学习；概率图模型；玻尔兹曼机；深度信念网络；深度生成模型；深度强化学习；
所属分类：深度学习
- 发布日期：2020-06-24
- 文件大小：5242880
- 提供者：qq_28147259

神经网络深度学习-2020最新资料.rar
神经网络深度前馈神经网络；卷积神经网络；循环神经网络；网络优化与正则化；记忆与注意力机制；无监督学习；概率图模型；玻尔兹曼机；深度信念网络；深度生成模型；深度强化学习；学习-2020最新资料
所属分类：深度学习
- 发布日期：2020-06-24
- 文件大小：5242880
- 提供者：qq_28147259

强化学习代码和课件.zip
强化学习课件，强化学习（Reinforcement Learning, RL），又称再励学习、评价学习或增强学习，是机器学习的范式和方法论之一，用于描述和解决智能体（agent）在与环境的交互过程中通过学习策略以达成回报最大化或实现特定目标的问题 [1] 。强化学习的常见模型是标准的马尔可夫决策过程（Markov Decision Process, MDP）。按给定条件，强化学习可分为基于模式的强化学习（model-based RL）和无模式强化学习（model-free RL） [1]
所属分类：C/C++
- 发布日期：2020-08-13
- 文件大小：78643200
- 提供者：qq_18822147

深度学习蒙特卡罗方法
蒙特卡罗方法(Monte Carlo Methods)是强化学习中基于无模型的训练方法蒙特卡罗预测的目的是来预测状态值(state value)。
所属分类：深度学习
- 发布日期：2020-11-04
- 文件大小：6291456
- 提供者：baidu_35560935

强化学习笔记(4)无模型控制Model-Free Control(On-policy learning, off-policy learning, GLIE, Sarsa, Q-learning)
文章目录Introduction概念On-Policy learningOff-Policy learningMonte-Carlo Control问题1：使用行为价值函数代替状态价值函数贪婪策略基于行为价值函数的更新：问题2：使用贪婪算法的局限性例解决方案：ϵ−greedy\epsilon-greedyϵ−greedyGLIE定理：GLIE Monte-Carlo Control定理TD ControlSarsa算法描述定理缺点：Sarsa(λ)Sarsa(\lambda)Sarsa(λ)n
所属分类：其它
- 发布日期：2021-01-07
- 文件大小：519168
- 提供者：weixin_38503233

MATLAB深度学习笔记（三）机器学习的类型
（三）机器学习的类型机器学习根据训练方法的不同可以分为三类，监督学习、无监督学习、强化学习。监督学习和人类的学习过程很相似， 1）选择一个练习题，运用已有的知识去解决它，将答案和正确答案进行比较； 2）如果答案不对，换一种方法； 3）重复1和2直到解决所有的问题。机器学习和这个例子类比，练习题和答案对应于训练数据，知识对应于模型。重要的是我们需要一个正确答案，这是监督学习的一个重点。就像是老师给学生提供解法一样。在监督学习中，每一个训练数据集包含输入数据和与之对应的正确的输出数据。对于同
所属分类：其它
- 发布日期：2021-01-07
- 文件大小：141312
- 提供者：weixin_38508549

2048-Gym:该项目旨在使用强化学习算法来玩2048游戏-源码
2048健身房该存储库是一个有关使用DQN（Q-Learning）玩2048游戏并使用加速和加速环境的。使用的算法来自“ ，环境是自定义的 env。该环境包含两种类型的电路板表示形式：二进制和无二进制。第一个使用幂二矩阵来表示电路板的每个图块。相反，没有二进制文件使用原始矩阵板。该模型使用两种不同类型的神经网络：CNN（卷积神经网络），MLP（多层感知器）。使用CNN作为特征提取器比使用MLP更好。可能是因为CNN可以提取空间特征。结果，代理在1000个已玩游戏的10％中获得2048个图块。
所属分类：其它
- 发布日期：2021-03-21
- 文件大小：59768832
- 提供者：weixin_42097208

无模型强化学习研究综述 (中文版)
强化学习(ReinforcementLearning,RL)作为机器学习领域中与监督学习、无监督学习并列的第三种学习范式,通过与环境进行交互来学习,最终将累积收益最大化.常用的强化学习算法分为模型化强化学习(ModelＧbasedReinforcementLearＧ ning)和无模型强化学习(ModelＧfreeReinforcementLearning).
所属分类：机器学习
- 发布日期：2021-03-13
- 文件大小：1048576
- 提供者：syp_net

输入和输入时滞受限制的飞机外观检查机器人的无模型最优跟踪控制，通过整体强化学习
输入和输入时滞受限制的飞机外观检查机器人的无模型最优跟踪控制，通过整体强化学习
所属分类：其它
- 发布日期：2021-03-02
- 文件大小：2097152
- 提供者：weixin_38672812

David-Silver-Reinforcement-learning：David Silver的“强化学习”课程注释以及各种算法的实现-源码
David-Silver强化学习这个软件库包含了强化学习笔记由与各种算法的讨论，无论是在Keras的实现（与TensorFlow后端），并沿的框架。教学大纲：第一周：强化学习简介[] [ ] 第2周：马尔可夫决策过程[] [ ] 第3周：通过动态编程进行规划[] [ ] 第4周：无模型预测[] [ ] 第5周：无模型控制[] [ ] 第6周：价值函数逼近[] [ ] 第7周：政策梯度方法[] [ ] 第8周：学习与计划整合[] [ ] 第9周：探索与开发[] [ ]
所属分类：其它
- 发布日期：2021-02-21
- 文件大小：19922944
- 提供者：weixin_42144201

Rainbow：Rainbow：结合深度强化学习的改进-源码
彩虹 Rainbow：结合深度强化学习的改进。结果和预先训练的模型可以在找到。 DQN Double DQN 优先体验重播决斗网络体系结构多步骤退货分布式RL 吵网使用默认参数运行原始Rainbow： python main.py 可以使用以下选项运行数据有效的Rainbow （请注意，实际上，此处通过手动设置内存容量与最大时间步数相同来实现“*”内存）： python main.py --target-update 2000 \
所属分类：其它
- 发布日期：2021-02-04
- 文件大小：17408
- 提供者：weixin_42157556

rl-agent-based-traffic-control：通过无模型强化学习开发基于代理的流量管理系统-源码
rl-agent-based-traffic-control：通过无模型强化学习开发基于代理的流量管理系统
所属分类：其它
- 发布日期：2021-02-03
- 文件大小：10485760
- 提供者：weixin_42132056

imitation_learning：PyTorch实现的一些强化学习算法：优势演员评论（A2C），近距离策略优化（PPO），V-MPO，行为克隆（BC）。将添加更多算法-源码
模仿学习此仓库包含一些强化学习算法的简单PyTorch实现：优势演员评论家（A2C）的同步变体近端策略优化（PPO）-最受欢迎的RL算法，，，策略上最大后验策略优化（V-MPO）-DeepMind在其上次工作中使用的算法（尚不起作用...）行为克隆（BC）-一种将某些专家行为克隆到新策略中的简单技术每种算法都支持向量/图像/字典观察空间和离散/连续动作空间。为什么回购被称为“模仿学习”？当我开始这个项目并进行回购时，我认为模仿学习将是我的主要重点，并且无模型方法
所属分类：其它
- 发布日期：2021-02-02
- 文件大小：11534336
- 提供者：weixin_42128015

自平衡摩托车的强化学习-项目开发
机器学习不必是不能部署到MCU的复杂模型，它可以是一种无模型的学习算法。
所属分类：其它
- 发布日期：2021-03-31
- 文件大小：162816
- 提供者：weixin_38702931

自平衡摩托车的强化学习-项目开发
机器学习不必是不能部署到MCU的复杂模型，它可以是一种无模型的学习算法。
所属分类：其它
- 发布日期：2021-03-30
- 文件大小：160768
- 提供者：weixin_38683930

RL-Taxonomy:强化学习算法的宽松分类法-源码
RL分类法这是强化学习算法的宽松分类法。我绝不是这方面的专家，我正在将其作为学习过程的一部分。请注意，这里列出的算法比这里列出的要多得多，而且我什至不知道如何对它们进行分类。无论如何，请PR改正或提出新建议。请注意，此文件是由taxonomy.py生成的。目录：分类以下是强化学习算法的分类。实线表示从一个想法到另一个想法的某种进展。虚线表示连接松动。在底部，您可以看到算法发布年份的时间表。建议在新窗口中打开.SVG文件，因为将鼠标悬停在该算法上将显示包含该算法描述的工具提示，单击该节
所属分类：其它
- 发布日期：2021-03-20
- 文件大小：91136
- 提供者：weixin_42151305

« 12 3 »