提出了一种优化任何给定数学函数的新颖方法,称为“强化学习算法”(MORELA)。 尽管强化学习(RL)最初是为解决马尔可夫决策问题而开发的,但可以与某些改进一起使用以优化数学函数。 在MORELA的核心处,围绕在可行解决方案空间中找到的最佳解决方案生成一个子环境,并将其与原始环境进行比较。 因此,MORELA使得发现数学函数的全局最优成为可能,因为它是在前一个学习情节中使用子环境寻求的最佳解决方案的基础上寻求的。 已使用从文献中描述的其他优化方法获得的结果测试了MORELA的性能。 结果表明,就