周如益
- 作品数:4 被引量:42H指数:2
- 供职机构:南京大学更多>>
- 发文基金:国家自然科学基金国家杰出青年科学基金更多>>
- 相关领域:自动化与计算机技术更多>>
- 平均奖赏强化学习算法研究被引量:40
- 2007年
- 顺序决策问题常用马尔可夫决策过程(MDP)建模.当决策行为执行从时刻点扩展到连续时间上时,经典的马尔可夫决策过程模型也扩展到半马尔可夫决策过程模型(SMDP).当系统参数未知时,强化学习技术被用来学习最优策略.文中基于性能势理论,证明了平均奖赏强化学习的逼近定理.通过逼近相对参考状态的性能势值函数,研究一个新的平均奖赏强化学习算法——G-学习算法.G-学习算法既可以用于MDP,也可以用于SMDP.不同于经典的R-学习算法,G-学习算法采用相对参考状态的性能势值函数替代相对平均奖赏和的相对值函数.在顾客访问控制和生产库存仿真实验中,G-学习算法表现出优于R-学习算法和SMART算法的性能.
- 高阳周如益王皓曹志新
- 关键词:性能势马尔可夫决策过程半马尔可夫决策过程
- 应用机器学习于Chi平方密写分析的研究被引量:1
- 2007年
- 回顾当前的密写和密写分析技术,并将机器学习方法应用到经典的χ2密写分析上。给出了方法的框架并进行了实验,然后对实验结果进行分析和比较,得出了应用机器学习方法的χ2密写分析优于简单χ2密写分析的结论从而肯定了机器学习方法的有效性。最后指出了在密写分析技术中进一步应用机器学习方法的方向。
- 葛屾高阳周如益
- 平均奖赏强化学习研究
- 强化学习是一种以环境反馈作为输入的,特殊的、适应环境的机器学习方法.agent在与环境交互中通过“试—错”的方式对不同状态下各动作的期望反馈进行学习,以最优化长期收益。按照长期收益定义方式,强化学习分为有限无折扣强化学习...
- 周如益
- 关键词:学习算法算法语言
- 一种基于性能势的无折扣强化学习算法被引量:2
- 2006年
- 传统基于性能势的学习算法能获得马尔可夫决策问题的最优策略。这些算法主要采用单路径采样的方法,使得学习算法效率不高。将性能势与强化学习相结合,提出了一种基于性能势的无折扣值迭代学习算法——G学习,并将其与经典的无折扣强化学习算法(R学习)相比较,获得了较好的实验结果。
- 周如益高阳
- 关键词:性能势