您的位置: 专家智库 > >

张依阳

作品数:2 被引量:11H指数:1
供职机构:中国矿业大学信息与电气工程学院更多>>
发文基金:教育部“新世纪优秀人才支持计划”国家教育部博士点基金江苏省自然科学基金更多>>
相关领域:自动化与计算机技术更多>>

文献类型

  • 2篇中文期刊文章

领域

  • 2篇自动化与计算...

主题

  • 2篇高斯
  • 1篇递归最小二乘
  • 1篇分类器
  • 1篇高斯过程
  • 1篇高斯函数
  • 1篇高斯基函数
  • 1篇策略迭代
  • 1篇测地
  • 1篇测地距离

机构

  • 2篇中国矿业大学
  • 2篇中国科学院自...

作者

  • 2篇王雪松
  • 2篇程玉虎
  • 2篇张依阳
  • 1篇张政

传媒

  • 1篇电子学报
  • 1篇信息与控制

年份

  • 2篇2009
2 条 记 录,以下是 1-2
排序方式:
基于高斯过程分类器的连续空间强化学习被引量:11
2009年
如何将强化学习方法推广到大规模或连续空间,是决定强化学习方法能否得到广泛应用的关键.不同于已有的值函数逼近法,把强化学习构建为一个简单的二分类问题,利用分类算法来得到强化学习中的策略,提出一种基于高斯过程分类器的连续状态和连续动作空间强化学习方法.首先将连续动作空间离散化为确定数目的离散动作,然后利用高斯分类器对系统的连续状态-离散动作对进行正负分类,对判定为正类的离散动作按其概率值进行加权求和,进而得到实际作用于系统的连续动作.小船靠岸问题的仿真结果表明所提方法能够有效解决强化学习的连续空间表示问题.
王雪松张依阳程玉虎
关键词:高斯过程分类器
基于测地高斯基函数的递归最小二乘策略迭代
2009年
在策略迭代结强化学习方法的值函数逼近过程中,基函数的合理选择直接影响方法的性能.为更好地描述环境的拓扑关系,采用测地线距离来替换普通高斯函数中的欧氏距离,提出一种基于测地高斯基函数的策略迭代强化学习方法.首先,基于马尔可夫决策过程抽样得到的样本数据建立环境的图论描述.其次,在图上定义测地高斯基函数,并用基于最短路径快速算法得到的最短路径来逼近测地线距离.然后,假定强化学习系统的状态—动作值函数是给定测地高斯基函数的加权组合,采用递归最小二乘方法对权值进行在线增量式更新.最后,基于估计的值函数进行策略改进.10×10和20×20迷宫问题的仿真结果验证了所提策略迭代方法的有效性.
王雪松张政程玉虎张依阳
关键词:策略迭代递归最小二乘测地距离高斯函数
共1页<1>
聚类工具0