您的位置: 专家智库 > >

陈栋

作品数:3 被引量:4H指数:1
供职机构:合肥工业大学计算机与信息学院更多>>
发文基金:国家自然科学基金安徽省自然科学基金更多>>
相关领域:自动化与计算机技术更多>>

文献类型

  • 1篇期刊文章
  • 1篇学位论文
  • 1篇会议论文

领域

  • 3篇自动化与计算...

主题

  • 3篇神经元动态规...
  • 3篇性能势
  • 2篇半MARKO...
  • 2篇SMDP
  • 1篇网络
  • 1篇马尔可夫
  • 1篇马尔可夫决策...
  • 1篇MDP
  • 1篇ACTOR

机构

  • 3篇合肥工业大学

作者

  • 3篇陈栋
  • 2篇周雷
  • 2篇唐昊
  • 1篇吴玉华

传媒

  • 1篇控制与决策

年份

  • 1篇2007
  • 1篇2006
  • 1篇2005
3 条 记 录,以下是 1-3
排序方式:
MDP基于actor-critic网络的统一NDP方法
研究马尔可大决策过程(MDP)在actor-critic模式下,基于性能势学习的神经元动态规划(NDP)方法。首先,通过MDP的一个一致链的单个样本轨道,利用一个神经元网络逼近其性能势,并根据折扣和平均准则下统一的参数T...
唐昊陈栋周雷
关键词:性能势
文献传递
SMDP基于性能势的NDP优化方法及应用研究
离散事件动态系统/(DEDS/)是实际生活中广泛存在的一类人造系统,而半Markov决策过程/(SMDP/)是这类系统建模的主要方法之一。为了适应对于大状态空间离散事件动态系统优化控制的需要,论文重点研究了建立在强化学习...
陈栋
关键词:半MARKOV决策过程性能势神经元动态规划
文献传递
SMDP基于Actor网络的统一NDP方法被引量:4
2007年
研究半马尔可夫决策过程(SMDP)基于性能势学习和策略逼近的神经元动态规划(NDP)方法.通过SMDP的一致马尔可夫链的单个样本轨道,给出了折扣和平均准则下统一的性能势TD(λ)学习算法,进行逼近策略评估;利用一个神经元网络逼近结构作为行动器(Actor)表示策略,并根据性能势的学习值给出策略参数改进的两种方法.最后通过数值例子说明了有关算法的有效性.
唐昊陈栋周雷吴玉华
关键词:半MARKOV决策过程性能势神经元动态规划
共1页<1>
聚类工具0