您的位置: 专家智库 > >

安徽省自然科学基金(050420303)

作品数:6 被引量:21H指数:4
相关作者:唐昊周雷吴玉华袁继彬程文娟更多>>
相关机构:合肥工业大学更多>>
发文基金:国家自然科学基金安徽省自然科学基金更多>>
相关领域:自动化与计算机技术更多>>

文献类型

  • 6篇期刊文章
  • 1篇会议论文

领域

  • 7篇自动化与计算...

主题

  • 6篇性能势
  • 4篇SMDP
  • 3篇神经元动态规...
  • 3篇马尔可夫决策...
  • 3篇半MARKO...
  • 2篇鲁棒
  • 2篇计算机
  • 2篇计算机应用
  • 2篇半马尔可夫决...
  • 2篇MDP
  • 2篇策略迭代
  • 1篇迭代
  • 1篇迭代优化
  • 1篇遗传算法
  • 1篇全局优化
  • 1篇网络
  • 1篇鲁棒控制
  • 1篇鲁棒控制策略
  • 1篇马尔可夫
  • 1篇控制策略

机构

  • 7篇合肥工业大学

作者

  • 7篇唐昊
  • 5篇周雷
  • 3篇吴玉华
  • 2篇陈栋
  • 1篇袁继彬
  • 1篇程燕
  • 1篇刘春
  • 1篇程文娟
  • 1篇马学森

传媒

  • 2篇吉林大学学报...
  • 1篇合肥工业大学...
  • 1篇控制理论与应...
  • 1篇系统仿真学报
  • 1篇控制与决策

年份

  • 2篇2007
  • 3篇2006
  • 2篇2005
6 条 记 录,以下是 1-7
排序方式:
基于策略迭代和遗传算法的SMDP鲁棒控制策略求解被引量:1
2007年
半马尔可夫决策过程(SMDP)描述的一类受控半Markov系统,其模型参数在实际中常常不确定或不可知,可能导致随机过程的性能函数和系统参数(即嵌入链转移概率和状态逗留时间分布)皆不确定。该文针对参数不相关的情况,给出求解鲁棒控制策略的迭代算法,并在迭代过程中引入遗传算法,以提高全局优化能力。数值例子表明,基于遗传算法的策略迭代应用于鲁棒决策问题中具有较好的优化效果。
程燕唐昊马学森
关键词:半马尔可夫决策过程性能势鲁棒控制遗传算法
不确定SMDP基于全局优化的鲁棒决策问题被引量:6
2005年
考虑半马尔可夫决策过程(SMDP)在一些系统参数不确定,且性能函数依赖于这些参数时的鲁棒决策问题。这些参数的不确定性不仅导致等价无穷小生成子的不确定性,也导致性能函数的不确定性。论文针对相关参数的情况,分别采用不同的全局优化算法,即填充函数法和模拟退火算法,进行鲁棒控制策略求解。仿真实例说明,全局优化方法的使用保证了平均准则和折扣准则下的计算结果之间当折扣因子趋近于零时的极限关系成立。
刘春唐昊程文娟
关键词:半马尔可夫决策过程性能势全局优化
半Markov决策过程的数值迭代优化被引量:4
2006年
针对半Markov决策过程在紧致行动集上的数值迭代优化,提出了折扣和平均准则下直接基于等价无穷小生成子的统一的标准数值迭代算法,并证明了其收敛性。另外,讨论了两种性能准则下统一的异步数值迭代算法,包括Gauss-Seidel异步迭代和随机异步迭代,特别是基于样本轨道仿真的数值迭代等,并运用性能势思想对上述算法进行改进。结果表明,该算法可直接适用于连续时间Markov决策过程。最后通过一个数值例子来比较各种算法的特点。
唐昊吴玉华周雷
关键词:计算机应用半MARKOV决策过程
SMDP基于性能势的M步向前策略迭代被引量:1
2006年
运用基于性能势的M步向前(look-ahead)异步策略迭代算法研究了半Markov决策过程(SMDP)优化问题。首先给出了基于性能势理论求解的一种M步向前策略迭代算法。该算法不仅对标准策略迭代算法和一般的异步策略迭代算法都适用,而且对SMDP在折扣和平均准则下的优化也是统一的;另外给出了两种性能准则下基于即时差分学习的M步向前仿真策略迭代。最后通过一个数值算例比较了各种算法的特点。
吴玉华唐昊周雷
关键词:计算机应用半MARKOV决策过程性能势
MDP基于actor-critic网络的统一NDP方法
研究马尔可大决策过程(MDP)在actor-critic模式下,基于性能势学习的神经元动态规划(NDP)方法。首先,通过MDP的一个一致链的单个样本轨道,利用一个神经元网络逼近其性能势,并根据折扣和平均准则下统一的参数T...
唐昊陈栋周雷
关键词:性能势
文献传递
平均和折扣准则MDP基于TD(0)学习的统一NDP方法被引量:12
2006年
为适应实际大规模M arkov系统的需要,讨论M arkov决策过程(MDP)基于仿真的学习优化问题.根据定义式,建立性能势在平均和折扣性能准则下统一的即时差分公式,并利用一个神经元网络来表示性能势的估计值,导出参数TD(0)学习公式和算法,进行逼近策略评估;然后,根据性能势的逼近值,通过逼近策略迭代来实现两种准则下统一的神经元动态规划(neuro-dynam ic programm ing,NDP)优化方法.研究结果适用于半M arkov决策过程,并通过一个数值例子,说明了文中的神经元策略迭代算法对两种准则都适用,验证了平均问题是折扣问题当折扣因子趋近于零时的极限情况.
唐昊周雷袁继彬
关键词:MARKOV决策过程性能势神经元动态规划
SMDP基于Actor网络的统一NDP方法被引量:4
2007年
研究半马尔可夫决策过程(SMDP)基于性能势学习和策略逼近的神经元动态规划(NDP)方法.通过SMDP的一致马尔可夫链的单个样本轨道,给出了折扣和平均准则下统一的性能势TD(λ)学习算法,进行逼近策略评估;利用一个神经元网络逼近结构作为行动器(Actor)表示策略,并根据性能势的学习值给出策略参数改进的两种方法.最后通过数值例子说明了有关算法的有效性.
唐昊陈栋周雷吴玉华
关键词:半MARKOV决策过程性能势神经元动态规划
共1页<1>
聚类工具0