安徽省自然科学基金(050420303) 作品数:6 被引量:21 H指数:4 相关作者: 唐昊 周雷 吴玉华 袁继彬 程文娟 更多>> 相关机构: 合肥工业大学 更多>> 发文基金: 国家自然科学基金 安徽省自然科学基金 更多>> 相关领域: 自动化与计算机技术 更多>>
基于策略迭代和遗传算法的SMDP鲁棒控制策略求解 被引量:1 2007年 半马尔可夫决策过程(SMDP)描述的一类受控半Markov系统,其模型参数在实际中常常不确定或不可知,可能导致随机过程的性能函数和系统参数(即嵌入链转移概率和状态逗留时间分布)皆不确定。该文针对参数不相关的情况,给出求解鲁棒控制策略的迭代算法,并在迭代过程中引入遗传算法,以提高全局优化能力。数值例子表明,基于遗传算法的策略迭代应用于鲁棒决策问题中具有较好的优化效果。 程燕 唐昊 马学森关键词:半马尔可夫决策过程 性能势 鲁棒控制 遗传算法 不确定SMDP基于全局优化的鲁棒决策问题 被引量:6 2005年 考虑半马尔可夫决策过程(SMDP)在一些系统参数不确定,且性能函数依赖于这些参数时的鲁棒决策问题。这些参数的不确定性不仅导致等价无穷小生成子的不确定性,也导致性能函数的不确定性。论文针对相关参数的情况,分别采用不同的全局优化算法,即填充函数法和模拟退火算法,进行鲁棒控制策略求解。仿真实例说明,全局优化方法的使用保证了平均准则和折扣准则下的计算结果之间当折扣因子趋近于零时的极限关系成立。 刘春 唐昊 程文娟关键词:半马尔可夫决策过程 性能势 全局优化 半Markov决策过程的数值迭代优化 被引量:4 2006年 针对半Markov决策过程在紧致行动集上的数值迭代优化,提出了折扣和平均准则下直接基于等价无穷小生成子的统一的标准数值迭代算法,并证明了其收敛性。另外,讨论了两种性能准则下统一的异步数值迭代算法,包括Gauss-Seidel异步迭代和随机异步迭代,特别是基于样本轨道仿真的数值迭代等,并运用性能势思想对上述算法进行改进。结果表明,该算法可直接适用于连续时间Markov决策过程。最后通过一个数值例子来比较各种算法的特点。 唐昊 吴玉华 周雷关键词:计算机应用 半MARKOV决策过程 SMDP基于性能势的M步向前策略迭代 被引量:1 2006年 运用基于性能势的M步向前(look-ahead)异步策略迭代算法研究了半Markov决策过程(SMDP)优化问题。首先给出了基于性能势理论求解的一种M步向前策略迭代算法。该算法不仅对标准策略迭代算法和一般的异步策略迭代算法都适用,而且对SMDP在折扣和平均准则下的优化也是统一的;另外给出了两种性能准则下基于即时差分学习的M步向前仿真策略迭代。最后通过一个数值算例比较了各种算法的特点。 吴玉华 唐昊 周雷关键词:计算机应用 半MARKOV决策过程 性能势 MDP基于actor-critic网络的统一NDP方法 研究马尔可大决策过程(MDP)在actor-critic模式下,基于性能势学习的神经元动态规划(NDP)方法。首先,通过MDP的一个一致链的单个样本轨道,利用一个神经元网络逼近其性能势,并根据折扣和平均准则下统一的参数T... 唐昊 陈栋 周雷关键词:性能势 文献传递 平均和折扣准则MDP基于TD(0)学习的统一NDP方法 被引量:12 2006年 为适应实际大规模M arkov系统的需要,讨论M arkov决策过程(MDP)基于仿真的学习优化问题.根据定义式,建立性能势在平均和折扣性能准则下统一的即时差分公式,并利用一个神经元网络来表示性能势的估计值,导出参数TD(0)学习公式和算法,进行逼近策略评估;然后,根据性能势的逼近值,通过逼近策略迭代来实现两种准则下统一的神经元动态规划(neuro-dynam ic programm ing,NDP)优化方法.研究结果适用于半M arkov决策过程,并通过一个数值例子,说明了文中的神经元策略迭代算法对两种准则都适用,验证了平均问题是折扣问题当折扣因子趋近于零时的极限情况. 唐昊 周雷 袁继彬关键词:MARKOV决策过程 性能势 神经元动态规划 SMDP基于Actor网络的统一NDP方法 被引量:4 2007年 研究半马尔可夫决策过程(SMDP)基于性能势学习和策略逼近的神经元动态规划(NDP)方法.通过SMDP的一致马尔可夫链的单个样本轨道,给出了折扣和平均准则下统一的性能势TD(λ)学习算法,进行逼近策略评估;利用一个神经元网络逼近结构作为行动器(Actor)表示策略,并根据性能势的学习值给出策略参数改进的两种方法.最后通过数值例子说明了有关算法的有效性. 唐昊 陈栋 周雷 吴玉华关键词:半MARKOV决策过程 性能势 神经元动态规划