吴玉华
- 作品数:6 被引量:8H指数:2
- 供职机构:合肥工业大学更多>>
- 发文基金:国家自然科学基金安徽省自然科学基金更多>>
- 相关领域:自动化与计算机技术天文地球矿业工程更多>>
- 半Markov决策过程的数值迭代优化被引量:4
- 2006年
- 针对半Markov决策过程在紧致行动集上的数值迭代优化,提出了折扣和平均准则下直接基于等价无穷小生成子的统一的标准数值迭代算法,并证明了其收敛性。另外,讨论了两种性能准则下统一的异步数值迭代算法,包括Gauss-Seidel异步迭代和随机异步迭代,特别是基于样本轨道仿真的数值迭代等,并运用性能势思想对上述算法进行改进。结果表明,该算法可直接适用于连续时间Markov决策过程。最后通过一个数值例子来比较各种算法的特点。
- 唐昊吴玉华周雷
- 关键词:计算机应用半MARKOV决策过程
- SMDP基于性能势的M步向前策略迭代被引量:1
- 2006年
- 运用基于性能势的M步向前(look-ahead)异步策略迭代算法研究了半Markov决策过程(SMDP)优化问题。首先给出了基于性能势理论求解的一种M步向前策略迭代算法。该算法不仅对标准策略迭代算法和一般的异步策略迭代算法都适用,而且对SMDP在折扣和平均准则下的优化也是统一的;另外给出了两种性能准则下基于即时差分学习的M步向前仿真策略迭代。最后通过一个数值算例比较了各种算法的特点。
- 吴玉华唐昊周雷
- 关键词:计算机应用半MARKOV决策过程性能势
- SMDP基于性能势的异步优化算法
- 随着社会和科技的发展,离散事件动态系统(DEDS)的性能分析和优化应用已经成为控制与系统、管理、计算机等学科交叉领域内的一个前沿研究方向。半马尔可夫决策过程(SMDP)作为现实中一类广泛的系统模型,可以用来描述大部分的实...
- 吴玉华
- 关键词:半马尔可夫决策过程SMDP性能势
- 文献传递
- SMDP基于Actor网络的统一NDP方法被引量:4
- 2007年
- 研究半马尔可夫决策过程(SMDP)基于性能势学习和策略逼近的神经元动态规划(NDP)方法.通过SMDP的一致马尔可夫链的单个样本轨道,给出了折扣和平均准则下统一的性能势TD(λ)学习算法,进行逼近策略评估;利用一个神经元网络逼近结构作为行动器(Actor)表示策略,并根据性能势的学习值给出策略参数改进的两种方法.最后通过数值例子说明了有关算法的有效性.
- 唐昊陈栋周雷吴玉华
- 关键词:半MARKOV决策过程性能势神经元动态规划
- 恒源煤矿地质构造控水规律及其水害防治研究
- 朱宜存葛晓光龚乃勤贺兆礼赵开全孙本魁汪茂连杨永林王经明吴玉华王国强胡宝林高智联
- 该项目通过综合分析开采矿层所处的地质构造环境、应力状态、边界条件和介质条件,进一步探讨了地质构造条件特性对水文地质条件(尤其对太灰岩水赋存和径流状态)的控制。提出在矿区地质构造格架内太灰水特征、状态、危害程度和防治对策,...
- 关键词:
- 关键词:煤矿矿区水文地质
- 煤矿地质防水关键技术研究与示范
- 洪天求高远吴玉华吕进英赵开全段中稳刘东甲贾志海李红王云
- 1.项目所属科学技术领域“煤矿地质防水关键技术研究与示范”属于地球、空间与海洋领域的地球物理勘探方向。中国是能源消费大国,其中煤炭占70%,煤炭也是该省的支柱产业之一,两淮地区是中国重要产煤基地,除满足该省消费需求外,还...
- 关键词:
- 关键词:煤矿地震勘探方法