公共文化服务平台

2024年8月31日星期六

|

欢迎来到南京江宁区图书馆•公共文化服务平台

登录 | 注册 | 进入后台

[APP下载]

[APP下载]

扫一扫,既下载

全民阅读
职业技能
专家智库
参考咨询

您的位置： 专家智库 > >

陈栋: 作品数：3 被引量：4H指数：1; 供职机构：合肥工业大学计算机与信息学院更多>>; 发文基金：国家自然科学基金安徽省自然科学基金更多>>; 相关领域：自动化与计算机技术更多>>

合作作者

唐昊合肥工业大学计算机与信息学院
周雷合肥工业大学计算机与信息学院
吴玉华合肥工业大学计算机与信息学院

作品列表
供职机构
相关作者
所获基金
研究领域

文献类型

1篇期刊文章
1篇学位论文
1篇会议论文

领域

3篇自动化与计算...

主题

3篇神经元动态规...
3篇性能势
2篇半MARKO...
2篇SMDP
1篇网络
1篇马尔可夫
1篇马尔可夫决策...
1篇MDP
1篇ACTOR

机构

3篇合肥工业大学

作者

3篇陈栋
2篇周雷
2篇唐昊
1篇吴玉华

传媒

1篇控制与决策

年份

1篇2007
1篇2006
1篇2005

共 3 条记录，以下是 1-3

全选清除导出

排序方式：

MDP基于actor-critic网络的统一NDP方法: 研究马尔可大决策过程（MDP）在actor-critic模式下,基于性能势学习的神经元动态规划（NDP）方法。首先,通过MDP的一个一致链的单个样本轨道,利用一个神经元网络逼近其性能势,并根据折扣和平均准则下统一的参数T...; 唐昊陈栋周雷; 关键词：性能势; 文献传递

SMDP基于性能势的NDP优化方法及应用研究: 离散事件动态系统/(DEDS/)是实际生活中广泛存在的一类人造系统,而半Markov决策过程/(SMDP/)是这类系统建模的主要方法之一。为了适应对于大状态空间离散事件动态系统优化控制的需要,论文重点研究了建立在强化学习...; 陈栋; 关键词：半MARKOV决策过程性能势神经元动态规划; 文献传递

SMDP基于Actor网络的统一NDP方法被引量：4: 2007年; 研究半马尔可夫决策过程(SMDP)基于性能势学习和策略逼近的神经元动态规划(NDP)方法.通过SMDP的一致马尔可夫链的单个样本轨道,给出了折扣和平均准则下统一的性能势TD(λ)学习算法,进行逼近策略评估;利用一个神经元网络逼近结构作为行动器(Actor)表示策略,并根据性能势的学习值给出策略参数改进的两种方法.最后通过数值例子说明了有关算法的有效性.; 唐昊陈栋周雷吴玉华; 关键词：半MARKOV决策过程性能势神经元动态规划

全选清除导出

共1页<1>

执行隐藏清空

网站首页| 关于我们| 联系我们| 产品服务| 客服中心| 版权声明

版权所有@南京江宁区图书馆 2015－2016 客户热线：400-638-5550

渝B2-20050021-1　渝公网安备 50019002500403号　违法和不良信息举报中心　互联网出版许可证　新出网证(渝)字10号

用户登录

用户反馈

标题：

*标题长度不超过50

邮箱：

*

反馈意见：

反馈意见字数长度不超过255

验证码：

看不清楚？点击换一张