您的位置: 专家智库 > >

金卓军

作品数:8 被引量:10H指数:2
供职机构:浙江大学计算机科学与技术学院更多>>
发文基金:国家自然科学基金浙江省科技厅重点资助项目浙江省科技厅项目更多>>
相关领域:自动化与计算机技术自然科学总论更多>>

文献类型

  • 6篇期刊文章
  • 1篇学位论文
  • 1篇会议论文

领域

  • 7篇自动化与计算...
  • 1篇自然科学总论

主题

  • 3篇马尔可夫
  • 3篇马尔可夫决策...
  • 2篇学习算法
  • 2篇回报
  • 2篇函数
  • 2篇Q学习
  • 2篇AMD
  • 1篇增强学习算法
  • 1篇智能机器人
  • 1篇示教
  • 1篇数学
  • 1篇评测
  • 1篇评测技术
  • 1篇汽车
  • 1篇全景
  • 1篇全景图
  • 1篇主车
  • 1篇自主车
  • 1篇自主车辆
  • 1篇自主导航

机构

  • 8篇浙江大学

作者

  • 8篇金卓军
  • 7篇钱徽
  • 4篇陈沈轶
  • 4篇朱淼良
  • 2篇夏林锋
  • 1篇陈鹏
  • 1篇王炜
  • 1篇王勇鑫

传媒

  • 2篇华中科技大学...
  • 2篇计算机工程
  • 1篇浙江大学学报...
  • 1篇智能系统学报

年份

  • 6篇2011
  • 1篇2009
  • 1篇2008
8 条 记 录,以下是 1-8
排序方式:
改进的Online EM背景减除算法被引量:1
2011年
为有效提取复杂场景中的运动前景,提出基于贝叶斯理论的Dirichlet共轭先验,结合在线最大似然估计(Online EM)改进基于高斯混合模型参数的背景减除算法。改进算法避免了陷入局部最值,在线自适应地调整高斯个数,并生成运动全景图,实验结果表明,该算法能有效提高前景检测率。
王炜钱徽陈鹏金卓军
关键词:背景减除贝叶斯理论高斯混合模型全景图
基于倾向性分析的轨迹评测技术被引量:1
2011年
通过逆向增强学习和策略不变条件下的回报函数变形原理,研究已有标准轨迹前提下的车辆轨迹评测问题,提出基于倾向性分析的轨迹评测技术.对于标准轨迹和评测轨迹应用逆向增强学习算法,分别求出两者相对应的特征权重,将特征权重在策略不变条件下分别扩展成线性子空间,通过计算由正交投影矩阵定义的子空间间距离得到对评测轨迹的评测值.在四轮车辆仿真实验中,针对几种典型的驾驶风格轨迹对该方法进行验证.实验结果表明,该方法能够对于避障评测轨迹按其与标准轨迹的差异给出评测结果,克服了相同策略对应回报函数不唯一性所带来的影响,有效解决了车辆轨迹之间难于定量比较的难题.
金卓军钱徽朱淼良
关键词:马尔可夫决策过程
基于回报函数逼近的学徒学习综述被引量:2
2008年
回顾了基于回报函数逼近的学徒学习的发展历史,介绍了目前的主要工作,总结了学徒学习的一般方法,讨论了线性和非线性假设条件下的回报函数求解,比较了逆向增强学习(IRL)和边际最大化(MMP)两类逼近方法.基于IRL的学徒学习是一种通过迭代的方法用基回报函数的线性组合来逼近真实回报函数的过程.MMP方法可以看作是一类基于梯度下降的最优化方法.综合采用滤波及将策略函数概率化等方法可以降低对专家演示的最优要求.最后指出了该领域存在的问题,提出了未来的研究方向,如在部分可观察马尔可夫决策过程框架下的学徒学习及对不确定策略的学习等.
金卓军钱徽陈沈轶朱淼良
基于轨迹分析的自主导航性能评估方法被引量:2
2011年
在马尔可夫决策模型框架下,提出一种基于轨迹分析的计算评估方法,通过分析驾驶回报设置和车辆轨迹的特征期望衡量自主导航系统的性能。假定回报函数是回报特征的线性组合,通过逼近不同的车辆自主驾驶策略,求解应用于沙盒场景的回报设置,从而仿真导航轨迹的特征期望。实验结果表明,该方法能对自主导航系统的轨迹数据实现定性和定量评估。
王勇鑫钱徽金卓军朱淼良
关键词:马尔可夫决策过程
逆向增强学习和示教学习算法研究及其在智能机器人中的应用
近几十年来,示教学习一直是机器人研究领域中极富挑战性的研究课题之一。在示教学习中,直接估计状态-动作映射往往无法考虑长期性影响。因此,研究者倾向于将示教学习过程分为估计环境参数和求解最优控制器两个步骤,间接地逼近示教策略...
金卓军
关键词:智能机器人
文献传递
基于AMDP-Q的自主车辆行驶策略求解
结合增广马尔可夫决策过程(AMDP),蒙特卡罗一部分可观察马尔可夫决策过程(MC—POMDP)以及Q学习,提出了AMDP—Q学习(AMDP—Q)算法。算法的主要思想是:首先用一个低维充分统计量表示原信念状态空间,通常使用...
夏林锋钱徽陈沈轶金卓军
关键词:自主车辆Q学习算法
基于AMDP-Q的自主车辆行驶策略求解
2011年
结合增广马尔可夫决策过程(AMDP),蒙特卡罗-部分可观察马尔可夫决策过程(MC-POMDP)以及Q学习,提出了AMDP-Q学习(AMDP-Q)算法.算法的主要思想是:首先用一个低维充分统计量表示原信念状态空间,通常使用最大似然状态和信念状态的信息熵作为充分统计量,其组成的空间称为增广状态空间;然后应用参考状态集离散化该空间,并利用Q学习和Shepard插值得到连续状态的转移函数和回报函数;最后使用具有知识探索性质的ε-贪婪策略进行策略选择.实验结果表明:AMDP-Q比MC-POMDP收敛速度更快.
夏林锋钱徽陈沈轶金卓军
关键词:自主汽车Q学习
回报函数学习的学徒学习综述被引量:2
2009年
通过研究基于回报函数学习的学徒学习的发展历史和目前的主要工作,概述了基于回报函数学习的学徒学习方法.分别在回报函数为线性和非线性条件下讨论,并且在线性条件下比较了2类方法——基于逆向增强学习(IRL)和最大化边际规划(MMP)的学徒学习.前者有较为快速的近似算法,但对于演示的最优性作了较强的假设;后者形式上更易于扩展,但计算量大.最后,提出了该领域现在还存在的问题和未来的研究方向,如把学徒学习应用于POMDP环境下,用PBVI等近似算法或者通过PCA等降维方法对数据进行学习特征的提取,从而减少高维度带来的大计算量问题.
金卓军钱徽陈沈轶朱淼良
共1页<1>
聚类工具0