公共文化服务平台

朱圆恒: 作品数：29 被引量：206H指数：3; 供职机构：中国科学院自动化研究所更多>>; 发文基金：国家自然科学基金更多>>; 相关领域：自动化与计算机技术电气工程兵器科学与技术化学工程更多>>

合作作者

智能驾驶车道保持方法及系统: 本发明涉及一种智能驾驶车道保持方法及系统，所述智能驾驶车道保持方法包括：获取驾驶员视角的当前前方图像；基于预设的驾驶图像感知模型，预测所述当前前方图像的车道特征；基于预设的数据驱动车道保持模型，根据所述车道特征，计算方向...; 赵冬斌李栋张启超陈亚冉朱圆恒

多电池储能系统的优化控制方法、系统及存储介质: 本发明涉及一种多电池储能系统的优化控制方法、系统及存储介质，本发明的方法与单电池管理系统不同，多个电池的不同属性被考虑进来，以整个系统的长期优化指标作为优化目标，此外，价值函数被定义为关于所有电池状态的模糊系统，根据电池...; 朱圆恒赵冬斌李相俊周建华

基于反事实回报的多智能体深度强化学习方法、系统: 本发明属于学习算法领域，具体涉及一种基于反事实回报的多智能体深度强化学习方法、系统，旨在为了解决解决多智能体信誉分配问题。本发明方法包括：基于多智能体的运行环境，定义全局状态；基于局部观测量，通过预设的Q网络模型，获取各...; 赵冬斌邵坤朱圆恒

深度强化学习进展:从AlphaGo到AlphaGo Zero被引量：89: 2017年; 2016年初,AlphaGo战胜李世石成为人工智能的里程碑事件.其核心技术深度强化学习受到人们的广泛关注和研究,取得了丰硕的理论和应用成果.并进一步研发出算法形式更为简洁的AlphaGo Zero,其采用完全不基于人类经验的自学习算法,完胜AlphaGo,再一次刷新人们对深度强化学习的认知.深度强化学习结合了深度学习和强化学习的优势,可以在复杂高维的状态动作空间中进行端到端的感知决策.本文主要介绍了从AlphaGo到AlphaGo Zero的深度强化学习的研究进展.首先回顾对深度强化学习的成功作出突出贡献的主要算法,包括深度Q网络算法、A3C算法、策略梯度算法及其他算法的相应扩展.然后给出AlphaGo Zero的详细介绍和讨论,分析其对人工智能的巨大推动作用.并介绍了深度强化学习在游戏、机器人、自然语言处理、智能驾驶、智能医疗等领域的应用进展,以及相关资源进展.最后探讨了深度强化学习的发展展望,以及对其他潜在领域的人工智能发展的启发意义.; 唐振韬邵坤赵冬斌朱圆恒; 关键词：ZERO 人工智能

多机器人协作对抗方法、装置、电子设备和存储介质: 本发明提供一种多机器人协作对抗方法、装置、电子设备和存储介质，其中方法包括：获取对抗环境的当前全局状态信息，以及每一己方机器人的当前局部观测信息；将所述对抗环境的当前全局状态信息和每一己方机器人的当前局部观测信息输入至协...; 赵冬斌唐振韬朱圆恒

深度强化学习综述:兼论计算机围棋的发展被引量：127: 2016年; 深度强化学习将深度学习的感知能力和强化学习的决策能力相结合,可以直接根据输入的图像进行控制,是一种更接近人类思维方式的人工智能方法.自提出以来,深度强化学习在理论和应用方面均取得了显著的成果.尤其是谷歌深智(Deep Mind)团队基于深度强化学习方法研发的计算机围棋"初弈号–Alpha Go",在2016年3月以4:1的大比分战胜了世界围棋顶级选手李世石(Lee Sedol),成为人工智能历史上一个新里程碑.为此,本文综述深度强化学习的发展历程,兼论计算机围棋的历史,分析算法特性,探讨未来的发展趋势和应用前景,期望能为控制理论与应用新方向的发展提供有价值的参考.; 赵冬斌邵坤朱圆恒李栋陈亚冉王海涛刘德荣周彤王成红; 关键词：人工智能

储能电池充/放电异常行为检测方法及检测系统: 本发明公开了一种储能电池充/放电异常行为检测方法和检测系统。其中，该方法包括提取所述储能电池在充/放电状态下的电流、电压数据；将提取的电流数据与充/放电电流阈值比较，并根据比较结果确定所述储能电池的所述充/放电状态；利用...; 赵冬斌卜丽朱圆恒李相俊

模糊自适应动态规划方法: 本发明公开了一种模糊自适应动态规划方法。所述方法包括以下步骤：步骤1，对自适应动态规划方法中的动作模块和评价模块的参数进行初始化；步骤2，采集被控制对象的状态变量；步骤3，对评价模块进行学习直至其满足学习指标要求；步骤4...; 赵冬斌朱圆恒

基于数据的Q函数自适应动态规划方法: 本发明提出一种基于数据的Q函数自适应动态规划方法解决最优控制问题。所述方法主要包括：步骤1，初始化稳定的控制策略；步骤2，用已有的控制策略初始化控制器(actor)、评价器(critic)神经网络的权重；步骤3，根据当前...; 赵冬斌朱圆恒刘德荣; 文献传递

基于强化学习的变化环境多智能体控制方法与装置: 本发明提供一种基于强化学习的变化环境多智能体控制方法与装置，包括：将当前环境信息和各个智能体的隐含状态输入到智能体网络，得到智能体网络输出的各个智能体的观测动作价值；观测动作价值用于表征对应智能体当前执行所有动作的预估价...; 朱圆恒柴嘉骏李伟凡赵冬斌孙科武丁季时雨董博; 文献传递