陈冬火
- 作品数:28 被引量:57H指数:5
- 供职机构:苏州大学更多>>
- 发文基金:江苏省高校自然科学研究项目国家自然科学基金重庆市自然科学基金更多>>
- 相关领域:自动化与计算机技术轻工技术与工程文化科学电子电信更多>>
- 基于凸多面体抽象域的自适应强化学习技术研究被引量:5
- 2018年
- 表格驱动的算法是解决强化学习问题的一类重要方法,但由于"维数灾"现象的存在,这种方法不能直接应用于解决具有连续状态空间的强化学习问题.解决维数灾问题的方法主要包括两种:状态空间的离散化和函数近似方法.相比函数近似,基于连续状态空间离散化的表格驱动方法具有原理直观、程序结构简单和计算轻量化的特点.基于连续状态空间离散化方法的关键是发现合适的状态空间离散化机制,平衡计算量及准确性,并且确保基于离散抽象状态空间的数值性度量,例如V值函数和Q值函数,可以较为准确地对原始强化学习问题进行策略评估和最优策略π*计算.文中提出一种基于凸多面体抽象域的自适应状态空间离散化方法,实现自适应的基于凸多面体抽象域的Q(λ)强化学习算法(Adaptive Polyhedra Domain based Q(λ),APDQ(λ)).凸多面体是一种抽象状态的表达方法,广泛应用于各种随机系统性能评估和程序数值性属性的验证.这种方法通过抽象函数,建立具体状态空间至多面体域的抽象状态空间的映射,把连续状态空间最优策略的计算问题转化为有限大小的和易于处理的抽象状态空间最优策略的计算问题.根据与抽象状态相关的样本集信息,设计了包括BoxRefinement、LFRefinement和MVLFRefinement多种自适应精化机制.依据这些精化机制,对抽象状态空间持续进行适应性精化,从而优化具体状态空间的离散化机制,产生符合在线抽样样本空间所蕴涵的统计奖赏模型.基于多面体专业计算库PPL(Parma Polyhedra Library)和高精度数值计算库GMP(GNU Multiple Precision)实现了算法APDQ(λ),并实施了实例研究.选择典型的连续状态空间强化学习问题山地车(Mountain Car,MC)和杂技机器人(Acrobatic robot,Acrobot)作为实验对象,详细评估了各种强化学习参数和自适应精化相关的阈值参数对APDQ(λ)性能的影响,探究了抽象状�
- 陈冬火刘全朱斐金海东
- 基于符号执行和LTL公式重写的测试用例产生方法被引量:3
- 2013年
- 基于模型检验等形式化方法的测试用例自动产生技术成为测试自动化领域一项重要的进展.对于输入和输出为无界抽象数据类型的无限状态系统,利用传统模型检验技术难以有效地产生测试用例集合,提出基于符号执行和公式重写的测试用例产生方法.通过建立程序的符号化执行模型,避免输入和输出变量数值化枚举而导致的无限状态系统的建模和状态爆炸问题;建立基于符号化执行模型的时序公式重写规则,并根据线性时序逻辑(linear temporal logic,LTL)公式的反例模式求取复杂属性及行为约束关系,利用约束求解的方法自动产生测试用例集合.这种方法集成了符号执行技术和时序公式状态重写——一种轻量级模型检验技术,成为基于复杂抽象数据类型系统与属性相关的测试用例自动产生的有效方法.
- 陈冬火刘全
- 关键词:线性时序逻辑
- 基于生成式对抗网络技术的医疗文本生成方法
- 本发明公开了一种基于生成式对抗网络技术的医疗文本生成方法,包括如下步骤:下载某个科属领域的多篇医疗文档;利用词向量来表示每篇医疗文档中的每个词;对每篇医疗文档进行文本分类,保留需要的医疗文档;获得每篇需要的医疗文档的最佳...
- 朱斐叶飞伏玉琛陈冬火
- 文献传递
- 一种面向动态环境的机器人寻径在线控制方法
- 本发明公开了一种面向动态环境的机器人寻径在线控制方法,包括:1)环境和参数初始化;2)由机器人的基本动作集合和抽象动作集合构成机器人的可选动作,初始化所有的状态‑动作的评估值;所述抽象动作集合中的每个抽象动作为可中断的抽...
- 朱斐伏玉琛刘全陈冬火黃蔚
- 文献传递
- NSPK协议的Spin模型检测被引量:5
- 2008年
- NSPK协议是一个经典的认证密码协议.通过建立该协议的Promela模型,采用线性时序逻辑描述模型性质,并用模型检测工具Spin进行验证,进而生成入侵者的攻击序列.
- 陈道喜张广泉陈冬火
- 关键词:SPIN
- 一种解决连续空间问题的真实在线自然梯度AC算法被引量:5
- 2018年
- 策略梯度作为一种能够有效解决连续空间决策问题的方法得到了广泛研究,但由于在策略估计过程中存在较大方差,因此,基于策略梯度的方法往往受到样本利用率低、收敛速度慢等限制.针对该问题,在行动者-评论家(actor-critic,简称AC)算法框架下,提出了真实在线增量式自然梯度AC(true online incremental natural actor-critic,简称TOINAC)算法.TOINAC算法采用优于传统梯度的自然梯度,在真实在线时间差分(true online time difference,简称TOTD)算法的基础上,提出了一种新型的前向观点,改进了自然梯度行动者-评论家算法.在评论家部分,利用TOTD算法高效性的特点来估计值函数;在行动者部分,引入一种新的前向观点来估计自然梯度,再利用资格迹将自然梯度估计变为在线估计,提高了自然梯度估计的准确性和算法的效率.将TOINAC算法与核方法以及正态策略分布相结合,解决了连续空间问题.最后,在平衡杆、Mountain Car以及Acrobot等连续问题上进行了仿真实验,验证了算法的有效性.
- 朱斐朱海军刘全刘全陈冬火
- 关键词:自然梯度核方法
- TCP协议的安全性和活性验证被引量:6
- 2008年
- 网络协议簇中,传输控制协议TCP是最重要的协议之一,提供面向连接的可靠传输服务.采用Promela描述TCP建立连接和可靠数据传输,并用模型检测工具Spin,验证TCP三次握手协议的安全性与可靠数据传输协议活性的属性.
- 陈道喜陈冬火张广泉
- 关键词:TCPPROMELASPIN
- 循环迭代程序的一种可信计算算法被引量:2
- 2020年
- 循环迭代程序作为软件的基本组成部分,其正确运行具有重要意义.然而,有时(比如其相关错数大于0时)计算时的舍入误差(或表示误差)会导致循环迭代的计算结果不稳定.基于“中间计算精度自动动态调整”的计算技术,给出了循环迭代程序的一种可信计算算法.利用该算法,可获得循环迭代程序任意次迭代的任意位的正确有效数字.目前,通过C++语言该算法已被编程实现于ISReal中.
- 赵世忠陈冬火刘静
- 关键词:可信计算
- 一种通过自动创建抽象动作控制移动机器人的方法
- 本发明公开了一种通过自动创建抽象动作控制移动机器人的方法,包括:1)初始化;2)按照Q学习模块的更新公式更新所有的状态‑动作评估值,并保存经验轨迹,去除经验轨迹中的重复状态区间内的状态;3)计算剩余状态的多样性密度值;4...
- 朱斐伏玉琛刘全陈冬火金海东
- 文献传递
- 一种不稳定环境下的策略搜索及迁移方法被引量:3
- 2017年
- 强化学习是一种Agent在与环境交互过程中,通过累计奖赏最大化来寻求最优策略的在线学习方法.由于在不稳定环境中,某一时刻的MDP模型在与Agent交互之后就发生了变化,导致基于稳定MDP模型传统的强化学习方法无法完成不稳定环境下的最优策略求解问题.针对不稳定环境下的策略求解问题,利用MDP分布对不稳定环境进行建模,提出一种基于公式集的策略搜索算法——FSPS.FSPS算法在学习过程中搜集所获得的历史样本信息,并对其进行特征信息的提取,利用这些特征信息来构造不同的用于动作选择的公式,采取策略搜索算法求解最优公式.在此基础之上,给出所求解策略的最优性边界,并从理论上证明了迁移到新MDP分布中策略的最优性主要依赖于MDP分布之间的距离以及所求解策略在原始MDP分布中的性能.最后,将FSPS算法用于经典的Markov Chain问题,实验结果表明,所求解的策略具有较好的性能.
- 朱斐刘全傅启明陈冬火王辉伏玉琛