伏玉琛 作品数:76 被引量:232 H指数:9 供职机构: 苏州大学 更多>> 发文基金: 国家自然科学基金 江苏省高校自然科学研究项目 江苏省自然科学基金 更多>> 相关领域: 自动化与计算机技术 天文地球 电子电信 电气工程 更多>>
兼顾公平性的上下文感知学习的结果预测分类器 本发明公开了一种兼顾公平性的上下文感知学习的结果预测分类器,分类器采用如下分类步骤:(1)初始化分类器的探索参数;(2)初始化分类器的权重矩阵;(3)判断数据库中是否有数据,如是,则随机选取其中一条数据的特征,转至步骤(... 朱斐 刘晓飞 伏玉琛 钟珊文献传递 一种通过自动创建抽象动作控制移动机器人的方法 本发明公开了一种通过自动创建抽象动作控制移动机器人的方法,包括:1)初始化;2)按照Q学习模块的更新公式更新所有的状态‑动作评估值,并保存经验轨迹,去除经验轨迹中的重复状态区间内的状态;3)计算剩余状态的多样性密度值;4... 朱斐 伏玉琛 刘全 陈冬火 金海东文献传递 一种基于粗糙集的社区结构发现算法 被引量:3 2011年 提出一种基于粗糙集的社区结构发现算法。将信息中心度作为衡量节点之间关联度的标准,在处理社区间边界节点时引入粗糙集中的上下近似集概念。将网络中的各个节点划分到社区中,从而将复杂网络划分成k个社区,k值由算法自动选定,并通过模块度确定理想的社区结构。在Zachary Karate Club模型和College Football Network模型上进行验证,实验结果表明,该算法的准确率较高。 朱文强 伏玉琛关键词:粗糙集 上近似集 下近似集 一种针对非平衡数据的贝叶斯分类算法 2010年 借鉴半监督分类的思想,本文提出一种基于改进EM算法的贝叶斯分类模型,对移动通信网络中存在的大量随机缺失的非平衡数据进行分类。首先,从实际数据中经过初步统计分析得到能在一定程度上反应变量状态的先验概率,并以此作为贝叶斯分类模型的初始值进行EM迭代训练,从而减少EM算法的迭代次数并改善EM算法对初始值的敏感性以及局部收敛的缺陷;然后,利用对历史移动通信数据进行训练得到的叶斯网络分类模型,对测试数据进行预测分类。实验结果表明,该方法大大提高了移动通信数据中负类样本的预测成功率,与传统的数理统计分析方法相比较,表现出了更好的性能。 汪春亮 伏玉琛关键词:半监督学习 贝叶斯网络 EM 非平衡数据 一种不稳定环境下的策略搜索及迁移方法 被引量:3 2017年 强化学习是一种Agent在与环境交互过程中,通过累计奖赏最大化来寻求最优策略的在线学习方法.由于在不稳定环境中,某一时刻的MDP模型在与Agent交互之后就发生了变化,导致基于稳定MDP模型传统的强化学习方法无法完成不稳定环境下的最优策略求解问题.针对不稳定环境下的策略求解问题,利用MDP分布对不稳定环境进行建模,提出一种基于公式集的策略搜索算法——FSPS.FSPS算法在学习过程中搜集所获得的历史样本信息,并对其进行特征信息的提取,利用这些特征信息来构造不同的用于动作选择的公式,采取策略搜索算法求解最优公式.在此基础之上,给出所求解策略的最优性边界,并从理论上证明了迁移到新MDP分布中策略的最优性主要依赖于MDP分布之间的距离以及所求解策略在原始MDP分布中的性能.最后,将FSPS算法用于经典的Markov Chain问题,实验结果表明,所求解的策略具有较好的性能. 朱斐 刘全 傅启明 陈冬火 王辉 伏玉琛基于可中断Option的在线分层强化学习方法 被引量:4 2016年 针对大数据体量大的问题,在Macro-Q算法的基础上提出了一种在线更新的Macro-Q算法(MQIU),同时更新抽象动作的值函数和元动作的值函数,提高了数据样本的利用率。针对传统的马尔可夫过程模型和抽象动作均难于应对可变性,引入中断机制,提出了一种可中断抽象动作的Macro-Q无模型学习算法(IMQ),能在动态环境下学习并改进控制策略。仿真结果验证了MQIU算法能加快算法收敛速度,进而能解决更大规模的问题,同时也验证了IMQ算法能够加快任务的求解,并保持学习性能的稳定性。 朱斐 许志鹏 刘全 伏玉琛 王辉关键词:大数据 分层强化学习 OPTION 基于生成式对抗网络技术的医疗文本生成方法 本发明公开了一种基于生成式对抗网络技术的医疗文本生成方法,包括如下步骤:下载某个科属领域的多篇医疗文档;利用词向量来表示每篇医疗文档中的每个词;对每篇医疗文档进行文本分类,保留需要的医疗文档;获得每篇需要的医疗文档的最佳... 朱斐 叶飞 伏玉琛 陈冬火文献传递 一种基于独立任务的POMDP问题的解决方法 2016年 通常利用POMDPs对在部分可观测的随机环境中决策的agents建模。针对完整POMDP的求解方法扩展能力弱的问题,提出把多元POMDP分解成多个受限制的POMDPs,然后独立求解每个模型,以获得值函数,并将这些受限制的POMDPs的值函数结合起来以便获得完整POMDP策略。该方法主要阐述识别与独立任务相关的状态变量的过程,以及如何构造被限制在单独任务上的模型。将该方法应用到两个不同规模的岩石采样问题中,实验结果表明,该方法能够获得很好的策略。 房俊恒 朱斐 刘全 伏玉琛 凌兴宏关键词:POMDP 一种面向动态环境的机器人寻径在线控制方法 本发明公开了一种面向动态环境的机器人寻径在线控制方法,包括:1)环境和参数初始化;2)由机器人的基本动作集合和抽象动作集合构成机器人的可选动作,初始化所有的状态‑动作的评估值;所述抽象动作集合中的每个抽象动作为可中断的抽... 朱斐 伏玉琛 刘全 陈冬火 黃蔚文献传递 一种基于强化学习的路面交通信号灯协调控制方法 本发明公开了一种基于强化学习的路面交通信号灯协调控制方法,包括对应每个路口设有监控设备,每一所述监控设备经网络模块与远程服务器连接,其控制方法为:⑴远程服务器通过接收视频信号,计算等待时间S;⑵远程服务器在每个相位状态a... 朱斐 朱海军 伏玉琛 刘全 杨炯 任勇文献传递