计算机软件新技术国家重点实验室 作品数:363 被引量:2,442 H指数:23 相关作者: 戴海鹏 陶传奇 李宇峰 胡伟 刘望舒 更多>> 相关机构: 南京大学 南京航空航天大学 南通大学 更多>> 发文基金: 国家自然科学基金 江苏省自然科学基金 国家高技术研究发展计划 更多>> 相关领域: 自动化与计算机技术 电子电信 文化科学 医药卫生 更多>>
适应用户兴趣变化的改进型协同过滤算法 被引量:13 2016年 协同过滤算法可以根据用户的历史行为记录去预测其可能喜欢的物品,是现在业界应用极为广泛的推荐算法。但传统的协同过滤算法并没有考虑到用户兴趣的概念漂移,在一些基于时间的协同过滤算法中对推荐时效性的考虑也有所欠缺。针对这些问题,结合用户兴趣随时间转移的特点,改进了相似度的度量方法,同时引入一种增强的时间衰减模型来度量预测值,并将这两种方式有机地结合起来,解决了用户兴趣的概念漂移问题并考虑了推荐算法的时效性。仿真实验中,分别在不同的数据集中对比了该算法与User CF、TCNCF、PTCF以及TimeSVD++算法的预测评分准确度和TopN推荐准确度。实验结果表明,改进算法能够降低预测评分的均方根误差(RMSE),并在TopN推荐准确度上均优于对比算法。 胡伟健 滕飞 李灵芳 王欢关键词:协同过滤 个性化推荐 用户兴趣 欧氏距离 优化分类型神经网络线性集成 被引量:16 2005年 构造多神经网络集成系统,系统的输出由个体神经网络的输出线性加权产生.提出了一种度量个体神经网络在不同的权重下集成性能的判别函数,函数表示了由个体神经网络输出刻画的模式类内会聚性和类间散布性.应用遗传算法解决了求解最优个体网络集成权重问题.分析了该判别函数的合理性及其与Bayes决策规则的关系.用两个手写体汉字特征数据集和4个UCI数据库中的数据集比较了所提出的神经网络集成方法和其他几种神经网络集成方法的性能. 王正群 陈世福 陈兆乾关键词:神经网络 神经网络集成 分类器 遗传算法 日汉网络翻译浏览器设计与实现 讨论日汉网络翻译浏览器设计的难点问题及解决方法。包括:在windOWs95环境下实现日、中、英多国语支撑环境;日汉翻译系统的设计:动态获取网络上HTML页面原码的技术;网络浏览器功能的实现;HTML页面的分析和版面还原,... 胡海文 王启祥关键词:机器翻译 网络 浏览器 基于智能分组策略的XML关键字查询算法 2016年 XML关键字查询作为一种信息检索方式,一直是相关领域的热点研究问题。在经典查询语义SLCA的基础上,设计并实现了一种基于智能分组策略的XML关键字查询的优化算法。提出的算法通过合理的分组策略可以保证在运算过程中及时去除组内祖先节点和重复节点,减少了大量冗余计算,提高了算法的效率。最后设计多组实验在不同的XML数据上进行测试,实验结果表明了该算法的有效性和高效性。 张永 李泉霖 刘博关键词:扩展标记语言 关键字查询 自动分析递归数据结构的归纳性质 被引量:2 2018年 提出了一种对递归数据结构的归纳性质进行自动化分析的框架.工作分为3个主要部分.首先,它将递归数据结构的归纳性质分为两个主要类别,并提出对应的处理模式,从而帮助简化对于程序中的递归数据结构上的相关性质的分析.其次,提出了一种称为分割与拼接的技术来发现和描述递归数据结构是如何被程序修改的:递归数据结构首先被分割为若干个互不相交的片段,然后,这些片段以新的方式重新拼接在一起,形成一个新的数据结构.这个技术的重点在于如何将程序原有的性质保留下来,从而为后面的分析过程所使用.最后,提出了一种调用上下文敏感的程序摘要过程间分析方法.案例分析和实验结果表明:分析框架可以有效地分析递归数据结构的归纳性质,并生成对程序证明过程有用的断言. 汤震浩 李彬 翟娟 翟娟关键词:过程间分析 元强化学习研究综述 2024年 近年来,深度强化学习(deep reinforcement learning,DRL)已经在诸多序贯决策任务中取得瞩目成功,但当前,深度强化学习的成功很大程度依赖于海量的学习数据与计算资源,低劣的样本效率和策略通用性是制约其进一步发展的关键因素.元强化学习(meta-reinforcementlearning,Meta-RL)致力于以更小的样本量适应更广泛的任务,其研究有望缓解上述限制从而推进强化学习领域发展.以元强化学习工作的研究对象与适用场景为脉络,对元强化学习领域的研究进展进行了全面梳理:首先,对深度强化学习、元学习背景做基本介绍;然后,对元强化学习作形式化定义及常见的场景设置总结,并从元强化学习研究成果的适用范围角度展开介绍元强化学习的现有研究进展;最后,分析了元强化学习领域的研究挑战与发展前景. 陈奕宇 霍静 丁天雨 高阳关键词:元学习 自动合成数组不变式 被引量:3 2018年 提出了基于抽象解释框架自动合成数组程序不变式的方法,它能够分析按照特定顺序访问一维或者多维数组的程序,然后合成不变式.该方法将性质(包括区间全称量词性质和原子性质)集合作为抽象域,通过前向迭代数据流分析合成数组性质.证明了该方法的正确性和收敛性,并通过一些实例展示了该方法的灵活性.开发了一种原型工具,该工具在各种数组程序(包括competition on software verification中的array-examples benchmark)上的实验展示了方法的可行性和有效性. 李彬 翟娟 汤震浩 汤恩义 赵建华SMap:基于语义的关系数据库模式与OWL本体间映射方法 被引量:5 2012年 伴随语义网的发展,语义网本体数量激增.然而万维网上绝大多数的数据仍存储在关系数据库中.建立关系数据库模式与语义网本体间的映射是一种实现两者之间互操作性的有效途径.因此,提出了一种基于语义的关系数据库模式与OWL本体间的映射方法SMap,包含简单映射发现和复杂映射学习两个阶段.在简单映射发现阶段,首先通过逆向工程规则将关系数据库模式和本体中的元素对应地分为不同类别,再为每个元素构建虚拟文档并计算它们之间的相似度,其中针对不同类别的元素设计了不同的虚拟文档抽取方案.在复杂映射学习阶段,基于已发现的简单映射以及重叠的数据库记录和本体实例,自动化地生成训练事实数据,然后运用归纳逻辑编程算法学习出多种类型的基于Horn规则的复杂映射.真实数据集上的实验结果表明,SMap在简单映射发现和复杂映射学习上均明显优于现有的关系数据库模式与本体间映射方法. 贾存鑫 胡伟 柏文阳 瞿裕忠关键词:本体映射 关系数据库 虚拟文档 归纳逻辑编程 面向开集识别的稳健测试时适应方法 2024年 开集识别旨在研究测试阶段突现未见类别对于机器学习模型的挑战,以期学习模型既能分类已见类别又可识别/拒绝未见类别,是确保机器学习模型能够在开放世界中高效稳健部署的重要技术.既有开集识别技术通常假设已见类别的协变量分布在训练与测试阶段维持不变.然而在实际场景中,类别的协变量分布常不断变化.直接利用既有技术不再奏效,其性能甚至劣于基线方案.因此,亟需研究新型开集识别方法,使其能不断适应协变量分布偏移,以期模型在测试阶段既能稳健分类已见类别又可识别未见类别.将此新问题设置命名为开放世界适应问题(AOW),并提出了一种开放测试时适应方法(OTA).该方法基于无标注测试数据优化自适应熵损失与开集熵损失更新模型,维持对已见类的既有判别能力,同时增强了识别未见类的能力.大量实验分析表明,该方法在多组基准数据集、多组不同协变量偏移程度下均稳健地优于现有先进的开集识别方法. 周植 张丁楚 李宇峰 张敏灵关键词:图像识别 流数据 融合特征选择的Android恶意逃避攻击研究 被引量:2 2021年 机器学习系统以其强大的自适应性、自学习能力,越来越多的应用到Android恶意软件检测领域,取得了显著的检测效果.然而,机器学习算法和样本本身还面临着诸多安全威胁,一些经过精心策划的攻击,希望颠覆这些算法并允许恶意行为对抗检测.首先以Drebin系统为例介绍了基于机器学习的Android恶意软件检测方法的原理,然后在攻击目标、攻击策略的基础了提出了针对机器学习分类器的逃避攻击模型.在综合考虑特征权重、可修改性、修改成本的基础上,提出了一种恶意对抗样本生成方法.实验结果表明,只需要修改很少量的特征,就能够逃避线性SVM分类器的检测,最后用一个具体的恶意样本逃避实例验证了提出方法的有效性. 陈镭 杨章静 黄璞关键词:支持向量机