靳小龙 作品数:71 被引量:2,401 H指数:16 供职机构: 中国科学院计算技术研究所 更多>> 发文基金: 国家自然科学基金 国家重点基础研究发展计划 北京市科技新星计划 更多>> 相关领域: 自动化与计算机技术 文化科学 电子电信 理学 更多>>
CCF大专委2016年大数据发展趋势预测--解读和行动建议 被引量:13 2016年 1引言2015中国大数据技术大会(BDTC)于2015年12月10日在北京召开,会上中国计算机学会(CCF)大数据专家委员会(task force on big data,TFBD,以下简称大专委)发布了中国大数据技术与产业发展报告(2015),并对2016年大数据发展趋势进行了展望。自2012年10月CCF大专委成立,在每年12月的大数据技术大会上都会发布对第二年大数据发展趋势的预测。从预测2013年到预测2016年, 潘柱廷 程学旗 袁晓如 周涛 靳小龙关键词:CCF 可视化方法 产业发展报告 隐私保护 开源技术 产业生态 自适应属性选择的实体对齐方法 被引量:6 2020年 现有实体对齐方法普遍存在传统方法依赖外部信息和人工构建特征,而基于表示学习的方法忽略了知识图谱中的结构信息的问题。针对上述问题,提出自适应属性选择的实体对齐方法,融合实体的语义和结构信息训练基于两个图谱联合表示学习的实体对齐模型。提出使用基于自适应属性选择的属性强约束模型,根据数据集特征自动生成最优属性类型和权重约束,提升实体对齐效果。两个实际数据集上的试验表明,该方法与传统表示学习方法相比准确率最高提升了约11%。 苏佳林 王元卓 靳小龙 程学旗关键词:知识图谱 网络大数据计算技术与应用综述 被引量:18 2013年 网络大数据蕴含着丰富的社会信息,可以看作是对真实社会的网络映射。分析网络大数据并发现其中所暗含的线索与规律,可以帮助人们更好地感知现在、预测未来。本文简要介绍了国内外有关网络大数据的战略布局,总结了网络大数据计算技术研究面临的挑战,并从网络大数据计算的架构体系以及网络大数据的感知与表示、内容建模与语义理解等方面分析了研究现状。最后,通过实例对网络大数据将带来的新型应用进行了展望。 程学旗 王元卓 靳小龙一种基于表示向量的作品标签推荐方法和系统 本发明涉及一种基于表示向量的标签推荐方法和系统,其特征在于,包括:获取多个作品,根据每个作品对应的标签、关系及对象,构建多个包含作品和标签的二元组信息和包含作品、关系及对象的三元组信息,根据二元组信息和三元组信息生成训练... 贾岩涛 蔡朋杉 王元卓 靳小龙 李曼玲 程学旗文献传递 基于类型间关系学习的细粒度实体分类 2023年 细粒度实体分类旨在为构建知识图谱过程中所抽取的实体或实体提及确定一个或多个层次化、细粒度的类型,以便更好地为下游任务提供支持。现有细粒度实体分类方法存在细粒度分类精度不高、部分实体难以有效分类的问题。另一方面,直观来说,掌握细粒度类型之间的语义区别有助于实体的细粒度分类。但由于已有面向该任务的数据集缺少可用于学习细粒度类型间语义差别的数据,因此目前没有将细粒度类型之间的语义区别应用于细粒度实体分类的研究。为此,本文提出一种基于Freebase知识库学习细粒度类型语义区别的方法,并将学习到的语义信息应用在细粒度实体分类任务中。具体地,利用SPARQL从Freebase中获取类型之间的关系数据,据此学习细粒度实体类型之间的语义区别信息,进而结合实体提及及其上下文的文本信息进行细粒度实体分类。实验表明,本文提出的方法可以有效学习细粒度类型之间的语义区别,能够达到提升细粒度实体分类准确率的效果。 席鹏弼 靳小龙 白硕基于常识的亲属关系推理模型 被引量:6 2001年 常识知识的研究与发展得到了人工智能界的很大重视。文章建立了一个基于常识的人物亲属关系推理模型,研究了亲属关系常识以及人物信息的表示与存储。此外,对实际所要解决的问题进行了总结。 靳小龙 魏旺强关键词:常识推理 亲属关系 人工智能 一种复杂实体抽取方法、装置、介质及系统 本发明涉及一种复杂实体抽取方法,用于迭层膨胀卷积神经网络,该神经网络包括字级别迭层膨胀卷积神经网络层和词级别迭层膨胀卷积神经网络层,该方法包括:语料生成步骤,用于构建实体语料集,以采集语料,并对该语料进行自定义格式标注,... 靳小龙 程学旗 席鹏弼 郭嘉丰 李紫宣文献传递 基于多历史序列联合演化建模的两阶段时序知识图谱推理 2024年 近年来,随着互联网技术和应用模式的迅猛发展,互联网数据规模爆炸式增长,其中包含大量带有时序信息的动态事件知识。为了建模这类动态事件知识,时序知识图谱在传统知识图谱的基础上引入时间信息,以带时间戳的知识图谱序列刻画这类知识。时序知识图谱推理任务旨在根据过去发生的事件四元组(主语实体,关系(事件类型),宾语实体,时间戳)预测未来发生的事件。为此,模型需要充分建模实体的历史演化过程。然而,巨大的实体数目以及它们对应的大量历史事件给时序知识图谱推理任务带来了巨大挑战。为了降低待建模历史的规模,已有方法选择建模查询实体的长程历史或者全部实体的短程历史,都丢失了一部分历史信息。实际上,由于不同实体对于一个查询的相关程度不同,模型需要更充分地建模相关实体的历史信息。基于此,该文提出了基于多历史序列联合演化建模的两阶段时序推理模型MENet(Multi-sequence Evolution Network)。具体而言,其在第一阶段采用了一种基于启发式规则的候选实体筛选策略,选择最有可能发生事件的候选实体,从而有效地降低了需要建模的实体数目;在第二阶段,其采用了一个多历史序列联合演化模型:首先通过组合多个实体各自的长程历史信息,得到需要建模的图序列,进而通过考虑该图序列上同时刻发生事件之间的结构依赖、事件发生的时间数值信息以及不同时刻之间的时序依赖,从而更精准地建模实体演化过程。在三个标准数据集上的实验结果表明,上述模型相比于当前最先进的方法模型具有更好的推理性能。 李紫宣 官赛萍 靳小龙 白龙 郭嘉丰 郭嘉丰关键词:知识图谱 一种改进的实体关系抽取算法——OptMultiR 被引量:2 2018年 作为知识图谱构建过程中的关键步骤,关系抽取这一从海量自然语言文本中抽取实体间关系的任务近年来得到了越来越广泛的关注。如今,远程监督(distant supervision)方法通过与已有知识库(knowledge base)中的实体和关系进行对齐,可以直接使用源文本进行训练从而省去了人工标记数据的过程。其中,使用了多实例多标签(multi-instance multi-label)模型的MultiR算法取得了很好的抽取效果。但该算法存在两个问题:抽取过程中未考虑实体对之间可能已存在的关系,以及概率图匹配计算中使用的贪心算法无法获得最优解。该文针对上述问题进行了改进。首先,在关系抽取的打分过程中,考虑到同一实体对可能存在的多个关系之间具有一定关联性,该文引入了关系权重矩阵,使其在抽取过程中将实体对已知的关系转换为权重向量对打分进行干预,以此减少个别文本特征的干扰,提高抽取准确率。其次,在概率图匹配过程中,为了将图的匹配从局部最优值提升为全局最优值,该文将原有的贪心算法替换为基于状态压缩的动态规划算法。实验结果证明,优化后的MultiR模型,称之为OptMultiR,其关系抽取性能得到了显著提升。 延浩然 靳小龙 贾岩涛 贾岩涛关键词:关系抽取 一种面向开放网页的实体属性抽取方法和系统 本发明提供一种面向开放网页的实体属性抽取方法和系统。其中,所述方法包括:提取开放网页的文本,从中获得目标实体的候选文本集合;以及,根据目标实体属性在训练文本集合中出现的频率,选择基于规则的方式或者基于统计的方式从所述候选... 程学旗 贾岩涛 赵泽亚 王元卓 靳小龙 熊锦华 李曼玲 林海伦 许洪波文献传递