赵知纬
- 作品数:7 被引量:9H指数:2
- 供职机构:苏州大学计算机科学与技术学院更多>>
- 发文基金:江苏省自然科学基金国家自然科学基金江苏省高校自然科学研究项目更多>>
- 相关领域:自动化与计算机技术更多>>
- 基于支持向量机分类和语义信息的中文跨文本指代消解被引量:5
- 2013年
- 跨文本(实体)指代消解(CDCR)的任务就是把所有分布在不同文本但指向相同实体的词组合在一起形成一个指代链。传统的跨文本指代消解主要采用聚类方法来解决信息检索中遇到的重名消歧问题。将聚类问题转换为分类问题,并采用支持向量机(SVM)分类器来解决信息抽取中的重名消歧和多名聚合问题。该方法可有效融合实体名称的构词特征、读音特征以及文本内部和文本外部的多种语义特征。在中文跨文本指代语料库上的实验表明,同聚类方法相比,该方法在提高精度的同时,也提高了召回率。
- 赵知纬顾静航胡亚楠钱龙华周国栋
- 关键词:支持向量机分类器语义信息
- 一种分类模型建模方法、中文跨文本指代消解方法和系统
- 本申请提供一种分类模型建模方法、中文跨文本指代消解方法和系统。其中一种分类模型建模方法,包括:获取训练文本集;从训练文本集中选取实体表述对;获取每个实体表述对的特征项;选取正训练实例和负训练实例,将每个正训练实例和每个负...
- 钱龙华赵知纬周国栋
- 文献传递
- 面向信息抽取的中文跨文本指代消解研究
- 随着自然语言处理从单文本内部转向多文本之间,作为文本间实体链接的纽带,跨文本指代消解越来越凸显其重要性。与传统的面向信息检索的跨文本指代消解不同,信息抽取中的跨文本指代消解不但要解决重名问题,更要解决多名问题。而目前中文...
- 赵知纬
- 关键词:信息抽取SVM分类器聚类算法语义信息
- 文献传递
- 一个面向信息抽取的中文跨文本指代语料库被引量:3
- 2015年
- 跨文本指代(Cross Document Coreference,CDC)消解是信息集成和信息融合的重要环节,相应地,CDC语料库是进行跨文本指代消解研究和评估所不可或缺的平台。由于目前还没有一个公开发布的面向信息抽取的中文CDC语料库,因此该文在ACE 2005语料库的基础上,采用自动生成和人工标注相结合的方法,构建了一个面向信息抽取的涵盖所有ACE实体类型的中文CDC语料库,并将该语料库公开发布,旨在促进中文跨文本指代消解研究的发展。同时,该文以该语料库为基础,分析了中文环境下跨文本指代现象的类型和特点,提出了用"多名困惑度"和"重名困惑度"两个指标来衡量跨文本指代消解任务的难度,为今后的跨文本指代消解研究提供一些启示。
- 赵知纬钱龙华周国栋
- 关键词:信息抽取语料库标注
- 基于近似随机测试的语义关系抽取比较
- 2012年
- 为比较结构化信息和句法分析器对树核函数的关系抽取的作用,提出一种基于近似随机测试语义关系比较方法。对于2种不同配置关系的抽取结果,采用随机标号互换的方法重复产生样本,通过计算这些样本的性能差异进行显著性分析。实验结果表明,动态关系树是最佳的结构化信息,句法分析器Charniak和Berkeley性能均优于Stanford。
- 彭成钱龙华赵知纬周国栋
- 关键词:关系抽取树核函数结构化信息
- 面向信息抽取的中文跨文本指代消解研究被引量:1
- 2012年
- 跨文本指代消解研究是自然语言处理中的一个重点以及难点,是信息检索、信息抽取和多文档摘要等应用的重要组成部分。传统的跨文本指代消解主要解决信息检索中遇到的重名消歧问题。本文从信息抽取的角度出发,旨在解决信息抽取过程中的重名消歧和多名聚合两大跨文本指代消解任务。本文在一个基于ACE2005中文语料库标注的中文跨文本指代语料库上,利用空间向量模型进行面向信息抽取的跨文本指代消解。
- 季红洁赵知纬钱龙华
- 关键词:信息抽取向量空间模型层次聚类
- 一种分类模型建模方法、中文跨文本指代消解方法和系统
- 本申请提供一种分类模型建模方法、中文跨文本指代消解方法和系统。其中一种分类模型建模方法,包括:获取训练文本集;从训练文本集中选取实体表述对;获取每个实体表述对的特征项;选取正训练实例和负训练实例,将每个正训练实例和每个负...
- 钱龙华赵知纬周国栋
- 文献传递