陈文亮
- 作品数:14 被引量:89H指数:4
- 供职机构:东北大学自然语言处理实验室更多>>
- 发文基金:国家自然科学基金教育部科学技术研究重点项目国家重点基础研究发展计划更多>>
- 相关领域:自动化与计算机技术语言文字文化科学更多>>
- 面向TDT的主题相似性计算模型
- TDT的研究内容可以分为五个技术任务,本文主要研究第五个技术任务Linking,即面向TDT的事件主题相似性分析技术。研究目的在于力求寻求一种有效的分析技术,针对不同两个文档,识别文档内容所涉及到的事件主题是否一致。分析...
- 朱靖波陈文亮姚天顺
- 关键词:TDT
- 文献传递
- 中文文本分类器的评价被引量:3
- 2005年
- 对目前比较流行的4种中文文本分类器(Rocchio、KNN、NaiveBayes、最大熵)进行评价,其中,NaiveBayes和最大熵是基于概率统计的方法,而Rocchio和KNN是基于向量的相似度计算的方法。选用χ2作为文本特征选取方法,对一个中文文本分类语料库进行分类评测。实验结果表明,最大熵和NaiveBayes的分类性能十分接近,处于较好水平,而KNN和Rocchio分类性能稍差一些。
- 张杰战学刚冯金平陈文亮
- 关键词:文本分类分类器评测
- 基于多层次特征集成的中文实体指代识别
- 实体指代识别(Entity Mention Detection,EMD)是识别文本中对实体的指代(Mention)的任务,包括专名、普通名词、代词指代的识别。本文提出一种基于多层次特征集成的中文实体指代识别方法,利用条件...
- 张海雷曹菲菲陈文亮任飞亮王会珍朱靖波
- 关键词:条件随机场模型
- 文献传递
- 面向支持向量机的降维方法比较分析
- 支持向量机是文本分类领域在广泛采用的分类模型,应用于支持向量机的特征降维方法也成为了研究热点.本文考察了信息增益、文档频度、x2统计和潜在语义索引几种特征降维方法,同时在中英文数据集上进行了比较实验.结果表明,潜在语义索...
- 朱慕华朱靖波陈文亮
- 关键词:支持向量机文本分类特征降维潜在语义索引
- 文献传递
- 基于多层次特征集成的中文实体指代识别被引量:3
- 2007年
- 实体指代识别(Entity Mention Detection,EMD)是识别文本中对实体的指代(Mention)的任务,包括专名、普通名词、代词指代的识别。本文提出一种基于多层次特征集成的中文实体指代识别方法,利用条件随机场模型的特征集成能力,综合使用字符、拼音、词及词性、各类专名列表、频次统计等各层次特征提高识别性能。本文利用流水线框架,分三个阶段标注实体指代的各项信息。基于本方法的指代识别系统参加了2007年自动内容抽取(ACE07)中文EMD评测,系统的ACE Value值名列第二。
- 张海雷曹菲菲陈文亮任飞亮王会珍朱靖波
- 关键词:计算机应用中文信息处理条件随机场模型
- 面向支持向量机的降维方法比较分析
- 支持向量机是文本分类领域在广泛采用的分类模型,应用于支持向量机的特征降维方法也成为了研究热点。本文考察了信息增益、文档频度、X2统计和潜在语义索引几种特征降维方法,同时在中英文数据集上进行了比较实验。结果表明,潜在语义索...
- 朱慕华朱靖波陈文亮
- 关键词:支持向量机文本分类特征降维
- 文献传递
- 词性标注规则的获取和优化被引量:6
- 2004年
- 本文提出一种词性标注规则自动学习算法。通过对规则进行评价、优化,有效提高标注正确率和标注效率。系统对PFR标注语料库进行标注,相对于NA假设的词性兼类消歧模型标注结果,封闭测试正确率提高了5.53%,开放测试提高了4.57%。
- 陈文亮朱靖波吕学强
- 关键词:中文信息处理
- 基于FIFA的主题相似性计算模型被引量:3
- 2003年
- 针对主题检测和追踪的第五个技术任务连接分析,提出了一种事件主题相似性分析技术·通过引入领域知识库,将基于词汇的分析技术提升到领域知识计算层面·当输入不同两个文档时,采用该分析技术进行识别文档内容所涉及到的事件主题是否一致·首先采用FIFA模型进行内容主题识别,然后采用LDM模型进行事件主题相似性计算分析·实验结果显示主题相似性计算正确率为64%,召回率为69%·
- 朱靖波陈文亮
- 关键词:领域知识
- 基于连接文法的双语E-Chunk获取方法被引量:4
- 2002年
- 提出了一种面向机器翻译领域的扩展Chunk概念·E Chunk是在Chunk概念基础上基于语义惟一性的一种扩展形式 ,其具体形态表现为具有无歧义性、复现性、可嵌套性、内部结构句法自足性的无歧义机器可翻译单元·讨论了使用连接文法的连接因子进行英语E Chunk的识别技术和双语E Chunk获取方法·双语E Chunk库的建立必将为基于Chunk的机器翻译技术提供极大的支持·
- 吕学强陈文亮姚天顺
- 关键词:自然语言处理双语对齐词义消歧机器翻译
- 汉英法律文献的子条级自动索引和对齐被引量:3
- 2002年
- 本文提出了基于结构标识的法律文献层次结构模型 ,该模型描述了汉英法律文献的层次结构特征及章、条、子条的连续性和对应性。根据该模型实现了汉英法律文献的子条级自动索引和对齐 ,系统具有纠错和容错能力。实验结果表明每篇文献的平均索引时间为 3 31ms ,对齐准确率为 98 6 %。与基于词汇的方法结合后 ,对齐准确率为 99 3%。
- 吕学强李清隐陈文亮姚天顺
- 关键词:法律文献文本索引文本对齐汉语