您的位置: 专家智库 > >

陈文亮

作品数:14 被引量:89H指数:4
供职机构:东北大学自然语言处理实验室更多>>
发文基金:国家自然科学基金教育部科学技术研究重点项目国家重点基础研究发展计划更多>>
相关领域:自动化与计算机技术语言文字文化科学更多>>

文献类型

  • 9篇期刊文章
  • 5篇会议论文

领域

  • 13篇自动化与计算...
  • 2篇语言文字
  • 1篇文化科学

主题

  • 6篇文本分类
  • 4篇中文
  • 4篇领域知识
  • 3篇信息处理
  • 3篇中文信息
  • 3篇中文信息处理
  • 2篇对齐
  • 2篇支持向量
  • 2篇支持向量机
  • 2篇随机场
  • 2篇随机场模型
  • 2篇索引
  • 2篇特征降维
  • 2篇条件随机场
  • 2篇条件随机场模...
  • 2篇评测
  • 2篇向量
  • 2篇向量机
  • 2篇计算机
  • 2篇计算机应用

机构

  • 14篇东北大学
  • 1篇鞍山科技大学
  • 1篇中国人民解放...

作者

  • 14篇陈文亮
  • 11篇朱靖波
  • 5篇姚天顺
  • 4篇朱慕华
  • 3篇吕学强
  • 2篇张海雷
  • 2篇曹菲菲
  • 2篇任飞亮
  • 2篇王会珍
  • 1篇冯金平
  • 1篇于楠
  • 1篇张杰
  • 1篇战学刚
  • 1篇李清隐

传媒

  • 3篇东北大学学报...
  • 3篇中文信息学报
  • 1篇计算机研究与...
  • 1篇术语标准化与...
  • 1篇鞍山科技大学...
  • 1篇第二届全国信...
  • 1篇第二届全国信...

年份

  • 2篇2007
  • 6篇2005
  • 2篇2004
  • 2篇2003
  • 2篇2002
14 条 记 录,以下是 1-10
排序方式:
面向TDT的主题相似性计算模型
TDT的研究内容可以分为五个技术任务,本文主要研究第五个技术任务Linking,即面向TDT的事件主题相似性分析技术。研究目的在于力求寻求一种有效的分析技术,针对不同两个文档,识别文档内容所涉及到的事件主题是否一致。分析...
朱靖波陈文亮姚天顺
关键词:TDT
文献传递
中文文本分类器的评价被引量:3
2005年
对目前比较流行的4种中文文本分类器(Rocchio、KNN、NaiveBayes、最大熵)进行评价,其中,NaiveBayes和最大熵是基于概率统计的方法,而Rocchio和KNN是基于向量的相似度计算的方法。选用χ2作为文本特征选取方法,对一个中文文本分类语料库进行分类评测。实验结果表明,最大熵和NaiveBayes的分类性能十分接近,处于较好水平,而KNN和Rocchio分类性能稍差一些。
张杰战学刚冯金平陈文亮
关键词:文本分类分类器评测
基于多层次特征集成的中文实体指代识别
实体指代识别(Entity Mention Detection,EMD)是识别文本中对实体的指代(Mention)的任务,包括专名、普通名词、代词指代的识别。本文提出一种基于多层次特征集成的中文实体指代识别方法,利用条件...
张海雷曹菲菲陈文亮任飞亮王会珍朱靖波
关键词:条件随机场模型
文献传递
面向支持向量机的降维方法比较分析
支持向量机是文本分类领域在广泛采用的分类模型,应用于支持向量机的特征降维方法也成为了研究热点.本文考察了信息增益、文档频度、x2统计和潜在语义索引几种特征降维方法,同时在中英文数据集上进行了比较实验.结果表明,潜在语义索...
朱慕华朱靖波陈文亮
关键词:支持向量机文本分类特征降维潜在语义索引
文献传递
基于多层次特征集成的中文实体指代识别被引量:3
2007年
实体指代识别(Entity Mention Detection,EMD)是识别文本中对实体的指代(Mention)的任务,包括专名、普通名词、代词指代的识别。本文提出一种基于多层次特征集成的中文实体指代识别方法,利用条件随机场模型的特征集成能力,综合使用字符、拼音、词及词性、各类专名列表、频次统计等各层次特征提高识别性能。本文利用流水线框架,分三个阶段标注实体指代的各项信息。基于本方法的指代识别系统参加了2007年自动内容抽取(ACE07)中文EMD评测,系统的ACE Value值名列第二。
张海雷曹菲菲陈文亮任飞亮王会珍朱靖波
关键词:计算机应用中文信息处理条件随机场模型
面向支持向量机的降维方法比较分析
支持向量机是文本分类领域在广泛采用的分类模型,应用于支持向量机的特征降维方法也成为了研究热点。本文考察了信息增益、文档频度、X2统计和潜在语义索引几种特征降维方法,同时在中英文数据集上进行了比较实验。结果表明,潜在语义索...
朱慕华朱靖波陈文亮
关键词:支持向量机文本分类特征降维
文献传递
词性标注规则的获取和优化被引量:6
2004年
本文提出一种词性标注规则自动学习算法。通过对规则进行评价、优化,有效提高标注正确率和标注效率。系统对PFR标注语料库进行标注,相对于NA假设的词性兼类消歧模型标注结果,封闭测试正确率提高了5.53%,开放测试提高了4.57%。
陈文亮朱靖波吕学强
关键词:中文信息处理
基于FIFA的主题相似性计算模型被引量:3
2003年
针对主题检测和追踪的第五个技术任务连接分析,提出了一种事件主题相似性分析技术·通过引入领域知识库,将基于词汇的分析技术提升到领域知识计算层面·当输入不同两个文档时,采用该分析技术进行识别文档内容所涉及到的事件主题是否一致·首先采用FIFA模型进行内容主题识别,然后采用LDM模型进行事件主题相似性计算分析·实验结果显示主题相似性计算正确率为64%,召回率为69%·
朱靖波陈文亮
关键词:领域知识
基于连接文法的双语E-Chunk获取方法被引量:4
2002年
提出了一种面向机器翻译领域的扩展Chunk概念·E Chunk是在Chunk概念基础上基于语义惟一性的一种扩展形式 ,其具体形态表现为具有无歧义性、复现性、可嵌套性、内部结构句法自足性的无歧义机器可翻译单元·讨论了使用连接文法的连接因子进行英语E Chunk的识别技术和双语E Chunk获取方法·双语E Chunk库的建立必将为基于Chunk的机器翻译技术提供极大的支持·
吕学强陈文亮姚天顺
关键词:自然语言处理双语对齐词义消歧机器翻译
汉英法律文献的子条级自动索引和对齐被引量:3
2002年
本文提出了基于结构标识的法律文献层次结构模型 ,该模型描述了汉英法律文献的层次结构特征及章、条、子条的连续性和对应性。根据该模型实现了汉英法律文献的子条级自动索引和对齐 ,系统具有纠错和容错能力。实验结果表明每篇文献的平均索引时间为 3 31ms ,对齐准确率为 98 6 %。与基于词汇的方法结合后 ,对齐准确率为 99 3%。
吕学强李清隐陈文亮姚天顺
关键词:法律文献文本索引文本对齐汉语
共2页<12>
聚类工具0