您的位置: 专家智库 > >

贾宁

作品数:9 被引量:44H指数:5
供职机构:中国科学院声学研究所更多>>
发文基金:国家重点基础研究发展计划中国科学院声学研究所知识创新工程项目中国科学院知识创新工程青年人才领域前沿项目更多>>
相关领域:自动化与计算机技术语言文字更多>>

文献类型

  • 8篇期刊文章
  • 1篇会议论文

领域

  • 8篇自动化与计算...
  • 2篇语言文字

主题

  • 5篇中文
  • 2篇姓名识别
  • 2篇省略
  • 2篇中文姓名
  • 2篇中文姓名识别
  • 2篇最大熵
  • 2篇最大熵模型
  • 1篇信息处理
  • 1篇信息检索
  • 1篇信息检索方法
  • 1篇英文
  • 1篇语义块
  • 1篇语义知识
  • 1篇政治
  • 1篇政治斗争
  • 1篇知识
  • 1篇人名
  • 1篇世界知识
  • 1篇特征函数
  • 1篇中文信息

机构

  • 7篇中国科学院研...
  • 6篇中国科学院
  • 2篇中国科学院大...

作者

  • 9篇贾宁
  • 7篇张全
  • 2篇李娟
  • 1篇臧翰芬
  • 1篇吴晨

传媒

  • 4篇计算机工程与...
  • 1篇计算机工程
  • 1篇计算机应用研...
  • 1篇中文信息学报
  • 1篇Journa...
  • 1篇第三届HNC...

年份

  • 1篇2010
  • 2篇2009
  • 1篇2008
  • 3篇2007
  • 1篇2006
  • 1篇2005
9 条 记 录,以下是 1-9
排序方式:
基于最大熵模型和规则的中文姓名识别被引量:7
2007年
中文姓名识别是中文信息处理的一项重要技术,识别的召回率对其它需要以姓名识别为基础的中文信息处理技术有至关重要的影响。提出了一种统计模型和处理规则相结合的中文姓名识别方法:首先以最大熵模型识别潜在姓氏,而后再通过判定规则作进一步处理。真实语料的开放测试表明,该方法在召回率方面有明显的优势,可以达到94%以上的召回率,同时能保证较高的准确率。
贾宁张全
关键词:中文姓名识别最大熵
使用概念基元特征进行自动文本分类被引量:8
2007年
自动文本分类技术是大规模文档数据处理的关键技术,在文本分类过程中通常先进行文本表示,即把文本转化为特征向量,这其中常用的特征有特征词、词频、N-gram等等。论文研究了一种新的特征,即词语的HNC概念符号。词语的HNC概念符号来自于HNC(概念层次网络,HierarchicalNetworkofConcepts)建立的语义网络,以符号表达式的方式表示了词语的语义信息。因此使用HNC概念符号作为特征实际上是以文本中蕴含的语义信息作为特征,和词频等使用文本表层信息的特征有本质的不同。采用最大熵模型的方法建立分类器,以分词和HNC概念符号作为特征进行了研究,并对分类结果进行了比较。结果表明,HNC特征优于分词特征。
贾宁
关键词:文本分类HNC
基于句间关系的汉语语义块省略恢复被引量:6
2008年
语义块是句子的语义构成单位,句子内发生的省略现象可以归结为语义块的省略。该文在句类分析的基础上,从小句间语义块共享关系的角度分析语义块的省略。将语义块的省略分为语义块整块共享形成的省略和语义块部分共享形成的省略,分析了两种情况的特点,并给出了相应的处理算法。测试表明,该算法对于两种省略均有很好的处理效果。
贾宁张全
关键词:计算机应用中文信息处理省略
一种基于概念的信息检索方法(英文)被引量:1
2006年
为了获取词语在文章中的语义权重,解决词语的同义、多义模糊问题,提升信息检索的效率,提出了一种基于概念的检索模型,模型中设计了一种形式化的文本内容表示框架,框架由2部分构成:文章的“领域”以及“情景与背景”信息,并由概念(形式化语义)加以表示.同时,提出了提取该概念框架的方法,给出了用于框架与检索要求间匹配的两阶段平滑算法.实验表明,在TREC6提供的小规模语料集下,采用所提出方法的信息检索模型与传统模型相比,平均召回准确率提升了约10%,效果显著,充分说明了基于本文描述方法构建的、以概念作为处理中介的信息检索系统的有效性和可行性.
吴晨张全贾宁
关键词:信息检索语义知识
基于模板的中文人物评论意见挖掘被引量:4
2010年
使用基于模板的方法对中文人物评论语句进行意见元素挖掘,提取出句中所含的评价对象、评价词语,并分析出意见的倾向性。进行了中文人物评论语句的自动意见挖掘实验,实验中首先建立了一定数量的熟语料库,然后从语料库中生成意见模板,最后用生成的模板来提取语句的意见元素。实验获得了72.55%的F-score,表明该算法是有效的。
李娟张全贾宁臧翰芬
中文词语倾向性分析处理被引量:6
2009年
意见挖掘是自然语言处理研究领域的一个新热点。词语倾向性的判定是意见挖掘的基础和重要环节。该文进行了中文词语倾向性的自动判定实验。实验中采用了《现代汉语褒贬用法词典》中的词语做为褒贬判定的核心词汇,以同义词词典扩展了褒贬义词典的词语,并使用二元语法模型来判定多倾向性词语的倾向。实验结果褒义词的F-Score为79.31%,贬义词的F-Score为78.18%。
李娟张全贾宁
关键词:二元语法
政治斗争的领域句类表示式设计
句群的处理是段落和篇章处理的基础,而句群的语境领域知识表述对句群处理起着关键的作用。如何用计算机来表示几乎无限的世界知识,并在自然语言理解技术中应用这些知识,一直以来都是计算语言学界的难题。HNC理论指出,一个句群的描述...
贾宁
关键词:HNC理论世界知识
文献传递
基于最大熵模型的中文姓名识别被引量:12
2007年
最大熵模型可以对非常广泛的自然语言现象建立概率模型,该文提出了一种使用统计模型的中文姓名识别方法,采用最大熵原则建立统计模型,并运用该模型计算姓名概率。系统采用真实语料进行开放测试的结果表明,在保证一定准确率的情况下,系统召回率可达90%以上。
贾宁张全
关键词:中文姓名识别最大熵特征函数
使用句间关系恢复人名和机构名称省略
2009年
语义块是句子的语义构成单位,句子内发生的省略现象可以归结为语义块的省略。在句类分析的基础上,从小句间语义块共享关系的角度分析语义块中人名和机构名称的省略。将省略现象分为语义块整块共享形成的省略和语义块部分共享形成的省略,分析了两种情况的特点,并给出了相应的处理算法。测试表明,该算法对于两种省略均有很好的处理效果。
贾宁张全
关键词:省略
共1页<1>
聚类工具0