您的位置: 专家智库 > >

中央高校基本科研业务费专项资金(2010JBZ2007)

作品数:4 被引量:8H指数:2
相关作者:张玉洁徐金安赵紫玉更多>>
相关机构:北京交通大学更多>>
发文基金:中央高校基本科研业务费专项资金国际科技合作与交流专项项目国家自然科学基金更多>>
相关领域:自动化与计算机技术更多>>

文献类型

  • 4篇中文期刊文章

领域

  • 4篇自动化与计算...

主题

  • 2篇知识库
  • 2篇统计模型
  • 2篇机器翻译
  • 2篇翻译
  • 1篇多文档
  • 1篇多文档自动文...
  • 1篇日汉翻译
  • 1篇日语
  • 1篇时间词
  • 1篇统计机器
  • 1篇统计机器翻译
  • 1篇主题
  • 1篇自动文摘
  • 1篇字典
  • 1篇文档
  • 1篇文摘
  • 1篇马尔科夫
  • 1篇马尔科夫模型
  • 1篇规则集
  • 1篇规则与统计相...

机构

  • 4篇北京交通大学

作者

  • 4篇徐金安
  • 4篇张玉洁
  • 2篇赵紫玉

传媒

  • 2篇北京大学学报...
  • 1篇计算机工程与...
  • 1篇中文信息学报

年份

  • 1篇2015
  • 2篇2014
  • 1篇2013
4 条 记 录,以下是 1-4
排序方式:
规则与统计相结合的日语时间表达式识别被引量:3
2013年
该文提出了一种基于自定义知识库强化获取规则集,以及规则与统计模型相结合的日语时间表达式识别方法。在按照Timex2标准对时间表达进行细化分类的基础上,我们结合日语时间词的特点,渐进地扩展重构日语时间表达式知识库,实现基于知识库获取的规则集的优化更新,旨在不断提高时间表达式的识别精准度。同时,融合CRF统计模型提高日语时间表达式识别的泛化能力。实验结果显示开放测试F1值达0.898 7。
赵紫玉徐金安张玉洁刘江鸣
关键词:知识库规则集统计模型
日语时间表达式识别与日汉翻译研究被引量:1
2014年
基于自定义知识库,提出一种知识库强化规则集以及与统计模型相结合的日语时间表达式识别方法,旨在不断提高时间表达式的识别精准度。按照Timex2标准对时间表现的细化分类,结合日语时间词的特点,渐进地扩展重构日语时间表达式知识库,实现基于知识库获取的规则集的优化更新。同时,融合条件随机场CRF统计模型,提高日语时间表达式识别的泛化能力。通过考察基于短语的翻译模型翻译时间词的精度,提出统计机器翻译(SMT)结合规则翻译日语时间词的必要性。实验结果显示,日语时间表达式识别的开放测试F1值达到0.8987,基于《日汉时间词平行字典》与规则的翻译精度和召回率都略高于基于统计机器翻译模型。
赵紫玉徐金安张玉洁刘江鸣
关键词:知识库统计模型统计机器翻译
基于隐主题马尔科夫模型的多特征自动文摘被引量:4
2014年
基于隐主题马尔科夫模型,消除LDA主题模型的主题独立假设,使得文摘生成过程中充分利用文章的结构信息,并结合基于内容的多特征方法提高文摘质量。提出在不破坏文章结构的前提下,从单文档扩展到多文档的自动文摘策略,最终搭建完善的自动文摘系统。在DUC2007标准数据集上的实验证明了隐主题马尔科夫模型和文档特征的优越性,所实现的自动文摘系统ROUGE值有明显提高。
刘江鸣徐金安张玉洁
关键词:多文档自动文摘
面向短语统计机器翻译的汉日联合分词研究被引量:1
2015年
未登录词与分词粒度是汉日日汉机器翻译研究的两个主要问题。与英语等西方语言不同,汉语与日语词语间不存在空格,分词为汉日双语处理的重要工作。由于词性标注体系、文法及语义表现上的差异,分词结果的粒度需要进一步调整,以改善统计机器翻译系统的性能。提出了面向统计机器翻译的基于汉日汉字对照表及日汉词典信息的汉语与日语的分词粒度调整方法。实验结果表明,该方法能有效地调节源语言和目标语言端的分词粒度,提高统计机器翻译系统的性能。通过对比实验结果,分析探讨分词粒度对汉日双语统计系统性能的影响。
吴培昊徐金安张玉洁
共1页<1>
聚类工具0