您的位置: 专家智库 > >

马希荣

作品数:1 被引量:5H指数:1
供职机构:中国科学院计算技术研究所更多>>
发文基金:国家自然科学基金更多>>
相关领域:自动化与计算机技术更多>>

文献类型

  • 1篇中文期刊文章

领域

  • 1篇自动化与计算...

主题

  • 1篇对齐
  • 1篇语料
  • 1篇语料库
  • 1篇统计机器
  • 1篇统计机器翻译
  • 1篇平行语料
  • 1篇平行语料库
  • 1篇句子对齐
  • 1篇机器翻译
  • 1篇翻译
  • 1篇WEB
  • 1篇WEB挖掘

机构

  • 1篇中国科学院

作者

  • 1篇吕雅娟
  • 1篇林政
  • 1篇刘群
  • 1篇马希荣

传媒

  • 1篇中文信息学报

年份

  • 1篇2010
1 条 记 录,以下是 1-1
排序方式:
Web平行语料挖掘及其在机器翻译中的应用被引量:5
2010年
双语平行语料库在自然语言处理领域有很多重要应用,但是大规模双语平行语料库的自动获取并不容易。该文提出了一种有效的从Web上获取高质量双语平行语料库的方案,研究了候选双语混合网页获取和平行句对抽取等关键技术。运用该文方法共获取了258万双语平行句对,平均正确率为93.75%,其中前150万句对的平均正确率达到96%。该文还提出句对质量排序和领域信息检索两种方法将Web数据应用于统计机器翻译的模型训练,在IWSLT评测数据上BLEU值可以提高2到5个百分点。
林政吕雅娟刘群马希荣
关键词:WEB挖掘平行语料库句子对齐统计机器翻译
共1页<1>
聚类工具0