您的位置: 专家智库 > >

郭振

作品数:4 被引量:19H指数:3
供职机构:北京交通大学计算机与信息技术学院更多>>
发文基金:国际科技合作与交流专项项目国家自然科学基金更多>>
相关领域:自动化与计算机技术更多>>

文献类型

  • 3篇期刊文章
  • 1篇会议论文

领域

  • 4篇自动化与计算...

主题

  • 3篇翻译
  • 2篇语言
  • 2篇源语
  • 2篇源语言
  • 2篇知识
  • 2篇解码
  • 2篇解码器
  • 2篇机器翻译
  • 2篇分词
  • 2篇复述
  • 1篇短语
  • 1篇短语翻译
  • 1篇依存句法分析
  • 1篇双语
  • 1篇统计机器
  • 1篇统计机器翻译
  • 1篇中文
  • 1篇中文分词
  • 1篇字符
  • 1篇句法分析

机构

  • 4篇北京交通大学

作者

  • 4篇徐金安
  • 4篇苏晨
  • 4篇张玉洁
  • 4篇郭振

传媒

  • 2篇中文信息学报
  • 1篇北京大学学报...
  • 1篇第三届CCF...

年份

  • 1篇2015
  • 2篇2014
  • 1篇2013
4 条 记 录,以下是 1-4
排序方式:
适用于特定领域机器翻译的汉语分词方法被引量:3
2013年
在特定领域的汉英机器翻译系统开发过程中,大量新词的出现导致汉语分词精度下降,而特定领域缺少标注语料使得有监督学习技术的性能难以提高。这直接导致抽取的翻译知识中出现很多错误,严重影响翻译质量。为解决这个问题,该文实现了基于生语料的领域自适应分词模型和双语引导的汉语分词,并提出融合多种分词结果的方法,通过构建格状结构(Lattice)并使用动态规划算法得到最佳汉语分词结果。为了验证所提方法,我们在NTCIR-10的汉英数据集上进行了评价实验。实验结果表明,该文提出的融合多种分词结果的汉语分词方法在分词精度F值和统计机器翻译的BLEU值上均得到了提高。
苏晨张玉洁郭振徐金安
关键词:汉语分词LATTICE机器翻译
使用源语言复述知识改善统计机器翻译性能
为了缓解双语语料不足导致的翻译知识欠缺问题,提出基于复述技术的翻译框架.此框架利用第三种语言获取带有概率的复述知识表,以Lattice表示输入句子的多种复述形式,扩展解码器使之可以对Lattice形式的输入进行解码,将复...
苏晨张玉洁郭振徐金安
关键词:统计机器翻译解码器
文献传递
使用源语言复述知识改善统计机器翻译性能被引量:4
2015年
为了缓解双语语料不足导致的翻译知识欠缺问题,提出基于复述技术的翻译框架。此框架利用第三种语言获取带有概率的复述知识表,以Lattice表示输入句子的多种复述形式,扩展解码器使之可以对Lattice形式的输入进行解码,将复述知识作为特征加入到对数线性模型的目标函数中。在保持原始翻译知识表不变的情况下,此框架不仅可以增大短语翻译表对源语言现象的覆盖率,也能够增加候选译文表现形式的多样性。在3个不同规模训练集上的对比实验结果表明,在训练语料规模最小的情况下(10 K句对),系统性能有明显提升(BLEU+1.4%);在训练语料规模最大的情况下(1 M句对),系统性能也取得一定提升(BLEU+0.32%)。
苏晨张玉洁郭振徐金安
关键词:解码器
基于字符的中文分词、词性标注和依存句法分析联合模型被引量:12
2014年
目前,基于转移的中文分词、词性标注和依存句法分析联合模型存在两大问题:一是任务的融合方式有待改进;二是模型性能受限于全标注语料的规模。针对第一个问题,该文利用词语内部结构将基于词语的依存句法树扩展成了基于字符的依存句法树,采用转移策略,实现了基于字符的中文分词、词性标注和依存句法分析联合模型;依据序列标注的中文分词方法,将基于转移的中文分词处理方案重新设计为4种转移动作:Shift_S、Shift_B、Shift_M和Shift_E,同时能够将以往中文分词的研究成果融入联合模型。针对第二个问题,该文使用具有部分标注信息的语料,从中抽取字符串层面的n-gram特征和结构层面的依存子树特征融入联合模型,实现了半监督的中文分词、词性标注和依存句法分析联合模型。在宾州中文树库上的实验结果表明,该文的模型在中文分词、词性标注和依存分析任务上的F1值分别达到了98.31%、94.84%和81.71%,较单任务模型的结果分别提升了0.92%、1.77%和3.95%。其中,中文分词和词性标注在目前公布的研究结果中取得了最好成绩。
郭振张玉洁苏晨徐金安
关键词:依存句法分析半监督学习
共1页<1>
聚类工具0