吴宏林
- 作品数:7 被引量:26H指数:3
- 供职机构:东北大学自然语言处理实验室更多>>
- 发文基金:国家自然科学基金国家重点基础研究发展计划国家高技术研究发展计划更多>>
- 相关领域:自动化与计算机技术更多>>
- 基于加权二部图的汉日词对齐被引量:9
- 2007年
- 高效的自动词对齐技术是词对齐语料库建设的关键所在。当前很多词对齐方法存在以下不足:未登录词问题、灵活翻译问题和全局最优匹配问题。针对以上不足,该文提出加权二部图最大匹配词对齐模型,利用二部图为双语句对建模,利用词形、语义、词性和共现等信息计算单词间的相似度,利用加权二部图最大匹配获得最终对齐结果。在汉日词语对齐上的实验表明,该方法在一定程度上解决了以上三点不足,F-Score为80%,优于GIZA++的72%。
- 吴宏林刘绍明于戈
- 关键词:计算机应用中文信息处理词对齐二部图
- 基于序列相交的短语译文获取被引量:4
- 2009年
- 短语译文获取技术是基于实例的机器翻译(EBMT)中的核心技术之一,其准确率直接影响到EBMT系统的性能。该文提出了一种基于序列相交的短语译文获取方法,该方法将句子视为词的序列,利用对中日句对齐语料库中包含待译短语的所有源语句子对应的目标语句子进行序列相交的方式,在不需要词对齐、句法分析及词典等资源的情况下,通过充分挖掘句对齐双语语料库的信息,获得高质量的短语译文。实验表明,该方法获得的短语译文准确率超过80%。
- 王辰宋国龙吴宏林张俐刘绍明
- 关键词:计算机应用中文信息处理EBMT
- 基于统计的锚点词候选集的获取
- 2003年
- 段对齐是在双语语料库中把各个段和它们的相应译文建立起对应关系,进而为以后的句子级对齐、短语级对齐和词汇级对齐提供资源。它在整个对齐研究中起到一个承上启下的作用。利用锚点词信息完成段对齐是一种常用且有效的方法。锚点词要求数量少准确率高,同时更为重要的是它要求具有可以说明两个段之间有对应关系的相对明显的特征,这就是说并不是文章中的每个词都可以做锚点词,锚点词也不是越多越好,这也决定了获取过程中不能借助字典等辅助信息,而必须使用其它方法。文章提出一种新的锚点词候选集的获取方法,通过统计和相似计算来得到锚点词的候选集信息。通过控制统计串的出现频数和相似度的大小就可得到令人满意的可用的结果。实验结果表明,当取高阈值且高相似度时,就可得到很高的准确率。因而该方法是一种获取锚点词的有效方法。
- 任飞亮吕学强吴宏林姚天顺
- 关键词:双语语料库向量相似度
- 基于语料库的最小求交词对齐被引量:1
- 2004年
- 提出了一种基于句子级对齐的双语语料库的英汉词对齐方法 .它建立在句对的集合表示形式的基础上 ,通过最小求交模型实现词对齐 .使用倒排索引表和集合运算实现高效的最小求交算法 .在对齐过程中引入高频干扰词表以提高召回率 .实验结果表明 。
- 吴宏林吕学强吕学强任飞亮姚天顺
- 关键词:自然语言处理双语语料库词对齐
- 基于二部图最大匹配的汉日词对齐
- 该文提出了基于二部图的词对齐模型:利用二部图为双语句对建模,利用词形、语义、词性和共现等信息计算单词间的相似度,利用加权二部图最大匹配获得最终对齐结果。实验表明,该方法在一定程度上解决了当前很多词对齐方法存在的未登录词问...
- 吴宏林刘绍明
- 关键词:词对齐二部图
- 文献传递
- 无双语词典的英汉词对齐被引量:13
- 2004年
- 该文提出了一种基于语料库的无双语词典的英汉词对齐模型 .它把自然语言的句子形式化地表示为集合 ,通过集合的交运算和差运算实现单词对齐 ,同时还考虑了词序和重复词的影响 .该模型不仅能对齐高频单词 ,而且能对齐低频单词 ,对未登录词和汉语分词错误具有兼容能力 .该模型几乎不需要任何语言学知识和语言学资源 ,使语料库方法可独立应用 .实验表明 ,同质语料规模越大 ,词对齐的正确率和召回率越高 .
- 吕学强吴宏林姚天顺
- 关键词:自然语言处理双语语料库词对齐
- 基于词形相似和语义距离的最佳翻译模板检索算法(英文)
- 利用翻译模板完成翻译是EBMT中常用的一种方法。如何快速准确的从模板库中找到最适合输入句子的翻译模板是决定翻译成败与翻译质量的关键,本文提出一种基于词形相似和语义距离的最佳翻译模板检索算法,既保留了基于词形相似的检索算法...
- 任飞亮吕学强吴宏林马越姚天顺
- 关键词:翻译模板语义距离倒排索引
- 文献传递