国家自然科学基金(61003112)
- 作品数:5 被引量:7H指数:2
- 相关作者:陈家骏戴新宇杨思春高超尹存燕更多>>
- 相关机构:南京大学滁州学院安徽工业大学更多>>
- 发文基金:国家自然科学基金国家教育部博士点基金国家社会科学基金更多>>
- 相关领域:自动化与计算机技术农业科学更多>>
- 一种基于句法的用于汉英翻译的预调序方法
- 本文提出一种基于句法的预调序方法来解决基于短语的汉英翻译系统中的调序问题。该方法使用训练语料的源语言句法树和词对齐信息来自动抽取调序规则,并用规则调整训练和测试语料源语言句法树,使得源语言句子的语序更加接近目标语言句子。...
- 吴秋锋黄书剑戴新宇陈家骏
- 关键词:统计机器翻译句法分析词对齐
- 文献传递
- 基于双语平行语料的中文缩略语提取方法
- 汉语缩略语在现代汉语中被广泛使用,其相关研究对于中文信息处理有着重要的意义。本文提出了一种从英汉平行语料库中自动提取汉语缩略语的方法。我们首先对双语语料进行词对齐训练,利用训练得到的词对齐信息抽取出候选中英文短语对。然后...
- 刘友强李斌奚宁陈家骏
- 关键词:缩略语平行语料库短语抽取
- 文献传递
- 一种适用于机器翻译的汉语分词方法
- 汉语分词是构建汉语到其他语言机器翻译系统的一项重要工作。基于单语的分词不一定完全适合机器翻译,一个适合于机器翻译所需要的分词方法,应该考虑到机器翻译所具有的双语特点。本文提出了一种单语和双语知识相结合的适应于统计机器翻译...
- 李博渊奚宁黄书剑张建兵陈家骏
- 关键词:中文分词统计机器翻译
- 文献传递
- 面向新闻语料的中日命名实体翻译抽取被引量:2
- 2015年
- 命名实体翻译可以有效地提高跨语言信息检索、统计机器翻译等系统的性能.双语新闻语料包含了丰富的命名实体,利用统计方法可以从中抽取出命名实体翻译.基于中日双语新闻语料,对中日命名实体的翻译特征进行了分析,基于这些特征,提出一种中日双语命名实体翻译自动抽取的方法,该方法融合了中日汉字翻译概率、片假名词汇和中文音译词汇的拼音相似度以及双语词汇共现等特征.实验表明本文方法充分利用这些特征,在语料规模不大的情况下,也可以取得较好的效果.
- 尹存燕黄书剑戴新宇陈家骏
- 关键词:双语语料
- 基于词袋绑定的问句新特征自动生成被引量:2
- 2012年
- 针对中文问句分类缺乏丰富的句法语义特征,提出一种基于词袋绑定的问句新特征自动生成方法.在词袋(BOW)、词性(POS)和词义(WS)等基本特征的基础上,通过将词性、词义等与词袋分别进行绑定,自动获取一类新的问句特征即词袋绑定特征.采用SVM分类器在哈工大中文问句集上实验,结果表明与原来单个的POS、WS等基本特征相比,对应的W/POS、W/WS等词袋绑定特征在分类精度上均获得了显著的提升;而且对这些词袋绑定特征进行启发式组合以后,在77个小类问题类别的总体分类精度达到82.333%,取得了较好的分类效果.说明在基本特征基础上借助词袋绑定操作进一步构造问句新特征的方法简单而有效.
- 杨思春高超戴新宇陈家骏杨思国
- 关键词:问答系统问句分类特征提取
- 基于重要性和抑制性分析的问句特征组合(英文)
- 2013年
- 针对基于机器学习的问题分类中问句特征的组合,提出了一种基于重要性和抑制性分析(importanceinhibition analysis,IIA)的特征组合方法.该方法在组合问句特征时不仅考虑了单个特征本身的重要性,还考虑了待组合特征之间的抑制性.在中文问题集上的实验结果表明,IIA方法在所有的特征组合上都获得了平均精度和最高精度的提升,总体上比单纯基于重要性分析(importance analysis,IA)的特征组合方法要更加高效;同时,IIA方法还获得了与穷举式特征组合方法同样的最高精度,进一步提升了当前中文问题分类的性能.
- 杨思春高超姚佳岷戴新宇陈家骏
- 关键词:问答系统