国家自然科学基金(60736014)
- 作品数:38 被引量:274H指数:10
- 相关作者:刘群丁华福赵铁军姜文斌李生更多>>
- 相关机构:中国科学院哈尔滨理工大学哈尔滨工业大学更多>>
- 发文基金:国家自然科学基金国家高技术研究发展计划中央高校基本科研业务费专项资金更多>>
- 相关领域:自动化与计算机技术语言文字更多>>
- 面向层次短语翻译的词汇化调序方法研究被引量:6
- 2012年
- 词汇化信息在短语调序中有重要的作用。然而层次短语翻译模型调序时并不考虑变量所泛化的短语的词汇化信息,因此该模型调序的歧义性较大。为此该文提出面向层次短语模型的词汇化调序方法。我们定义变量与邻接词语的调序关系,并使用变量所泛化短语片段的边界词信息来指导调序。在大规模语料的汉语到英语翻译评测任务中,我们的方法在NIST 2003-2005测试数据上获得了0.6~1.2BLEU值的提高。
- 肖欣延刘洋刘群林守勋
- 关键词:统计机器翻译
- 一种改进词语对齐的新方法
- 词语对齐是目前主流的统计机器翻译系统的基本模块,GIZA++是词语对齐最常用的工具,但是GIZA++的对齐结果仍然存在不足。本文从约束双语命名实体之间的对齐的角度出发,提出了一种改进词语对齐结果的方法:首先,识别双语命名...
- 罗维吉宗诚吕雅娟刘群
- 关键词:词语对齐统计机器翻译
- 文献传递
- 中文信息处理60年被引量:22
- 2009年
- 本文首先简要回顾中国语文现代化走过的历程、取得的重要成果及其对中文信息处理的影响,然后对汉字信息处理和汉语信息处理的其他工作予以归纳阐述,并对这一领域的学术活动与国际交流情况做简要介绍,最后对中文信息处理所面临的挑战和未来发展的目标给予粗略的展望。
- 宗成庆曹右琦俞士汶
- 关键词:中文信息处理自然语言处理自然语言理解计算语言学
- 遗传算法在多目标柔性Job-Shop调度中应用被引量:4
- 2009年
- 针对Job-Shop调度问题,提出了一种双染色体的遗传算法编码新方法,采用对染色体的分离交叉重组操作生成更多的优秀个体,设计了多种群、遗传参数自适应调整来提高种群的多样性。使用优势档案群保存当代最优Pareto解。最后给出仿真结果,与经典的遗传算法求得的结果比较,证明了该算法的有效性和先进性。
- 朱文龙丁华福
- 关键词:多目标遗传算法种群多样性
- 英汉语义对应中弯曲现象实证研究被引量:1
- 2011年
- 在对容易误解误译的英语词语形式化语义分析的基础上,对英汉语义对应中的弯曲现象进行了实证研究。提出英汉语义对应中的弯曲现象及语义模块的概念,其实人们学习外语的过程就是不断克服自然语言弯曲现象的过程。根据弯曲现象的定义,客观存在的语义在人这个系统中已经存在一种汉语映射,但又存在该语义的一种英语映射不等于汉语映射,这种现象即为英汉语义对应中的弯曲现象。语义模块指表达一个意思的模块,可以是一个单词,一个短语或者一个句子。研究结果表明,英汉语义对应时那些发生弯曲现象的英语表示恰好对应于最易误解误译的英语词语。
- 浑洁絮
- 关键词:语义弯曲现象
- 关于模糊C-均值(FCM)聚类算法的改进被引量:14
- 2010年
- 针对模糊C-均值(FCM)聚类算法的容易收敛于局部极值的不足,提出了一种改进的模糊FCM聚类算法,此新算法在聚类中心选取和优化过程中进行了充分的考虑,是一种用于确定最佳聚类数的聚类算法,并且利用了分阶段思想,结合动态直接聚类算法和标准聚类算法,来尽量避免模糊C-均值(FCM)聚类算法的不足。新算法与传统(FCM)聚类算法方法相比,提高了算法的寻优能力,并且迭代次数更少,在准确度上也有较大的提高,具有很好的实际应用价值。
- 姜伦丁华福
- 关键词:模糊聚类FCM算法
- 相似度质心多层过滤策略的动态文摘方法
- 2014年
- 为了研究网络快速有效获取信息的方法,网络动态演化内容的识别和分析成为人们迫切需要解决的关键问题。动态多文档文摘建立在时间信息基础上,从网络数据的动态性能入手,对同一主题不同时段的文摘集合进行分析,在识别信息内容差异性的基础上,对信息的动态演化性进行建模。在提出相似度累加模型基础上,进一步提出了基于质心整体选优的动态文摘模型。分析当前文档集合与历史集合强关联性,以选择出的不同文摘句为首句生成候选文摘集合,然后根据质心多层过滤优选方法从中选出最优文摘结果。这种模型方法消除了因首句选择不当而对文摘性能造成的影响,在国际标准评测Taxt Anynasis Conference 2008的Update task任务语料上进行了测试,并且获得了较好的实验结果。
- 于洋范文义刘美玲王慧强
- 基于遗传算法和模糊聚类的文本分类研究被引量:7
- 2009年
- 鉴于模糊C-均值类型算法(FCM算法)对初始中心敏感的问题,提出了一种基于遗传算法和模糊聚类的文本分类方法。采用遗传算法初始聚类中心,并在适应度的计算中采用了一个可变值,用户可以在文本直接聚类时更改该值,产生用户满意的属性约简结果,极大地提高了系统的分类精度。最后通过实验给出了该算法性能的测试结果。
- 于水英丁华福付志超
- 关键词:模糊聚类遗传算法文本分类FCM
- 基于结构对齐的统计机器翻译模型被引量:2
- 2009年
- 从图同构角度给出树同构的性质,并阐述了结构异构与结构对齐之间的关系。在此基础上为建立结构映射关系,以及在翻译过程中融入句法结构信息,提出元结构、互译结构组概念及多层次结构对齐的体系。最后利用对数线性模型,给出基于元结构对齐的统计机器翻译模型。模型的翻译过程中,源语言句法树以元结构为单位进行分解,利用互译结构组映射知识,转换为目标语言句法树结构序列,从而根据结构模型信息对目标语实施调序和译文的生成。实验结果表明,本模型在对于翻译知识的泛化能力和翻译结果方面都优于基于短语的统计机器翻译模型。
- 孙加东赵铁军梁华参
- 关键词:统计机器翻译
- 异种语料融合方法:基于统计的中文词法分析应用
- 基于统计的中文词法分析往往依赖大规模标注语料,语料的规模和质量直接影响词法分析系统的性能。高覆盖率、高质量的语料资源非常有限,而且适用于不同领域的语料往往具有不同的分词和词性标注标准,难以直接混合使用,从而导致既有资源未...
- 孟凡东徐金安姜文斌刘群
- 关键词:词法分析
- 文献传递