国家高技术研究发展计划(2011AA01A207)
- 作品数:26 被引量:413H指数:9
- 相关作者:刘挺刘群吕雅娟车万翔张梅山更多>>
- 相关机构:哈尔滨工业大学中国科学院浙江大学更多>>
- 发文基金:国家高技术研究发展计划国家自然科学基金国家科技重大专项更多>>
- 相关领域:自动化与计算机技术更多>>
- 藏文数词识别与翻译被引量:7
- 2013年
- 通过对藏文数词内部构词规律及外部边界信息进行分析,提出对藏文数词基本构件定义的方案。采取最优路径决策模型判断数词构件边界,然后通过有限自动机模型识别并翻译基本数词,最后用模板匹配算法处理复杂数词。结果表明,提出的方法对数词识别与翻译的F值达到98.73%,在藏汉机器翻译的测试集上的BLEU提高了2.64%。
- 孙萌华却才让刘凯吕雅娟刘群
- 关键词:藏文自动机
- 词语对齐的快速增量式训练方法研究
- 2013年
- 围绕翻译模型构建流程的瓶颈——词语对齐,着手翻译模型的增量式训练。在基于无监督学习的词语对齐模型的基础上,提出一种基于初始化同时应用迭代训练收敛速度更快的online EM算法,以替换通常所用的batch EM算法,实现增量式训练。实验表明,所提出的方法既高效又能保证词语对齐质量和机器翻译质量。
- 罗维
- 关键词:统计机器翻译词语对齐期望最大化
- 基于多粒度的英汉人名音译被引量:4
- 2013年
- 音译是解决人名翻译的重要方法。在英汉人名音译问题中,翻译粒度问题一直是研究的重点之一。该文提出一种基于多粒度的英汉人名音译方法。将多种粒度的英文切分通过词图进行融合,并使用层次短语模型进行解码,从而缓解了由于切分错误而导致的音译错误,提高了系统的鲁棒性。实验结果表明基于多粒度的音译方法融合了基于各种粒度音译方法的优点,在准确率上提高了3.1%,在BLEU取得了2.2个点的显著提升。
- 于恒凃兆鹏刘群刘洋
- 关键词:多粒度词图
- 基于序列标注的中文分词、词性标注模型比较分析被引量:13
- 2013年
- 该文对三种不同的分词词性标注模型进行了比较。这三种模型分别为一个序列标注串行模型,一个基于字分类的联合模型和一个将这两种模型使用Stacked Learning框架进行集成的融合模型。通过在《人民日报》、CoNLL09、CTB5.0和CTB7.0四个数据集上进行比较分析,最终实验结果表明分类联合模型能取得比较好的速度,融合模型能取得比较好的准确率,而普通串行模型处于速度和准确率的平衡位置。最后该文将准确率最好的融合模型和相关前沿工作在CTB5.0和CTB7.0上进行了对比,该融合模型均取得了最好的结果。
- 刘一佳车万翔刘挺张梅山
- 关键词:中文分词词性标注LEARNING
- 绿色数据中心的热量管理方法研究被引量:19
- 2015年
- 数据中心的高能耗是一个亟待解决的问题.尤其是随着云计算的发展,更多的资源集中到云端.构建绿色数据中心、实现节能减排成为了近年来业界关注的热点.数据中心的能耗主要由计算能耗和制冷能耗两部分组成.数据中心的热量管理主要从减少制冷能耗的角度出发,为实现绿色计算提供了新的思路.该文从绿色数据中心的状态监控、热量建模、热量管理策略以及热量管理评价4个方面综述了近年来数据中心热量管理方面的研究工作.该文提出了绿色数据中心热量管理的总体架构,总结了其分布式监控系统的一般框架;对现有的热量管理方法按面向单节点/面向多节点进行分类,并且从复杂度、灵活度、实施效果等多方面进行了比较,分析了各种方法的优势和局限性.文中提出了数据中心全局能耗评价、制冷系统效率评价、热量及温度评价的分类方法,对现有的评价方法进行总结.最后论文列出了未来需要进一步研究的十个方向.
- 李翔姜晓红吴朝晖叶可江
- 关键词:绿色数据中心能耗管理制冷云计算
- 文本情感分类中生成式情感模型的发展被引量:3
- 2014年
- 描述了生成式模型的概念及它在文本情感分类领域的发展,分析了生成式情感模型的分类,着重研究了不同生成式情感模型之间的关联性,并对生成式模型中最有代表性的三类模型进行了介绍,最后对生成式情感模型发展以及未来趋势进行了总结。
- 张辉刘奕群马少平
- 关键词:文本情感分类主题模型
- 联合语义角色标注和指代消解被引量:6
- 2013年
- 语义角色标注和指代消解是自然语言处理中两个重要的基础研究任务,该文提出使用马尔科夫逻辑网络对两个任务进行联合学习推导。通过提出8条联合学习规则,在OntoNote5.0的实验中证明采用联合学习推导后,两者的标注性能都比单独标注任务有了1.6个F值的性能提升。
- 熊皓刘群吕雅娟
- 关键词:语义角色标注指代消解
- 一种基于分类的平行语料选择方法被引量:4
- 2013年
- 大规模高质量双语平行语料库是构造高质量统计机器翻译系统的重要基础,但语料库中的噪声影响着统计机器翻译系统的性能,因此有必要对大规模语料库中语料进行筛选。区别于传统的语料选择排序模型,本文提出一种基于分类的平行语料选择方法。通过少数句对特征构造差异较大的分类器训练句对,在该训练句对上使用更多的句对特征对分类器进行训练,然后对其他未分类句对进行分类。相比于基准系统,我们的方法不仅缩减40%训练语料规模,同时在NIST测试数据集合上将BLEU值提高了0.87个百分点。
- 王星涂兆鹏谢军吕雅娟姚建民
- 关键词:统计机器翻译
- 基于最大熵的汉语篇章结构自动分析方法被引量:9
- 2014年
- 在标有复句逻辑语义关系的清华汉语树库上,研究汉语篇章语义片段自动切分以及篇章关系的自动标注方法。通过比较不同序列标注模型对汉语篇章语义单元切分的性能,提出基于最大熵模型的汉语篇章结构分析方法。实验结果表明,篇章语义单元自动切分的F值能达到89.1%,当篇章语义结构树的高度不超过6层时,篇章语义关系标注的F值为63%。
- 涂眉周玉宗成庆
- 关键词:篇章结构分析逻辑语义关系树库
- 统计与词典相结合的领域自适应中文分词被引量:45
- 2012年
- 基于统计的中文分词方法由于训练语料领域的限制,导致其领域自适应性能力较差。相比分词训练语料,领域词典的获取要容易许多,而且能为分词提供丰富的领域信息。该文通过将词典信息以特征的方式融入到统计分词模型(该文使用CRF统计模型)中来实现领域自适应性。实验表明,这种方法显著提高了统计中文分词的领域自适应能力。当测试领域和训练领域相同时,分词的F-measure值提升了2%;当测试领域和训练领域不同时,分词的F-measure值提升了6%。
- 张梅山邓知龙车万翔刘挺
- 关键词:中文分词CRF领域自适应