国际科技合作与交流专项项目(K11F100010)
- 作品数:15 被引量:38H指数:3
- 相关作者:张玉洁徐金安陈钰枫赵紫玉明芳更多>>
- 相关机构:北京交通大学联想研究院更多>>
- 发文基金:国际科技合作与交流专项项目国家自然科学基金中央高校基本科研业务费专项资金更多>>
- 相关领域:自动化与计算机技术文化科学更多>>
- 基于多特征融合编码的神经网络依存句法分析模型
- 2018年
- 在基于神经网络的依存句法分析中,对分析栈和决策层信息的表示和利用依然有值得深入研究的空间。针对分析栈的表示,已有工作并没有对单棵依存子树独立编码的表示,导致无法利用各个依存子树的局部特征;也没有对生成的依存弧序列进行编码,导致无法利用依存弧的全局信息。针对决策层的表示,已有工作利用MLP预测转移动作,该结构无法利用历史决策动作的信息。对此,该文提出基于多特征融合编码的神经网络依存句法分析模型,基于依存子树和历史生成的依存弧表示分析栈,利用TreeLSTM网络编码依存子树信息,利用LSTM网络编码历史生成的依存弧序列,以更好地表示分析栈的局部信息和全局信息。进一步提出基于LSTM网络的结构预测转移动作序列,引入历史决策动作信息作为特征辅助当前决策。该文以汉语为具体研究对象,在CTB5汉语依存分析数据上验证所提出的多特征融合编码的神经网络模型。实验结果显示,汉语依存句法分析性能得到改进,在目前公布的基于转移的分析系统中取得最好成绩,在UAS和LAS评价指标上分别达到87.8%和86.8%的精度,表明所提出的对依存子树局部特征及历史依存弧信息和历史决策动作信息的编码方法,在改进依存分析模型性能方面的有效性。
- 刘明童张玉洁徐金安陈钰枫
- 关键词:依存句法分析
- 基于多翻译引擎的汉语复述平行语料构建方法被引量:3
- 2020年
- 复述指同一语言内相同意思的不同表达,复述生成指同一种语言内意思相同的不同表达之间的转换,是改进信息检索、机器翻译、自动问答等自然语言处理任务不可或缺的基础技术。目前,复述生成模型性能都依赖于大量平行的复述语料,而很多语言并没有可用的复述资源,使得复述生成任务的研究无法开展。针对复述语料十分匮乏的问题,我们以汉语为研究对象,提出基于多翻译引擎的复述平行语料构建方法,将英语复述平行语料迁移到汉语,构建大规模高质量汉语复述平行语料,同时构建有多个参考复述的汉语复述评测数据集,为汉语复述生成的研究提供一定的基础数据。基于构建的汉语复述语料,我们进一步对汉语复述现象进行总结和归纳,并进行复述生成研究。我们构建基于神经网络编码-解码框架的汉语复述生成模型,采用注意力机制、复制机制和覆盖机制解决汉语复述生成中的未登录词和重复生成问题。为了缓解复述语料不足导致的神经网络复述生成模型性能不高的问题,我们引入多任务学习框架,设计联合自编码任务的汉语复述生成模型,通过联合学习自编码任务来增强复述生成编码器语义表示学习能力,提高复述生成质量。我们利用联合自编码任务的复述生成模型进行汉语复述生成实验,在评测指标ROUGE-1、ROUGE-2、BLEU、METEOR上以及生成汉语复述实例分析上均取得了较好性能。实验结果表明所构建的汉语复述平行语料可以有效训练复述生成模型,生成高质量的汉语复述句。同时,联合自编码的汉语复述生成模型,可以进一步改进汉语复述生成的质量。
- 王雅松刘明童马彬彬张玉洁徐金安陈钰枫
- 关键词:多任务学习
- 规则与统计相结合的日语时间表达式识别被引量:3
- 2013年
- 该文提出了一种基于自定义知识库强化获取规则集,以及规则与统计模型相结合的日语时间表达式识别方法。在按照Timex2标准对时间表达进行细化分类的基础上,我们结合日语时间词的特点,渐进地扩展重构日语时间表达式知识库,实现基于知识库获取的规则集的优化更新,旨在不断提高时间表达式的识别精准度。同时,融合CRF统计模型提高日语时间表达式识别的泛化能力。实验结果显示开放测试F1值达0.898 7。
- 赵紫玉徐金安张玉洁刘江鸣
- 关键词:知识库规则集统计模型
- 融合门控机制的远程监督关系抽取方法被引量:3
- 2020年
- 提出一种融合门控机制的远程监督关系抽取方法。首先在词级别上自动选择正相关特征,过滤与关系标签无关的词级别噪声;然后在门控机制内引入软标签的思想,弱化硬标签对噪声过滤的影响;最后结合句子级别的噪声过滤,提升模型的整体性能。在公开数据集上的实验结果表明,相对于句子级别噪声过滤方法,所提方法的性能有显著提高。
- 李兴亚陈钰枫徐金安张玉洁
- 关键词:关系抽取卷积神经网络
- 基于句法结构的神经网络复述识别模型被引量:3
- 2020年
- 为解决已有复述语义计算方法未考虑句法结构的问题,提出基于句法结构的神经网络复述识别模型,设计基于树结构的神经网络模型进行语义组合计算,使得语义表示从词语级扩展到短语级。进一步地,提出基于短语级语义表示的句法树对齐机制,利用跨句子注意力机制提取特征。最后,设计自注意力机制来增强语义表示,从而捕获全局上下文信息。在公开英语复述识别数据集Quora上进行评测,实验结果显示,复述识别性能得到改进,达到89.3%的精度,证明了提出的基于句法结构的语义组合计算方法以及基于短语级语义表示的跨句子注意力机制和自注意力机制在改进复述识别性能方面的有效性。
- 刘明童张玉洁徐金安陈钰枫
- 关键词:句法结构
- 联合自编码任务的多机制融合复述生成模型
- 2020年
- 基于神经网络编码–解码框架的复述生成模型存在两方面的问题:1)生成的复述句中存在实体词不准确、未登录词和词汇重复生成;2)复述平行语料的有限规模限制了编码器的语义学习能力。针对第一个问题,本文提出在解码过程中融合注意力机制、复制机制和覆盖机制的多机制复述生成模型,利用复制机制从原句复制词语来解决实体词和未登录词生成问题;利用覆盖机制建模学习注意力机制的历史决策信息来规避词汇重复生成。针对第二个问题,基于多任务学习框架,提出在复述生成任务中联合自编码任务,两个任务共享一个编码器,同时利用平行复述语料和原句子数据,共同增强复述生成编码器的语义学习能力。在Quora复述数据集上的实验结果表明,提出的联合自编码的多机制融合复述生成模型有效地解决了复述生成的问题,并提高了复述句的生成质量。
- 刘明童张玉洁张姝孟遥徐金安陈钰枫
- 关键词:多任务学习
- 日语时间表达式识别与日汉翻译研究被引量:1
- 2014年
- 基于自定义知识库,提出一种知识库强化规则集以及与统计模型相结合的日语时间表达式识别方法,旨在不断提高时间表达式的识别精准度。按照Timex2标准对时间表现的细化分类,结合日语时间词的特点,渐进地扩展重构日语时间表达式知识库,实现基于知识库获取的规则集的优化更新。同时,融合条件随机场CRF统计模型,提高日语时间表达式识别的泛化能力。通过考察基于短语的翻译模型翻译时间词的精度,提出统计机器翻译(SMT)结合规则翻译日语时间词的必要性。实验结果显示,日语时间表达式识别的开放测试F1值达到0.8987,基于《日汉时间词平行字典》与规则的翻译精度和召回率都略高于基于统计机器翻译模型。
- 赵紫玉徐金安张玉洁刘江鸣
- 关键词:知识库统计模型统计机器翻译
- 基于隐主题马尔科夫模型的多特征自动文摘被引量:4
- 2014年
- 基于隐主题马尔科夫模型,消除LDA主题模型的主题独立假设,使得文摘生成过程中充分利用文章的结构信息,并结合基于内容的多特征方法提高文摘质量。提出在不破坏文章结构的前提下,从单文档扩展到多文档的自动文摘策略,最终搭建完善的自动文摘系统。在DUC2007标准数据集上的实验证明了隐主题马尔科夫模型和文档特征的优越性,所实现的自动文摘系统ROUGE值有明显提高。
- 刘江鸣徐金安张玉洁
- 关键词:多文档自动文摘
- 面向短语统计机器翻译的汉日联合分词研究被引量:1
- 2015年
- 未登录词与分词粒度是汉日日汉机器翻译研究的两个主要问题。与英语等西方语言不同,汉语与日语词语间不存在空格,分词为汉日双语处理的重要工作。由于词性标注体系、文法及语义表现上的差异,分词结果的粒度需要进一步调整,以改善统计机器翻译系统的性能。提出了面向统计机器翻译的基于汉日汉字对照表及日汉词典信息的汉语与日语的分词粒度调整方法。实验结果表明,该方法能有效地调节源语言和目标语言端的分词粒度,提高统计机器翻译系统的性能。通过对比实验结果,分析探讨分词粒度对汉日双语统计系统性能的影响。
- 吴培昊徐金安张玉洁
- 融合深度语义表示的开放域复述模板抽取被引量:2
- 2021年
- [目的/意义]复述知识在自然语言处理领域应用广泛,例如复述生成、自动问答、复述数据构建等,复述模板是复述知识的一种抽象表现形式。[方法/过程]早期复述模板抽取方法依赖复述实例和可比语料,近年来,有研究在人工给定种子实体对的基础上,利用实体关系,通过自举迭代的方式获取复述模板,规避对特定语料依赖,但是只能获得语义受限的复述模板,且迭代过程中存在语义偏移现象。因此本文提出从英文维基百科的大规模开放域文本中自动获取复述模板的思路,针对问题,设计融合深度语义表示学习的复述模板抽取方法,从大规模开放域文本中抽取高精度多样化的复述模板。[结果/结论]实验结果表明,本文所提方法可以获取高质量、语义一致、形式多样的复述模板。
- 金波刘明童张玉洁徐金安陈钰枫
- 关键词:语义表示自动聚类