陈钰枫 作品数:77 被引量:118 H指数:5 供职机构: 北京交通大学计算机与信息技术学院 更多>> 发文基金: 国家自然科学基金 中央高校基本科研业务费专项资金 国际科技合作与交流专项项目 更多>> 相关领域: 自动化与计算机技术 文化科学 语言文字 更多>>
获取符号串的方法和装置 本发明公开了一种获取符号串的方法和装置,属于自然语言处理研究领域。所述方法包括:获取输入的信息中包含的第一符号串;根据第二符号串生成与所述第二符号串具有对称性结构的第三符号串,所述第二符号串为所述第一符号串或为所述第一符... 徐金安 呼啸 黄天立 张子兴 闫麟阁 马文嘉 徐乾舜 陈钰枫文献传递 翻译信息的方法和装置 本发明公开了一种翻译信息的方法和装置,属于自然语言处理研究领域。方法包括:获取源语言格式的第一信息中包含的表情符号;在第一信息中将该表情符号置换为用于标识该表情符号的第一标识得到第二信息;将第二信息翻译为目标语言格式的第... 徐金安 赵雁榕 韩晓光 肖冰 徐凡 陈钰枫文献传递 一种多源领域自适应命名实体识别方法 2022年 领域自适应是解决低资源问题的一种通用方式,可应用于各种自然语言处理的任务中.当前针对命名实体识别(named entity recognition,NER)任务的领域自适应研究通常从单一的源领域迁移到目标领域,在目标领域和源领域相近的情况下,这种方式能够取得较好的识别效果,但是在目标领域与源领域相关度不高的情况下,单一领域迁移方式存在很大的局限性.针对这一问题,提出一种融合多源领域贡献度加权的自适应NER模型(multi-domain adaptation NER model based on importance weighting,MDAIW).1)通过多个领域的知识迁移来提升目标领域的实体识别性能;2)根据不同领域及其领域内样本对目标领域的重要性,计算领域贡献度;3)将领域贡献度引入到NER模型中,以此来实现更好的模型领域适应性.最终在多个目标领域上进行实验,性能皆优于当前性能最好的方法,验证了模型的有效性. 李佳芮 刘健 陈钰枫 徐金安 张玉洁关键词:命名实体识别 领域自适应 识别整体符号串的方法和装置 本发明公开了一种识别整体符号串的方法和装置,属于自然语言处理研究领域。所述方法包括:提取文本信息中包含的符号串;从所述符号串中获取具有对称性的符号对;根据所述获取的符号对计算所述符号串的对称度;如果所述符号串的对称度满足... 徐金安 张子兴 呼啸 马文嘉 黄天立 闫麟阁 徐乾舜 陈钰枫领域自适应的槽位填充方法、装置、设备及存储介质 本申请公开了一种领域自适应的槽位填充方法、装置、设备及存储介质,属于自然语言处理领域。该方法包括:接收用户输入语句;基于目标槽位的槽位元信息,为所述用户输入语句构建与所述目标槽位对应的问句;将所述问句和所述用户输入语句拼... 徐金安 于梦诗 陈钰枫 刘健文献传递 基于多特征融合编码的神经网络依存句法分析模型 2018年 在基于神经网络的依存句法分析中,对分析栈和决策层信息的表示和利用依然有值得深入研究的空间。针对分析栈的表示,已有工作并没有对单棵依存子树独立编码的表示,导致无法利用各个依存子树的局部特征;也没有对生成的依存弧序列进行编码,导致无法利用依存弧的全局信息。针对决策层的表示,已有工作利用MLP预测转移动作,该结构无法利用历史决策动作的信息。对此,该文提出基于多特征融合编码的神经网络依存句法分析模型,基于依存子树和历史生成的依存弧表示分析栈,利用TreeLSTM网络编码依存子树信息,利用LSTM网络编码历史生成的依存弧序列,以更好地表示分析栈的局部信息和全局信息。进一步提出基于LSTM网络的结构预测转移动作序列,引入历史决策动作信息作为特征辅助当前决策。该文以汉语为具体研究对象,在CTB5汉语依存分析数据上验证所提出的多特征融合编码的神经网络模型。实验结果显示,汉语依存句法分析性能得到改进,在目前公布的基于转移的分析系统中取得最好成绩,在UAS和LAS评价指标上分别达到87.8%和86.8%的精度,表明所提出的对依存子树局部特征及历史依存弧信息和历史决策动作信息的编码方法,在改进依存分析模型性能方面的有效性。 刘明童 张玉洁 徐金安 陈钰枫关键词:依存句法分析 开放域上基于深度语义计算的复述模板获取方法 被引量:4 2018年 利用实体关系从网络大规模单语语料获取复述模板的方法可以规避对单语平行语料或可比语料的依赖,但是后期需要人工对有语义差异的关系模板分类后获取复述模板。针对这一遗留问题,该文提出基于深度语义计算的复述模板自动获取方法,首先设计基于统计特征的模板裁剪方法,从非复述语料中获取高质量的关系模板,然后设计基于深度语义计算的关系模板聚类方法获取高精度的复述模板。我们在四类实体关系数据上的实验结果表明,该方法实现了关系模板的自动获取与自动聚类,可以获得语义相近度更高、表现形式多样的复述模板。 刘明童 张玉洁 徐金安 陈钰枫关键词:自动聚类 一种基于级联架构与多模型融合的知识型对话系统 2024年 知识对话任务旨在借助外部知识生成富信息的回复,主要包括用于知识检索的Query生成和融合知识的对话生成两方面。如何有效地生成知识检索Query以及高效地利用所检索到的知识生成对话仍是一个挑战。为了解决以上的问题,该文提出了一种基于级联式架构和多模型融合的知识型对话系统。针对知识检索Query生成任务,为了高精确率地检索知识,提出级联式解耦策略,即将知识检索Query生成任务划分为知识检索判别任务和检索Query生成任务。针对融合知识的对话生成任务,为了提高对话的一致性和多样性,首先进行了对话任务预训练,然后引入了多种对话训练策略进行训练,得到了多个高质量对话生成模型。基于不同对话模型产生的回复,提出了一种基于互投票的重排序策略。最终,该文所介绍的系统在“2022语言与智能技术竞赛:知识对话任务”中取得了自动评估第一名、人工评估第三名的成绩。 张松鸣 王帅博 陈钰枫 任泓洁 胡珊珊 徐金安关键词:知识检索 基于任务驱动的“自然语言处理”课程教学探究与实践 被引量:3 2021年 “自然语言处理”课程是计算机科学与技术专业的专业核心课程之一。自然语言处理是人工智能领域的前沿热点研究方向,其知识内容新、更新快,因此,国内高校尚未形成统一成熟的教学大纲体系。针对“自然语言处理”课程理论性强、抽象性强、实践性强、系统性强的特点,基于任务驱动设计了层次递进的教学内容,提出了问题引导式和任务驱动式相结合的教学模式,全面提高学生学习兴趣,培养学生研究能力。希望通过教学内容和教学模式的改革,提高自然语言处理研究生教学及学科建设的质量和水平。 陈钰枫 徐金安 张玉洁关键词:自然语言处理 研究生教学 专有名词增强的复述生成方法研究 2024年 现有的中文复述生成模型在对包含专有名词的原句生成复述句时经常丢失原句中的专有名词,造成复述句的语义偏移,降低复述句的可用性,进而影响其在下游任务中的应用效果。为了解决这类问题,提出专有名词增强的复述生成方法。针对包含单个专有名词的原句构建基于占位符的复述生成模型,通过将训练句对中的专有名词用占位符替换,训练模型对占位符的保留能力;针对包含多个专有名词的原句构建词汇约束的复述生成模型,通过将专有名词列表与原句拼接并进行区分,训练模型对多个专有名词的识别和复制能力,提高复述句对专有名词的保留率。此外,综合考虑语义一致性和表达多样性,提出参考句无关的复述句质量评价指标用来评估生成复述句的质量。以真实对话系统业务中的意图识别冷启动任务为下游任务,对比不同模型生成复述句的质量以及在意图识别任务上的准确率。实验结果表明,词汇约束的复述生成模型能够生成与原句语义一致且表达具有多样性的高质量复述语料,对应语料训练得到的意图识别模型准确率最高,相较于未考虑专有名词的复述模型,意图识别模型的准确率提高了5.38%。 张雪 陈钰枫 徐金安 田凤占关键词:语义偏移 意图识别