车超
- 作品数:5 被引量:10H指数:1
- 供职机构:大连大学信息工程学院先进设计与智能计算省部共建教育部重点实验室更多>>
- 发文基金:国家自然科学基金辽宁省自然科学基金更多>>
- 相关领域:自动化与计算机技术语言文字经济管理更多>>
- 基于子词的历史典籍术语对齐方法被引量:1
- 2016年
- 由于历史典籍术语存在普遍的多义性且缺少古汉语分词算法,使用基于双语平行语料的对齐方法来自动获取典籍术语翻译对困难重重。针对上述问题,该文提出一种基于子词的最大熵模型来进行典籍术语对齐。该方法结合两种统计信息抽取频繁在一起出现的字作为子词,使用子词对典籍进行分词,解决了缺少古汉语分词算法的问题。针对典籍术语的多义性,根据典籍术语的音译模式制定音译特征函数,并结合其他特征使用最大熵模型来确定术语的翻译。在《史记》双语平行语料上的实验表明,使用子词的方法远远优于未使用子词的方法,而结合三种特征的最大熵模型能有效的提高术语对齐的准确率。
- 车超郑晓军
- 关键词:最大熵模型
- 基于语义关联图的词义消歧方法
- 2014年
- 为了充分利用和整合词义消歧不同的知识库和语义资源,本文提出了一种基于语义关联图的方法。该方法以语义关系作为边,以词语的概念作为节点建立语义关联图,然后通过计算词义与上下文词语在语义关联图中的关联强度来确定歧义词的词义。语义关联图能够将多种消歧知识源比如词典、标注语料和生语料中的知识整合在一起,扩大了消歧知识的来源。本文方法在Senseval-3汉语词汇样本消歧任务中选择两个词,与一种基于知识的方法和有指导的方法进行了对比实验,实验结果验证了本文方法的有效性。
- 车超郑晓军
- 关键词:词义消歧知网
- 面向海关进出口商品税率检测的归纳交互网络模型
- 2023年
- 中国海关传统的人工商品税率审查方式存在效率低、判断依据不一致、精度不高等问题,使用文本分类方法对商品分类自动确定税率可以有效降低海关税率风险。但面向海关商品数据进行分类时,商品类别具有层次性,同一大类下的许多子类别的商品描述具有高度相似性,给商品分类带来了很大的挑战。因此,提出了一种归纳交互网络模型,在BERT和CNN基础上加入归纳和交互指导模块。在归纳模块中采用动态路由算法对CNN提取的特征进行迭代运算,可以有效解决相邻特征融合和冗余问题。同时,为了解决不同子类别之间特征相似问题,提高分类性能,引入交互指导模块,该模块主要是将归纳模块提取的特征信息同[CLS]分类向量进行交互。在真实的海关数据集上进行实验,实验结果表明,该方法能达到较好的效果,其中准确率高达92.98%,且性能明显优于各基线模型。
- 吴安奇车超张强周东生
- 关键词:中国海关动态路由
- 融合多层次信息的海关同义词识别方法
- 2022年
- 在海关进出口商品文本信息中,往往会用不同的词语描述同一商品的特征,识别这些商品的特征同义词能更好地进行观点汇总,进而对同一类特征的商品进行涉税风险的防控。针对海关申报要素短语的特点,提出一种融合多层次信息的卷积神经网络模型,构建并训练了一个基于孪生和三级网络结构的Sentence-BERT,其对相近的要素短语具有更好的语义表示,弥补了word2vec短文本词嵌入特征离散稀疏的不足。利用多尺寸卷积核提取要素短语的不同特征。通过BiLSTM神经网络学习要素短语的语序信息,并利用注意力机制分配关键词权重。获得的全连接融合同义词语义特征和关键词特征,通过softmax层进行预测。实验证明,融合多层次信息的卷积模型比其他模型有更好的表现。
- 刘大为车超魏小鹏
- 关键词:同义词识别卷积神经网络
- 基于双向对齐与属性信息的跨语言实体对齐被引量:9
- 2022年
- 实体对齐表示在不同的知识图谱中查找引用相同现实身份的实体。目前主流的基于图嵌入的实体对齐方法中的对齐实体通常具有相似的属性,有效利用属性信息可提升实体对齐效果,同时由于不同知识图谱之间的知识分布差异,仅考虑单个方向的对齐预测会导致预测结果出现偏差。针对上述问题,提出一种改进的跨语言实体对齐方法。利用融合属性信息的双向对齐图卷积网络模型,将前馈神经网络编码实体对应的属性信息与初始的实体嵌入相结合,得到联合属性信息的实体表示,并使用双向对齐机制实现跨语言的实体对齐预测。在3个跨语言数据集上的实验结果表明,该方法通过融合更多的知识图谱信息增强了实体表示能力,并且利用双向对齐机制缓解了数据分布差异问题,相比基于图嵌入的实体对齐方法整体性能更优。
- 车超刘迪
- 关键词:知识图谱属性信息