苏州大学自然语言处理实验室
- 作品数:58 被引量:223H指数:8
- 相关作者:陈敬方艳戴斌更多>>
- 相关机构:河南科技学院信息工程学院苏州科技大学电子与信息工程学院更多>>
- 发文基金:国家自然科学基金江苏省高校自然科学研究项目江苏省自然科学基金更多>>
- 相关领域:自动化与计算机技术语言文字更多>>
- 结合新闻和评论文本的读者情绪分类方法被引量:1
- 2018年
- 新闻和评论文本是进行读者情绪分类的重要资源,但仅仅使用新闻和文本或者把2类文本进行混合作为一组总体特征,不能充分利用不同文本特征间的区别和联系。基于此,提出了一种双通道LSTM(long short-term memory)方法,该方法把2类文本作为2组特征,分别用单通道LSTM神经网络学习这2组特征文本得到文本的LSTM表示,然后通过联合学习的方法学习这2组特征间的关系。实验结果表明,该方法能有效提高读者情绪的分类性能。
- 严倩王礼敏李寿山周国栋
- 基于单文本指代消解的人物家庭网络构建研究
- 2014年
- 人物家庭网络是社会关系网络中的一个重要组成部分,因此,如何高效准确地提取出人物的家庭网络具有重要研究意义。该文在前人工作的基础上提出一种基于单文本指代消解技术的人物家庭关系抽取方法,以此扩大人物家庭关系抽取的范围,进而提高人物家庭网络的召回性能。该文还提出了一种基于人物虚拟边的家庭网络评估指标,用于更合理地评价构建出的人物家庭网络的性能。在大规模中文语料Gigaword上的实验表明,该方法可以较为准确地抽取出人物的家庭关系,进而提高人物家庭网络的召回性能,从而为社会网络分析提供基础数据。
- 顾静航朱苏阳钱龙华朱巧明
- 关键词:社会关系网络家庭网络
- 基于有监督学习方法的多文档文本情感摘要被引量:3
- 2014年
- 该文研究有监督学习方法在多文档文本情感摘要中的应用。利用从亚马逊中文网和亚马逊英文网上收集的产品评论语料,抽取文本内特征、PageRank特征、情感特征和评论质量特征,基于有监督方法进行多文档文本情感摘要抽取。实验结果表明有监督学习方法比无监督学习方法在ROUGE值上有显著的提高,情感特征和评论质量特征均有助于文本情感摘要。
- 李艳翠林莉媛周国栋
- 关键词:情感特征有监督学习最大熵分类器
- 一个面向信息抽取的中英文平行语料库被引量:2
- 2015年
- 除了机器翻译,平行语料库对信息检索、信息抽取及知识获取等研究领域具有重要的作用,但是传统的平行语料库只是在句子级对齐,因而对跨语言自然语言处理研究的作用有限。鉴于此,以OntoNotes中英文平行语料库为基础,通过自动抽取、自动映射加人工标注相结合的方法,构建了一个面向信息抽取的高质量中英文平行语料库。该语料库不仅包含中英文实体及其相互关系,而且实现了中英文在实体和关系级别上的对齐。因此,该语料库将有助于中英文信息抽取的对比研究,揭示不同语言在语义表达上的差异,也为跨语言信息抽取的研究提供了一个有价值的平台。
- 惠浩添李云建钱龙华周国栋
- 关键词:语义关系平行语料库
- 基于词典模型融合的神经机器翻译被引量:3
- 2022年
- 无监督神经机器翻译仅利用大量单语数据,无需平行数据就可以训练模型,但是很难在2种语系遥远的语言间建立联系。针对此问题,提出一种新的不使用平行句对的神经机器翻译训练方法,使用一个双语词典对单语数据进行替换,在2种语言之间建立联系,同时使用词嵌入融合初始化和双编码器融合训练2种方法强化2种语言在同一语义空间的对齐效果,以提高机器翻译系统的性能。实验表明,所提方法在中-英与英-中实验中比基线无监督翻译系统的BLEU值分别提高2.39和1.29,在英-俄和英-阿等单语实验中机器翻译效果也显著提高了。
- 王煦贾浩季佰军段湘煜
- 关键词:神经网络词典
- 中文文本中评价对象省略识别方法被引量:1
- 2015年
- 为了研究中文情感文本中评价对象省略现象的识别方法,将评价对象省略识别建模为一个二元分类问题,利用机器学习算法进行自动学习。探讨当前句位置无关特征、当前句位置相关特征和上下文相关特征对评价对象省略识别的作用。3个不同领域的实验结果表明,新提出的基于机器学习的评价对象省略识别方法能够获得较好的识别效果。
- 朱珠汪蓉李寿山周国栋
- 关键词:情感分析评价对象抽取
- 一个中文实体链接语料库的建设被引量:7
- 2015年
- 鉴于现有中文实体链接基准语料库的缺乏,在ACE2005中文语料库和中文维基百科的基础上,通过自动构造和人工标注的方法,构建一个中文实体链接语料库及其相关的中文知识库。与传统的英文实体链接语料库不同,构造的中文实体链接语料库是基于实体而非单个实体指称(Mention)。中文实体链接语料库的构建,将为中文实体链接研究提供一个可用的基准平台。
- 舒佳根惠浩添钱龙华朱巧明
- 关键词:中文语料库
- 一个面向信息抽取的中文跨文本指代语料库被引量:3
- 2015年
- 跨文本指代(Cross Document Coreference,CDC)消解是信息集成和信息融合的重要环节,相应地,CDC语料库是进行跨文本指代消解研究和评估所不可或缺的平台。由于目前还没有一个公开发布的面向信息抽取的中文CDC语料库,因此该文在ACE 2005语料库的基础上,采用自动生成和人工标注相结合的方法,构建了一个面向信息抽取的涵盖所有ACE实体类型的中文CDC语料库,并将该语料库公开发布,旨在促进中文跨文本指代消解研究的发展。同时,该文以该语料库为基础,分析了中文环境下跨文本指代现象的类型和特点,提出了用"多名困惑度"和"重名困惑度"两个指标来衡量跨文本指代消解任务的难度,为今后的跨文本指代消解研究提供一些启示。
- 赵知纬钱龙华周国栋
- 关键词:信息抽取语料库标注
- 基于知识蒸馏的跨模态语音情感分类
- 2024年
- 针对语音情感分类任务面临的语音数据标注困难的挑战,该文提出了一种新的跨模态语音情感分类任务,其可以使用文本模态数据(源端)帮助语音模态数据(目标端)进行情感分类。在此基础上,提出了一种基于知识蒸馏的跨模态情感分类模型,旨在通过知识蒸馏方法将文本情感分类模型(教师模型)学习到的预训练先验知识蒸馏到语音情感分类模型(学生模型)中。该模型的特色在于无须在测试端依赖昂贵的语音识别技术,可对原始语音数据直接进行情感分类,有利于该模型在实际语音情感分类应用场景中大规模落地。实验结果表明,该文所提出的方法可以有效利用文本模态分类的经验来提升语音模态的分类效果。
- 尤佩雯王晶晶高晓雅李寿山
- 关键词:情感分类
- 基于预训练的无监督神经机器翻译模型研究被引量:10
- 2022年
- 依赖于大规模的平行语料库,神经机器翻译在某些语言对上已经取得了巨大的成功。无监督神经机器翻译UNMT又在一定程度上解决了高质量平行语料库难以获取的问题。最近的研究表明,跨语言模型预训练能够显著提高UNMT的翻译性能,其使用大规模的单语语料库在跨语言场景中对深层次上下文信息进行建模,获得了显著的效果。进一步探究基于跨语言预训练的UNMT,提出了几种改进模型训练的方法,针对在预训练之后UNMT模型参数初始化质量不平衡的问题,提出二次预训练语言模型和利用预训练模型的自注意力机制层优化UNMT模型的上下文注意力机制层2种方法。同时,针对UNMT中反向翻译方法缺乏指导的问题,尝试将Teacher-Student框架融入到UNMT的任务中。实验结果表明,在不同语言对上与基准系统相比,本文的方法最高取得了0.8~2.08个百分点的双语互译评估(BLEU)值的提升。
- 薛擎天李军辉贡正仙徐东钦
- 关键词:神经网络