您的位置: 专家智库 > >

莫源源

作品数:9 被引量:5H指数:2
供职机构:上海师范大学人文与传播学院语言研究所更多>>
发文基金:国家自然科学基金云南省教育厅青年教师科研基金更多>>
相关领域:自动化与计算机技术语言文字政治法律更多>>

文献类型

  • 8篇中文期刊文章

领域

  • 6篇自动化与计算...
  • 1篇政治法律
  • 1篇语言文字

主题

  • 3篇语料
  • 2篇语料库
  • 2篇主题模型
  • 2篇相似度
  • 1篇单文档
  • 1篇等价
  • 1篇毒品
  • 1篇毒品形势
  • 1篇多特征融合
  • 1篇演义
  • 1篇译本
  • 1篇音译
  • 1篇英语
  • 1篇语言
  • 1篇三国故事
  • 1篇三国演义
  • 1篇神经网
  • 1篇神经网络
  • 1篇双语
  • 1篇平行语料

机构

  • 8篇云南民族大学
  • 6篇昆明理工大学
  • 5篇上海师范大学
  • 3篇南天电子信息...

作者

  • 8篇莫源源
  • 6篇严馨
  • 4篇周枫
  • 2篇李超
  • 2篇余正涛
  • 2篇刘小惠
  • 1篇线岩团
  • 1篇谢俊
  • 1篇黄瑜
  • 1篇夏青
  • 1篇徐璐

传媒

  • 1篇计算机工程与...
  • 1篇计算机工程
  • 1篇计算机应用与...
  • 1篇计算机应用研...
  • 1篇云南大学学报...
  • 1篇计算机与数字...
  • 1篇云南警官学院...
  • 1篇求知导刊

年份

  • 2篇2021
  • 1篇2020
  • 3篇2017
  • 1篇2016
  • 1篇2011
9 条 记 录,以下是 1-8
排序方式:
融合主题和要素的汉柬可比语料获取方法被引量:3
2017年
为了有效地获取可比语料,选取汉柬双语新闻文档作为可比语料库的候选语料,提出一种融合发布时间要素、实体要素和主题分布的可比语料获取方法.该方法首先计算文本的主题概率分布的JS距离,并融合各主题和要素特征,计算文本相似度;然后利用改进型的层次聚类算法对双语文本进行聚类,最后从聚簇类结果中获取可比语料.与基于词典的文本相似度计算方法进行聚类相比,该文方法有更高的Purity和F值并且获得的高质量的可比语料更多,说明了本文方法的有效性.
郭月江严馨刘小惠余正涛线岩团莫源源
关键词:可比语料库层次聚类
基于最大熵模型的柬英平行网页获取被引量:2
2016年
由于平行网站的异构性和复杂性,如何自动有效获取双语平行网页以及提高平行网页的质量是构建语料库的关键问题。为此,应用最大熵模型,将平行网页的识别问题看作候选网页对的分类问题,对平行网页的获取方法进行改进。利用基于标题余弦相似性的方法或数据库查询的方法发现候选平行网页对。根据网页内容及候选网页对间余弦相似度特征和最大熵模型训练的分类器对平行网页进行识别。在特征选取上,提取网页的篇章结构特征、词汇化比例特征与页面元素特征等基本特征,并应用TF-IDF算法与余弦相似性提取文档向量的余弦相似度特征。实验结果表明,所提方法可有效提高双语网站中平行网页的召回率和准确率,所获取平行网页的准确率和召回率分别为98%,94%。
莫源源潘丽同严馨余正涛刘小惠
关键词:最大熵模型平行语料库
基于特征相似度的可比语料挖掘汉柬命名实体等价对
2017年
命名实体翻译等价对在跨语言信息处理中具有非常重要的应用价值,然而由于语料资源的有限性,国内外关于汉柬命名实体等价对的抽取方法还没有深入研究。论文从可比语料文本出发,根据不同类型实体要素的特点以及在可比语料中的特点,选取了柬文命名实体到中文命名实体的音译特征、翻译特征、可比语料中命名实体的上下文特征及自身的长度特征,提出了一种基于多特征融合来计算相似度的方法来挖掘汉柬双语命名实体等价对。实验表明该方法取得了比较好的效果,其中挖掘人名实体对的准确率达到76%,召回率达到66%,证明了该方法要优于只采用单一特征的方法。
徐璐严馨夏青周枫莫源源
关键词:多特征融合
柬埔寨的毒品形势及其禁毒举措研究
2011年
柬埔寨地处东南亚,与世界主要毒源地"金三角"毗邻。虽然柬埔寨不是传统意义上的毒源地,却也是金三角毒品外流的"毒品过境国",也深受毒品的危害。近年来,柬埔寨加大了禁毒举措,即:一是成立专门禁毒机构;二是明确禁毒工作的"五项标准"及划分"三个地带;"三是建立禁毒工作竞争机制;四是加强禁毒执法官员的职业培训;五是加强立法;六是加大对毒品危害的宣传力度;七是重视禁吸戒毒工作;八是加强国际交流与合作。
莫源源
关键词:毒品
基于深度主动学习的柬语单文档抽取式摘要方法
2021年
深层神经网络在文档摘要方面取得了很好的效果,其优势只有在大数据集下才能显示出来。为了解决在使用深度学习做柬语单文档抽取式摘要时语料标注不足的问题,提出一种将主动学习和深度学习相结合的方法。利用主动学习抽样策略选择出定量的文档,通过专家标注,结合深度学习中编码器解码器模型进行训练模型抽取得到摘要。实验结果表明,在训练语料显著标注不足的情况下,该方法能够有效地提升柬语单文档摘要的质量。
余兵兵严馨周枫徐广义莫源源
基于HDP的主题词向量构造——以柬语为例
2020年
针对单一词向量中存在的一词多义和一义多词的问题,以柬语为例提出了一种基于HDP主题模型的主题词向量的构造方法。在单一词向量基础上融入了主题信息,首先通过HDP主题模型得到单词主题标签,然后将其视为伪单词与单词一起输入Skip-Gram模型,同时训练出主题向量和词向量,最后将文本主题信息的主题向量与单词训练后得到的词向量进行级联,获得文本中每个词的主题词向量。与未融入主题信息的词向量模型相比,该方法在单词相似度和文本分类方面均取得了更好的效果,获取的主题词向量具有更多的语义信息。
李超李超严馨徐广义谢俊莫源源
词汇空缺的跨文化填补研究——以柬文版《三国故事》中官制词汇为例被引量:1
2017年
词汇空缺普遍存在于不同的语言中,由此导致的概念缺失和语义域错配给语言或文本互译带来了一定的难度。文章试图从认知的角度,在跨文化视角下对柬文译本《三国故事》译文里中柬两国官制词汇空缺现象进行比较分析,具体探讨词汇空缺在跨文化翻译中的填补策略。
黄瑜莫源源
关键词:《三国演义》词汇空缺跨文化
基于深度半监督的柬语句子级情感分类
2021年
针对柬语标注数据较少、语料稀缺,柬语句子级情感分析任务进步缓慢的问题,提出了一种基于深度半监督CNN(convolutional neural networks)的柬语句子级情感极性分类方法。该方法通过融合词典嵌入的分开卷积CNN模型,利用少量已有的柬语情感词典资源提升句子级情感分类任务性能。首先构建柬语句子词嵌入和词典嵌入,通过使用不同的卷积核对两部分嵌入分别进行卷积,将已有情感词典信息融入到CNN模型中去,经过最大延时池化得到最大输出特征,把两部分最大输出特征拼接后作为全连接层输入;然后通过结合半监督学习方法——时序组合模型,训练提出的深度神经网络模型,利用标注与未标注语料训练,降低对标注语料的需求,进一步提升模型情感分类的准确性。结果证明,通过半监督方法时序组合模型训练,在人工标记数据相同的情况下,该方法相较于监督方法在柬语句子级情感分类任务上准确率提升了3.89%。
李超李超严馨莫源源莫源源
关键词:卷积神经网络
共1页<1>
聚类工具0