教育部“春晖计划”(Z2012093)
- 作品数:10 被引量:34H指数:5
- 相关作者:才智杰才让卓玛李永明孙茂松柔特更多>>
- 相关机构:青海师范大学教育部陕西师范大学更多>>
- 发文基金:教育部“春晖计划”国家自然科学基金国家社会科学基金更多>>
- 相关领域:自动化与计算机技术语言文字更多>>
- 一种多基元联合训练的藏文词向量表示方法被引量:3
- 2020年
- 词向量表示是机器学习的基础性工作,其目标是以优化的向量表示词,以便计算机能更好地理解自然语言。随着神经网络技术的发展,词向量在自然语言处理领域发挥着重要作用。藏文词向量表示技术的研究对藏文特征分析以及用深度学习技术处理藏文具有重要意义。该文提出了一种构件、字和词多基元联合训练的藏文词向量表示方法,设计了多基元联合训练藏文词向量的模型TCCWE,并采用内部评测中的词相似度/相关性评价方式验证了其有效性。实验表明,该文提出的藏文词向量表示方法有效,其性能在TWordSim215上提高了3.35%,在TWordRel215上提高了4.36%。
- 才智杰才让卓玛才让卓玛
- 关键词:自然语言处理藏文
- 基于WordNet的藏文语义词典半自动构建方法研究被引量:3
- 2014年
- 语义词典是人工智能、语义网与知识工程等研究领域的热点,它可以支持机器学习、自然语义理解、数据挖掘及机器翻译等技术。文章在藏语独特的文法理论研究基础上,利用对比英文和藏文词之间的语义关系、构建双语大型数据库和制定映射过程中词汇空缺等方法,构建了基于半自动匹配的藏文语义词典。本语义词典既兼容了国际通用的英文WordNet,又保留了藏语的特点,为藏文信息处理提供了重要的数据资源。
- 柔特
- 关键词:半自动WORDNET
- 藏文字符的向量模型及构件特征分析被引量:6
- 2016年
- 藏文字属性分析是藏文信息处理的一项基础性工作,对藏文信息处理的研究和藏语文教学具有重要的参考价值及指导意义。藏文字是一种特殊的拼音文字,由1~7个基本构件横向和纵向拼接而成。因而藏文字符的属性包括其组成的构件及其构件的位置特征,以及藏文字的使用频度、结构、字长等属性特征。该文通过分析藏文字的结构,分别建立了藏文字及藏文字符串的向量模型VMTT、VMTS和藏文字符串的稀疏域模型SLM,并在向量模型和稀疏域模型上研究了藏文字符的构件特征。
- 才智杰才让卓玛
- 关键词:中文信息处理向量模型
- 基于词性约束的藏文分词策略与算法被引量:5
- 2020年
- 自动分词作为自然语言处理基础性的研究课题,一直被学术界所关注,随着藏语自然语言处理技术研究的不断深入,藏文分词也面临越来越多的挑战。该文通过分析藏文自动分词研究现状,提出基于词性约束的藏文分词策略与算法。相对于传统方法,该方法不仅能有效地预防和处理各类歧义现象,而且在藏文未登录词处理方面有较好表现。
- 才让卓玛才智杰
- 关键词:分词词性未登录词歧义
- 藏语语音合成单元选择被引量:5
- 2015年
- 基于语料库的语音合成是国内外应用广泛的语音合成方法.在这种合成方法中,单元选择是语音合成的关键.通过分析藏语言文字的属性特征,设计了藏语语音合成系统模型,提出以构件、组合构件、字、词及句单元相融合的藏语语音合成方法,有效地保留了语音合成中大单元的完整性和小单元的灵活性与鲁棒性.同时,给出语音合成的单元选择策略与算法.实验数据表明:该策略与算法是有效和合理的,所选择的单元在封闭语料和开放语料上的覆盖率均达到预期目标.
- 才让卓玛李永明才智杰
- 关键词:音素
- 基于混合策略的藏文虚词识别方法
- 2019年
- 藏文虚词在歧义消解、句法、句型和语义处理等方面起着重要的语法作用。该文在分析传统藏文虚词研究成果的基础上,统计了面向自然语言处理的藏文虚词及特征,提出了基于规则和最大熵模型相结合的藏文虚词识别策略。实验表明,该方法识别藏文虚词的准确率、召回率和F1值分别达98.39%、98.75%、98.57%。
- 拉玛扎西才智杰班玛宝
- 关键词:自然语言处理最大熵模型
- 藏文词向量相似度和相关性评测集构建被引量:5
- 2019年
- 词向量评测是词向量研究的基础,包括内部评测(intrinsic evaluation)和外部评测(extrinsic evaluations)。外部评测是将得到的词向量应用到具体某个任务中进行评测,是词向量研究的目标。内部评测是通过建立词之间的语义相似度或相关性能力的评测集,评价词向量模型的性能,是一种常用的词向量评测方式。该文通过分析英文、汉文词向量评测集构建方法,结合藏文的特点,研究藏文词向量评测集构建方法,构建了用于评价藏文词向量相似度和相关性的评测集TWordSim215和TWordRel215,并分析其有效性。
- 才智杰孙茂松孙茂松
- 关键词:自然语言处理藏文
- 基于Mealy机的藏文字构件分解被引量:5
- 2015年
- 藏文字构件分解是藏文信息处理的基础,具有重要的理论价值和广阔的应用前景.针对藏文字构件的复杂性与多样性,文章通过分析现代藏文字的构字规则和结构特点,研究了藏文字构件的分解过程,利用Mealy机的输出字符与移动一一对应的特性描述了藏文字构件的行为语义,给出了对于任意字符串能否被Mealy机分解的判定定理及基于Mealy机的藏文字构件分解算法,并设计实现了基于Mealy机的藏文字构件分解系统,验证了算法的可行性.
- 才让卓玛李永明才智杰
- 关键词:藏文信息处理MEALY机
- 藏文字形结构分布研究被引量:6
- 2016年
- 字是语言文字的基本组成单位,字形结构统计研究是自然语言处理的基础,为字属性分析、输入法设计、排序、语音合成和字符信息熵研究等提供理论依据。该文通过分析藏文字形结构的特征,对藏文字的字形结构分成独体字和合体字,合体字按其构件的结构位和所含构件数进行分类。设计了藏文字形结构统计系统模型和算法,从约含8 500万藏文字的450M语料中对藏文字形结构进行统计,建立了藏文字形结构分布统计表,并对统计结果进行了分析。
- 才智杰才让卓玛
- 关键词:中文信息处理字形结构独体字合体字
- 一种基于TC_LSTM的藏文词拼写检查方法被引量:5
- 2020年
- 拼写检查能够快速检测文本错误,提高文本校对效率,在语料库建设、文本编辑、语音和文字识别等诸多方面具有广阔的应用前景。该文在分析藏文拼写检查技术和语言模型的基础上,以藏文词拼写检查为目标,选用具有长远距离记忆功能的LSTM建立TC_LSTM语言模型,设计基于TC_LSTM的藏文词拼写检查算法。经测试,基于TC_LSTM语言模型的藏文词拼写检查取得了较好的效果。
- 华旦扎西才智杰班玛宝
- 关键词:自然语言处理拼写检查