龙从军
- 作品数:47 被引量:124H指数:7
- 供职机构:中国社会科学院民族学与人类学研究所更多>>
- 发文基金:国家自然科学基金国家社会科学基金中国社会科学院创新工程项目更多>>
- 相关领域:自动化与计算机技术语言文字文化科学电子电信更多>>
- 我国民族语言数据和语言知识服务的理念及实现途径
- 2024年
- 民族语言数据和语言知识服务在人文社会研究、民族传统科技、文化保护传承以及中华文化基因探索方面发挥着重要作用。本文以民族语言数据与知识服务为出发点,构建了面向民族语言文化研究的专业数据资源和系列知识库。利用数字人文技术把民族语言学界的重要文献数据进行数字化处理,利用知识图谱技术把各领域知识关联起来,形成文献检索和知识服务平台,按照民族语言词典类、语言简志类、濒危语言类、语法标注类、参考语法类、论文类和其他类收录数据,文献数据库收入文献150多部,关联各民族语言中的语法范畴概念200多个,并对格范畴知识关联结果进行了分析。初步研究发现,民族语言数据的准确性、一致性和规范性值得关注;我国民族语言类型十分丰富,语言的多样性承载了文化的多样性,语言知识的关联性揭示了各民族语言文化之间的共性和差异,启发研究者对民族语言间的亲属关系和文化互鉴进行思考和探索。
- 龙从军
- 关键词:语言知识格范畴知识服务
- 深度学习在汉藏机器翻译中的应用研究
- 该文将深度学习技术应用于汉藏机器翻译任务中,采用了编码器-解码器结构.在编码阶段,首先将汉语句子中的每个词映射为定长的词向量,并通过循环神经网络压缩整个句子的全部信息.在解码过程中引入注意机制,使得解码器更集中的去注意当...
- 李博涵刘汇丹龙从军吴健
- 关键词:机器翻译
- 基于错误驱动学习策略的藏语句法功能组块边界识别被引量:7
- 2014年
- 藏语句法功能组块分析旨在识别出藏语句子的句法成分,为后续句子级深入分析提供支持。根据藏语的语言特点,该文在藏语句法功能组块描述体系基础上,提出基于错误驱动学习策略的藏语功能组块边界识别方法。具体思路为,首先基于条件随机场(Conditional Random Fields,CRFs)识别组块,然后分别基于转换规则的错误驱动学习(Transformation-based Error-driven Learning,TBL)及基于新特征模板的CRFs错误驱动学习进行二次识别,并对初次结果进行校正,F值分别提高了1.65%、8.36%。最后通过实验分析,进一步将两种错误驱动学习机制融合,在18 073词级的藏语语料上开展实验,识别性能进一步提高,准确率、召回率与F值分别达到94.1%、94.76%与94.43%,充分验证了本文提出方法的有效性。
- 王天航史树敏龙从军黄河燕李琳
- 关键词:CRFSTBL
- 基于多策略的藏语语义角色标注研究被引量:3
- 2014年
- 语义角色标注研究对自然语言处理具有十分重要的意义。英汉语语义角色标注研究已经获得了很多成果。然而藏语语义角色标注研究不管是资源建设,还是语义角色标注的技术探讨都鲜有报道。藏语具有比较丰富的句法标记,它们把一个句子天然地分割成功能不同的语义组块,而这些语义组块与语义角色之间存在一定的对应关系。根据这个特点,该文提出规则和统计相结合的、基于语义组块的语义角色标注策略。为了实现语义角色标注,文中首先对藏语语义角色进行分类,得到语义角色标注的分类体系;然后讨论标注规则的获得情况,包括手工编制初始规则集和采用错误驱动学习方法获得扩充规则集;统计技术上,选用了条件随机场模型,并添加了有效的语言特征,最终语义角色标注的结果准确率、召回率和F值分别达到82.78%、85.71%和83.91%。
- 龙从军康才畯李琳江荻
- 关键词:藏语语义角色标注TBLCRFS
- 汉—藏人名用字音译规则研究被引量:3
- 2018年
- 随着信息技术的发展,藏文在互联网上广泛使用,政府主办的报刊、杂志也逐渐有了网络版,大量的汉文材料被翻译成藏文。翻译者在音译汉文人名用字时,未能遵从统一的音译规范,导致同一人名存在多种音译形式。该文统计了五家藏文网站,发现一些公众人物的人名用字音译形式比较混乱,不但影响信息交流,而且不利于藏文自然语言处理。该文详细分析了音译混乱的原因,提出在汉—藏人名用字音译时,需要制定一一对应的音译原则;同时注重原则实践的可行性和一致性。翻译者在音译汉—藏人名用字时必须严格遵从音译原则;推行音译原则还需要依靠相关政府机构和部门。
- 龙从军豆格才让刘汇丹
- 藏语判断、存在动词识别策略被引量:2
- 2013年
- 判断动词与存在动词在藏语中使用频度高,兼类现象频繁,在不同语境下具有不同的含义。既可以表示判断、存在和领有意义,也可作为语法标记表达复杂的体貌、示证意义。判断、存在动词的多功能性给藏文文本分词标注、句型识别等工作带来较大的困难。借助藏语语法的研究成果和真实藏文文本,我们对这两类词的上下文语境进行了分析和归纳,进而提出了辨别这两类词的方法。首先,考察判断动词和存在动词在不同语境下的左右特征词;然后,建立了识别规则库,从肯定与否定两个方面判别其词性并标注。
- 李琳龙从军
- 关键词:藏语判断动词存在动词自动识别
- 基于条件随机场的藏文人名识别研究被引量:10
- 2015年
- 基于条件随机场模型在字粒度上识别并切分藏文人名,其优势是可以较好地利用藏文人名在文本中出现的基本特征和上下文特征来确定藏文人名在文本序列中的边界。根据藏文人名自身的特点设定特征标签集,利用条件随机场模型作为标注建模工具来进行训练和测试。从实验结果来看,该方法有较高的识别正确率,具有进一步研究的价值。下一步的改进需要扩充训练语料,并针对人名与一般词语同形现象进行特征标签集的优化。
- 康才畯龙从军江荻
- 关键词:条件随机场
- 现代藏语带助动词的谓语组块及其识别
- 本文在现代藏语组块分析的前提下,讨论带助动词的谓语组块中助动词的自动识别策略。文章首先介绍了藏语助动词的功能以及在各类句法结构中的分布特征,然后根据这些句法分布特征提出了助动词的基本识别算法以及识别中可利用的句法规则。
- 龙从军江荻
- 关键词:现代藏语助动词句法分布
- 文献传递
- 弛化:佤语松音节中的元音被引量:13
- 2009年
- 本文指出佤语中的"松—紧"元音属于不同的发声类型,紧元音是普通元音,松元音是弛化元音。弛化贯穿整个音节,它的声学特征主要表现在韵母元音上。文章以元音a、o、u、i为例,从不同的参数上讨论常态音节中的元音与弛化音节中的元音之间的差别。
- 朱晓农龙从军
- 关键词:元音音节声学特征韵母
- 基于深度学习的藏文分词方法被引量:17
- 2018年
- 重点研究将深度学习技术应用于藏文分词任务,采用多种深度神经网络模型,包括循环神经网络(RNN)、双向循环神经网络(Bi RNN)、层叠循环神经网络(Stacked RNN)、长短期记忆模型(LSTM)和编码器-标注器长短期记忆模型(Encoder-Labeler LSTM)。多种模型在以法律文本、政府公文、新闻为主的分词语料中进行实验,实验数据表明,编码器-标注器长短期记忆模型得到的分词结果最好,分词准确率可以达到92.96%,召回率为93.30%,F值为93.13%。
- 李博涵刘汇丹龙从军吴健
- 关键词:藏文分词循环神经网络