杨雅婷
- 作品数:95 被引量:110H指数:5
- 供职机构:中国科学院新疆理化技术研究所更多>>
- 发文基金:中国科学院西部之光基金国家自然科学基金中国科学院西部行动计划项目更多>>
- 相关领域:自动化与计算机技术语言文字电子电信文化科学更多>>
- 维-汉统计机器翻译中维吾尔语预处理研究被引量:3
- 2014年
- 为有效降低维-汉统计机器翻译中语料质量对翻译质量的影响,对维吾尔语文本预处理技术进行研究,结合维吾尔语文本语料的语言特征和多样性,提出基于语法规则和词法规则结合的维吾尔语文本预处理方法。在对维吾尔语文本中的语义单元、对偶词和标点符号进行特征分析的基础上,导出维吾尔语文本词例化和标点符号规范化的规则和处理流程。实验结果表明,该研究有效降低了词对齐阶段的单词数量、缓解了数据稀疏,提高了翻译质量。
- 艾孜孜.吐尔逊杨雅婷吐尔洪.吾司曼周俊林李晓
- 关键词:维吾尔语单词标点符号
- 基于词缀的维吾尔谚语识别关键技术研究
- 2018年
- 在自然语言理解、机器翻译、舆情分析等自然语言处理领域中,维吾尔谚语识别是整个文本实体识别的重要组成部分。为满足维吾尔谚语信息化的需求,本文构建了比较完善的维吾尔谚语语料库。同时,从传统语言学角度对维吾尔谚语的语法、语义结构进行分析,构建了一个由维吾尔谚语功能语类(词缀)组成的、专属维吾尔谚语规则的知识库,并将此知识库与自然语言处理技术相结合,实现一个既能够从文本中识别出维吾尔谚语,又能提供维汉互译等功能的信息软件系统。该系统也为开展计算机理解与处理维吾尔文字奠定了一个崭新的基础。
- 穆妮热.穆合塔尔李晓杨雅婷杨雅婷周喜
- 关键词:维吾尔谚语
- 基于汉语关键词的维吾尔语关键词生成方法、装置、电子设备及存储介质
- 本发明公开了一种基于汉语关键词的维吾尔语关键词生成方法、装置、电子设备及存储介质,涉及信息处理领域,尤其涉及文本过滤、内容监管领域。具体实现方案为:利用汉维双语将汉语关键词翻译为维吾尔语关键词;对获得的维吾尔语关键词进行...
- 杨雅婷艾孜麦提·艾尼瓦尔董瑞马博王磊周喜
- 文献传递
- 基于短语汉维机器翻译解码的研究及实现被引量:3
- 2019年
- 针对汉、维翻译中维语形态变化复杂、汉维语句法结构不同等造成的解码局限性问题,将解码中语言模型的评分调整为重点考虑短语衔接处的单词串的得分,引入词向量进行短语相似度计算,利用词向量将单词间隐含的语义关系加入到解码评分;调整解码的调序距离限制方法,设计一个限制解码中短语扩展的方法,使解码的调序更符合汉维翻译的实际;在此基础上,按优化的方案实现解码器。实验结果表明,优化能使译文BLEU值在基线方案基础上提升3.46,最终方案解码器的译文BLEU值为29.18。
- 杨世勤王磊杨雅婷杨雅婷
- 关键词:解码语言模型
- 一种基于胶囊网络的多语言情感分类方法、装置、设备及存储介质
- 本发明公开了一种基于胶囊网络的多语言情感分类方法、装置、设备及存储介质,该方法包括:获取多种语言的源语言文本,得到不同文本的语料集合;分别将不同文本的语料集合输入产生词向量的Glove模型中,提取源语言的语义特征,得到多...
- 杨雅婷罗涵天马博董瑞王磊周喜
- 文献传递
- 基于印刷体监督的手写维文识别方法
- 2024年
- 手写维吾尔文字图像数据集匮乏及手写文本难于分割识别问题,提出了一种基于印刷体监督的手写维文识别模型模型将文字和印刷体文字图片同时作为标签,在训练时将两种文字图像并行输入到CNN中提取特征,而后将特征分别输入至识别分支进行识别任务、输入至匹配分支进行图片匹配任务,预测时将特征输入到BiLSTM编码器中得到序列特征,最后通过CTC得到识别结果。所提方法可生成充裕有效的手写文字图像,且在真实手写维文测试集上相较于基准模型CER降低5.03%,在IAM上也证明了模型迁移性。实验结果表明,提出的方法能够有效缓解手写维文文字图像数据集匮乏问题,模型能充分挖掘印刷体文字图像的特征作为手写体文字识别的监督信息来提高识别效果。
- 闫林王磊艾孜麦提·艾尼瓦尔杨雅婷
- 关键词:卷积神经网络
- 基于粘着性模糊规则的维汉机器翻译最大熵调序研究被引量:2
- 2013年
- 针对维汉机器翻译中未登录词和译文乱序问题严重的现象,结合维吾尔语粘着性语言特点以及最大熵分类算法,提出了一种基于粘着性模糊规则的维汉机器翻译最大熵调序模型。该模型以最大熵模型为基础,在维吾尔语词级别构建粘着性规则约束,从训练语料中提取更加有效的调序规则来指导翻译解码过程。实验证明,与当前主要MSD(mono、swap、discontinuous)等调序方法相比,该方法较好地体现了维吾尔语的粘着性特点,提高了译文质量。
- 陈科海周喜杨雅婷米成刚
- 关键词:形态学粘着性模糊规则最大熵
- 基于多尺度风格自适应的手写维文识别模型
- 2024年
- 基于字符形态与书写风格的强关联性,提出一种多尺度风格自适应的手写维文识别模型,模型从浅层笔划到深层序列建模多尺度风格特征,提高对手写风格的自适应能力。针对手写维文特点改进Transformer提取多尺度笔划特征;构建多尺度风格自适应模块提取序列特征;构建特征泛化融合模块对笔划特征和序列特征进行深度融合,提升识别效果。实验结果表明,该模型在真实手写维文测试集WER、CER分别下降3.75%、0.19%,在IAM数据集中验证了模型迁移性。
- 闫林王磊艾孜麦提·艾尼瓦尔杨雅婷杨雅婷
- 关键词:多尺度
- 结构化数据语义表征方法、装置、设备及介质
- 本公开提供了一种结构化数据语义表征方法,可应用于自然语言处理、结构化数据语义表征和大模型技术领域。该方法包括以下步骤:将结构化数据输入目标结构语义表征模型;使用基于图神经网络的结构特征提取器对结构化数据中的结构信息进行编...
- 周喜杨奉毅杨雅婷马博王磊艾比布拉·阿塔伍拉毕然蒋同海
- 基于字符串相似度的维吾尔语中汉语借词识别被引量:6
- 2013年
- 维汉机器翻译过程中会出现较多的未登录词,这些未登录词一部分属于借词(人名、地名等)。该文提出一种新颖的根据借词与原语言词发音相似这一特性进行维吾尔语中汉语借词识别的方法。该方法对已有语料进行训练,得到面向维吾尔语中汉语借词识别的维吾尔语拉丁化规则;根据以上规则对维吾尔语拉丁化,并对汉语词进行拼音化,将借词发音相似转换为字符串相似这一易量化标准;提出了位置相关的最小编辑距离模型、加权公共子序列模型以及二者的带参数融合模型。实验结果表明,综合考虑字符串全局相似性和局部相似性的带参数融合模型取得了最佳的识别效果。
- 米成刚杨雅婷周喜李晓杨明忠
- 关键词:借词未登录词字符串相似度