国家自然科学基金(61363063) 作品数:11 被引量:66 H指数:6 相关作者: 吾守尔·斯拉木 杨文忠 帕丽旦·木合塔尔 热依曼·吐尔逊 努尔麦麦提·尤鲁瓦斯 更多>> 相关机构: 新疆大学 伊犁师范学院 科大讯飞股份有限公司 更多>> 发文基金: 国家自然科学基金 国家重点基础研究发展计划 新疆维吾尔自治区重点实验室开放课题基金 更多>> 相关领域: 自动化与计算机技术 电子电信 更多>>
基于迁移学习的维吾尔语命名实体识别 被引量:10 2020年 针对维吾尔语命名实体识别存在无法关注词序列依赖关系等问题,提出一种基于迁移学习的联合深度模型(TBIBC).首先通过BERT(Bidirectional Encoder Representations from Transformers)预训练中文数据集生成具有语义信息的词向量,再将词向量序列通过空洞卷积神经网络(IDCNN)进行膨胀操作以减少神经元层数和参数,输出向量输入到双向门控循环单元(BiGRU)进行上下文语义信息提取,然后通过CRF层得到最优标签序列.模型采用共享深度神经网络隐藏层的方法将训练好的中文实体识别模型迁移到维吾尔语模型上.结果表明,该模型的准确率为91.39%,召回率为90.11%,F 1值达到90.75%,能显著提升维吾尔语命名实体识别性能. 孔祥鹏 吾守尔·斯拉木 杨启萌 李哲基于短语模式的维吾尔文情感分类研究 由于现有的大部分维吾尔文情感分类方法通过空格分词得到的unigram特征作为文本表示,因此无法挖掘情感表达中的深层语言现象。本文首先构建了15万条维吾尔文评论情感语料库,其次分析评论文本的语言特征,总结了情感短语词性组合... 热西旦木·吐尔洪太 吾守尔·斯拉木 阿不都萨拉木·达吾提关键词:情感分类 维吾尔文 文献传递 基于CMN网络的低资源柯尔克孜语识别研究 被引量:3 2018年 少数民族语言进行语音识别时存在训练数据稀疏导致识别率低的问题。该文在对低资源的柯尔克孜语识别时,提出一种CMN网络构建跨语种声学模型。CMN网络模型利用CNN的局部采样和权值共享技术减少网络参数,并采用maxout神经元替换CNN的卷积核提高网络抽象特征提取能力。跨语种的CMN首先用资源相对丰富的维吾尔语进行预训练,为防止过拟合使用dropout正则化训练方法,并根据两种语言的相似性创建基于同义词强制对齐的音素映射集,然后标注待识别的柯尔克孜语数据,最后用有限的目标语语料对CMN网络参数进行微调。实验结果表明,所提CMN声学模型较基线CNN声学模型字错误率(WER)有8.3%的降低。 孙杰 吾守尔.斯拉木 热依曼.吐尔逊关键词:语音识别 柯尔克孜语 CMN 维吾尔语语音检索技术研究 被引量:3 2014年 随着大数据时代的到来,各种音频、视频文件日益增多,如何高效地定位关键敏感信息具有非常重要的研究意义。目前研究人员对针对英语和汉语的语音检索技术进行了深入的研究,而针对维吾尔语的语音检索技术还处于起步阶段。该文对维吾尔语语音关键词检索技术进行了研究并采用了大词汇量连续语音识别、利用聚类算法将多候选词图转换为混淆网络、倒排索引、置信度以及相关度的计算等技术和方法,对维吾尔语语音检索系统进行了研究与搭建。最后在测试集上对该系统进行测试,测试结果显示,在语音识别正确率为82.1%的情况下,检索系统的召回率分别达到97.0%和79.1%时,虚警率分别为13.5%和8.5%。 张力文 努尔麦麦提.尤鲁瓦斯 吾守尔.斯拉木关键词:维吾尔语 语音检索 语音识别 词图 混淆网络 倒排索引 基于LDA与深度神经网络的维吾尔文情感分类 被引量:6 2019年 针对维吾尔论坛文本具有稀疏性、主题不明确性、不规范性等问题,并考虑到普通神经网络只将词粒度层面的词向量作为输入,忽略语义粒度层面的全局语义特征的表示,而导致文档特征表示不充分的现象.提出一种基于主题联合词向量的多通道卷积神经网络的情感分类方法.方法结合word2Vec和LDA模型生成主题特征矩阵,获取语义粒度层面特征信息,以丰富卷积网络的池化层特征,从而提高了情感分类的准确率.在维吾尔文情感二分类和五分类数据集上的实验结果表明,提出的模型相比于传统机器学习方法取得了更好的情感分类性能. 买买提阿依甫 吾守尔·斯拉木 帕丽旦·木合塔尔 杨文忠关键词:情感分类 维吾尔语 基于混合模型的维吾尔文词性标注方法 被引量:6 2019年 维吾尔语词性标注是词法分析中的重要任务之一,其标注结果的准确性直接影响到自然语言处理的后续工作。维吾尔语词性标注的难点是如何正确判断兼类词和未登录词的词性。提出了基于BiLSTM-CNN-CRF的混合模型进行维吾尔语词性标注。上述模型采用三层结构,先用CNN网络框架训练出维吾尔文单词的字符级形态特征向量,其次用skip-gram方法对大规模语料进行训练生成具有语义信息的低维度稠密实数词向量,然后将字符级特征向量和词向量拼接的组合向量作为BiLSTM-CRF深层神经网络的输入向量进行训练,构建适合维吾尔语词性标注的BiLSTM-CNN-CRF混合神经网络模型。实验结果显示,新的神经网络混合模型的词性标注准确率在实验室提供的数据集上达到了最好的标注结果,F1值达到了97.01%,对维吾尔语兼类词及未登录词标注有明显的提高。 帕丽旦.木合塔尔 吾守尔.斯拉木 买买提阿依甫关键词:递归神经网络 条件随机场 词性标注 基于BiLSTM-CNN-CRF模型的维吾尔文命名实体识别 被引量:22 2018年 为在缺乏资源和不依赖人工特征的情况下提高维吾尔文命名实体的识别性能,构建基于BiLSTM-CNNCRF的神经网络模型。采用卷积神经网络训练具有维吾尔文单词的后缀、前缀等形态特征的字符向量,利用skipgram模型对大规模语料进行训练,生成具有语义信息的低维度稠密实数词向量。在此基础上,将字符向量、词性向量和词向量拼接的向量作为输入,构建适合维吾尔文命名实体识别的BiLSTM-CRF深层神经网络。实验结果表明,该模型能够解决命名实体的自动识别问题,具有较强的鲁棒性,F1值达到91.89%。 买买提阿依甫 吾守尔.斯拉木 帕丽旦.木合塔尔 杨文忠关键词:递归神经网络 条件随机场 维吾尔文 命名实体识别 关于维吾尔语口语语料的三音子选取方法研究 被引量:1 2015年 在大词汇量连续语音识别应用中,优质的语音训练语料是所有识别工作的基础和前提,能否挑选出覆盖更多语音现象的语料是提高语音识别性能的关键。该文在多种维吾尔文口语化传播平台中采集了大量口语句子语料,并考虑协同发音的影响和常用词的适用性,根据评估函数对语料筛选。经过筛选后的语料包含的三音子更加均衡和高效,囊括的语音现象更加全面,为训练准确而牢靠的语音模型打下了稳固的根基。 徐宝龙 努尔麦麦提.尤鲁瓦斯 吾守尔.斯拉木关键词:维吾尔语 语音识别 语料库 三音子 基于多特征和深度神经网络的维吾尔文情感分类 被引量:2 2020年 针对传统机器学习的情感分类方法存在长距离依赖问题与深度学习存在忽略情感词库的弊端,提出了一种基于注意力机制与双向长短记忆网络和卷积神经网络模型相结合的维吾尔文情感分类方法。将多特征拼接向量作为双向长短记忆网络的输入来捕获文本上下文信息,使用注意力机制和卷积网络获取文本隐藏情感特征信息,有效增强了对文本情感语义的捕获能力。实验结果表明,该方法在二分类和五分类情感数据集上的F1值相比于机器学习方法分别提高了5.59%和7.73%。 买买提阿依甫 吾守尔·斯拉木 艾斯卡尔·艾木都拉 杨文忠 帕丽旦·木合塔尔关键词:情感分类 卷积神经网络 维吾尔语 词典与机器学习方法相结合的维吾尔语文本情感分析 被引量:11 2017年 随着互联网整体水平的提高,大量基于维吾尔文的网络信息不断建立,引起了对不同领域的信息进行情感倾向性分析的迫切需要。该文考虑到维吾尔文没有足够的情感训练语料和完整的情感词典,结合机器学习方法和词典方法的优点,构建一个分类器模型LCUSCM(Lexicon-based and Corpus-based Uyghur Text Sentiment Classification Model),先用自己构建的维吾尔文情感词典对语料进行高质量的情感分类,分类过程中对词典进行递归扩充,再根据每条句子的情感得分,从词典分类的结果中选择一部分语料来训练一个分类器并改进第一步的分类结果。此方法的正确率比单独使用机器学习方法提高了9.13%,比词典方法提高了1.82%。 热西旦木.吐尔洪太 吾守尔.斯拉木 伊尔夏提.吐尔贡关键词:维吾尔文 情感词典 情感分析