艾山吾买尔
- 作品数:45 被引量:205H指数:9
- 供职机构:新疆大学信息科学与工程学院更多>>
- 发文基金:国家自然科学基金国家重点基础研究发展计划国家社会科学基金更多>>
- 相关领域:自动化与计算机技术电子电信自然科学总论文化科学更多>>
- 基于CRF和半监督学习的维吾尔文命名实体识别被引量:13
- 2018年
- 目前,维吾尔文命名实体识别研究主要集中在单类实体,且没有引入半监督学习方法,从而无法利用未标注语料的无监督语义和结构信息。该文以条件随机场为基本框架,提出了一种基于半监督学习的维吾尔文命名实体识别方法。通过引入词法特征、词典特征、以及基于词向量的无监督学习特征,对比不同特征对识别的影响,并对模型进行优化。实验表明,CRF模型融合多种特征时维吾尔文命名实体识别的F值达到87.43%,说明词法特征和无监督学习特征的有机结合,可以大大减少人工选取特征的工作量,同时也可提高维吾尔文命名实体识别的性能;CRF模型相比于神经网络模型,更适合用于实际应用中。
- 王路路王路路艾山吾买尔卡哈尔江.阿比的热西提吐尔根.依布拉音
- 关键词:条件随机场半监督学习
- 统计机器翻译中汉维短语对抽取的研究被引量:4
- 2010年
- 双语短语对抽取是基于短语的统计机器翻译中短语翻译模型训练的关键步骤,但由于汉维平行语料库规模有限,数据稀疏问题严重.本文提出了一种改进的短语抽取算法,该算法首先考虑词对齐矩阵中一个汉语词对齐到多个维吾尔语词的情况(包括不连续),然后利用Och方法抽取短语对,最后考虑维吾尔语SOV语序结构特点,抽取双语短语.实验表明,该算法能够较准确地且尽可能多地抽取汉维短语对,从而提高翻译模型的质量.
- 任高举吐尔根.伊布拉音艾山吾买尔
- 关键词:统计机器翻译短语抽取
- 基于类别分布差异和特征熵的维吾尔语文本特征选择被引量:5
- 2013年
- 文本特征选择是在文本自动分类中最重要的一个环节。为了更好地解决维吾尔文文本分类中特征空间的高维性和文档表示向量的稀疏性问题,提出一种基于特征的类别分布差异和信息熵的维吾尔文文本特征选择方法。该方法不仅要考虑特征在类别间的分布情况,而且也要考虑特征在类别内的分布情况。采用本方法对维吾尔文文本语料进行了分类实验,并与一些传统的特征选择方法进行了比较。从结果来看,本方法在所选特征数更少的情况下,达到了比其他方法更高的分类MacroF1值85.3%,比传统的IG和CHI等方法在MacroF1值上分别高出了4.3%和6.1%。
- 阿力木江.艾沙阿力木江艾沙库尔班.吾布力瓦依提.阿不力孜艾山.吾买尔
- 关键词:文本分类支持向量机维吾尔语
- 基于短语的统计机器翻译中汉维短语对抽取算法改进
- 2010年
- 提出一种改进的短语抽取算法,该算法首先考虑词对齐矩阵中一个汉语词对齐到多个维语词的情况(包括不连续),然后采用Och方法进行判断。如果满足条件则进行短语抽取。试验结果表明,改进后的短语抽取算法能够抽取出更多汉维短语对,提高短语翻译对抽取的效果。
- 任高举吐尔根.伊布拉音艾山吾买尔
- 关键词:短语抽取翻译模型
- 基于双向LSTM的维吾尔语事件因果关系抽取被引量:16
- 2018年
- 针对传统方法不能有效抽取维吾尔语事件因果关系的问题,该文提出一种基于双向LSTM(Bidirectional Long Short-Term Memory,Bi LSTM)的维吾尔语事件因果关系抽取方法。通过对维吾尔语语言以及事件因果关系特点的研究,提取出10项基于事件内部结构信息的特征;同时为充分利用事件语义信息,引入词嵌入作为Bi LSTM的输入,提取事件句隐含的深层语义特征并利用批样规范化(Batch Normalization,BN)算法加速Bi LSTM的收敛;最后融合这两类特征作为softmax分类器的输入进而完成维吾尔语事件因果关系抽取。实验结果表明,该方法用于维吾尔语事件因果关系的抽取准确率为89.19%,召回率为83.19%,F值为86.09%,证明了该文提出的方法在维吾尔语事件因果关系抽取上的有效性。
- 田生伟周兴发禹龙冯冠军艾山吾买尔李圃
- 关键词:语言信号处理维吾尔语
- 面向少数民族的C语言实践教学方法研究
- 2015年
- 新疆经济社会发展需要信息工程技术人才。由于少数民族学生水平差异较大,在C语言教学需要更为符合学习情况的教学方法。该文通过对少数民族学生在C语言教学遇到的问题进行研究,强调了开设计算机导论和专业汉语和英语课程的重要性,提出了面向多语种信息处理技术的实践教学方法以及多样化的考核制度,期望能以此提高少数民族学生的实践能力和创新能力。
- 努尔麦麦提.尤鲁瓦斯艾山吾买尔
- 关键词:少数民族C语言实践教学
- 实例统计翻译混合策略的汉民病历翻译的研究被引量:3
- 2015年
- 针对民族地区不同语言民族患者看病求医中汉文处方理解难、病历及药物信息不易读懂等问题,本文研讨基于实例及基于短语的统计机器翻译混合策略的汉民电子病历、门诊处方及药物信息等医疗卫生用文机器翻译方法,试图实现高精度保质量的医药文翻译系统,提升民族地区公共卫生服务水平.本次汉-维门诊处方文本翻译试验结果BLUE值显示,本文提出方法比单一翻译方法(如实例或者统计翻译)显著提高了译文质量.
- 达瓦.伊德木草艾山吾买尔
- 关键词:机器翻译
- 统计与规则相结合的维吾尔语句子边界识别被引量:7
- 2010年
- 句子边界识别是词性标注和句法分析等自然语言处理系统的基础问题。提出了一种统计与规则相结合的维吾尔语句子边界识别方法,首先利用歧义段落分类算法分类段落,第二步对无歧义段落进行基于规则的句子边界识别,最后使用最大熵模型对有歧义段落进行句子边界识别。该方法有效利用规则弥补最大熵模型因数据稀疏而误判不存在任何歧义情况的不足,使用最大熵模型有效地消除歧义,提高算法的鲁棒性,召回率达到了98.77%。
- 艾山吾买尔吐尔根.依步拉音
- 关键词:维吾尔文句子边界识别最大熵
- 维吾尔语形态复杂词汇的神经表征和处理机制研究——以心理语言学研究结论为证据被引量:2
- 2015年
- 通过心理语言学的词汇判断实验范式来研究维吾尔语屈折词和派生词在大脑心理词典中的表征及存储形式。实验一是维吾尔语屈折词的表征及加工研究,实验二是维吾尔语派生词的表征及加工研究。实验一的行为实验结果揭示人脑加工维吾尔语屈折词时需要对它进行形态分析。实验二的行为数据却显示派生词和单语素词的加工过程是相同的。本文实验结果显示维吾尔语派生词、屈折词的加工形式是彼此独立和不同的过程,维吾尔语屈折词是分解加工,而派生词进行整体加工。
- 阿布都克力木.阿布力孜江铭虎姚登峰哈里旦木.阿布都克里木艾山吾买尔
- 关键词:派生词维吾尔语
- 一种维吾尔语句子相似度算法的研究被引量:10
- 2009年
- 基于实例的机器翻译是一种重要的机器翻译技术,句子相似度的衡量是基于实例机器翻译研究中最重要的一个内容。对于基于实例的维吾尔语机器翻译研究,维吾尔语句子相似度衡量的准确性,直接影响到最后翻译结果的输出。提出了一种维吾尔语句子相似度的计算方法,采用的基于词形特征的粗选算法、散列单词倒排索引能够有效提高算法的查找速度,快速从语料库中筛选出候选句子集合;多策略精选算法中采用基于维吾尔语词频的单词区分度算法、连续单词序列抽取算法,可以有效衡量两个维吾尔语句子的相似程度,实验结果证明算法是有效的。
- 田生伟吐尔根.依布拉音禹龙买合木提.木合买提艾山吾买尔
- 关键词:机器翻译