您的位置: 专家智库 > >

国家自然科学基金(61271389)

作品数:4 被引量:19H指数:2
相关作者:郑方王东艾斯卡尔·肉孜张陈昊张之勇更多>>
相关机构:清华大学新疆大学中国建设银行更多>>
发文基金:国家自然科学基金国家重点基础研究发展计划更多>>
相关领域:自动化与计算机技术电子电信更多>>

文献类型

  • 4篇期刊文章
  • 3篇会议论文

领域

  • 4篇电子电信
  • 3篇自动化与计算...

主题

  • 4篇说话人识别
  • 3篇语音
  • 3篇语音识别
  • 2篇音素
  • 2篇语速
  • 2篇数域
  • 2篇说话人确认
  • 2篇说话人确认系...
  • 2篇文本无关
  • 2篇鲁棒
  • 2篇鲁棒性
  • 2篇类模型
  • 2篇归一化
  • 2篇感知
  • 1篇语料
  • 1篇语料库
  • 1篇语音数据
  • 1篇语音数据库
  • 1篇数据库
  • 1篇维吾尔

机构

  • 7篇清华大学
  • 2篇太原理工大学
  • 2篇中国建设银行
  • 1篇新疆大学
  • 1篇奥克兰大学

作者

  • 5篇郑方
  • 3篇艾斯卡尔·肉...
  • 2篇龚宬
  • 2篇张陈昊
  • 2篇王东
  • 1篇尹聪
  • 1篇王琳琳
  • 1篇艾斯卡尔·艾...
  • 1篇王东
  • 1篇金磐石
  • 1篇张晓东
  • 1篇白静
  • 1篇殷实
  • 1篇张之勇

传媒

  • 4篇清华大学学报...
  • 1篇第十四届全国...

年份

  • 1篇2018
  • 2篇2017
  • 4篇2013
4 条 记 录,以下是 1-7
排序方式:
基于PLAR的说话人确认系统的噪音鲁棒性被引量:2
2013年
针对Mel频率倒谱系数(Mel frequency cepstralcoefficient,MFCC)特征的说话人确认系统在干净语音环境下具有很高识别率但在噪音环境下识别率急剧下降的缺点,构建了基于感知对数面积比系数(perceptual log area ratio,PLAR)特征的说话人确认系统,并对该系统的噪音鲁棒性进行研究。结果表明:PLAR特征具有较强的噪音鲁棒性。将PLAR与MFCC进行特征域和分数域的融合,利用两者之间存在着的互补性,可有效提高说话人确认系统的识别性能。
尹聪白静龚宬张陈昊郑方Waleed H.Abdulla
关键词:说话人确认鲁棒性
说话人识别中的分数域语速归一化研究
语速变化将导致语音频谱畸变,进而导致说话人识别系统性能显著下降。本文提出一种分数域归一化方法来降低语速变化对说话人识别系统的影响。在全局归一化算法中,不同语速语音的语音数据组成一个全局参考集合,对每一个登入的说话人估计该...
艾斯卡尔·肉孜王东李蓝天郑方张晓东金磐石
关键词:说话人识别
文献传递
基于多音素类模型的文本无关短语音说话人识别被引量:1
2013年
对于基于Gauss混合模型-通用背景模型(Gaussianmixure model-universal background model,GMM-UBM)方法的文本无关说话人识别,当测试语音时长缩短到很短时,识别率会严重下降。为了充分利用文本内容信息,该文提出了一种基于K-top多音素类模型混合(KPCMMM)的建模方法。在音素识别阶段,利用语音识别得到训练语音的音素序列,在说话人识别阶段利用音素序列对每个说话人训练多个音素类模型,测试语音则在最相近的音素类模型上进行打分判决,K是选取的相近音素类数。由于音素类定义的不同,KPCMMM方法分为基于专家知识和数据驱动这两类。实验结果显示选择合适的K值可以得到更好的识别结果。不同的音素类定义方法的比较实验结果显示:当测试语音时长小于2s时,对比GMM-UBM基线系统,该方法的等错误率(EER)相对下降38.60%。
张陈昊郑方王琳琳
关键词:语音识别
基于多音素类模型的文本无关短语音说话人识别
对于基于GMM-UBM方法的文本无关说话人识别,当测试语音时长缩短到很短时,识别率会严重下降。为了充分利用本文内容信息,本文提出了一种基于多音素类模型混合的建模方法。这种方法分为两个阶段,首先音素识别阶段和说话人识别阶段...
张陈昊郑方王琳琳
关键词:语音识别
说话人识别中的分数域语速归一化被引量:4
2018年
语速变化导致说话人识别系统性能显著下降。该文提出一种分数域语速归一化方法来降低语速变化对说话人识别系统的影响。由不同语速语音数据组成参考集(全局和局部),对每一个登入说话人估计其对参考集中每一类参考语音的分数分布,局部参考集通过按相对语速划分全局参考集而获得。基于该文录制的语速数据库在GMM-UBM(Gaussian mixture model-universal background model)框架下对测试语音进行分数归一化,并通过训练数据扩展有效解决了数据系数问题,最终等错误率相对下降33.33%。研究结果表明:全局和局部归一化方法都有效减少了语速变化对说话人识别系统的影响。
艾斯卡尔·肉孜王东李蓝天郑方张晓东金磐石
关键词:说话人识别
基于PLAR的说话人确认系统的噪音鲁棒性研究
针对MFCC特征的说话人确认系统在干净语音环境下具有很高识别率,但在噪音环境下急剧下降的缺点,本文构建了基于PLAR特征的说话人确认系统,并对系统的噪音鲁棒性进行研究。PLAR又称为感知对数面积比系数,是一种运用人类听觉...
尹聪白静龚宬张陈昊郑方Waleed H.Abdulla
关键词:说话人确认鲁棒性
THUYG-20:免费的维吾尔语语音数据库被引量:12
2017年
语音数据资源是语音识别研究的基础。当前国内只有为数不多的开放的语音数据库供研究者免费使用,特别是在维吾尔语等少数民族语音识别方面,数据资源更为贫乏。该文发布一个完全免费的维吾尔语连续语音数据库,该数据库包括约20h的训练数据和1h的测试数据,同时介绍了构建维吾尔语语音识别系统所需要的音素集、词表、文本数据等相关资源,以及用于构建基线系统的脚本。给出了该基线系统在纯净测试数据和噪声测试数据上的识别性能。该数据库为维吾尔语语音识别研究提供了可以借鉴的标准数据库。
艾斯卡尔·肉孜殷实张之勇王东艾斯卡尔·艾木都拉郑方
关键词:语音识别维吾尔语语料库
共1页<1>
聚类工具0