您的位置: 专家智库 > >

国家高技术研究发展计划(2012AA012503)

作品数:49 被引量:208H指数:6
相关作者:颜永红潘接林周若华张晴晴李军锋更多>>
相关机构:中国科学院北京理工大学江西理工大学更多>>
发文基金:国家自然科学基金国家高技术研究发展计划中国科学院战略性先导科技专项更多>>
相关领域:电子电信自动化与计算机技术理学医药卫生更多>>

文献类型

  • 44篇期刊文章
  • 16篇会议论文

领域

  • 44篇电子电信
  • 13篇自动化与计算...
  • 3篇医药卫生
  • 2篇理学
  • 1篇语言文字

主题

  • 32篇语音
  • 20篇语音识别
  • 10篇神经网
  • 10篇神经网络
  • 5篇语种识别
  • 5篇聚类
  • 5篇DNN
  • 4篇语音增强
  • 4篇语种
  • 4篇说话人确认
  • 4篇随机场
  • 4篇条件随机场
  • 4篇矩阵
  • 3篇语言模型
  • 3篇声学
  • 3篇声学模型
  • 3篇说话人识别
  • 3篇网络
  • 3篇矩阵分解
  • 3篇均值聚类

机构

  • 54篇中国科学院
  • 5篇北京理工大学
  • 5篇国家互联网应...
  • 3篇江西理工大学
  • 2篇河北师范大学
  • 2篇内蒙古师范大...
  • 1篇北京交通大学
  • 1篇山东理工大学
  • 1篇山东工商学院
  • 1篇上海海洋大学
  • 1篇中国矿业大学...
  • 1篇中国科学院自...
  • 1篇国家计算机网...
  • 1篇亚利桑那州立...
  • 1篇北京大学口腔...
  • 1篇中国科学院大...

作者

  • 44篇颜永红
  • 15篇潘接林
  • 7篇张晴晴
  • 7篇周若华
  • 6篇付强
  • 5篇张鹏远
  • 5篇李军锋
  • 4篇计哲
  • 4篇吴超
  • 4篇葛凤培
  • 4篇潘复平
  • 4篇国雁萌
  • 3篇陈梦喆
  • 3篇高兴龙
  • 3篇王宪亮
  • 3篇夏日升
  • 3篇李艳玲
  • 3篇冯勇强
  • 3篇应冬文
  • 3篇许春冬

传媒

  • 7篇声学学报
  • 6篇清华大学学报...
  • 5篇网络新媒体技...
  • 5篇第十三届全国...
  • 3篇重庆邮电大学...
  • 2篇电子与信息学...
  • 2篇自动化学报
  • 2篇计算机应用
  • 2篇北京理工大学...
  • 2篇声学技术
  • 2篇Chines...
  • 1篇应用声学
  • 1篇电子学报
  • 1篇计算机工程
  • 1篇计算机应用研...
  • 1篇天津大学学报...
  • 1篇小型微型计算...
  • 1篇四川大学学报...
  • 1篇山东大学学报...
  • 1篇Journa...

年份

  • 2篇2017
  • 3篇2016
  • 18篇2015
  • 18篇2014
  • 19篇2013
49 条 记 录,以下是 1-10
排序方式:
基于语音识别与特征的无监督语音模式提取被引量:4
2014年
在语音识别与特征系统中,通过无监督的方法搜索未知语音流中出现的语言模式。利用语音识别系统的多候选结果,通过分段动态时间弯曲算法进行语言模式的搜索,采用有效的聚类算法以及置信度估计算法,提高系统性能,同时建立仅基于特征匹配的相似音频片段检测系统,不使用任何知识源,仅从语音中获取重复的语音模式,在广播电视新闻与自然口语对话2个测试集上对比2个系统的性能。实验结果表明,基于识别的系统具有较好的检测效果,而基于特征的系统具备多语种的推广性。
张震赵庆卫颜永红
关键词:语音识别
基于非负矩阵分解的钢琴多音符估计被引量:1
2014年
提出了一种基于能量谱包络非负矩阵分解的钢琴多音符估计算法。首先对钢琴88个单音片段进行RTFI时频分析,求得对应平均能量谱,经过时序平均、归一化求得平均能量谱包络,拼接成钢琴的单音能量谱包络基矩阵。之后对测试的多音片段,采用同样处理方法求得多音平均能量谱包络,通过非负矩阵分解求得各音符的权重系数,最后通过阈值限定求得多音符估计结果。性能评估实验基于MAPS数据集的UCHO集和RAND集展开,与MIREX中最好的钢琴音乐自动记谱系统相比,本文提出的钢琴多音符估计算法性能有很大幅度的提升。
万玉龙王宪亮周若华颜永红
关键词:钢琴音乐非负矩阵分解
ANC次级通道在线建模的辅助噪声控制方法被引量:4
2014年
主动噪声控制(ANC)系统中利用辅助噪声作为激励信号对次级通道建模的方式,对系统达到稳态的残余噪声有较大的影响。本文提出了一种适用于次级通道在线建模的辅助噪声控制方法。引入两个自适应门限来控制辅助噪声的注入和停止:当次级通道的建模精度足够时,停止注入辅助噪声对次级通道建模,以减小稳态噪声残余;当次级通道发生变化时,重新注入辅助噪声,以跟踪次级通道的变化。仿真结果表明了提出算法的有效性。
杨茜吴超付强颜永红
关键词:主动噪声控制
基于PLDA的“一对多”下的说话人确认方法研究
近年来,概率线性鉴别分析(Probabilistic Linear Discriminant Analysis,PLDA)因其优异的性能而得到学者们的广泛关注。然而,各主流单位的PLDA研究都是基于NISTSRE 201...
许云飞黄厚军金怡珠李桂莲周若华
关键词:说话人识别
谐波显著度的基频提取方法被引量:5
2015年
我们提出的谐波显著度的基频提取方法,目的是从语音信号中自动获取人声基频,该方法利用抑制因子计算出基频的谐波显著度谱,对各次谐波显著度加权求和之后进行基频轨迹跟踪确定语音的基频序列。在TIMIT掺噪数据集和音乐信息检索评测2005主旋律数据集上,谐波显著度方法的准确率分别达到了88.5%和73.3%,使倍频、半频错误相对降低了80%。实验表明,基于谐波显著度的基频提取方法增强了系统的抗噪性能以及抗倍半频错误的能力。
宋黎明李明颜永红
关键词:语音信号基音周期抗噪性能基音检测
中文口语理解中关键语义类模糊匹配方法的研究被引量:2
2014年
针对人机交互过程中语音识别引起的发音变异以及用户表达关键信息不完整情况,提出一种模糊匹配方法.该方法分两步,第一步,通过条件随机场进行序列标注,定位查询语句中的关键语义概念,并得到其初步类别;第二步,利用几种相似度计算方法,寻找与领域词典中发音相似度最大的字符串对错误的语义概念进行替换,并标注出具体类别.另外针对最优模糊匹配结果不一定满足用户需要,进行了多个候选的实验.实验结果证明:无论使用哪种相似度计算方法,基于拼音的模糊匹配方法比基于字的模糊匹配方法在语音识别的文本上都具有更好的性能,而且在多候选的结果上也仍旧适用,说明该方法对于提高口语理解系统的鲁棒性上是有效的.
李艳玲颜永红
关键词:条件随机场命名实体识别相似度函数
电话交谈语音识别中基于LSTM-DNN语言模型的重评估方法研究被引量:8
2016年
近年来,神经网络语言模型的研究越来越受到学术界的广泛关注。基于长短期记忆(long short-term memory,LSTM)结构的深度神经网络(LSTM-deep neural network,LSTM-DNN)语言模型成为当前的研究热点。在电话交谈语音识别系统中,语料本身具有一定的上下文相关性,而传统的语言模型对历史信息记忆能力有限,无法充分学习语料的相关性。针对这一问题,基于LSTM-DNN语言模型在充分学习电话交谈语料相关性的基础上,将其应用于语音识别系统的重评估过程,并将这一方法与基于高元语言模型、前向神经网络(feed forward neural network,FFNN)以及递归神经网络(recurrent neural network,RNN)语言模型的重评估方法进行对比。实验结果表明,LSTMDNN语言模型在重评估方法中具有最优性能,与一遍解码结果相比,在中文测试集上字错误率平均下降4.1%。
左玲云张晴晴黎塔梁宏颜永红
关键词:语音识别
基于功率谱包络动态分割的鲁棒语音端点检测被引量:1
2015年
在复杂的声学环境中,由于环境噪声的干扰,导致声学特征的稳定性不够理想.为克服此难题,通常对决策结果在时间维度上进行平滑.然而,这些平滑过程本身没有考虑数据在时间维度上的结构特征,属于启发式的方法.该文采用动态分割的方法,将语音的频谱包络在时间维度上分割成具有特征同一性的时间块,以分割块为单位计算能量特征,并进行语音/非语音决策,从而达到提高语音端点检测的稳定性目的.实验表明,提出的方法有效提高了语音端点检测的鲁棒性.
许春冬王晶战鸽应冬文李军锋颜永红
关键词:语音端点检测聚类
小资源下基于神经网络的声学建模
小资源条件是指用于搭建语音识别系统的训练数据受限的情况。在该情况下,声学建模的精度亦受到影响。本文主要研究了小资源条件下神经网络声学模型的选择问题,重点对比了p-norm DNN(Deep Neural Networks...
杨晋仪张鹏远潘接林颜永红
关键词:语音识别声学模型
文献传递
基于加权有限状态机的动态匹配词图生成算法被引量:4
2014年
由于现有的加权有限状态机(WFST)解码网络没有精确词尾标记,导致当前已有的词图生成算法不含精确的词尾时间点,或者仅是状态、音素级别的词图,无法应用到关键词检索中。该文提出在WFST静态解码器下的语音识别词图生成算法。首先从理论上分析了WFST解码音素图和词图的可转换关系,然后提出了字典的动态音素匹配方法解决了WFST网络中词尾时间点对齐的问题,最后通过令牌传递的遍历方法生成了词图。同时,考虑到计算量优化,在令牌传递过程中引入了剪枝算法,使音素图转词图的耗时不到解码耗时的3%。得到的词图,不仅可以用于语言模型重打分,由于含有精确的词尾时间点,还可以直接应用到关键词检索系统中。实验结果表明,该文的词图生成算法具有较高的计算效率;和已有动态解码器的词图相比,词图中包含更多解码信息,在大词汇连续语音识别的重打分结果和关键词检索中都能取得更好的性能。
郭宇弘黎塔肖业鸣潘接林颜永红
关键词:自动语音识别关键词检索
共6页<123456>
聚类工具0