公共文化服务平台

Voice conversion using structured Gaussian mixture model in cepstrum eigenspace被引量：2: 2015年; A new methodology of voice conversion in cepstrum eigenspace based on structured Gaussian mixture model is proposed for non-parallel corpora without joint training. For each speaker, the cepstrum features of speech are extracted, and mapped to the eigenspace which is formed by eigenvectors of its scatter matrix, thereby the Structured Gaussian Mixture Model in the EigenSpace （SGMM-ES） is trained. The source and target speaker＇s SGMM-ES are matched based on Acoustic Universal Structure （AUS） principle to achieve spectrum transform function. Experimental results show the speaker identification rate of conversion speech achieves 95.25%, and the value of average cepstrum distortion is 1.25 which is 0.8% and 7.3% higher than the performance of SGMM method respectively. ABX and MOS evaluations indicate the conversion performance is quite close to the traditional method under the parallel corpora condition. The results show the eigenspace based structured Gaussian mixture model for voice conversion under the non-parallel corpora is effective.; LI YangchunYU Yibiao; 关键词：LPCC GMM

群延时谱参数在汉语数字语音识别中的应用被引量：1: 2017年; 汉语数字语音之间的高混淆性直接影响了汉语数字语音识别的效果,传统的语音识别方法很难对易混淆的语音做出有效的区分。本文提出了一种多参数、多级识别策略,先采用MEL谱参数基于HMM进行初级数字语音识别,然后对易混淆的数字对采用一种新的群延时谱参数——RRCGD-CC(Reflected Roots Chirp Group Delay-Cepstral Coefficients)基于SVM进行二次分类。实验结果表明,通过多参数多级识别方法,数字"2"和"8"的识别率提高了8%,数字识别系统的整体识别率提高了2.3%。这一结果充分说明了本文提出的多参数多级识别方法有利于提高汉语数字语音识别系统的识别性能,同时也说明了RRCGD-CC在易混淆数字语音的识别上是有效的。; 周峰俞一彪; 关键词：群延时

一种新的汉语连续语音声调评测算法被引量：1: 2013年; 提出一种新的连续语音的声调评测算法,该算法可应用于计算机辅助语言学习系统和普通话水平测试中的声调评测。考虑到连续语音声调受上下文之间的相互影响,采用三音节单元建立高斯混合模型(Gaussian Mixture Model,GMM),三音节中辅音部分用Spline插值法拟合声调曲线来反映音节间基音频率的转移信息,并利用Fujisaki模型去除语句的语调和说话人个性特征,只对基频曲线中的声调特征建模。实验结果显示,相比于传统方法,采用三音节Spline插值和Fujisaki改进特征的方法使得机器与人工打分的相似度在测试集中分别提高了8.75%和14.09%。; 沈彩凤俞一彪; 关键词：连续语音高斯混合模型

倒谱本征空间结构化高斯混合模型语音转换方法被引量：9: 2015年; 针对非平行语料非联合训练条件下的语音转换,提出一种基于倒谱本征空间结构化高斯混合模型的方法。提取说话人语音倒谱特征参数之后,根据其散布矩阵计算本征向量构造倒谱本征空间并训练结构化高斯混合模型SGMM-ES(Structured Gaussian Mixture Model in Eigen Space)。源和目标说话人各自独立训练的SGMM-ES根据全局声学结构AUS(Acoustical Universal Structure)原理进行匹配对准,最终得到基于倒谱本征空间的短时谱转换函数。实验结果表明,转换语音的目标说话人平均识别率达到95.25%,平均谱失真度为1.25,相对基于原始倒谱特征空间的SGMM方法分别提高了0.8%和7.3%,而ABX和MOS测评表明转换性能非常接近于传统平行语料方法。这一结果说明采用倒谱本征空间结构化高斯混合模型进行非平行语料条件下的语音转换是有效的。; 李阳春俞一彪; 关键词：高斯混合模型本征向量语音转换倒谱说话人

短时频谱通用背景模型群联合韵律的年龄语音转换被引量：3: 2017年; 提出一种短时频谱通用背景模型群与韵律参数相结合进行年龄语音转换的方法。谱参数转换方面,同一年龄段各说话者提取语音短时谱系数并建立高斯混合模型,然后依据语音特征相似性对说话者进行聚类,每一类训练一个通用背景模型,最终得到通用背景模型群和一组短时频谱转换函数。谱参数转换之后再对共振峰进一步微调。韵律参数转换方面,基频和语速分别建立单高斯和平均时长率模型来推导转换函数。实验结果显示,提出的方法在ABX和MOS等评价指标上比传统的双线性法有明显的优势,相对单一通用背景模型法的对数似然度变化率提高了4%。这一结果表明提出的方法能够使转换语音具有良好目标倾向性的同时有较好的语音质量,性能较传统方法有明显提升。; 惠琳俞一彪; 关键词：语音高斯混合模型基频正韵律

基于高光消除的SFS三维重构算法研究被引量：2: 2015年; 从明暗恢复形状(SFS)是三维重构的有效技术之一。在对SFS算法分析的基础上,针对SFS算法易受高光分量影响的缺点,设计了基于多项式拟合的高光消除方法对输入图像进行预处理,然后对预处理后的图像采用Oren-Nayar光照模型建立辐照度方程,并利用Tsai的线性近似方法对辐照度方程进行求解,进而获得高度信息以实现物体的三维重构。实验结果表明,所提出的方法能较好地消除输入图像中高光分量的不利影响,有效提升三维重构效果。; 李想胡剑凌张霞陈昊亮; 关键词：从明暗恢复形状光照模型

可远程控制的气象信息显示与语音播报系统被引量：3: 2013年; 针对气象信息的远程广播发布应用需求,采用ARM Cortex_M3微处理器,并结合GPRS/GSM和USB2.0技术,设计实现了气象预警信息LED显示远程控制和语音播报系统。系统不仅具有LED显示远程控制,并采用文语转换(TTS)技术实现了语音与文本的同步输出。首先阐述系统总体结构,然后从硬件和软件两个方面介绍系统设计过程。; 黄兴俞一彪; 关键词：气象信息 LED显示语音合成 GPRS GSM ARM

基于TMS320VC5416的实验教学平台的研制和使用: 2013年; 针对在DSP技术实验教学中存在的问题,提出通过关联学习、对比学习方法来提高DSP技术实验教学效果的设计思路。设计了一种体现教学循序渐进原则的,由系统模块、电源模块、ADDA模块、模拟信号调理模块和通信模块组成的TMS320VC5416 DSP技术实验教学平台,给出了系统设计方案和主要电路,并以一个综合实验作为实例,说明实验教学平台的使用。结果证明,DSP技术实验教学平台符合教学规律和学生的学习习惯,能降低学生学习DSP技术的难度、加快学生掌握DSP技术的速度,具有一定的实用价值和推广价值。; 卲雷胡剑凌曹洪龙俞一彪; 关键词：DSP技术实验教学平台循序渐进

采用DM3730的智能高清视频采集与处理系统被引量：2: 2014年; 设计并实现了以DM3730处理器为核心,选用CMOS高清镜头,最高达到720p/30f的高速高清视频采集与处理系统。该系统对视频图像具有边缘检测、图像增强、人脸跟踪和底片视频等处理功能,并基于QT实现了人机友好交互界面及OSD功能,支持压缩模式下的网络传输以及USB2.0、USB OTG功能,方便实现视频图像与计算机的通信与存储。系统可广泛应用在医学、监控等许多对高清视频与图像处理有需求的领域。; 黄兴俞一彪; 关键词：图像处理人脸跟踪

自适应高斯混合模型及说话人识别应用被引量：8: 2014年; 高斯混合模型采用固定混合数结构的建模方法并不符合说话人语音特征分布的多样性,从而出现过拟合或者欠拟合的情况并影响系统的识别性能。提出一种混合数可变的自适应高斯混合模型并将其应用于说话人识别。模型训练中根据说话人语音特征参数分布的聚类特性,采用吸收合并与分裂机制动态调整混合数以获得更加精确的拟合性能,提高系统识别率。实验结果显示,在特征参数MFCC和BFCC(Bilinear Frequency Cepstrum Coefficients)下相对误识率分别下降了41.41%和22.21%。; 王韵琪俞一彪; 关键词：说话人识别

渝B2-20050021-1　渝公网安备 50019002500403号　违法和不良信息举报中心　互联网出版许可证　新出网证(渝)字10号

国家自然科学基金(61271360)

文献类型

领域

主题

机构

作者

传媒

年份

用户反馈

国家自然科学基金(61271360)

文献类型

领域

主题

机构

作者

传媒

年份

用户登录

用户反馈