公共文化服务平台

Objective evaluation of cleft palate speech based on analyzing plosive consonants: 2013年; An objective method, using a multi-band analysis technique, was proposed for analyzing plosive consonants in cleft palate speech. At first, the speech signal is decomposed in frequency domain using an auditory filter-bank. Then, the sample-based features, namely cumulative energy and its increment speed, in each band were computed. Finally, using principle component analysis, these features were fused into one combined feature vector for assessment. Since the algorithm is based on perceptual properties of human auditory ear using non-uniform and multi-band analysis, the improvements of the consistence between the proposed approach and subjective evaluation are obtained.; HU QiZHAO QingweiMA LianYAN Yonghong

多特征融合的英语口语考试自动评分系统的研究被引量：10: 2012年; 该文主要针对大规模英语口语考试自动评分系统的问答题型,采用多特征融合的方法进行评分。以语音识别文本作为研究对象,提取了3类特征进行评分。这3类特征分别是:相似度特征、句法特征和语音特征。总共9个特征从不同方面描述了考生回答与专家评分之间的关系。在相似度特征中,改进了Manhattan距离作为相似度。同时提出了基于编辑距离的关键词覆盖率的特征,充分考虑了识别文本中存在的单词变异现象,为给考生一个客观公平的分数提供依据。所有提取的特征利用多元线性回归模型进行融合,得到机器评分。实验结果表明,提取的特征对机器评分是十分有效的,并且在以考生为单位的系统评分性能达到了专家评分性能的98.4%。; 李艳玲颜永红; 关键词：自动语音识别自动评分句法树

腭裂康复手术客观评价的研究--应用塞音检测的方法: 2014年; 针对腭裂患者易出现塞音弱化或消失的现象,提出了一种基于塞音段爆破能量检测的腭裂康复手术客观评价方法。该方法采用类听觉的滤波器组作为处理前端,并对处理后得到的信号在其各子带内分别计算塞音除阻过程中的能量变化率。对腭裂组和术后对照组的平均子带能量变化率进行了比对,结果表明腭裂组在高频段(子带中心频率从209.8 Hz至8000 Hz)具有较小的除阻能量变化率。对不送气清塞音/d/、/b/进行了实验,Logistic回归表明提出的方法与主观判听一致性在音节/di/和/bu/上分别达到88.9%和90.27%。; 胡琦赵庆卫马莲颜永红; 关键词：不送气腭裂患者腭裂语音音段腭咽闭合不全

最小方差无失真响应感知倒谱系数在说话人识别中的应用被引量：4: 2012年; 研究最小方差无失真响应感知倒谱系数在说话人识别中的应用。提取最小方差无失真响应感知倒谱系数,对其进行高斯混合模型建模并采用联合因子分析的方法来拟合高斯混合模型中的说话人和信道差异,在美国国家标准技术研究院2008年说话人识别评测核心测试集上分别对最小方差无失真响应感知倒谱系数和传统的Mel频率倒谱系数进行测试。结果显示,两种不同特征的系统性能相当,采用线性融合方法后,在不同测试集上的等错误率相对下降了7.6%～30.5%,最小检测错误代价相对下降了3.2%～21.2%。实验表明,最小方差无失真响应感知倒谱系数能有效应用于说话人识别中,且与传统的Mel频率倒谱系数存在一定程度的互补性。; 梁春燕张翔杨琳张建平颜永红; 关键词：MEL频率倒谱系数最小方差无失真响应说话人识别感知高斯混合模型

基于HMM-BIC的说话人日志系统: 该文提出一种改进的基于隐Markov模型(HMM)和Bayes信息准则(BIC)的说话人日志系统。它用来检测会议语音数据中"谁在什么时候说话"。在对说话人模型进行Gauss混合模型(GMM)建模的时候,考虑到用来建模的数...; 周瑜金怡珠李桂莲; 关键词：最大后验概率隐MARKOV模型; 文献传递

一种基于共面圆的摄像机自标定算法被引量：3: 2009年; 提出了一种基于自由移动平面圆靶标的摄像机标定算法,由摄像机拍摄自由移动平面圆靶标的多幅图像,利用欧氏空间中平面模板上的不变量作为约束,采用非线性优化技术估计摄像机的内部参数。该方法操作简单,具有较高的精度和较好的稳定性,且抗遮挡,无需进行特征匹配,适用于在线标定和自标定。仿真实验和真实图像实验结果均表明,该算法准确、可靠。; 赵征张广军魏振忠; 关键词：自标定

联合因子分析和稀疏表示在稳健性说话人确认中的应用被引量：7: 2012年; 在说话人确认的任务中,为了解决信道失配问题,提高系统性能,引入了联合因子分析和稀疏表示算法。首先利用联合因子分析算法去除信道干扰,得到与信道无关的说话人因子,然后在稀疏表示算法中利用说话人因子构建过完备字典,求解稀疏最优化问题计算说话人得分。由于此方法有机结合了联合因子分析算法的信道鲁棒性和稀疏表示的鉴别性,使用此算法构建的系统在NIST SRE 2008电话训练、电话测试数据集上性能表现良好,相对于联合因子分析-支持向量机系统在性能上有竞争性,在原理上有互异性,系统融合更带来了最小检测代价指标上4.91%的性能提升。实验表明使用联合因子分析与稀疏表示进行说话人确认是可行的。; 杨海张翔梁春燕索宏彬颜永红; 关键词：稳健性说话人确认信道干扰支持向量机

语言声学的最新应用被引量：4: 2010年; 本文对语言声学研究的最新进展进行综述。首先介绍了人类的言语的产生和感知以及声学分析方面的近期发展,接着重点阐述了计算机处理人类语音(包括语音识别和合成,发音评估以及演唱评价)的最新研究、成果。同时提及了这些研究成果的相关应用。最后是总结与展望。; 颜永红; 关键词：语言声学语音识别声学分析

长时语音特征在说话人识别技术上的应用被引量：8: 2010年; 本文除介绍常用的说话人识别技术外,主要论述了一种基于长时时频特征的说话人识别方法,对输入的语音首先进行VAD处理,得到干净的语音后,对其提取基本时频特征。在每一语音单元内把基频、共振峰、谐波等时频特征的轨迹用Legendre多项式拟合的方法提取出主要的拟合参数,再利用HLDA的技术进行特征降维,用高斯混合模型的均值超向量表示每句话音时频特征的统计信息。在NIST06说话人1side-1side说话人测试集中,取得了18.7%的等错率,与传统的基于MFCC特征的说话人系统进行融合,等错率从4.9%下降到了4.6%,获得了6%的相对等错率下降。; 张建平李明索宏彬杨琳付强颜永红; 关键词：语音特征识别技术说话人 LEGENDRE 高斯混合模型多项式拟合

混合双语语音识别的研究被引量：2: 2010年; 随着现代社会信息的全球化,双语以及多语混合的语言现象日趋普遍,随之而产生的双语或多语语音识别也成为语音识别研究领域的热门课题。在双语混合语音识别中,主要面临的问题有两个:一是在保证双语识别率的前提下控制系统的复杂度;二是有效处理插入语中原用语引起的非母语口音现象。为了解决双语混合现象以及减少统计建模所需的数据量,通过音素混合聚类方法建立起一个统一的双语识别系统。在聚类算法中,提出了一种新型基于混淆矩阵的两遍音素聚类算法,并将该方法与传统的基于声学似然度准则的聚类方法进行比较;针对双语语音中非母语语音识别性能较低的问题,提出一种新型的双语模型修正算法用于提高非母语语音的识别性能。实验结果表明,通过上述方法建立起来的中英双语语音识别系统在有效控制模型规模的同时,实现了同时对两种语言的识别,且在单语言语音和混合语言语音上的识别性能也能得到有效保证。; 张晴晴潘接林颜永红; 关键词：语音识别系统混合语言双语聚类方法聚类算法控制系统

渝B2-20050021-1　渝公网安备 50019002500403号　违法和不良信息举报中心　互联网出版许可证　新出网证(渝)字10号

国家自然科学基金(60875014)

文献类型

领域

主题

机构

作者

传媒

年份

用户反馈

国家自然科学基金(60875014)

文献类型

领域

主题

机构

作者

传媒

年份

用户登录

用户反馈