牟宏宇 作品数:18 被引量:18 H指数:3 供职机构: 中国科学院声学研究所 更多>> 发文基金: 国家自然科学基金 上海市自然科学基金 中国科学院声学研究所所长择优基金 更多>> 相关领域: 医药卫生 电子电信 语言文字 哲学宗教 更多>>
利用波束形成和神经网络进行语音增强 被引量:2 2020年 语音增强在语音信号处理的前端非常重要,直接影响后端语音识别等效果。目前用神经网络进行单通道语音分离对于解决鸡尾酒会问题取得了很大的进步,但是用于复杂混合语音时分离效果仍不令人满意。针对单通道情形下的不足,使用多通道结构形成4个方向的超指向波束,结合神经网络算法实现对于指定方向的目标语音增强。仿真和实验结果表明,该算法相较于超指向波束形成算法和谱减法在多种评价指标上均有了明显的提升。 龚杰 冯海泓 陈友元 方义 牟宏宇关键词:语音增强 神经网络 一种汉语声调双耳分听测试系统及其测试方法 本发明涉及一种汉语声调双耳分听测试系统,包括:被试者信息管理模块、测试材料选择模块、测试参数配置模块、被试者筛选与训练模块、双耳分听测试模块、测试结果存储模块;被试者信息管理模块用于录入、查询、修改和删除被试者的基本信息... 牟宏宇 冯海泓 陈友元文献传递 听力损失老年人佩戴助听器前后皮层听觉诱发电位与言语感知的研究 被引量:8 2022年 目的探讨皮层听觉诱发电位(cortical auditory evoked potential,CAEP)用于中度与重度听力损失老年人助听前后言语识别能力评估的可靠性和有效性。方法26例中度与重度听力损失老年人均验配同一型号测试用助听器,于佩戴助听器前后在声场中分别测试/m/、/g/、/t/三个刺激声在65 dB SPL强度下的皮层听觉诱发电位,记录N_(1)、P_(2)波潜伏期和幅值,测试信噪比为10、5、0 dB,语音强度为65 dB SPL条件下的普通话句子言语识别率,分析助听前后的各波潜伏期和幅值以及言语识别率差异,分析各波潜伏期和幅值与言语识别率的相关性。结果与助听前比较,助听后CAEP各波潜伏期缩短,幅值增大,言语识别率得分升高。非参数检验结果显示/m/刺激声下N_(1)波潜伏期和幅值、P_(2)波幅值,/g/刺激声下N_(1)波潜伏期、P_(2)波幅值,/t/刺激声下N_(1)波潜伏期和幅值在助听前后差异有统计学意义(P<0.05)。助听后/m/、/g/、/t/刺激声下N_(1)-P_(2)峰峰波幅较助听前均增大,差异均有显著统计学意义(P<0.05)。助听前多个条件下CAEP与言语感知相关性显著(P<0.05),助听后/g/、/t/刺激声下CAEP的P_(2)波幅值与信噪比0 dB条件下言语识别率呈正相关(P<0.05)。结论中度至重度听力损失老年人助听后CAEP潜伏期缩短、幅值增大,言语识别率升高,CAEP与言语感知之间在佩戴助听器前后均有相关性。 孙晋 牟宏宇 沈志豪 陈友元关键词:助听器 言语感知 老年人 听力损失 人工耳蜗非实时研究平台开发与验证 被引量:1 2016年 人工耳蜗帮助超过40万人恢复了部分听力,但其性能仍有较大提升空间,且电听觉机理仍有待进一步揭示。针对诺尔康人工耳蜗系统开发了非实时研究平台。为了验证平台的有效性,对成年植入者开展了电听觉基础心理物理实验(位置音高和包络音高)和噪声中的言语接受阈测量实验。心理物理结果显示,被试者可以按照电极位置从蜗尖到蜗底或按照幅度调制频率从50~200 Hz,产生音高上升的感觉。言语测试显示,基于该平台实现的策略,能提供与临床处理器相当水平的噪声中言语接受阈。该平台可以帮助研究者快速开展电听觉心理物理和信号处理策略方面的研究。 孟庆林 牟宏宇 平利川 陈洪斌 郑能恒 李霞 冯海泓关键词:人工耳蜗 音高 双耳分听汉语普通话声调研究 被引量:3 2014年 系统地探讨与研究了以汉语为母语的右利手被试者对汉语普通话声调感知的偏侧优势。选取40个常用的汉语普通话单音节词作为实验材料,在合适的反应时间和信噪比下采用双耳分听范式进行声调辨别听觉感知实验。实验要求被试者从同时、分别播放到左右耳的不同声调中选出一个最清楚听到的声调,而不考虑所选的声调来自左耳还是右耳。30位听力正常的右利手被试者参与了此项实验。实验结果表明,在本研究设定的双耳分听实验条件下,汉语为母语的右利手被试者对汉语普通话声调的感知存在显著的右耳(大脑左半球)优势,且对四个声调的感知具有相同的偏侧优势;左、右耳对四个声调间感知差异的趋势基本一致,且对3声的感知显著较其余声调差。 牟宏宇 原猛 冯海泓基于迁移学习和基频特征融合的文本相关说话人识别框架 2024年 目前,面向我国金融支付的说话人识别技术在社会层面上没有大范围的推广,其原因在于数据集的缺乏以及识别技术未能满足安全性要求。针对上述问题,文章录制了用于中文数字串文本相关说话人识别的SHALCAS-WXSD22B数据集,用于金融支付场景中的数字串声纹识别研究,并提出一种基于迁移学习和基频特征融合的文本相关说话人识别框架,提高了文本相关说话人识别技术的可靠性。在数字串SHALCAS-WXSD22B-d006和SHALCAS-WXSD22B-d007语料实验中,所提框架实现的最佳等错误率分别为0.88%和1.05%,与ECAPA-TDNN基线模型相比等错误率相对降低了17和20个百分点,且达到了支付场景下的声纹识别安全性指标。实验结果表明,文中所提框架不仅具有更好的识别准确率和安全性能,而且同样能提高框架中包括ResNet34在内的其他log-Mel识别模型的性能。 马皓天 洪峰 毛海全 徐楚林 胡梦璐 牟宏宇 陈友元 许伟杰关键词:决策级融合 一种听觉时间调制传递函数的测试方法及系统 本发明提出了一种听觉时间调制传递函数的测试方法及系统,该系统用于测试人耳对听觉时间调制的检测能力,所述系统包含:听觉时间调制传递函数测试系统,该子系统进一步包含:用户管理模块,用于录入和存储被试者的基本信息;参数配置模块... 冯海泓 孟庆林 牟宏宇 原猛 胡海洋 孙杨文献传递 包络调制率和载波频率对听觉时间调制检测能力的影响 被引量:3 2012年 通过心理物理实验探讨了包络调制率(<300 Hz)和纯音载波频率(<8 kHz)对听觉时间调制检测能力的影响.测试信号为以纯音为载波的正弦幅度调制信号,采用二选一强迫选择法和自适应调整步长的心理物理实验方法,测试得到不同载波频率条件下的时间调制传递函数.实验结果表明,包络调制率和载波频率均会对听觉的时间调制检测能力产生影响.当载波频率低于2 kHz时,人耳的检测能力与调制率呈单调递增趋势;当载波频率高于3.5 kHz时,检测能力也会受到调制率的显著影响,但没有显著的单调变化趋势.当调制率在10—100 Hz之间时,检测能力不随载波频率明显变化;当调制率在150—300 Hz之间时,调制检测能力随着载波频率上升而下降,在载波频率达到3.5kHz时,调制检测能力不随载波频率显著改变. 孟庆林 原猛 牟宏宇 陈友元 冯海泓关键词:时间调制 人工耳蜗 言语刺激双耳分听研究 2016年 双耳分听是一种常用于大脑半球偏侧化研究的非侵入式行为测试方法。右耳优势为言语刺激双耳分听研究观察到的典型现象。重点探讨言语刺激感知的大脑半球偏侧化双耳分听研究,对常用的双耳分听范式、典型的言语刺激双耳分听、双耳分听中的注意和认知控制、双耳分听中的性别/年龄/利手差异等方面的研究成果进行归纳总结。此外,还介绍了双耳分听在临床中的应用价值,并对双耳分听研究的未来发展趋势进行展望。 冯海泓 牟宏宇 陈友元 原猛一种听觉时间调制传递函数的测试方法及系统 本发明提出了一种听觉时间调制传递函数的测试方法及系统,该系统用于测试人耳对听觉时间调制的检测能力,所述系统包含:听觉时间调制传递函数测试系统,该子系统进一步包含:用户管理模块,用于录入和存储被试者的基本信息;参数配置模块... 冯海泓 孟庆林 牟宏宇 原猛 胡海洋 孙杨文献传递