您的位置: 专家智库 > >

国家自然科学基金(61101160)

作品数:8 被引量:15H指数:2
相关作者:李艳雄杨继臣陈雪芳张雪王琴更多>>
相关机构:华南理工大学仲恺农业工程学院东莞理工学院更多>>
发文基金:国家自然科学基金中央高校基本科研业务费专项资金国家级大学生创新创业训练计划更多>>
相关领域:电子电信自动化与计算机技术更多>>

文献类型

  • 8篇期刊文章
  • 1篇会议论文

领域

  • 8篇电子电信
  • 2篇自动化与计算...

主题

  • 6篇聚类
  • 5篇说话人
  • 4篇说话人聚类
  • 3篇聚类方法
  • 3篇类方
  • 2篇新闻
  • 2篇语音
  • 2篇角色
  • 2篇贝叶斯
  • 1篇多媒体检索
  • 1篇新闻发布
  • 1篇新闻发布会
  • 1篇新闻故事
  • 1篇信号
  • 1篇信号处理
  • 1篇信息瓶颈
  • 1篇音频
  • 1篇语速
  • 1篇语音信号
  • 1篇语音信号处理

机构

  • 6篇华南理工大学
  • 3篇仲恺农业工程...
  • 2篇东莞理工学院

作者

  • 6篇李艳雄
  • 3篇杨继臣
  • 2篇陈雪芳
  • 1篇李威
  • 1篇贺前华
  • 1篇邹领
  • 1篇王琴
  • 1篇张雪
  • 1篇吴伟

传媒

  • 3篇科学技术与工...
  • 2篇计算机工程与...
  • 1篇电子学报
  • 1篇华南理工大学...
  • 1篇计算机工程与...

年份

  • 2篇2017
  • 2篇2015
  • 1篇2014
  • 2篇2013
  • 1篇2012
  • 1篇2011
8 条 记 录,以下是 1-9
排序方式:
一种多说话人角色聚类方法被引量:2
2015年
为有效找出会议语音中的说话人角色个数及各角色的说话人语音,提出了一种多说话人角色聚类方法.首先定义说话人角色聚类的特征,然后采用测地距离度量特征的相似度,进而提出了一种利用类内距离来控制类间合并的多说话人角色聚类方法,最后采用4种不同类型的会议语音对该方法进行测试.结果表明:对手工分割和自动分割后的会议语音进行说话人角色聚类时,如果采用相同的聚类方法,则使用测地距离的性能优于使用传统距离的性能;如果采用相同的距离度量方法,则文中方法的性能优于传统层次聚类方法.
李威贺前华李艳雄
关键词:测地距离无监督聚类
说话人聚类的初始类生成方法
2017年
目前说话人聚类时将说话人分割后的语音段作为初始类,直接对这些数量庞大语音段进行聚类的计算量非常大。为了降低说话人聚类时的计算量,提出一种面向说话人聚类的初始类生成方法。提取说话人分割后语音段的特征参数及特征参数的质心,结合层次聚类法和贝叶斯信息准则,对语音段进行具有宽松停止准则的"预聚类",生成初始类。与直接对说话人分割后的语音段进行聚类的方法相比,该方法能在保持原有聚类性能的情况下,减少40.04%的计算时间;在允许聚类性能略有下降的情形下,减少60.03%以上的计算时间。
赖松轩李艳雄
关键词:层次聚类贝叶斯信息准则说话人聚类语音信号处理
基于语速差异的新闻发布会中首要说话人检测
2015年
新闻发布会中,首要说话人(例如政府要员)通常要即兴回答记者事先准备好的问题。因而首要说话人语速一般很慢,而其他说话人(例如记者、翻译等)语速则相对较快。基于两者的语速差异,采用一个滑动窗从连续语音流中截取语音段,再估计各音段语速得到一条语速曲线,然后寻找语速曲线中的局部最小值进而得到两类说话人的改变点,最后将语速低于门限且在两相邻改变点之间的语音段判为首要说话人语音,从而实现首要说话人检测。实验结果表明,与传统方法相比,基于语速差异的方法获得了更好的性能。
吴伟李艳雄王梓里陈祝允
关键词:说话人聚类
基于矢量量化的时序说话人聚类方法被引量:5
2014年
针对传统分层聚类方法运算速度较慢的问题,提出一种基于矢量量化的时序说话人聚类方法。首先对各语音段的特征进行矢量量化得到各语音段的码本,然后采用贝叶斯信息判据计算各码本之间的距离,最后按时间先后顺序进行说话人聚类。采用会议和新闻语音数据进行测试,实验结果表明:会议语音的说话人聚类F值为73.47%,新闻语音的说话人聚类F值为80.00%;在处理速度方面,该方法比无矢量量化时序聚类方法提高了3.16倍,比传统分层聚类方法提高了53.31倍。
陈祝允李艳雄杜佳媛
关键词:矢量量化
交叉验证KNN支持向量预选取算法在说话人识别上的应用被引量:1
2013年
针对传统支持向量机算法时空复杂度较高的不足,提出了一种基于交叉验证KNN的支持向量预选取算法。该算法首先对原始样本求k个的邻近样本,然后计算邻近样本中异类样本的比例p1,最后选取满足p1大于阈值p的原始样本作为支持向量。通过交叉验证方法确定k与p的最合适的数值。在UCI标准数据集和说话人识别数据集上的仿真实验显示算法可有效地降低支持向量机分类器的运行时间,同时又具有较好的分类性能。
陈雪芳杨继臣
关键词:支持向量机KNN算法说话人识别
新闻故事中的关键说话人发现方法被引量:1
2012年
为了发现新闻故事中的关键说话人,用以提高多媒体检索效率,在说话人索引的基础上,提出了关键人发现方法:根据新闻故事中说话人的特点,基于说话人频率、说话人持续时间、平均每次说话人时长和说话人位置因子4个因素,综合定义了说话人关键度,用以判断说话人的重要性,把每个新闻故事中说话人关键度最大的人作为关键说话人。实验结果表明,该种算法可以找到故事中绝大部分的关键说话人,验证了该算法的有效性和可行性。
杨继臣李艳雄
关键词:新闻故事多媒体检索主要角色
OPTIMAL STREAM WEIGHTING ESTIMATION METHOD FOR AUDIO-VISUAL DECISION FUSION SPEECH RECOGNITION
<正>A new weighting estimation method based on Integer Linear Programming(ILP) is proposed to estimate near-opt...
Xiaohui Feng
文献传递
基于远近距离的说话人聚类算法
2013年
提出了基于远近距离的说话人聚类算法:首先,使用端点检测算法把语音分割成读音段,然后,采用T2公式对近距离的说话人语音段进行聚类得到语音块,最后,使用谱聚类的方法估计说话人数目,对远距离的说话人(语音块)进行聚类。实验结果表明,在近距离的说话人聚类中,使用T2公式比使用BIC和KL在语音块准确率方面分别高出2.62%和13.84%,在远距离的说话人聚类中,使用谱聚类算法基本上可以把语音中的说话人数目计算出来,当说话人数目为15时,类纯度和说话人纯度可以达到78%,说明该算法可以有效地对说话人进行聚类。
陈雪芳杨继臣
关键词:说话人聚类
基于凝聚信息瓶颈的音频事件聚类方法被引量:7
2017年
为了进一步提高音频事件聚类算法性能,本文基于凝聚信息瓶颈理论提出一种音频事件聚类方法.首先,论述信息瓶颈原理及其推导过程;然后,详细论述一种基于凝聚信息瓶颈的音频事件聚类方法,包括源变量、相关变量和目标变量的定义,聚类的具体步骤,算法主要计算量分析等.采用取自两个数据库的音频事件样本进行测试,实验结果表明:与目前文献报道的方法相比,本文方法在多种实验条件下都获得了更高的K值(平均类纯度和平均音频纯度的几何平均值),而且运算速度更快.
李艳雄王琴张雪邹领
共1页<1>
聚类工具0