国家自然科学基金(60872142) 作品数:46 被引量:107 H指数:6 相关作者: 李弼程 高毫林 黄焱 张白愚 郭志刚 更多>> 相关机构: 解放军信息工程大学 中国人民解放军信息工程大学 怀化职业技术学院 更多>> 发文基金: 国家自然科学基金 国家高技术研究发展计划 更多>> 相关领域: 自动化与计算机技术 电子电信 文化科学 更多>>
视频摘要技术 被引量:4 2009年 视频摘要是对视频内容的一个简短概括,以自动或半自动的方式,通过对视频的结构和内容进行分析,从原视频中提取出有意义的部分,并将它们以某种方式进行组合。视频摘要在视频分析和基于内容的视频检索中扮演着重要角色。文章首先介绍了视频摘要的研究背景,进而对视频摘要的概念和分类进行了概述,然后分别介绍了关键帧和缩略视频这两种视频摘要的相关生成技术,最后探讨了视频摘要的评估标准,并进行了总结和展望。 王毅 李弼程 彭天强关键词:视频摘要 关键帧 视频检索 基于证据理论的视频语义概念检测 被引量:6 2011年 视频语义概念检测是跨越"语义鸿沟"问题,实现基于语义的视频检索的前提。本文提出了一种基于证据理论的视频语义概念检测方法。首先,分别提取了镜头关键帧的分块颜色矩、小波纹理特征和边缘方向直方图特征;然后,利用支持向量机(Support vector machine,SVM)对3种特征数据分别进行训练,分别建立分类器模型;再次,对各SVM模型泛化误差进行分析,采用折扣系数法对不同SVM模型输出的分类结果进行修正;最后,采用证据融合公式对修正后的输出进行融合,把融合结果作为最终的概念检测结果。实验结果表明,新方法提高了概念检测的准确率,优于传统的线性分类器融合方法。 万建平 彭天强 李弼程关键词:支持向量机 证据理论 分类器融合 基于E^2LSH-MKL的视觉语义概念检测 被引量:3 2012年 多核学习方法(Multiple kernel learning,MKL)在视觉语义概念检测中有广泛应用,但传统多核学习大都采用线性平稳的核组合方式而无法准确刻画复杂的数据分布.本文将精确欧氏空间位置敏感哈希(Exact Euclidean locality sensitivehashing,E2LSH)算法用于聚类,结合非线性多核组合方法的优势,提出一种非线性非平稳的多核组合方法-E2LSH-MKL.该方法利用Hadamard内积实现对不同核函数的非线性加权,充分利用了不同核函数之间交互得到的信息;同时利用基于E2LSH哈希原理的聚类算法,先将原始图像数据集哈希聚类为若干图像子集,再根据不同核函数对各图像子集的相对贡献大小赋予各自不同的核权重,从而实现多核的非平稳加权以提高学习器性能;最后,把E2LSH-MKL应用于视觉语义概念检测.在Caltech-256和TRECVID2005数据集上的实验结果表明,新方法性能优于现有的几种多核学习方法. 张瑞杰 郭志刚 李弼程 高毫林关键词:多核学习 一种基于功率因数补偿的谱相减算法改进 被引量:2 2011年 对带噪语音进行传统谱减增强后,会引入"音乐噪声",并造成语音可懂度急剧下降。针对这一缺点,本文提出了一种采用功率因数补偿的过减形式的谱相减算法,以提高语音可懂度。采用MATLAB对算法进行了仿真,仿真结果表明:该算法有效的抑制了背景噪声、减少了"音乐噪声",比传统谱相减算法有较大优越性。 沈晓东 李弼程关键词:谱减 功率因数补偿 语音增强 音乐噪声 基于定长窗分层检测的音频分割算法 2009年 音频分割是音频分析、检索等应用的基础。△BIC算法是一种重要的音频分割算法,传统的△BIC及其改进算法采用窗口增长方式遍历音频流顺次检测跳变点,计算量大且准确率低。本文提出基于定长窗分层检测的音频分割算法,采用定长窗滑动遍历音频流,窗内自顶向下分层次地计算△BIC检测跳变点,最后用局部极值判定方法验证检测到的候选跳变点。实验结果表明,本文算法分割性能良好。 王志明 周序生关键词:音频分割 N步长距离视觉语言模型的图像分类方法 2014年 传统的视觉语言模型(visual language model,VLM)只考虑了相邻视觉单词之间的空间位置关系,不考虑不相邻视觉单词之间的贡献。针对传统视觉语言模型的不足,提出了一种N步长距离视觉语言模型,并将其用于图像分类。该方法首先给出了相隔N个视觉单词的二元依赖关系,然后训练长距离视觉语言模型,最后通过不同的权重分配方式进行融合,得到3种不同的图像分类方法。实验比较了不同参数和分类方法对图像分类的影响,结果表明,文章方法能在一定程度上改善视觉语言模型对图像表达的准确度,进而提高图像分类的准确率。 王挺进 赵永威 李弼程关键词:图像分类 长距离 基于最大似然可变子空间的快速说话人自适应方法 被引量:3 2012年 该文提出一种基于最大似然可变子空间的说话人自适应方法。在训练阶段,对训练集中的说话人相关模型参数进行主分量分析,得到一组说话人基矢量;在自适应阶段,通过最大似然准则选取与当前说话人相关性最大的基矢量子集,进而将新的说话人相关模型限制在这组基矢量所张成的说话人子空间中,通过求解每一个基矢量对应的系数从而进行说话人自适应。与经典的基于子空间的说话人自适应方法不同,该文中的说话人子空间是在自适应阶段动态选取的,所需要估计的参数更少,在少量自适应数据下可以得到更稳健的自适应结果。在基于微软语料库的连续语音识别自适应实验中,给定极少量自适应数据(小于5 s),在有监督和无监督条件下,该文方法均优于经典的本征音自适应方法和基于最大似然线性回归的方法。 张文林 牛铜 张连海 李弼程关键词:连续语音识别 说话人自适应 子空间方法 基于帧数据量波动特性的压缩域视频快速检索方法 被引量:2 2012年 为实现压缩域视频快速检索,提出基于帧数据量波动特性的检索方法.该方法首先计算压缩域各图像帧的数据量,得出查询片段和目标视频等长内的数据量曲线,然后在I帧对齐的基础上将查询片段在目标视频上进行滑动,滑动窗长为单个图组长度.再在每次滑动后计算查询片段与目标视频数据量曲线波动的差异程度,同时每次滑动后要更新目标视频的数据量曲线.最后结合设定门限进行相似判决并返回结果.该方法不需要为每一帧抽取高维特征向量,用一个向量而不是一组高维向量来表述一段视频.实验结果表明,相比现有快速检索算法,该方法使检索速度得到提高,同时也能达到较高的准确率.另外,该方法既可用于基于压缩域视频库的快速检索,也可用于在线的视频片段匹配,实时发现与设定目标相似的视频. 高毫林 李弼程 张白愚关键词:压缩域 基于小波变换与穿越线的视频文字定位方法 被引量:2 2009年 在复杂背景下,传统的视频文字自动定位方法难以稳健地定位文字。文章提出一种基于小波变换和穿越线的视频文字定位方法,该方法分为两个阶段,在第一阶段,利用小波变换和非监督聚类方法来获得候选文字区域;在第二阶段,引入穿越线和及其幅度谱概念,通过提取穿越线特征进行聚类来定位单行文字。实验表明,该方法能够在复杂背景下有效定位文字,不受文字颜色、字体、大小等因素的影响,性能优于文献[5]和文献[7]提出的方法。 王志明 田破荒关键词:小波变换 幅度谱 DVB-RCS突发信号符号同步的近似常模算法研究 2011年 分析了DVB-RCS卫星网络中子站与主站进行交互的通信结构特点,得到了获取回传链路突发信号参数的方法。重点对相应突发信号的符号常模定时估计算法进行了推导和简化,结合系统结构特点设计了一种基于数据辅助的的近似常模算法。该算法复杂度低、达到要求定时精度使用符号数少。与其他前向型定时估计算法比较,理论分析和Monte Carlo仿真结果显示该算法在实际系统的突发参数下,均方根误差均更接近MCRB。 吴慧谦 黄焱 张白愚关键词:突发信号 DVB-RCS标准