国家自然科学基金(60672056) 作品数:13 被引量:64 H指数:5 相关作者: 俞能海 邵正荣 陈超 吉翔华 沈道义 更多>> 相关机构: 中国科学技术大学 天津大学 微软公司 更多>> 发文基金: 国家自然科学基金 国家高技术研究发展计划 国家教育部博士点基金 更多>> 相关领域: 自动化与计算机技术 更多>>
基于主题子空间的文本模糊C均值聚类方法 被引量:3 2007年 模糊C均值聚类作为聚类的一种有效方法在数据挖掘和信息检索等领域得到广泛的应用,初始中心和初始隶属度矩阵的建立是决定模糊C均值聚类效果的关键.本文提出一种基于文本主题空间的模糊C均值聚类算法TS2FCM(Topic Sub-Space based Fuzzy C-Means),通过对能够代表文本主题的关键短语(salient phrase)的提取来建立主题子空间,利用主题子空间中的文本向量来提取初始中心和初始隶属度矩阵.实验表明,TS2FCM取得了较好的聚类效果. 吉翔华 陈超 邵正荣 俞能海关键词:模糊C均值聚类 文本聚类 小规模和非平衡数据下的目标分类 针对小规模和非平衡的训练数据集下的目标分类问题,本文提出了一种新的目标分类学习算法 gentleBoost- BFKO(Balance Feature Knock ore)。该算法利用数据扩充算法 BFKO 在 gent... 周维 庄连生 俞能海文献传递 一种基于成对约束的半监督最大间隔聚类算法 被引量:1 2010年 最大间隔聚类是近来聚类分析的一个研究热点,为进一步提高其聚类准确性,提出一种基于成对约束的半监督最大间隔聚类算法.该算法在最大间隔聚类的目标函数中添加针对成对约束的损失项,从而对违反给定约束条件的分界面进行惩罚.对所得到的非凸优化问题,本文提出一种基于约束凹凸过程的迭代算法来进行高效求解.实验表明,本文提出的算法能极大地提高最大间隔聚类的准确性,其聚类性能也明显优于其他两种半监督聚类算法. 胡洋 王井东 俞能海 华先胜关键词:聚类 一种新的基于语义聚类和图算法的自动图像标注方法 被引量:12 2007年 针对图像检索中的语义鸿沟问题,提出了一种新颖的自动图像标注方法。该方法首先采用了一种基于软约束的半监督图像聚类算法(SHMRF-Kmeans)对已标注图像的区域进行语义聚类,这种聚类方法可以同时考虑图像的视觉信息和语义信息。并利用图算法——Manifold排序学习算法充分发掘语义概念与区域聚类中心的关系,得到两者的联合概率关系表。然后利用此概率关系表标注未知标注的图像。该方法与以前的方法相比可以更加充分地结合图像的视觉特征和高层语义。通过在通用图像集上的实验结果表明,本文提出的自动图像标注方法是有效的。 芮晓光 袁平波 何芳 俞能海关键词:半监督聚类 软约束 图像标注 一种基于流形正则化的半监督人脸识别方法 被引量:1 2009年 在基于流形正则化的框架下提出了一种半监督学习算法(MLapRLS)并将其用于人脸识别.首先构建所有样本的最近邻图来估计数据空间的几何结构,并对多变量线性回归的目标函数增加该流形正则化项,得到针对多类问题的MLapRLS.该方法能充分利用少量有标签样本和大量易于获取的无标签样本来帮助学习以提取有效特征.在Extended YaleB和CMU PIE人脸数据库上的实验结果证明了该方法的有效性. 王雷 俞能海 庄连生 沈道义关键词:人脸识别 半监督学习 流形学习 正则化 结合提升自举FLD投影的特征提取算法 被引量:1 2009年 针对两类分类问题,提出一种基于自适应提升(Adaptive Boosting,Adaboost)算法的分类特征提取算法.首先对训练样本集进行自举采样从而生成一定数量的训练样本自举子集,然后通过对每个自举子集的Fisher线性判别分析(FLD),得到相应数量的一维自举投影向量.在Adaboost算法迭代的每一步中,具有最小的加权最近邻分类误差的一维自举投影向量被作为分类特征选出,用来构成最终的强分类器.该算法可以有效地克服传统特征提取算法性能依赖于数据分布以及提取准则不直接与训练误差相关的弱点.实验结果表明,相比传统算法,该算法的分类准确度有较明显的提升,并且特别适用于数据分布复杂的情况. 沈道义 俞能海 庞彦伟 王雷关键词:自举 ADABOOST FISHER线性判别分析 一种Web 2.0环境下互联网热点挖掘算法 被引量:6 2010年 利用Web2.0下用户丰富的反馈信息进行互联网热点挖掘具有重要的应用价值。该文将Web2.0下用户在互联网上的信息活动看作为热度活动,并利用热量传递模型对其建模,然后基于该模型提出适用于Web2.0环境下的话题抽取与热度评价算法。实验结果表明热量传递算法有效地利用了用户反馈信息,适用于Web2.0下互联网环境。 李东方 俞能海 尹华罡关键词:互联网 WEB2.0 基于加权词频的信息检索相似度评价模型 被引量:2 2008年 在信息检索领域,相似度评价模型是一个重要的研究课题。基本的评价模型有布尔模型,向量空间模型和概率模型。后两种模型在许多的信息检索系统中被采用,但是它们都没有考虑查询词在文档中的位置信息对相似性度量起到的作用。一些研究考虑了诸如HTML标签之类的信息,但是确定加权系数的方案不是太理想。针对这些问题,文中提出了一种基于加权词频的相似度评价模型(Weighted Term Frequency Model,WTFM),而引入的权重系数可以通过模拟退火算法学习得到。实验结果表明,权重系数的引入提高了系统的相关度评价质量。 张纯青 陈超 邵正荣 俞能海关键词:信息检索 相关度评价 模拟退火算法 基于机器学习的科技文摘关键词自动提取方法 被引量:15 2007年 提出了一种基于机器学习的关键词自动抽取技术,主要是针对数字图书馆中的学术论文的摘要(Abstract)进行抽取。首次提出了以句子为基本抽取单位进行关键词抽取的思想。在提出关键词的候选词时采用n_grams方法和词性相结合的方法,在选取特征时考虑了词组的出现频率、词组在整个摘要中的位置、在所在句子中的位置和词组中单词的个数等特征。实验结果表明该方法能够适应各个领域的论文关键词提取,并且可以得到很好的效果。 刘佳宾 陈超 邵正荣 吉翔华关键词:决策树 词性分析 一种针对大规模网络图像的自动标注改善算法 被引量:2 2009年 在对网络图像进行索引时,人们往往利用网页中图像周围的文字作为其近似标注信息,但是这些文字信息质量不高,不足以良好地描述图像内容。该文提出一种综合利用图像视觉特征、相关文本信息以及词汇间语义关系的方法对这些不精确的文本信息进行改善,从而提高图像的索引和搜索质量。在大规模数据集上的实验证明了所提出的方法能够有效改善图像的标注。 王斌 俞能海关键词:自动图像标注