江苏省自然科学基金(BK2008018) 作品数:7 被引量:57 H指数:5 相关作者: 周志华 黎铭 姜远 李宇峰 黄圣君 更多>> 相关机构: 南京大学 香港科技大学 南通大学 更多>> 发文基金: 江苏省自然科学基金 国家自然科学基金 国家重点基础研究发展计划 更多>> 相关领域: 自动化与计算机技术 更多>>
基于免疫的可生存网络研究与设计 被引量:7 2010年 从"生存"的本义,提出了以"生"为前提的生存定义;根据生物免疫系统对生物生存作用的机理,得到可生存网络设计的指导思想;提出一种基于免疫的可生存网络的二次开发方法。此方法中对生存性的保障由一组可自治、分布的免疫单元承担;免疫单元逻辑上由检测、识别、防御和自适应与进化四个部分组成;阐述了免疫单元的构成、分类及若干关键技术的实现。该设计具有一定的分布性和自适应性。 徐慧 周建美 程学云关键词:可生存性 免疫机理 网络安全 自适应 基于基因表达谱的肿瘤样本分类规则提取 被引量:1 2009年 样本分类规则提取是基因表达谱数据挖掘工作中的重要内容,提取肿瘤病理组织与正常组织的样本分类规则具有重要的生物学意义与临床诊断价值.针对该问题,基于机器学习与数据挖掘技术,研究了用于区分肿瘤与正常组织样本的分类规则提取问题.首先,利用改进的Relief算法生成候选特征子集,并以支持向量机作为样本分类模型,利用交叉验证方法在训练集上评估候选特征子集的样本分类能力,确定分类特征基因集合;然后,利用CART(classification and regression trees)学习算法构建决策树获得样本分类规则;最后,对所得规则进行了分析和解释. 李颖新 姜远 周志华关键词:决策树 基因表达谱 肿瘤 一种基于半监督学习的多模态Web查询精化方法 被引量:4 2009年 Web搜索系统往往通过与用户的交互来精化查询以提高搜索性能.除文字之外,网页中还存在着大量其它模态的信息,如图像、音频和视频等.以往对于查询精化的研究很少涉及对多模态信息的利用.文中提出了一种基于半监督学习的多模态Web查询精化方法M2S2QR,将Web查询精化转化为一个机器学习问题加以解决.首先,基于用户判断后的网页信息,分别为不同模态训练相应的学习器,然后利用未经用户判断的网页信息来提高学习器性能,最后将不同模态学习器结合起来使用.实验验证了文中方法的有效性. 姜远 黎铭 周志华关键词:半监督学习 WEB搜索 基于多核集成的在线半监督学习方法 被引量:13 2008年 在很多实时预测任务中,学习器需对实时采集到的数据在线地进行学习.由于数据采集的实时性,往往难以为采集到的所有数据提供标记.然而,目前的在线学习方法并不能利用未标记数据进行学习,致使学得的模型并不能即时反映数据的动态变化,降低其实时响应能力.提出一种基于多核集成的在线半监督学习方法,使得在线学习器即使在接收到没有标记的数据时也能进行在线学习.该方法采用多个定义在不同RKHS中的函数对未标记数据预测的一致程度作为正则化项,在此基础上导出了多核集成在线半监督学习的即时风险函数,然后借助在线凸规划技术进行求解.在UCI数据集上的实验结果以及在网络入侵检测上的应用表明,该方法能够有效利用数据流中未标记数据来提升在线学习的性能. 黎铭 周志华关键词:数据挖掘 半监督学习 多核学习 一种基于正则化的半监督多标记学习方法 被引量:18 2012年 多标记学习主要用于解决单个样本同时属于多个类别的问题.传统的多标记学习通常假设训练数据集含有大量有标记的训练样本.然而在许多实际问题中,大量训练样本中通常只有少量有标记的训练样本.为了更好地利用丰富的未标记训练样本以提高分类性能,提出了一种基于正则化的归纳式半监督多标记学习方法——MASS.具体而言,MASS首先在最小化经验风险的基础上,引入两种正则项分别用于约束分类器的复杂度及要求相似样本拥有相似结构化多标记输出,然后通过交替优化技术给出快速解法.在网页分类和基因功能分析问题上的实验结果验证了MASS方法的有效性. 李宇峰 黄圣君 周志华关键词:多标记学习 半监督学习 网页分类 基因功能分析 用于图分类的组合维核方法 被引量:7 2009年 对图等内含结构信息的数据进行学习,是机器学习领域的一个重要问题.核方法是解决此类问题的一种有效技术.文中针对分子图分类问题,基于Swamidass等人的工作,提出用于图分类的组合维核方法.该方法首先构建融合一维信息的二维核来刻画分子化学特征,然后基于分子力学的相关知识,利用几何信息构建三维核来刻画分子物理性质.在此基础上对不同维度的核进行集成,通过求解二次约束二次规划问题来获得最优核组合.实验结果表明,文中方法比现有技术具有更好的性能. 李宇峰 郭天佑 周志华关键词:核方法 结构信息 一种针对弱标记的直推式多标记分类方法 被引量:13 2010年 多标记学习主要解决一个样本可以同时属于多个类别的问题,它广泛适用于图像场景分类、文本分类等任务.在传统的多标记学习中,分类器往往需要利用大量具有完整标记的训练样本才能获得较好的分类性能,然而,在很多现实应用中又往往只能获得少量标记不完整的训练样本.为了更好地利用这些弱标记训练样本,提出一种针对弱标记的直推式多标记分类方法,它可以通过标记误差加权来补全样本标记,同时也能更好地利用弱标记样本提高分类性能.实验结果表明,该方法在弱标记情况下的图像场景分类任务上具有较好的性能提高. 孔祥南 黎铭 姜远 周志华关键词:多标记学习 直推式学习