上海市高等学校科学技术发展基金(04AB29)
- 作品数:9 被引量:26H指数:4
- 相关作者:夏骄雄徐俊吴耿锋张武施佳更多>>
- 相关机构:上海大学更多>>
- 发文基金:上海市高等学校科学技术发展基金更多>>
- 相关领域:自动化与计算机技术理学更多>>
- 数据清理中同体不同源数据的数化算法研究被引量:6
- 2007年
- 在数据仓库构建的数据清理过程中,同体不同源数据的发现一直是清理过程的难点。在现实情况下,存在的单一实体在不同的数据源中以不同的方式进行存储或者表达的同体不同源数据,传统数据清理技术对其发现、修正需要花费大量的时间和系统资源进行比较,实际效果并不理想。该文提出一种新型的、利用数据数字化存储特点来查找同体不同源数据的算法,能够有效减少数据间的比较次数,并确保数据清理结果的质量。
- 夏骄雄徐俊吴耿锋
- 关键词:数据清理
- 基于策略模式的特征选择算法工具库FSLS的设计被引量:5
- 2007年
- 在机器学习的研究中,特征选择对于提高学习机器的性能和效率具有重要的意义。各种特征选择算法的不断提出和应用,给各领域科研工作的实施带来极大的帮助,但是当前各种算法普遍存在着具体实现独立性较强、可扩展性差的问题,使得算法的使用者难以对多种算法的性能进行统一的对比评估,算法的替换和扩展工作量也相应较大。论文以面向对象的设计理念为指导,基于设计模式中的策略模式,提出了特征选择算法工具库FSLS(FeatureSelectionLibrarybasedonStrategy-pattern)的设计构想,通过将特征选择方法中一些常用的算法按照策略模式进行包装,以此方便机器学习算法用户的使用,同时确保算法工具库的本身具有较强的可扩展性。
- 施佳夏骄雄张武
- FSL-SP的研究被引量:1
- 2007年
- 在机器学习领域,特征选择对于提高学习机器的性能和效率具有重要意义,但是当前特征选择算法普遍存在着具体实现独立性强、可扩展性差的问题,使得对多种算法性能的统一对比评估实施困难,算法的替换和扩展比较复杂。以面向对象的设计理念为指导,基于设计模式中的策略模式,提出特征选择算法工具库FSL的设计构想,通过将一些常用的特征选择算法按照策略模式进行包装,以便机器学习算法用户的使用,同时确保其较强的可扩展性。
- 施佳夏骄雄张武
- 用主成份提取进行数据库聚类预处理被引量:8
- 2007年
- 按照相关性最小原则提出数据库主成份提取的聚类预处理方法(DCP-PCE)对高维数据进行降维,以数据对象变异最大方向的投影作为特定数据对象集的主成份,实现分层次主成份聚类提取.用DCP-PCE方法验证主成份对于原有信息全面覆盖的特性,同步解决了综合变量覆盖和降维问题,降低了数据对象集合的相异度和维度,实现了数据对象集合的聚类归约.将聚类分析引入高校数据资源的预处理环节,给出应用实例,为深入探索相关模式提供有效的分析方法.
- 徐俊夏骄雄李青
- 关键词:主成份分析数据资源
- 基于不对称度计算的胆脂瘤诊断被引量:2
- 2007年
- 针对常规诊断的主观经验判断,提出以图像不对称性理论为依据,建立一套通过数值计算自动比对图像对称度的计算机辅助诊断软件系统,客观度量临床胆脂瘤病例的诊断。系统以病人头颅的CT图像作为输入,采用逐次求精的方法来快速搜索图像的最佳对称轴,进而计算图像的对称度,并通过与经验阈值的比较,给出初步的病理判断,以利于快速准确地诊断胆脂瘤病例。
- 夏骄雄徐俊黄玮张武
- 关键词:计算机辅助诊断CT图像胆脂瘤
- 基于“震动方法”的类删减策略被引量:1
- 2006年
- 基于“震动方法”的类删减策略是在数据挖掘领域“基于密度的聚类”方法基础上,通过对数据仓库中数据元进行初步聚类,确定各类的“核”并赋予“能”之后,再对特定数据元进行能量“震动”,以便减小数据元之间的差别,融合相似度较高的类,突现类与类之间联系的具体方法.由于这一方法引入可逆的能量传递方式进行数据元状态分析,从而可以被运用于聚类后类的合并操作,并可以加强类与类之间存在的联系,便于聚类后的类分析过程.
- 夏骄雄徐俊吴耿锋
- 关键词:数据挖掘
- 基于“层次分析法”的数据库预处理方法研究被引量:1
- 2007年
- 层次分析法作为运筹学方法,把复杂的决策系统层次化,通过逐层比较各种关联因素组建有效模型,为分析和决策提供定量的依据。该文提出的基于“层次分析法”的数据库预处理方法在数据仓库构建的数据清理阶段,对每个准备导入数据仓库的数据库进行3种数据指标(完整性、平滑性和一致性)的评估,以“层次分析法”的准则选择合适的数据库进行数据清理,提高数据预处理的效率。
- 夏骄雄徐俊高珏
- 关键词:层次分析法完整性一致性
- “数据库主成份提取”方法及其应用被引量:4
- 2006年
- 庞大数据库中所蕴藏着丰富而有益的数据信息正随着数据挖掘技术的发展得到进一步分析和挖掘。数据仓库作为数据挖掘的重要平台,其质量的高低将直接影响数据挖掘的效率。构建数据仓库是数据预处理的主要目标之一,“数据库主成份提取”方法可以在信息损失最小的前提下,利用了一种降维的方法,用少数综合变量来概括原多变量的数据库,使重新构建的数据仓库的数据量相对减少,使得数据类的概率分布尽可能的接近使用所有属性的原分布,从而使重新构建的数据仓库中的数据挖掘更加容易执行和高效率。数据库主成份提取分析方法对主成份的解释可以进一步明确影响整个数据仓库构成的主要因素和构成数据仓库系统的主要特征。
- 夏骄雄徐俊吴耿锋
- 关键词:数据预处理主成份分析数据挖掘数据仓库
- 基于本体核与直方图的聚类预处理方法被引量:1
- 2008年
- 围绕数据对象与用户需求之间的关联特性,该文将"本体论"基本理念引入聚类分析过程,定义"本体核"和"客体数据"来表述数据对象在数据空间中的动态分布,并通过弱(强)量本体核构建数据对象间的相互关系.同时,利用"本体核"中客体数据的频数及其同频异值数构造聚类分析直方图,分别使用两种控制聚类合理性函数来确定直方图门限值的预处理算法,获取数据对象的最终聚类归属,并通过应用示例验证方法的可行性和有效性.
- 夏骄雄徐俊吴耿锋
- 关键词:直方图