杨冬青
- 作品数:258 被引量:3,295H指数:28
- 供职机构:北京大学更多>>
- 发文基金:国家重点基础研究发展计划国家高技术研究发展计划国家自然科学基金更多>>
- 相关领域:自动化与计算机技术文化科学电子电信医药卫生更多>>
- 集成集成块技术在管理信息系统生成中的应用
- 杨英清唐世渭杨冬青
- 关键词:管理信息系统数据库数据结构
- 一种XML数据的查询方法
- 本发明提供一种XML数据的查询方法,其步骤包括:1)采用Native XML方式存储XML数据,其存储结构包括:内节点层,存储XML树的节点,XML元素采用DDE编码方式进行编码;叶节点层,存储XML树叶节点的文本数据;...
- 郭少松包小源陈薇王腾蛟杨冬青
- 文献传递
- 数据立方体上的虚拟视图机制
- 繁琐复杂的分析过程是OLAP面临的主要问题.当前的解决方法由于与具体的分析任务相关而存在不足.在数据立方体中引入虚拟视图机制解决了这个问题.一个虚拟视图是从原始实事表衍生出来的逻辑数据集合.给出了数据立方体上的虚拟视图的...
- 张德辉唐世渭杨冬青马秀丽姜力争
- 关键词:OLAP数据立方体虚拟视图
- 文献传递
- PCCS部分聚类分类:一种快速的Web文档聚类方法被引量:36
- 2001年
- PCCS是为了帮助 Web用户从搜索引擎所返回的大量文档片断中筛选出自己所需要的文档 ,而使用的一种对 Web文档进行快速聚类的部分聚类方法 :首先对一部分文档进行聚类 ,然后根据聚类结果形成分类模型对其余的文档进行分类 .采用交互式的一次改进一个聚类摘选的聚类方法快速地创建一个聚类摘选集 ,将其余的文档使用 Nal¨ve- Bayes分类器进行划分 .为了提高聚类与分类的效率 ,提出了一种混合特征选取方法以减少文档表示的维数 :重新计算文档中各特征的熵 ,从中选取具有最大熵值的前若干个特征 ;或者基于持久分类模型中的特征集来进行特征选取 .实验证明 ,部分聚类方法能够快速、准确地根据文档主题内容组织 Web文档 ,使用户在更高的主题层次上来查看搜索引擎返回的结果 。
- 王爱华张铭杨冬青唐世渭
- 关键词:聚类特征选取WEB文档信息检索
- 一种情感特征词提取系统
- 本发明涉及一种情感特征词提取系统,其特征在于:它包括特征选取模块、特征验证模块、关系提取模块、广义情感特征词表和狭义情感特征词表;特征选取模块利用评论所针对的文章集合中的文章内容和评论集合中的评论内容,分别提取评论内容全...
- 陶富民高军王腾蛟杨冬青
- 文献传递
- 空间信息共享平台SISP中的数据库模式
- 1.引言1.1背景随着信息技术在地学领域的不断推广,GIS(地理信息系统)软件在世界范围内的各行各业得到广泛应用。大量数字化的空间信息形成一笔巨大的无形资产。如何共享这些数据,充
- 陈珺杨冬青唐世渭
- 关键词:GIS
- 文献传递
- 一种基于显示属性的网页信息提取方法
- 在目前的 Web 信息提取技术中,很多都是基于 HTML 结构的,由于 HTML 结构的经常变化, 使提取模板需要经常更新,而提取模板的更新需要很多领域知识。本文提出一种基于显示属性的 Web 信息提取方法,通过将网页文...
- 汪建伟高军王腾蛟杨冬青
- 关键词:网页信息提取DOM包装器
- 文献传递
- 数据仓库中数据质量控制研究被引量:53
- 2003年
- 随着数据仓库的深入应用,数据质量问题成为关系到数据仓库建设成败和数据能否有效应用的重要关键问题。该文首先讨论数据仓库环境下存在的数据质量问题以及保证数据质量的重要性,然后提出数据质量的度量和评价指标,最后给出了数据仓库实施和运行过程中数据质量控制的数据质量成熟度模型和保证仓库数据质量的方法。
- 方幼林杨冬青唐世渭张卫华余利波付强
- 关键词:数据质量数据仓库
- 基于Datalog的分布式环境下大图数据查询方法
- 本发明涉及一种基于Datalog的分布式环境下大图数据查询方法,其步骤包括:1)对用户输入的基于Datalog规则集合的大图查询指令进行语法分析,产生对应的语法树;2)根据语法树,构建以Datalog规则为单位的执行计划...
- 高军周家帅王腾蛟杨冬青唐世渭
- 数据流中时序模式支持度序列相关性分析
- 2007年
- 研究了数据流环境中时序模式支持序列的相关性分析问题.主要贡献包括:1)提出了基于多维球面和锥体划分思想基础上的时序模式支持度序列的相关性分析模型;2)提出了利用线性聚类的方法把多维球面划分为若干锥体的算法.实验表明,提出的解决方法可以高效地完成在数据流环境中对时序模式支持序列进行相关性分析的目的.
- 宋国杰杨冬青谢昆青
- 关键词:数据流