胡鹏昱 作品数:9 被引量:25 H指数:4 供职机构: 苏州大学计算机科学与技术学院智能化信息处理技术研究所 更多>> 发文基金: 国家自然科学基金 教育部科学技术研究重点项目 江苏省“六大人才高峰”高层次人才项目 更多>> 相关领域: 自动化与计算机技术 更多>>
一种Deep Web数据源质量评估模型 被引量:6 2008年 分析了影响Deep Web数据源质量评估的若干因素,提出了一种Deep Web数据源质量评估模型.该模型从浏览器、Web数据库、Web服务器和用户四个方面对数据源进行质量评估.通过在真实的Deep Web数据源上进行实验验证,说明该方法是有效和可行的. 鲜学丰 方巍 赵朋朋 崔志明 胡鹏昱关键词:DEEP WEB WEB数据库 WEB服务器 扩展的Deep Web质量估计模型研究 Deep Web中蕴涵了海量的高质量信息.文中从Deep Web数据源的功能属性和非功能属性两个方面对数据源的质量进行度量,建立了一种基于综合模糊评价指标体系的扩展的数据源质量估计模型.实验结果表明该模型得到的数据源质量... 胡鹏昱 苗忠义 崔志明 方巍关键词:数据源 文献传递 扩展的Deep Web质量估计模型研究 Deep Web中蕴涵了海量的高质量信息.文中从Deep Web数据源的功能属性和非功能属性两个方面对数据源的质量进行度量,建立了一种基于综合模糊评价指标体系的扩展的数据源质量估计模型.实验结果表明该模型得到的数据源质量... 胡鹏昱 苗忠义 崔志明 方巍关键词:质量指标 文献传递 Deep Web数据源质量估计模型及应用研究 随着Internet技术的飞速发展,整个Web信息已经被各种各样可搜索的在线数据库所深化。这些信息隐藏在Web查询接口之后,由站点后台数据库动态产生,而传统搜索引擎受技术限制无法对它们进行索引,我们称这类信息为Deep ... 胡鹏昱文献传递 扩展的Deep Web质量估计模型研究 被引量:5 2008年 Deep Web中蕴涵了海量的高质量信息.文中从Deep Web数据源的功能属性和非功能属性两个方面对数据源的质量进行度量,建立了一种基于综合模糊评价指标体系的扩展的数据源质量估计模型.实验结果表明该模型得到的数据源质量排序序列和人工排序序列的Kendall’s距离较扩展前有了很大提高,而且质量估计结果也能使数据源的选择得到较高精确度. 胡鹏昱 苗忠义 崔志明 方巍关键词:DEEP WEB 质量指标 基于属性高频字的深网数据库重叠率估计 被引量:3 2009年 在同一领域中,不同Web数据库之间有重叠部分,为估计重叠部分在Web数据库中所占比例,提出一种基于属性高频字的重叠率估计方法。以中文高频字作为起点,迭代诱导属性高频字。通过属性高频字的查询结果计算重叠部分出现的条件概率,进而估计重叠率。实验证明,该方法的偏差度和波动度都小于5。 苗忠义 赵朋朋 胡鹏昱 崔志明关键词:深网 数据库 深网数据源质量估计模型 被引量:9 2009年 为从海量深网中获得有价值的信息,提出一种深网数据源质量估计模型,综合考虑接口查询能力、接口页面质量和服务质量3方面因素,采用SVM和Ranking SVM机器学习方法得到质量估计函数。实验结果表明,该估计函数得到的数据源质量排序序列和人工排序序列的Kendall’sτ距离超过0.5,且获得较高的精度。 胡鹏昱 赵朋朋 方巍 崔志明关键词:深网 查询能力 查询接口 服务质量 用Capture-Recapture方法估计Web数据库大小 被引量:1 2009年 为了估计网络数据库的大小,提出了基于Capture-Recapture过滤二字亲密、二字排斥的方法。通过在接口文本框提交属性高频字,利用返回的结果集,在两两之间作交集,根据交集中的两字分布分析采样的独立性,过滤掉其中不独立的情况,再利用Capture-Recapture方法估计网络数据库的大小。在模拟和真实的环境下进行了实验,该方法偏差度和波动度均较小。 苗忠义 胡鹏昱 崔志明关键词:深网 网络数据库 基于语义的Deep Web数据源自动发现技术 被引量:8 2007年 为了方便用户快捷高效的使用DeepWeb中内容丰富、主题专一的高质量信息,对DeepWeb数据源发现研究已成为一个非常迫切的问题。目前通用的方法是基于关键词的主题过滤策略,这样容易发现一些不相关的数据源,为此提出一种新的基于语义的DeepWeb数据源聚焦爬行方法,利用朴素贝叶斯分类算法自动发现DeepWeb数据源,实验验证了该方法的有效性。 方巍 胡鹏昱 赵朋朋 崔志明关键词:WEB 语义 表单