陈爽
- 作品数:3 被引量:2H指数:1
- 供职机构:西北工业大学计算机学院更多>>
- 发文基金:国家自然科学基金北京市自然科学基金更多>>
- 相关领域:自动化与计算机技术更多>>
- 一种抽取新闻网页结构化数据的方法被引量:1
- 2007年
- 根据统计结果,从阅读角度对网页页面空间的构成进行了噪声与信息实体的划分与判断,改进了传统的DOM模型,增加了层次与样式等属性作为噪声判断的依据,逐级降噪,并利用新闻的标题、时间等外显特性,提出并实现了一种结合正向直接抽取与反向过滤降噪抽取新闻网页得到结构化数据的方法,并使用这种方法进行了大范围的效果验证。验证结果表明:这种方法信息抽取准确率高,对中英文新闻网页都有良好的适用性。
- 陈爽李先国陈福李素
- 关键词:信息抽取HTML解析DOM
- 一种启发式网络信息采集系统设计与实现
- 2007年
- 为解决目前网络信息采集中信息主题单一与垃圾信息过多的问题,讨论了一种半人工监督的启发式采集系统。用户向系统提交同一个主题的一组关键词后,系统自动合并多个搜索引擎返回的结果,从而构成一个有序的文档集合。对这个集合利用后缀树算法进行聚类,人工对聚类的结果进行有效与垃圾状态标注并生成训练集构造分类器。当用户提交该主题更多的关键词时,系统可以从各成员搜索返回的结果中自动识别并采集有效数据而过滤垃圾信息。实验结果显示,系统对定主题数据的平均有效信息识别率达到92%以上。
- 陈爽陈福杜天苍
- 关键词:后缀树聚类支持向量机
- 网页链接繁殖在搜索引擎资源发现中的应用被引量:1
- 2007年
- 为解决搜索引擎返回结果数量上的限制,扩展了元搜索技术,提出链接群落、链接繁殖的概念,并与生物群落进行了对比。链接繁殖的思想是首先将多个搜索引擎返回的结果作为起始信息源,利用预定义的繁殖规则,优化并整合搜索结果,对链接所指网页的链接进行分析,繁殖出更多的相关信息源。在分析不同的搜索引擎结果集时,系统根据不同搜索引擎直接与繁殖发现信息源的能力与质量,动态调整繁殖的链接的优先次序。经过实验验证,链接繁殖可以大大扩展通过搜索引擎发现主题信息源的数量。
- 陈爽钱榕陈福李素
- 关键词:主题发现元搜索链接分析