赵岭
- 作品数:11 被引量:27H指数:2
- 供职机构:中国科学院计算技术研究所更多>>
- 发文基金:国家自然科学基金国家重点基础研究发展计划国家科技支撑计划更多>>
- 相关领域:自动化与计算机技术更多>>
- 一种短正文网页的正文自动化抽取方法被引量:2
- 2016年
- 随着互联网的发展,网页形式日趋多变。短正文网页日益增多,传统的网页正文自动化抽取方式对短正文网页抽取效果较差。针对以上问题,该文提出一种单记录(新闻、博客等)、短正文网页的正文自动化抽取方法,在该方法中,首先利用短正文网页分类算法对网页进行分类,然后针对短正文网页,使用基于页面深度以及文本密度的正文抽取算法抽取正文。
- 郗家贞郭岩黎强赵岭刘悦俞晓明程学旗
- 关键词:正文抽取
- 针对开源论坛网页的信息抽取研究被引量:10
- 2017年
- 互联网上大量论坛使用开源软件生成,针对这类论坛,提出了针对论坛网页信息抽取的基于模板的信息抽取方法。首先给出了基于网页结构相似度的簇划分策略,并通过实验证明了该策略优于直接基于软件版本号等直观类别的划分策略;其次提出了基于开源软件特征的聚类算法,能够根据网页相似度将大规模开源软件生成的论坛网页进行有效的自动划分,形成可标注类别。实验表明,该方法不仅保持了基于模板的抽取方法所具有的高准确率的优点,同时弥补了其模板配置与维护代价高的缺点。
- 刘春梅郭岩俞晓明赵岭刘悦程学旗
- 关键词:网页聚类
- 用于大规模网络数据采集的信源管理与配置方法和系统
- 本发明涉及一种网络数据采集的信源管理与配置方法,包括:感知网络数据的信息来源,将该信息来源拆分为传媒、信簇和信源;根据信簇类别对该信簇进行类别标注;根据信源类别对该信源进行类别标注;根据该信源的信源类别配置采集模板;根据...
- 程学旗郭岩贺广福周秀花俞晓明史存会孟剑姜世勇肖若晗赵岭张乐焦利颖周映彤余智华刘悦
- 文献传递
- 一种基于网页块特征的多级网页聚类方法被引量:1
- 2015年
- 利用网页的结构特征,提出一种多级网页聚类方法。该方法首先对网页进行分块,然后使用网页的块特征对网页进行聚类。在聚类过程中,通过调整阈值,能够提供三级聚类:同站点网页聚类、同站点同结构网页聚类、同站点同结构同模板网页聚类。与已有的网页聚类方法相比较,该方法能够提供多级聚类结果,满足不同的聚类需求,而且在聚类的准确率和效率方面有本质上的提高。
- 范意兴郭岩李希鹏赵岭刘悦俞晓明程学旗
- 关键词:网页分块网页聚类DOM
- 一种基于时间串的论坛页面信息自动抽取方法及系统
- 本发明公开了一种基于时间串的论坛页面信息自动抽取方法及系统。该方法包括创建文件对象模型树,清除文件对象模型树中的无用标签和空标签;根据所述时间串,对所述文件对象模型树进行聚类,生成多个聚类集合,遍历所述聚类集合,获取最大...
- 程学旗郗家贞郭岩刘悦俞晓明赵岭
- 文献传递
- 基于事件的新闻客户端热门评论预测框架
- 2016年
- 将评论作为主要研究对象,提出了一种基于事件的新闻客户端热门评论预测框架。为了解决单个新闻客户端数据稀疏的问题,利用新闻客户端的聚集性来挖掘事件;通过建立事件背景解决了使用单条新闻进行预测带来的冷启动问题;框架内部各模块关系完全松耦合,能够依据不同的事件粒度进行在线的热门评论的预测。最后通过实例实验证明,使用框架中提出的联合客户端数据的事件挖掘策略,能够很好地避免单个客户端中数据稀疏的问题,同时证明基于事件进行热门评论框架的效果要优于单纯使用评论本身。
- 李希鹏郭岩赵岭张儒清刘悦俞晓明程学旗
- 用于大规模网络数据采集的信源管理与配置方法和系统
- 本发明涉及一种网络数据采集的信源管理与配置方法,包括:感知网络数据的信息来源,将该信息来源拆分为传媒、信簇和信源;根据信簇类别对该信簇进行类别标注;根据信源类别对该信源进行类别标注;根据该信源的信源类别配置采集模板;根据...
- 程学旗郭岩贺广福周秀花俞晓明史存会孟剑姜世勇肖若晗赵岭张乐焦利颖周映彤余智华刘悦
- 文献传递
- 一种尺度自适应的Mean Shift跟踪算法被引量:15
- 2014年
- 针对传统Mean Shift中跟踪窗口尺度不能实时适应跟踪目标变化这一问题,提出一种基于图割理论的Mean Shift尺度自适应算法.根据每一帧图像的Mean Shift迭代结果,在其周围的一个小区域内,利用先验的肤色混合高斯模型构造图并建立关于标号的能量模型,使用max flow/min cut算法计算出能量函数最小值实现图割,在图割后的肤色团块中寻找最大团判定为跟踪目标,并以该团的尺度来实时调整目标跟踪窗口.实验结果表明,该方法克服了缩放10%核带宽的经典尺度适应方法的带宽趋于缩小问题,实时地反映跟踪目标真实尺度变化,避免背景中其他目标的干扰,具有较好的实用性和鲁棒性,而且可以应用到娱乐游戏控制中,丰富人机交互操作方式.
- 张凤军赵岭安国成王宏安戴国忠
- 关键词:尺度自适应人机交互
- 大规模网络数据的感知与获取方法和系统
- 本发明涉及一种大规模网络数据的感知与获取方法,包括:感知网络数据的信息来源并将其拆分为信源,对该信源设置采集策略;生成采集任务,注册采集节点,以该注册节点拉取采集器并对其进行配置;根据该采集策略,通过该采集器执行该采集任...
- 程学旗史存会俞晓明郭岩贺广福孟剑周秀花姜世勇肖若晗赵岭张乐焦利颖周映彤周术夏余智华刘悦
- 一种基于时间串的论坛页面信息自动抽取方法及系统
- 本发明公开了一种基于时间串的论坛页面信息自动抽取方法及系统。该方法包括创建文件对象模型树,清除文件对象模型树中的无用标签和空标签,根据所述时间串,对所述文件对象模型树进行聚类,生成多个聚类集合,遍历所述聚类集合,获取最大...
- 程学旗郗家贞郭岩刘悦俞晓明赵岭
- 文献传递