国家高技术研究发展计划(2008AA01Z408)
- 作品数:5 被引量:16H指数:3
- 相关作者:朱明谭晓彬刘守群汪洋张洋更多>>
- 相关机构:中国科学技术大学合肥市公安局中国科学院更多>>
- 发文基金:国家高技术研究发展计划国家自然科学基金更多>>
- 相关领域:自动化与计算机技术更多>>
- 一种快速有效的相似视频检索方法
- 2010年
- 提出了一种新的相似视频快速检索方法.根据视频的时空分布统计得到图像特征码和视频单元,通过统计视频单元数量度量视频相似性.为了适应可扩展计算的需要,提出了基于聚类索引表的检索方法.通过对大规模数据库的查询测试证明该相似性检索算法快速有效.
- 曹政朱明
- 关键词:时空分布特征
- 基于语义扩展模型的中文网页关键词抽取被引量:4
- 2012年
- 提出一种基于语义扩展模型、分步骤的无监督关键词抽取方法。选择词语的网页结构特征、词性、词长、TF-IDF值等特征,通过聚类算法抽取候选关键词。根据n-gram语言模型理论,引入邻接变化数等特征构建基于词的语义扩展模型,采用无监督方法将候选关键词扩展为关键词串。实验结果表明,该方法能有效改善针对未登录词及短语的抽取结果,提高中文网页关键词抽取结果的质量。
- 汪洋帅建梅
- 关键词:聚类算法
- 基于关键词相关性的有害信息爬虫系统研究
- 2014年
- 传统的互联网有害信息发现方法是依据Google、百度等元搜索工具,用户输入关键词进行检索,然后对获取的结果进行研判,但是用户经常无法准确地描述所需的资料,给出的关键词不准确,搜索结果常有用户不关心的垃圾数据,而一些有用的数据却不能列出。文中探讨了一种基于元搜索,引入关键词扩充技术的爬虫方法。该方法在网页抓取,用户检索的时候能扩充输入的关键词,从而提高搜索覆盖率和精度。该方法投入小,效果好,还可通过扩展应用到其他领域。
- 苏金波朱剑宇杨柳刘跃
- 关键词:元搜索爬虫索引
- 基于角点检测和自适应阈值的新闻字幕检测被引量:4
- 2009年
- 目前用于提取新闻视频帧中字幕的方法准确率和检测速度普遍较低,尤其对于分辨率和对比度较小的标题文字,检测效果很差。针对上述问题,提出一种基于角点检测和自适应阈值的字幕检测方法。该方法利用角点检测确定标题帧中的文字区域并进行灰度变换,利用自适应阈值的方法对其进行二值化,得到OCR可识别的文字图片。实验表明,该方法可以快速有效地提取出分辨率和对比度较小的新闻视频标题字幕。
- 张洋朱明
- 关键词:新闻视频字幕提取自适应阈值角点检测
- 一种基于树匹配的网页语义块挖掘算法被引量:8
- 2009年
- 在互联网中,网页等半结构化文本通常由不同的语义区块组合而成,定位和挖掘这类区块对网页内容理解、页面结构分析等有着重要的作用.然而由于不同网页在结构和内容上都存在着较大的区别,准确的从不同的网页中定位特定的结构区域是一个相对复杂的任务.主要提出一种基于树匹配的方法用来挖掘网页中的语义区块,并通过剪枝等策略优化算法.实验表明该方法能有效提高F值,同时算法的性能有较大改善.
- 刘守群朱明谭晓彬
- 关键词:树匹配数据挖掘剪枝