教育部科学技术研究重点项目(104236) 作品数:9 被引量:191 H指数:5 相关作者: 马少平 张敏 刘奕群 路晶 王灿辉 更多>> 相关机构: 清华大学 北京交通大学 更多>> 发文基金: 教育部科学技术研究重点项目 国家重点基础研究发展计划 国家自然科学基金 更多>> 相关领域: 自动化与计算机技术 更多>>
基于概念索引的图像自动标注 被引量:12 2007年 在基于内容的图像检索中,建立图像底层视觉特征与高层语义的联系是个难题.一个新的解决方法是按照图像的语义内容进行自动标注.为了缩小语义差距,采用基于支持向量机(SVM)的多类分类器为空间映射方法,将图像的底层特征映射为具有一定高层语义的模型特征以实现概念索引,使用的模型特征为多类分类的结果以概率形式组合而成.在模型特征组成的空间中,再使用核函数方法对关键词进行了概率估计,从而提供概念化的图像标注以用于检索.实验表明,与底层特征相比,使用模型特征进行自动标注的结果F度量相对提高14%. 路晶 马少平关键词:图像自动标注 多类分类器 空间映射 基于非内容信息的网络关键资源有效定位 被引量:4 2007年 网络信息的爆炸式增长,使得当前任何搜索引擎都只可能索引到Web上一小部分数据,而其中又充斥着大量的低质量信息.如何在用户查询无关的条件下找到Web上高质量的关键资源,是Web信息检索面临的挑战.基于大规模网页统计的方法发现,多种网页非内容特征可以用于关键资源页面的定位,利用决策树学习方法对这些特征进行综合,即可以实现用户查询无关的关键资源页面定位.在文本信息检索会议(TREC)标准评测平台上进行的超过19G文本数据规模的实验表明,这种定位方法能够利用20%左右的页面覆盖超过70%的Web关键信息;在仅为全部页面24%的关键资源集合上的检索结果,比在整个页面集合上的检索有超过60%的性能提高.这说明使用较少的索引量获取较高的检索性能是完全可能的. 刘奕群 张敏 马少平关键词:网络信息检索 基于数组的桶排序算法 被引量:14 2007年 经典桶排序算法以链表形式实现“桶”,处理均匀数据效率很高,是O(N)算法.但对极不均匀数据则退化成低效的O(N2)插入排序.讨论了记录携带附加数据的计数排序算法,将“桶”实现为顺序数组,避免链表的动态内存分配直接提高算法效率,并允许快排等O(NlogN)算法处理桶内数据.对均匀数据仍然保持O(N)时间复杂度,对极端不均匀数据则只退化为O(NlogN)的原算法.对一般非均匀数据,证明数组桶排序算法总体性能高于经典算法.均匀数据实验表明,桶排序算法明显优于Lin-ux下标准qsort系统调用,且数组桶排序算法效率更高.而在非均匀的正态数据实验中数组桶算法性能下降明显小于经典桶排序,总体效率仍然优于qsort的直接应用. 杨磊 宋涛关键词:复杂度 桶排序 基于大规模日志分析的搜索引擎用户行为分析 被引量:138 2007年 用户行为分析是网络信息检索技术得以前进的重要基石,也是能够在商用搜索引擎中发挥重要作用的各种算法的基本出发点之一。为了更好的理解中文搜索用户的检索行为,本文对搜狗搜索引擎在一个月内的近5 000万条查询日志进行了分析。我们从独立查询词分布、同一session内的用户查询习惯及用户是否使用高级检索功能等方面对用户行为进行了分析。分析结论对于改进中文搜索引擎的检索算法和更准确的评测检索效果都有较好的指导意义。 余慧佳 刘奕群 张敏 茹立云 马少平关键词:计算机应用 中文信息处理 网络信息检索 搜索引擎 用户行为分析 清华THUIR2005年863信息检索评测 2006年 在2005年863信息检索评测中,我们主要尝试了采用入链接描述文字。以及我们在去年已使用的词对检索方法。由于只能提交一组自动方法检索的结果。我们的手工查询以及自动处理查询两组结果,都采用了比较稳定的词对检索参数。以及有比较一致的良好效果的八链接描述方法。就我们在自己构建的训练集以及提交的两组结果的实际效果的评测来看,我们的方法对用户查询词的精确性有比较高的要求,并且词对和入链接描述文字都能提高检索的效果。 赵乐 岑荣伟 王灿辉 齐伟 金奕江 张敏 马少平关键词:计算机应用 中文信息检索 基于文档中心内容快速提取的Web监控辅助系统 Web已成为人们获取信息的重要来源。Web数据的产生与传播变得更加自由和便捷,数据量持续爆炸式增长,因而对Web进行监控和预警的需求也更加迫切。本文提出一种快速提取文档中心内容的算法,用于缩减Web海量数据的规模。实验结... 王灿辉 金奕江 马少平关键词:WEB监控 文献传递 基于相邻词的中文关键词自动抽取 被引量:12 2007年 文档关键词概括了文档的主题和内容,在信息检索、文本分类、文本聚类等领域有着重要应用。在总结前人研究成果的基础上,提出了一种基于相邻词的中文关键词自动抽取算法。在对50篇学术论文自动抽取关键词的实验中,采用精确匹配的评价获得了38.9%的精度和34.9%的召回率,采用近似匹配的评价获得了70.7%的精度和68.8%的召回率,能够为进一步的研究提供帮助。 王灿辉 张敏 马少平 黄宇关键词:关键词抽取 信息检索 信息检索研究:过去三十年中我们走了多远 本文以对信息检索领域最顶级的国际会议SIGIR三十年来论文主题的分析为切入点,结合近来年对相关领域的研究和实践,对信息检索研究的发展变化历程和趋势进行总结和分析。 马少平 张敏关键词:信息检索 SIGIR 文献传递 面向信息检索需要的网络数据清理研究 被引量:5 2006年 W eb数据中的质量参差不齐、可信度不高以及冗余现象造成了网络信息检索工具存储和运算资源的极大浪费,并直接影响着检索性能的提高。现有的网络数据清理方式并非专门针对网络信息检索的需要,因而存在着较大不足。本文根据对检索用户的查询行为分析,提出了一种利用查询无关特征分析和先验知识学习的方法计算页面成为检索结果页面的概率,从而进行网络数据清理的算法。基于文本信息检索会议标准测试平台的实验结果证明,此算法可以在保留近95%检索结果页面的基础上清理占语料库页面总数45%以上的低质量页面,这意味着使用更少的存储和运算资源获取更高的检索性能将成为可能。 刘奕群 张敏 马少平关键词:计算机应用 中文信息处理 网络信息检索 数据清理 基于平均检索精度的图像特征融合方法 被引量:4 2005年 在基于内容的图像检索中,不同图像特征反映了图像不同侧面的内在特性,如何有效地组织和利用这些特征从而提高系统的检索性能是一个值得研究的课题.首先提出了特征互补率的定义,通过计算互补矩阵有指导地选择融合特征集.实验结果表明,互补矩阵能够很好地估计特征之间的补充能力.同时提出了基于平均检索精度的特征线性融合方法,并在一个包含12000张异质图像的大型图像库上与当前图像检索中最常用的几种方法进行了对比实验,结果表明这种方法具有更高的精度. 茹立云 马少平 路晶