您的位置: 专家智库 > >

国家科技重大专项(2010ZX01042-002-003)

作品数:16 被引量:478H指数:9
相关作者:孟小峰陈岭霍峥陈根才张金增更多>>
相关机构:中国人民大学浙江大学浙江鸿程计算机系统有限公司更多>>
发文基金:国家科技重大专项国家自然科学基金中国人民大学科学研究基金更多>>
相关领域:自动化与计算机技术更多>>

文献类型

  • 16篇期刊文章
  • 2篇会议论文

领域

  • 18篇自动化与计算...

主题

  • 7篇查询
  • 2篇隐私
  • 2篇隐私保护
  • 2篇硬盘
  • 2篇闪存
  • 2篇数据库
  • 2篇主题模型
  • 2篇网络
  • 2篇可扩展
  • 2篇固态硬盘
  • 2篇关键字
  • 2篇关键字查询
  • 2篇LDA
  • 2篇查询优化
  • 2篇IMPALA
  • 1篇地址映射
  • 1篇多核
  • 1篇多核学习
  • 1篇信息检索
  • 1篇移动WEB

机构

  • 10篇中国人民大学
  • 8篇浙江大学
  • 5篇浙江鸿程计算...
  • 2篇燕山大学
  • 1篇鲁东大学

作者

  • 10篇孟小峰
  • 5篇陈岭
  • 2篇霍峥
  • 2篇陈根才
  • 2篇张金增
  • 2篇庄越挺
  • 2篇邵健
  • 2篇赵宇亮
  • 2篇马骄阳
  • 1篇张晨逸
  • 1篇孙建伶
  • 1篇马友忠
  • 1篇周军锋
  • 1篇汤显
  • 1篇史英杰
  • 1篇肖敏
  • 1篇丁轶群
  • 1篇綦晓颖
  • 1篇刘东琦
  • 1篇何旭峰

传媒

  • 5篇计算机研究与...
  • 5篇计算机学报
  • 2篇软件学报
  • 2篇浙江大学学报...
  • 1篇小型微型计算...
  • 1篇中文信息学报

年份

  • 1篇2017
  • 1篇2016
  • 1篇2014
  • 1篇2013
  • 8篇2012
  • 6篇2011
16 条 记 录,以下是 1-10
排序方式:
基于主题模型的网络突发热点事件检测
本文提出了一种基于主题模型的网络突发热点事件检测方法。该方法根据网络热点事件涌现过程中相关单词和文档的突发特性对数据集进行筛选,然后通过主题建模得到突发热点事件的特征单词和特征文本,并且计算出热点事件的关注度日期分布。在...
刘霄邵健庄越挺
关键词:主题模型
文献传递
基于在线层次化非负矩阵分解的文本流主题检测被引量:2
2016年
针对文本流主题检测中存在的主题结构扁平问题,提出在线的层次化非负矩阵分解方法,在每个时间片中根据归一化累计折损增益选择主题节点进行分解,接着反复将文档分配给最相关的主题节点构建主题层次,该过程中假设主题在由不同时间片中相似主题节点构成的序列中连续再演化,在当前时间片对主题节点进行分解时考虑过去时间片中主题节点的分解结果.该方法不仅能在线的发现和更新文本流中的主题,而且还可揭示主题间的结构关系.在Nist TDT2数据集上的实验结果表明,该方法在NMI、Micro F1、MAP和NDCG等指标下均显著超过了其他动态NMF方法,并在时间效率上显示出一定优势.
涂鼎陈岭陈根才吴勇王敬昌
关键词:层次聚类非负矩阵分解
OrientSTS:一个时空景点序列分析系统
2011年
目前,随着用户对高效的、个性化服务的需求的日益增长,如何制定一个完美的旅游计划是一个亟待解决的问题.因此提出了一种新颖的时空序列分析方法.该方法综合考虑了距离、权值、游览时间、开放时间和景点特色等因素,为用户提供一个最优的时空景点序列.该序列能够使用户在其旅游时间范围限制内,走最少的路程来游览他最想游览的那些景点.本研究的难点在于考虑每个景点的权重,对不同用户而言其权重的差异性,以及总的旅游时间限制.本文提出了4种近似算法.
周春姐刘东琦孟小峰
关键词:权值
路网环境下访问序列受限的多标签路线查询算法被引量:7
2012年
随着移动互联网、地理定位技术和智能终端设备的迅速普及,产生了大量的位置信息和其对应的标签(tag)描述信息.路线搜索是人们出行时经常进行的活动,但面临多个任务需求时,寻找最佳路线是一项极为耗时的工作.此外空间对象本身的访问权限和用户指定的限制一定程度上制约了对象的访问次序.针对上述情况,文中提出了一种路网环境下访问序列受限的多标签路线(MTROC)查询,该查询的目标是找出一条从源点到目标点、经由与查询中给定的tag相匹配的空间对象且满足序列约束的最短线路.文中证明了MTROC查询问题是NP-hard,并基于增强的路线叠置-关联目录(EROAD)索引提出了3种近似算法.路线扩展RE-Greedy算法和路线渐增插入RII-Greedy算法通过局部更新获得满足需求的路线,而全局路线优化算法GROA为MTROC查询提供一个全局近似最优解.使用真实和合成数据集对文中提出的算法的有效性和可扩展性进行分析评估,实验结果表明3种算法都能有效地完成MTROC查询,其中GROA算法可扩展性最好,而RII-Greedy算法返回的路线质量最高.
张金增文洁孟小峰
关键词:路网标签
基于固态硬盘内部并行的数据库表扫描与聚集被引量:10
2012年
随着基于闪存的固态硬盘在个人计算机和企业服务器上的广泛应用,固态硬盘受到学术界和工业界越来越多的关注.除了具有闪存存储器的优良特性之外,固态硬盘内部还具有丰富的并行特性.传统数据库系统的物理操作表扫描和上层聚集操作是针对磁盘的机械特性和对称读写特性而设计的,并不能发挥固态硬盘内部并行特性的优势.文中首先将固态硬盘作为一个黑盒进行探测以了解其内部的并行特性.在此基础上,对传统数据库表扫描操作进行相应的改进,提出一种并行表扫描模型ParaSSDScan以充分利用固态硬盘内部丰富的并行特性.其次,基于并行表扫描模型,文中还提出一种高效的并行聚集操作模型ParaSSDAggr,并利用该聚集操作模型实现几种常见聚集操作.最后,通过实验表明并行表扫描和并行聚集操作的性能较之传统数据库表扫描和聚集操作的性能分别提高了3倍和4倍,同时实验结果还表明并行聚集操作对内存的需求不大.并行表扫描和并行聚集操作大大提高了表扫描和聚集操作的性能,充分说明了固态硬盘内部并行特性的优越性.
范玉雷赖文豫孟小峰
关键词:固态硬盘闪存数据库
基于CQPM的OLAP查询日志挖掘及推荐被引量:1
2012年
为提高用户的使用效率,提出基于连续查询模式挖掘(CQPM)算法的联机分析处理(OLAP)查询日志挖掘及推荐方法.CQPM算法在双向扩展频繁闭合序列模式挖掘算法(BIDE)的基础上加入查询之间的间隔约束,确保查询模式的连续性.提出方法通过基于查询后缀树的模糊查询模式匹配(AQPM)算法预测用户下一步有效查询,并将预测结果按概率大小排序后推荐给用户.通过8名OLAP分析人员在Mondrian OLAP服务器上的查询日志对提出方法进行性能评价,结果表明,相较基于prefixspan的改进算法,采用CQPM算法能够去除数量庞大的冗余的查询模式,相较基本的前缀匹配算法,AQPM算法能够提高推荐的准确率.
殷婷肖敏陈岭赵江奇王敬昌
关键词:数据仓库查询日志OLAP
移动Web搜索研究被引量:13
2012年
随着3G时代的到来和Web资源的飞速增长,移动互联网呈现出快速发展的趋势,人们可以利用移动终端设备便捷地访问网络,从中获取丰富的信息.然而如何对Web资源进行地理标记,并将地理数据与Web数据进行无缝集成,为移动用户提供有价值的高度相关的信息,却都是十分具有挑战性的工作.提出了一个移动Web搜索的系统框架,依据该框架对移动Web搜索领域关键性技术进行了分类概括总结.在对已有技术进行深入对比分析的基础上,指出了该领域未来的研究工作和面临的挑战.
张金增孟小峰
关键词:移动WEB混合索引查询处理结果可视化
COLA:云环境下的在线聚集系统
相对于传统的批处理模式,在线聚集能在处理过程中不断地返回近似结果.COLA是一个云环境下的基于MapReduce的在线聚集系统,它能在处理开始后短时间内返回高准确度的估计结果,使得用户可以提前终止处理,从而在云平台即用即...
干艳桃史英杰孟小峰
关键词:MAPREDUCE云计算
文献传递
轨迹隐私保护技术研究被引量:111
2011年
随着移动设备和定位技术的发展,产生了大量的移动对象轨迹数据.轨迹数据含有丰富的时空信息,对其分析和挖掘可以支持多种与移动对象相关的应用.然而,针对轨迹数据的攻击性推理可能导致个人的兴趣爱好、行为模式、社会习惯等隐私信息暴露.另一方面,在基于位置的服务中,由于现有位置隐私保护技术并不能解决轨迹隐私泄露的问题,移动对象的个人隐私很可能通过实时运行轨迹而暴露.针对上述两种场景,轨迹隐私保护的研究提出了明确的要求:在轨迹数据发布中,隐私保护技术既要保护轨迹数据的隐私,又要保证数据有较高的可用性;在基于位置的服务中,隐私保护技术既要保护移动对象的实时轨迹隐私,又要保证用户获得较高的服务质量.该文针对上述两个问题分析了轨迹隐私保护中存在的挑战性问题,针对不同的隐私保护方法分析了现有的研究工作,介绍了当前该领域的研究热点,指明了未来的研究方向.
霍峥孟小峰
关键词:数据库应用隐私保护数据发布
基于LDA主题模型的分布式信息检索集合选择方法被引量:21
2017年
该文针对分布式信息检索时不同集合对最终检索结果贡献度有差异的现象,提出一种基于LDA主题模型的集合选择方法。该方法首先使用基于查询的采样方法获取各集合描述信息;其次,通过建立LDA主题模型计算查询与文档的主题相关度;再次,用基于关键词相关度与主题相关度相结合的方法估计查询与样本集中文档的综合相关度,进而估计查询与各集合的相关度;最后,选择相关度最高的M个集合进行检索。实验部分采用Rm、P@n和MAP作为评价指标,对集合选择方法的性能进行了验证。实验结果表明该方法能更准确的定位到包含相关文档多的集合,提高了检索结果的召回率和准确率。
何旭峰陈岭陈根才钱坤吴勇王敬昌
关键词:分布式信息检索LDA
共2页<12>
聚类工具0