国家社会科学基金(12CTQ009)
- 作品数:4 被引量:23H指数:3
- 相关作者:虞为陈俊鹏苏新宁童国平更多>>
- 相关机构:南京大学南京财经大学更多>>
- 发文基金:国家社会科学基金国家自然科学基金江苏省社会科学基金更多>>
- 相关领域:文化科学自动化与计算机技术更多>>
- 突发事件检测的MapReduce并行化实现被引量:3
- 2015年
- 【目的】在大数据环境下,从文本流中准确且快速地检测出特定领域的突发事件。【方法】利用Kleinberg突发检测方法和LDA主题模型方法,将其扩展到Map Reduce并行框架中,实现并行语料预处理、并行突发词检测、并行突发文档过滤和并行主题提取。【结果】对新闻文本流进行模拟仿真实验,结果表明,该并行方法在特定领域突发事件检测中准确率P、召回率R和调和平均值F分别最高可达87.50%、77.78%和82.35%。【局限】基于Map Reduce的并行方法难以实现大规模动态文本流在线(Online)实时(Real-time)突发事件检测。【结论】与传统串行突发事件检测方法相比,所构建的分布式并行化方法在保证检测结果正确性的同时,具有良好的可扩展性,性能得到较大提升。
- 卓可秋虞为苏新宁
- 关键词:MAPREDUCE分布式处理LDA主题模型
- 基于MapReduce的书目数据关联匹配研究被引量:10
- 2013年
- 提出一个基于MapReduce的书目数据关联匹配架构,通过参引MODS本体将MARC格式的书目数据转换成关联数据格式。再通过对书目数据和书目数据间的关联匹配,以及书目数据和开放关联社区其他的关联数据间的匹配初步实现书目数据和其他关联数据集间的语义关联,使关联的书目数据成为关联开放数据社区中的一部分,为图书馆的知识发现和语义检索服务提供有效的语义数据支持。
- 虞为陈俊鹏
- 关键词:MAPREDUCE书目数据关联数据
- 一种基于Spark的论文相似性快速检测方法被引量:2
- 2015年
- [目的/意义]从大规模已知文本集中检测出与待检测论文的相似文本并计算相似度大小,用于满足在线论文相似性检测秒级响应需求。[方法/过程]采用分治法策略,对已知文本句集进行基于正交基的软聚类预处理,并对软聚类后的每个簇建立倒排索引。接着在快数据处理平台Spark上执行相似性检测,采用字符结合词组形式计算出待检测论文与已知文本的相似度大小。[结果/结论]通过200万规模的已知文本集实验结果显示,综合4种类型的待检测论文,所提出的倒排索引结合软聚类算法准确率P为100.0%,召回率R为93.6%,调和平均值F为96.7%。调和平均值F比相似性检测算法LCS高10%左右,比Simhash算法高约23%。在检测速度上,对于一篇字数为5 000左右的待检测论文,检测时间约为6.5秒,比Simhash算法快近300倍,比LCS算法快约4 000倍,此外,实验结果还表明基于Spark的分布式并行相似性检测算法具有较好的可扩展性。
- 卓可秋童国平虞为
- 关键词:倒排索引
- 基于实时新闻分析的馆藏资源推荐方法研究被引量:9
- 2015年
- 如何在信息时代增加馆藏资源的可见度,提高馆藏资源的利用率,是一个急需研究和解决的问题。实时新闻和图书馆馆藏资源间的连接可以提高图书馆馆藏资源的可见度,增加图书馆馆藏资源的利用率,为用户提供丰富、全面的阅读资料和专业知识,帮助用户形成全面、深入阅读和思考的良好习惯。基于快数据处理技术的实时新闻分析和馆藏资源推荐框架,通过分析网络实时新闻获取用户感兴趣的话题,应用快数据处理技术、潜在语义分析、非负矩阵分解、权重矩阵分解等方法对数据进行语义分析和处理,对图书馆馆藏资源进行相关话题的分类和推荐。对OCLC的百万数据集和雅虎新闻的分析和实验表明,这种资源推荐框架和方法有较好的应用效果。
- 陈俊鹏虞为
- 关键词:馆藏资源资源推荐矩阵分解