国家自然科学基金(61173064)
- 作品数:11 被引量:37H指数:4
- 相关作者:许洪波梁英程学旗熊锦华唐亮更多>>
- 相关机构:中国科学院中国科学院大学中国人民解放军外国语学院更多>>
- 发文基金:国家自然科学基金国家重点基础研究发展计划国家科技支撑计划更多>>
- 相关领域:自动化与计算机技术理学更多>>
- 一种面向图数据的预装载缓存策略
- 2016年
- 真实世界中存在很多数据规模大且关联性强的图数据,而图缓存技术可有效提高对图数据的访问效率和查询效率。为此,提出一种面向大规模图数据的预装载缓存策略。采用基于节点访问日志和大度数优先2种装载方法,利用图数据访问的局部性特点缓存频繁访问的数据。在图存储系统GolaxyGDB中设计一个分布式图数据缓存框架,并描述其中图缓存策略的实现过程。实验结果表明,该策略能有效提高图数据复杂查询的命中率,降低响应时间,满足实际应用中的在线访问需求。
- 左遥梁英许洪波黄硕
- 关键词:访问日志APACHE分布式缓存
- 社交网络账号的马甲关系辨识方法被引量:2
- 2014年
- 正确辨识网络账号的马甲关系,能够维护网络环境的安全与和谐,抑制网络中不法行为和虚假信息。基于文本挖掘的作者身份识别一直受到广泛关注,但对社交网络中文本作者关系鉴别的研究较少,该文提出了一种社交网络账号的马甲识别方法,基于网络语言的风格和账号关系,分别提取网络文本特征和账号之间的回复关系频次两组特征构成特征集合,同时基于账号组合构建训练样本向量空间,鉴别网络账号的马甲关系。结合论坛数据对所提方法进行了实验验证,准确率达到80%,结果表明该方法具有较高的马甲辨别准确率。
- 樊茜许洪波梁英
- 关键词:语言风格社交网络
- 融合局部共现和上下文相似度的查询扩展方法被引量:2
- 2017年
- 为解决信息检索中用户查询可能与索引文档信息表示不匹配从而影响检索效果的问题,提出一种融合局部共现和上下文相似度的查询扩展方法,从与查询词具有共现关系的邻接词和与查询词具有高相关性或同指关系的词两个方面对用户输入查询词进行扩展,重点测试邻接词的取词窗口大小以及上下文向量的最优长度。试验表明:与采用单一扩展方法相比,融合方法的平均准确率取得了明显提高,当邻接词的窗口大小取5,上下文向量的长度取15时,具有更好的平均准确率。
- 唐亮赵晓峰席耀一易绵竹
- 关键词:查询扩展上下文
- 基于多视角特征融合的中文垃圾微博过滤被引量:7
- 2013年
- 微博中隐含着舆论热点等与特定话题相关的有价值的信息。因此,针对微博数据分析(如话题发现等)的工作成了当前的研究热点。由于微博内容和形式的高度自由,使得相关的研究工作面临着垃圾数据噪声大、有用数据提取难的问题。然而,目前针对非公共话题的中文垃圾微博过滤尚无有效方法。提出一种基于多视角特征融合的垃圾微博过滤方法。该方法首先从微博的结构和内容两个视角建立规则,再与微博文本分词结果进行融合构造复合特征,并以此对垃圾微博进行过滤。通过在真实数据集上的实验表明多视角融合的特征使得过滤效果有明显提升。
- 于然刘春阳靳小龙王元卓程学旗
- 基于完全子图的社交网络用户特征识别方法被引量:3
- 2016年
- 社交网络已经成为人们获取信息、交友的主要媒体,但其自身虚拟性、匿名性等特点在给人们带来便利的同时也使用户身份不易确认.为此,文中提出基于完全子图的社交网络用户身份特征识别方法,根据三度影响力原则,构建推测模型,通过分析社交网络拓扑结构图中构成完全子图的用户属性,推测未知用户的未知身份特征.提出多度包含完全子图身份特征识别方法和多度传递的完全子图身份特征识别方法,利用未知用户的三度互粉社交网络拓扑结构图的邻接矩阵搜索完全子图,通过多数投票器方法进行身份推测,有效改善因社交关系稀疏而导致的用户身份特征识别结果不稳定的问题.实验表明文中方法具有较高的准确率.
- 胡开先梁英苏立新许洪波傅川
- 关键词:社交关系社交网络
- 一种社会网络用户身份特征识别方法被引量:10
- 2016年
- 社会网络是现代信息社会重要的组成部分.社会网络用户身份不透明、不可见的特性带来一系列社会安全问题.提出了一种社会网络身份特征识别方法,分别利用基于位置的社会网络和社交关系进行社会网络用户的身份特征识别,融合2种识别结果推测社会网络用户真实身份.提出了一种基于位置的社会网络用户身份识别方法,通过计算中文分词和二元组分词的基本匹配权重和完全匹配权重得到近似度权重,并用它衡量实体为用户所属实体的可能性;通过实体名称聚合算法,对近似度权重计算结果进行优化.根据好友之间倾向于拥有相似的身份特征和相同的兴趣爱好的观察,提出了一种基于社交关系的多数投票的身份识别方法,对社交关系中的用户身份特征进行统计,推测当前用户的地址信息、实体信息和用户兴趣.基于微博数据,进行了样本数为1 000名用户和10 000名用户的2组实验,涵盖了超过250万条社交关系.实验结果表明,提出的虚实映射方法有很高的准确率和覆盖率,与现有方法相比,该方法着眼于推测个人用户细粒度的身份特征,具有较高的实际应用价值.
- 胡开先梁英许洪波毕晓迪左遥
- 关键词:社交关系
- 大数据环境下的动态知识网络模型及构建方法被引量:1
- 2014年
- 针对语义知识库构建方式和语义表达模型研究中的不足,在已有工作的基础上,提出一种新的语义知识模型:动态知识网络,在详细阐述模型组成要素的基础上,进一步研究了该模型的知识表示方法.在语义知识模型的指导下,面向开放的网络数据资源,研究了动态知识网络的半自动构建方法,并且以360百科和新闻网页数据为基础进行了实验验证,结果表明所提模型和方法能够有效支持动态知识网络的构建.
- 刘剑许洪波唐慧丰贾岩涛程学旗
- 关键词:大数据知识网络超图网络百科
- 基于特征相似度的跨语言事件映射被引量:3
- 2016年
- 跨语言事件映射主要研究的是不同语言的事件之间的相似性。针对传统方法仅从文本内容来获取特征词导致准确率不高的问题,提出从文本标题、文本内容以及新词发现三方面综合分析,通过计算候选词的综合权重来得到最终的特征词。实验证明了与传统方法相比,该方法准确性大大提高。
- 唐亮席耀一赵晓峰易绵竹
- 关键词:文本聚类
- 基于多策略过滤的汉日多词短语抽取和对齐被引量:4
- 2015年
- 在跨语言文本分析任务中,多词短语比单个词汇歧义小,语义表达更加准确,有助于提高文本理解的准确性。现有方法主要关注单个词的跨语言对齐。将多词短语抽取和跨语言对齐相融合,提出了一种基于多策略过滤的汉日多词短语抽取和对齐的方法。首先从一个语种出发,通过重复串、左右邻接熵、内部关联度、多词嵌套、停用词等方法提取并过滤得到具备完整语义的多词短语,然后利用平行语料库计算汉日多词短语的相似度,实现跨语言对齐。在整个过程中可结合日语语言规则与特点,根据语料规模、相关领域对过滤阈值进行动态调整,提高了多词短语的领域适用性。实验结果表明,该方法可有效抽取汉日多词短语并进行准确对齐,以多词短语为对齐单元,语义表达更完整,实用价值更大。
- 唐亮李倩许洪波易绵竹
- 关键词:平行语料库词对齐
- 一种支持复杂关系查询的图存储系统被引量:2
- 2014年
- 大数据时代,数据间的高相关性为大数据带来了重要价值,"图"这一抽象数据结构能够很好地表示数据间的关系.复杂图数据具有数据规模大、建模需求多、关系查询复杂等特点,为图存储系统的构建带来挑战.提出了一种支持时间演化和数据溯源的图数据模型,形式化定义了数据结构、数据操作和数据完整性约束,为大规模图数据存储系统的实现奠定了理论基础;实现了一个支持复杂数据查询的图存储系统,为分析挖掘图数据的巨大价值提供了底层基础设施技术支撑.通过实验对系统的存储、入库、查询等能力进行了效果评估,结果表明所提方法有效可行.
- 黄硕梁英许洪波熊锦华冯凯毕晓迪
- 关键词:大数据APACHEHBASE