公共文化服务平台

共 10 条记录，以下是 1-9

全选清除导出

排序方式：

NTar:基于网络拓扑的纠删码树型修复方法被引量：2: 2013年; 大规模分布式容错存储系统采用纠删码作为数据冗余技术能够比多副本技术以更低的额外存储空间开销获得相同的数据可靠性.然而,基于纠删码的数据冗余技术在修复一个失效编码块时需要从其他节点下载多个编码块,不仅占用了大量网络资源,也严重降低了修复速度.现有的修复方法都没有考虑网络拓扑的影响.为此,提出并实现了一种基于网络拓扑的纠删码树型修复方法 NTar.NTar依据网络拓扑将参与修复的节点组织成网络距离最小的树型结构,缩短修复期间数据的传输距离,从而减少占用的网络资源并缩短修复时间.此外,提出了节点选择算法Optree.Optree可快速地从所有可用节点中选出最优的参与修复的节点组合,并同时生成最优的树型修复结构.实验结果表明,相比于传统的星型修复,NTar可将修复占用的网络资源降低30%~45%,修复时间减少50%~70%.; 许方亮王意洁裴晓强; 关键词：分布式存储系统网络拓扑纠删码数据修复最小生成树

一种通用可扩展的在线警报关联方法: 2015年; 大规模网络环境下,多样化网络攻击类型产生的高速警报数据流,对警报关联方法的通用性、实时性以及系统开销控制提出了很高的要求.目前警报关联技术相关研究多是基于集中式结构的算法设计,难以满足实时性的要求;而已有少数分布式警报关联系统未深入考虑负载均衡和系统开销控制.为此,提出了一种通用可扩展的在线警报关联方法CACDS(causal alert correlation on distributed system).CACDS在分布式流处理环境中采用"分派-汇聚"机制作为在线警报关联的基本框架.基于该框架,CACDS采用因果逻辑方法进行关联分析,松弛匹配警报之间的前因后果,能够对各种不同攻击类型进行有效检测.为了充分利用分布式环境下各节点资源,提出一种混合式关联图划分技术,以不同警报类型引起的计算开销和系统开销为依据,警报被映射至不同的关联进程中以实现并行警报关联,保证了系统实时性和低开销.基于Storm平台的原型系统实验表明,与其他方法相比,CACDS具有更好的可扩展性、更高的吞吐率和更低的系统开销.; 程力王意洁马行空; 关键词：警报关联可扩展性

GRC:一种适用于多节点失效的高容错低修复成本纠删码被引量：5: 2014年; 作为云计算重要基础的大规模分布式容错存储系统,采用纠删码作为数据冗余技术能比多副本技术以更低的存储开销获得相同的数据可靠性.然而,过高的修复成本使纠删码技术在实际中的应用受到限制.已有的改进工作虽然可以降低成本,但在多节点失效修复的成本过高.提出一种适用于多节点失效的高容错低修复成本纠删码——分组修复码(group repairable codes,GRC).GRC码通过将条带分组并增加组编码块,显著减少了修复所要传输的数据量,从而节省了宝贵的网络带宽和磁盘I/O资源;GRC码通过多个组编码块在多节点失效时降低修复成本,且维持较好容错能力.根据GRC码的特征,提出基于贪心策略的解码算法(greedy strategy based decode algorithm,GSBD),GSBD通过保证每个失效块的修复成本最小以优化修复过程.实验结果显示,与RS码相比,GRC码将修复网络带宽和磁盘I/O分别降低50%~55%,修复速度提高75%~90%,仅需增加21%存储空间;与LRC码相比,GRC码将修复网络带宽和磁盘I/O分别降低35%~45%,修复速度提高40%~50%,仅需增加13%存储空间;与basic pyramid code(BPC)相比,GRC码将修复网络带宽和磁盘I/O降低15%~25%,修复速度提高20%~25%,仅需增加6%存储空间.; 林轩王意洁裴晓强许方亮符永铨; 关键词：分布式存储系统纠删码数据修复

一种高效的不确定数据流并行Skyline查询处理方法被引量：3: 2013年; 随着信息技术的不断发展,针对不确定数据流的应用和研究逐步引起学界的广泛关注.目前不确定数据流上Skyline查询的相关研究多关注于单机环境下的查询算法.当用户对查询响应速度要求较高或滑动的窗口规模较大时,基于单机环境进行集中处理的查询效率受到计算能力的限制,难以满足查询的实时性需求.当前诸如数据中心等分布式计算环境的兴起和广泛运用,为实现不确定数据流的分布并行Skyline查询处理提供了有利条件.对于高速到达的不确定数据流上的Skyline查询,当前研究的挑战在于如何充分利用分布式计算环境实现并行查询处理,以提高查询处理的效率.文中针对已有基于单机环境的集中式查询处理方法因计算能力不足而难以满足当前用户查询需求的问题,提出了一种针对不确定数据流的分布并行Skyline查询处理的两级并行查询模型TPM.实验表明基于TPM模型对不确定数据流进行分布并行Skyline查询处理的方式在不同滑动窗口规模、数据维度和并行节点数目的条件下,均具有良好的性能.; 赵越王意洁王媛李小勇; 关键词：不确定数据数据流处理 SKYLINE查询

FAAD:an unsupervised fast and accurate anomaly detection method for a multi-dimensional sequence over data stream被引量：1: 2019年; Recently, sequence anomaly detection has been widely used in many fields. Sequence data in these fields are usually multi-dimensional over the data stream. It is a challenge to design an anomaly detection method for a multi-dimensional sequence over the data stream to satisfy the requirements of accuracy and high speed. It is because:(1) Redundant dimensions in sequence data and large state space lead to a poor ability for sequence modeling;(2) Anomaly detection cannot adapt to the high-speed nature of the data stream, especially when concept drift occurs, and it will reduce the detection rate. On one hand, most existing methods of sequence anomaly detection focus on the single-dimension sequence. On the other hand, some studies concerning multi-dimensional sequence concentrate mainly on the static database rather than the data stream. To improve the performance of anomaly detection for a multi-dimensional sequence over the data stream, we propose a novel unsupervised fast and accurate anomaly detection(FAAD) method which includes three algorithms. First, a method called "information calculation and minimum spanning tree cluster" is adopted to reduce redundant dimensions. Second, to speed up model construction and ensure the detection rate for the sequence over the data stream, we propose a method called"random sampling and subsequence partitioning based on the index probabilistic suffix tree." Last, the method called "anomaly buffer based on model dynamic adjustment" dramatically reduces the effects of concept drift in the data stream. FAAD is implemented on the streaming platform Storm to detect multi-dimensional log audit data.Compared with the existing anomaly detection methods, FAAD has a good performance in detection rate and speed without being affected by concept drift.; Bin LIYi-jie WANGDong-sheng YANGYong-mou LIXing-kong MA; 关键词：STREAM MULTI-DIMENSIONAL SEQUENCE ANOMALY DRIFT

一种弹性可扩展的并行n-of-N Skyline查询处理算法: 2015年; n-of-N Skyline查询关注于大小为N的滑动窗口上最近任意n(n≤N)个数据对象的Skyline查询结果,为用户的Skyline查询提供了高度的灵活性.在当前大数据的新环境下,数据流呈现出以下2个特征:1)数据流实时大规模高速到达;2)数据流工作负载的急剧变化性.这对n-of-N Skyline查询的实时性以及自适应扩展提出了更高的要求.而目前针对n-of-N Skyline查询相关的研究都是关注于单机环境下的集中式查询算法,难以同时满足当前新环境下查询的实时性与自适应扩展需求.为此,提出了一种弹性并行查询模型EPM,并且基于EPM模型提出了一种弹性可扩展的并行n-of-N Skyline查询算法(elastic parallel n-of-N Skylline,EPnNS).实验证明,该算法在并行节点数增加1倍时,查询效率提升接近70%,而且在应对不同程度的负载变化时,该算法具有较好的自适应调整性能.; 魏炜王意洁王媛马行空; 关键词：SKYLINE 数据流处理

运用警报关联的威胁行为检测技术综述被引量：2: 2017年; 基于警报关联的网络威胁行为检测技术因其与网络上大量部署的安全产品耦合,且能充分挖掘异常事件之间的关联关系以提供场景还原证据,正成为复杂威胁行为检测的研究热点。从威胁行为和网络安全环境的特点出发,引出威胁行为检测的应用需求和分类,介绍基于警报关联的威胁行为检测的基本概念和系统模型;重点论述作为模型核心的警报关联方法,并分类介绍了各类典型算法的基本原理和特点,包括基于因果逻辑的方法、基于场景的方法、基于相似性的方法和基于数据挖掘的方法;并结合实例介绍了威胁行为检测系统的三种典型结构,即集中式结构、层次式结构和分布式结构;基于当前研究现状,提出了对未来研究趋势的一些认识。; 王意洁程力马行空; 关键词：警报关联

分布式存储中的纠删码容错技术研究被引量：53: 2017年; 大数据规模上体量大和增长速度快的特点对存储系统的性能和可扩展性提出了严峻挑战.使用普通商用服务器构建的分布式存储系统服务能力强、成本低廉且极易扩展,在大数据的存储管理中得到了极为广泛的应用.分布式存储系统庞大的节点数量导致节点失效情况频发,必须采用一定的容错技术来保证数据可靠性.常用的容错技术主要包括多副本技术和纠删码技术两种.与多副本容错技术相比,纠删码容错技术能够以低得多的存储开销提供相同甚至更高的数据可靠性.随着近年来数据规模的爆炸式增长,纠删码容错技术受到了业界的广泛关注.该文综述了分布式存储中纠删码容错技术的研究现状.首先,介绍了纠删码容错技术的基本原理和概念,指出了纠删码容错技术在大规模分布式存储中面临的主要技术挑战;然后,从编码实现、纠删码设计、数据修复和数据更新等方面阐述了分布式存储中纠删码容错技术的研究进展,重点研究分析了各项关键技术的特点和局限性,并依据主要评价指标对现有纠删码的编码性能和修复性能进行了对比和分析;最后,基于最新研究动态指出了分布式存储中纠删容错技术未来的研究方向,包括同步编码实现技术、低冗余再生码设计和数据失效预测技术等.; 王意洁许方亮裴晓强; 关键词：分布式存储纠删码数据修复数据更新

Paragraph Vector Representation Based on Word to Vector and CNN Learning被引量：5: 2018年; Document processing in natural language includes retrieval,sentiment analysis,theme extraction,etc.Classical methods for handling these tasks are based on models of probability,semantics and networks for machine learning.The probability model is loss of semantic information in essential,and it influences the processing accuracy.Machine learning approaches include supervised,unsupervised,and semi-supervised approaches,labeled corpora is necessary for semantics model and supervised learning.The method for achieving a reliably labeled corpus is done manually,it is costly and time-consuming because people have to read each document and annotate the label of each document.Recently,the continuous CBOW model is efficient for learning high-quality distributed vector representations,and it can capture a large number of precise syntactic and semantic word relationships,this model can be easily extended to learn paragraph vector,but it is not precise.Towards these problems,this paper is devoted to developing a new model for learning paragraph vector,we combine the CBOW model and CNNs to establish a new deep learning model.Experimental results show that paragraph vector generated by the new model is better than the paragraph vector generated by CBOW model in semantic relativeness and accuracy.; Zeyu XiongQiangqiang ShenYijie WangChenyang Zhu; 关键词：CNNS

全选清除导出

共1页<1>

国家教育部博士点基金(20124307110015)

文献类型

领域

主题

机构

作者

传媒

年份

用户反馈

国家教育部博士点基金(20124307110015)

文献类型

领域

主题

机构

作者

传媒

年份

用户登录

用户反馈