姚晓
- 作品数:9 被引量:24H指数:3
- 供职机构:中国科学院计算技术研究所更多>>
- 发文基金:国家高技术研究发展计划国家自然科学基金国家杰出青年科学基金更多>>
- 相关领域:自动化与计算机技术天文地球更多>>
- Spark框架下矢量多边形求交算法研究被引量:7
- 2018年
- 提出一种分布式内存计算框架Spark下的矢量多边形求交算法,解决了大数据环境下并行矢量多边形求交计算过程中网络数据传输成本高、冗余计算量大的问题。该算法根据空间填充曲线构建空间网格分区,并利用多边形最小外包矩形(MBR)进行网格填充,以传输MBR代替传统算法中直接传输多边形几何体的过程,减少了算法的网络数据传输量。针对复杂多边形跨越多个网格分区的场景,提出一种跨区数据交点定位策略,从而消除跨区多边形的冗余计算。实验结果表明,本文方法能够显著提高并行矢量多边形求交算法的计算效率。
- 姚晓邱强邱强方金云方金云
- 关键词:SPARK
- 地理信息系统中的矢量空间叠加分析并行方法及系统
- 本发明提供一种地理信息系统中的矢量空间叠加分析并行方法。该方法包括:根据输入图层和叠加图层的数据类型以及叠加操作类型决定图层划分策略以确定待划分图层;分离所述待划分图层的空间数据,并将所述分离的空间数据分配给不同的子任务...
- 邱强姚晓方金云
- 文献传递
- 并行地理计算算法性能评测技术研究
- 2015年
- 从并行地理算法的正确性评测、性能评测、评测流程和评测工具实现等角度,研究了高性能集群环境下的评测技术。在正确性评测假设基础上,将评测用例在不同进程数环境下的计算结果与该算法在单进程环境下的运算结果逻辑求差得出相对误差,提出了问题规模计算方法。根据评测用例的问题规模确定评测用例的权重,提出了性能指标和评测流程,并通过评测工具自动获得同一个并行地理计算算法。在多个不同评测用例下的评测指标来衡量算法的计算误差与性能,形成评测报告。经实验验证,本文方法能较好地满足并行地理计算算法评测的需求,为并行空间分析算法性能优化提供技术保障。
- 陈翠婷方金云邱强姚晓李栋宾
- 关键词:地理计算性能评测
- 基于空间聚类的矢量空间数据并行计算划分方法被引量:7
- 2015年
- 为了解决并行矢量空间分析在数据划分阶段的负载均衡问题,研究了矢量空间数据的划分,提出了一种基于空间聚类思想的矢量空间数据划分方法。该方法充分考虑矢量空间数据规模以及空间邻近性特征对并行空间分析算法效率的影响,首先采用空间填充曲线对二维空间数据进行编码,保证空间要素邻近性特征;然后用空间要素集合对空间要素流进行填充,从而确保各个子任务集中的要素数据规模相对均衡。以并行叠加分析中点面、线面、面面叠加操作为例,设计了对比实验。实验结果表明,该方法能够有效提高以线、面要素为操作对象的并行算法负载均衡度和提高并行算法整体运行效率。
- 邱强方雷姚晓方金云
- 关键词:并行计算HILBERT曲线矢量数据负载均衡
- 一种基于动机感知的用户识别实时算法被引量:2
- 2020年
- 用户识别是电商大数据行为挖掘的基础,本文提出了一种电商用户识别的新算法,该算法引入用户行为动机感知技术,采用初次匹配和精确识别二阶段模式来识别用户。初次匹配阶段算法利用启发式规则划分用户数据,在精确识别阶段通过实时分析用户的访问动机,依据用户行为相异数矩阵来识别用户。在Spark上的优化使算法在分布式场景中具备实时处理大规模数据的能力。实验结果表明该算法的准确率达97.89%,并具有良好的识别效率。
- 张梦菲邱强邱强姚晓姚晓
- 关键词:用户识别电子商务SPARK分布式计算
- 地理信息系统中的矢量空间叠加分析并行方法及系统
- 本发明提供一种地理信息系统中的矢量空间叠加分析并行方法。该方法包括:根据输入图层和叠加图层的数据类型以及叠加操作类型决定图层划分策略以确定待划分图层;分离所述待划分图层的空间数据,并将所述分离的空间数据分配给不同的子任务...
- 邱强姚晓方金云
- NJ-GPCA:一种面向并行空间计算的高效数据访存策略
- 2018年
- 针对并行矢量空间叠加分析中存在的I/O性能差及并行算法调度效率低的缺陷,提出了"去"归并通用并行计算架构(NJ-GPCA)。该架构首先基于内存数据库Redis设计内存矢量空间数据模型;其次通过数据预处理以及任务分发技术,减少进程等待,提高I/O性能;最后重新进行任务分配以及规划进程调度,避免结果数据归并收集,使得并行叠加分析算法归并收集阶段的时间复杂度由O(nlogn)降低到O(n)。实验结果表明,该方法对真实地理数据下的并行叠加分析操作,I/O时间至少减少75%,对于提高算法整体性能有明显效果。
- 姚晓邱强邱强方金云
- 关键词:I/O并行计算任务调度
- 基于Spark的空间数据实时访存技术的研究被引量:7
- 2015年
- 研究并实现了基于Spark的空间查询算法。根据空间查询特性和Spark分布式内存计算模型,设计了HBase分布式存储、分布式空间索引、Spark分布式内存计算框架的空间区域查询算法和Spark Streaming的空间查询算法,提供实时在线空间查询服务。实验表明,基于Spark streaming并行空间查询算法*可以提供空间数据的实时空间查询服务。
- 方金云刘羽姚晓陈翠婷张梦菲肖茁建张广发
- 关键词:地理信息系统
- 一种基于预存交点的矢量空间叠加分析算法被引量:1
- 2018年
- 针对矢量空间叠加分析服务实时性的需求,提出了一种基于预存交点信息的矢量空间叠加分析算法。在叠加分析算法中实现了存储计算一体化的交点数据结构,能够满足交点额外空间占用率小的存储需求和快速获取交点信息的计算需求。在叠加分析时,将图层之间的交点离线计算并存储,以查询交点的方式代替传统算法中计算交点的方式,用少量的空间代价避免了计算交点的时间开销。在保证叠加分析算法结果正确性的同时,极大提高了叠加分析算法的效率。实验结果表明,与传统计算模式相比,本文方法在低于10%的额外空间占用率的代价下,使得算法计算的时间减少92. 4%,并且并行算法能够取得较为理想的并行加速比。
- 肖茁建邱强姚晓姚晓
- 关键词:空间数据管理