您的位置: 专家智库 > >

陈跃国

作品数:35 被引量:203H指数:6
供职机构:中国人民大学更多>>
发文基金:国家自然科学基金中央高校基本科研业务费专项资金国家科技重大专项更多>>
相关领域:自动化与计算机技术文化科学更多>>

文献类型

  • 17篇期刊文章
  • 17篇专利
  • 1篇会议论文

领域

  • 21篇自动化与计算...
  • 1篇文化科学

主题

  • 9篇查询
  • 8篇分布式
  • 7篇大数据
  • 6篇分布式文件
  • 5篇日志
  • 5篇日志数据
  • 5篇哈希
  • 4篇知识库
  • 4篇数据分片
  • 3篇索引
  • 3篇分布式文件系...
  • 3篇查询方法
  • 2篇等值
  • 2篇队列
  • 2篇语义信息
  • 2篇元信息
  • 2篇知识图
  • 2篇知识图谱
  • 2篇日志记录
  • 2篇日志信息

机构

  • 35篇中国人民大学
  • 2篇教育部
  • 1篇宁夏大学
  • 1篇北京理工大学
  • 1篇清华大学
  • 1篇天津工业大学
  • 1篇中国气象局

作者

  • 35篇陈跃国
  • 31篇杜小勇
  • 16篇覃雄派
  • 7篇卞昊穹
  • 5篇赵丽萍
  • 4篇陈峻
  • 4篇张香玲
  • 4篇金国栋
  • 2篇张孝
  • 2篇卢卫
  • 2篇刘阳
  • 2篇赵欣
  • 2篇张峰
  • 2篇刘德海
  • 2篇程鳌
  • 1篇张宇
  • 1篇张延松
  • 1篇杜方
  • 1篇翟季冬
  • 1篇高彦杰

传媒

  • 6篇大数据
  • 3篇软件学报
  • 2篇华东师范大学...
  • 2篇计算机学报
  • 2篇计算机应用
  • 1篇通信学报
  • 1篇计算机教育
  • 1篇华东师范大学...

年份

  • 5篇2023
  • 1篇2022
  • 2篇2021
  • 2篇2020
  • 6篇2019
  • 4篇2018
  • 6篇2017
  • 6篇2015
  • 2篇2014
  • 1篇2013
35 条 记 录,以下是 1-10
排序方式:
一种保证事务一致性和线性一致性的分布式系统和方法
本发明涉及一种保证事务一致性和线性一致性的分布式系统和方法,其包括多个客户端以及由接入层、元信息管理集群、全局Gts生成集群和事务处理及存储层构成的数据库服务端;客户端用于为用户提供与数据库服务端进行交互的接口,将用户请...
卢卫张孝杜小勇陈跃国赵欣程一舰张真苗
文献传递
Spark上的等值连接优化被引量:12
2014年
等值连接作为数据分析中最常用、代价最高的操作之一,在Spark上的实现和优化与传统并行数据库有很大的差别,传统并行数据仓库中基于数据预划分的连接算法在Spark上难以实现,而目前被广泛采用的Broadcast Join和Repartition Join性能较差,如何提高连接性能成为基于Spark的海量数据分析的关键.本研究将Simi-Join与Partition Join的优势相结合,并基于Spark上的特性提出了一种优化的等值连接算法.代价分析和实验表明本算法比现有基于Spark的数据分析系统中的连接算法性能提升1~2倍.
卞昊穹陈跃国杜小勇高彦杰
日志数据分片与查询方法及装置
本发明提供一种日志数据分片与查询方法及装置。该方法包括:获取日志数据中各个实体的编码,并对每个实体编码进行哈希操作,获取一个数据分片,然后对每个数据分片中的日志信息按照日志信息的实体的编码进行顺序排序,获取数据分组列表,...
陈跃国覃雄派杜小勇卞昊穹
大数据分析的应用案例——投资模型的稳健性被引量:3
2017年
交易模型的稳健性,指的是该模型的利润率曲线的波动性较小,没有大起大落。针对一个基于支持向量回归(SVR)技术的算法交易模型的稳健性问题,提出了使用若干导出指标训练统一的交易模型的策略,以及投资组合多样化的方法。首先,介绍基于支持向量回归技术的算法交易模型;然后,基于常用指标,构造了若干导出指标,用于股票价格的短期预测。这些指标,刻画了近期价格运动的典型模式、超买/超卖市场状态,以及背离市场状态。对这些指标进行了规范化,用于训练交易模型,使得模型可以泛化到不同的股票;最后,设计了投资组合多样化方法。在投资组合里,各个股票之间的相关性,有时会导致较大的投资损失;因为具有较强相关关系的股票,其价格朝相同方向变化。如果交易模型预测的价格走势不正确,引起止损操作,那么这些具有较强相关关系的股票,将引发雪崩式的止损,于是导致损失加剧。把股票根据相似性聚类到不同类别,通过从不同聚类类别中选择若干股票来构成多样化的投资组合,其中,股票的相似性,通过交易模型在不同股票上近期的利润曲线的相似度进行计算。在900只股票10年的价格大数据上进行了实验,实验结果显示,交易模型能够获得超过定期存款的超额利润率,年化利润率为8.06%。交易模型的最大回撤由13.23%降为5.32%,夏普指数由81.23%提高到88.79%,交易模型的利润率曲线波动性降低,说明交易模型的稳健性获得了提高。
覃雄派陈跃国王邦国
关键词:算法交易支持向量回归稳健性大数据
日志数据的存储方法及系统
本发明涉及计算机技术领域,公开了一种日志数据的存储方法及系统,所述方法包括:将日志数据按照所属实体簇的不同划分为多个日志记录分片;将各个日志记录分片分别写入分布式消息队列的不同主题;采用多线程方式,将所述分布式消息队列的...
陈跃国覃雄派杜小勇金国栋丛一鸣刘阳
数据整理——大数据治理的关键技术被引量:40
2019年
数据是政府、企业和机构的重要资源。数据治理关注数据资源有效利用的众多方面,如数据资产确权、数据管理、数据开放共享、数据隐私保护等。从数据管理的角度,探讨了数据治理中的一项关键技术:数据整理。介绍了以数据拥有者和直接使用者(行业用户)为核心的数据整理的关键技术,包括数据结构化处理、数据质量评估及数据清洗、数据规范化、数据融合与摘取、数据整理的发布共享等。最后,针对加强数据整理方面的研究提出了一些思考。
杜小勇陈跃国范举卢卫
关键词:数据准备数据管理
人在回路的数据准备技术研究进展被引量:5
2019年
随着数据分析技术的迅猛发展,数据准备越来越成为一个瓶颈性问题。以真实的数据分析场景为背景,分析了数据准备的两大核心挑战:人力成本高与时间周期长。在此基础上,介绍了人在回路数据准备技术的研究进展。交互式数据准备技术面向终端用户,通过与用户的交互预测其意图,并通过有效的预测算法来节省数据准备的时间。基于众包的数据准备技术引入互联网上的海量用户作为众包工人扩展计算能力,从而支持数据准备的基本任务,并研究如何对众包做质量控制与成本优化。最后,对人在回路的数据准备做出总结并探讨未来的挑战性问题。
范举陈跃国杜小勇
关键词:数据准备众包交互机制
实体搜索综述被引量:6
2017年
与传统的以网页页面集合的方式呈现搜索结果不同,实体搜索的结果是实体或实体集合,其优点是无需用户在纷杂的网页里面进行二次查找,更能提升用户的搜索体验.实体搜索的任务可以分为相关实体搜索和相似实体搜索.对近年来这两类任务的实体搜索技术进行综述.首先给出了实体搜索的形式化定义,并介绍了常用的评测指标;然后,对两种不同形式的实体搜索任务在两类数据源(非结构化数据集和结构化数据集)上的主要研究方法进行了详细的阐述和对比;最后,对未来的研究内容和发展方向进行了探讨和展望.
张香玲陈跃国马登豪陈峻杜小勇
关键词:知识图谱
Spark上的等值连接优化
等值连接作为数据分析中最常用、代价最高的操作之一,在Spark上的实现和优化与传统并行数据库有很大的差别,传统并行数据仓库中基于数据预划分的连接算法在Spark上难以实现,而目前被广泛采用的Broadcast Join和...
卞昊穹陈跃国杜小勇高彦杰
关键词:并行数据库迭代计算海量数据
文献传递
一种分布式文件列存储索引方法
本发明公开了一种分布式文件列存储索引方法,该方法包括下述步骤:解析查询语句获得查询条件;根据查询条件中的索引字段读取索引副本列,所述索引副本列是在列存储引擎的Stripe内对索引字段进行排序后复制构成,包括列值和列值所在...
覃雄派陈跃国杜小勇赵丽萍
文献传递
共4页<1234>
聚类工具0