宋韶旭
- 作品数:58 被引量:40H指数:3
- 供职机构:清华大学更多>>
- 发文基金:国家自然科学基金国家高技术研究发展计划更多>>
- 相关领域:自动化与计算机技术文化科学交通运输工程机械工程更多>>
- 数据库原生时间序列分解方法及系统
- 本发明提供一种数据库原生时间序列分解方法及系统,该方法包括:基于预设单轮周期趋势分解算法将数据库原生时间序列分解问题转换为线性方程求解问题,确定线性方程的参数矩阵;根据参数矩阵,基于预设分解预计算算法对数据库中单个页面的...
- 宋韶旭陈子杰张之远王建民
- 数据处理方法及装置
- 本申请实施例提供一种数据处理方法及装置,其中,方法包括:从终端设备获取待处理时序数据,所述待处理时序数据中包括N个数据点,N为大于1的整数;根据所述待处理时序数据,确定满足预设条件的异常数据点并标记所述异常数据点;所述预...
- 宋韶旭赵东明贺文迪龚怿焜王建民
- 一种基于深度学习的驾驶轨迹能耗分析方法和装置
- 本发明实施例提供一种基于深度学习的驾驶轨迹能耗分析方法和装置。该方法包括获取目标车辆的驾驶轨迹数据,根据驾驶轨迹数据计算获得当前时刻所述目标车辆对应的速度和加速度;将速度和加速度输入至第一关系模型中,获得与速度和所述加速...
- 宋韶旭方晨光桂阿璨王建民
- Apache TsFile中的短时间序列分组压缩及合并方法
- 2025年
- 时间序列数据在工业制造、气象、电力、车辆等领域都有着广泛的应用,促进了时间序列数据库管理系统的发展.越来越多的数据库系统向云端迁移,端边云协同的架构也愈发常见,所需要处理的数据规模愈加庞大.在端边云协同、海量序列等场景中,由于同步周期短、数据刷盘频繁等原因,会产生大量的短时间序列,给数据库系统带来新的挑战.有效的数据管理与压缩方法能显著提高存储性能,使得数据库系统足以胜任存储海量序列的重任.Apache TsFile是一个专为时序场景设计的列式存储文件格式,在Apache IoTDB等数据库管理系统中发挥重要作用.阐述了Apache TsFile中应对大量短时间序列场景所使用的分组压缩及合并方法,特别是面向工业物联网等序列数量庞大的应用场景.该分组压缩方法充分考虑了短时间序列场景中的数据特征,通过对设备分组的方法提高元数据利用率,降低文件索引大小,减少短时间序列并显著提高压缩效果.经过真实世界数据集的验证,分组方法在压缩效果、读取、写入、文件合并等多个方面均有显著提升,能更好地管理短时间序列场景下的Ts File文件.
- 刘星宇宋韶旭黄向东黄向东
- 关键词:数据压缩时间序列数据数据库工业物联网
- 基于语义关联的文本聚类方法
- 文本聚类技术将大量文本信息按照一定的相似关联进行自动归类,使得更好更快的浏览和查找相关信息。与结构化数据挖掘对象有所不同,文本聚类所处理的数据对象主要是一些非结构化或半结构化的文档数据,具有数据稀疏性的特点。根据文本数据...
- 宋韶旭
- 关键词:文本聚类数据挖掘无监督学习语义关联
- 一种错误数据容忍的虚警过滤方法和装置
- 本发明实施例提供一种错误数据容忍的虚警过滤方法和装置。该方法包括获取传感器测量得到的设备对应的时序数据,根据所述设备正常运行所对应的状态参数值,确定所述时序数据中包括的疑似时间序列;根据预设的相似度匹配方法,计算每一所述...
- 宋韶旭刘志成王建民王晨
- 一种基于界标的数据填补方法及装置
- 本发明实施例提供一种基于界标的数据填补方法及装置,该方法包括:获取待填补的原始数据,所述原始数据包括完整数据行和缺失数据行;将所述原始数据中的完整数据行输入至预设的生成对抗网络模型,输出完整数据行的界标;根据完整数据行的...
- 宋韶旭方晨光王建民
- 基于数据质量规则的缺失结果解释约减
- 数据缺失等原因,用户在查询结果中可能没有得到预期的答案.现有的方法通过枚举可能的缺失记录来解释“为什么没有why not”的问题然而,枚举得到的解释数量庞大,用户无法连一浏览确认缺失数据.实际上,这些可能的解释中有许多是...
- 张奥千宋韶旭王建民
- 关键词:数据库信息查询
- 时间序列处理方法、装置、电子设备及存储介质
- 本发明提供一种时间序列处理方法、装置、电子设备及存储介质,所述方法包括:获取多个时间序列,并提取出所述时间序列的多个元数据特征;在多个所述元数据特征中抽取出与第一预设特征维度对应的第一目标元数据特征;按照所述第一目标元数...
- 宋韶旭刘星宇李松泽王建民
- Apache IoTDB中的多模态数据编码压缩
- 2024年
- 时间序列数据在工业制造、气象、船舶、电力、车辆、金融等领域都有着广泛的应用,促进了时间序列数据库管理系统的蓬勃发展.面对愈加庞大的数据规模和多样的数据模态,高效的数据存储和管理方式十分关键,而数据的编码压缩愈发成为一个具有重要意义和价值的问题.现有的编码方法和相关系统未能充分考虑不同模态的数据特点,或者未把一些时序数据的处理方法应用于数据编码问题中.全面阐述了ApacheIoTDB时序数据库系统中的多模态数据编码压缩方法及其系统实现,特别是面向工业物联网等应用场景.该编码方法较为全面地考虑包括时间戳数据、数值数据、布尔值数据、频域数据、文本数据等多个不同模态的数据,充分挖掘和利用各自模态数据的特点,特别是包括时间戳模态中时间戳序列间隔近似的特点等,进行有针对性的编码方案设计.同时,将实际应用场景中可能出现的数据质量问题因素纳入编码算法的考量中.在多个数据集上的编码算法层面和系统层面的实验评估和分析,验证了该编码压缩方法及其系统实现的效果.
- 贺文迪夏天睿宋韶旭黄向东黄向东
- 关键词:数据编码时间序列数据数据库工业物联网多模态