HiTSDB高性能时间序列数据库产品解析

本文涉及的产品
云解析 DNS,旗舰版 1个月
全局流量管理 GTM,标准版 1个月
公共DNS(含HTTPDNS解析),每月1000万次HTTP解析
简介: 2018云栖大会武汉峰会IOT物联网专场,阿里巴巴数据库产品专家艾乐强带来题为HiTSDB高性能时间序列数据库产品解析的演讲。主要内容从四个方面进行解说,首先介绍了物联网数据特征和数据库困境,然后是对HiTSDB 核心能力进行介绍,紧接着对物联网平台方案和架构设计进行了讲解,最后对时序数据库应用场景进行了详细的阐述。

2018云栖大会武汉峰会IOT物联网专场,阿里巴巴数据库产品专家艾乐强带来题为HiTSDB高性能时间序列数据库产品解析的演讲。主要内容从四个方面进行解说,首先介绍了物联网数据特征和数据库困境,然后是对HiTSDB 核心能力进行介绍,紧接着对物联网平台方案和架构设计进行了讲解,最后对时序数据库应用场景进行了详细的阐述。
数十款阿里云产品限时折扣中赶快点击这里领券开始云上实践吧!
精彩视频请点击
以下是精彩视频内容整理:

时序数据&时序数据库

21


俗话说所知不止于感知,在物联网领域中能感知世界的就是数据,所有物联网数据又有一个共同的特征,我们称这一类数据为时序数据。时序数据中的“序”指的是一个先后关系,在互联网中的数据是以时间维度划分的,所有的数据产生都会有一个相应的标签,有了时间标签以后我们关注的是数据的变化过程。简单理解就是在传统的电商或者其他行业中更关心数据的是当前的状态,比如说交易是否成功,订单是否是完成状态,库存是否首发了等当前状态。而物联网领域中最为人们所关心的其实是一个变化的过程,也就是说数据的一个产生,经过中间的过程以及产生结果的过程,也就是说整个过程是一个变化的过程,我们关心的是整个数据。所以加上时间的顺序以后,就形成了类似上图的曲线,类似我们平时所看到的监控一样,像这样的数据在物联网领域中是非常有特征性的,这种数据就叫做时序数据。

时序数据是物联网核心资产

22


具体的在物联网领域中的数据大概有哪些类型:
  • 设备数据,设备数据相对简单,物联网所连接的这些设备,包括工业中的机床或工业制造的一些设备,包括新型物联网领域中新能源的一些汽车、共享单车以及智能手环,这些都称之为设备。这些设备也都在无时无刻地产生数据,所以我们会关心什么时候去使用这套设备,也就是什么时候这套设备是在线的,什么时候是不在线的,这里有个关键词就是“什么时候”,这就是一个时间点,所以这类数据叫做设备数据。
  • 状态类数据,当设备上线的时候有哪些设备是在物联网平台里面的以便我们进行设备管理。其次就是状态管理,也就是说设备本身是否有故障,是否是正常运转的,是否是在工作状态的或者说它是否即将出现故障,所以我们在判断一个设备是否有故障时,并不是等到设备出现故障的一瞬间去进行诊断,而是通过设备数据变化的趋势,来预测设备何时会出现故障,所以可以提前做好预警。
  • 业务数据,如果我们关注的是一个手环,我们会关注每天走了多少步、夜晚睡眠时间如何,这就是业务数据。业务数据可以让我们掌握具体的业务指标。业务数据又分为历史数据和实时数据,实时数据是我们最关心的是强预警数据。历史数据是一个趋势性的数据,比如温室效应,在科研分析的时候是一个长期的数据,短期的数据是看不到效果的。

物联网数据特点

在物联网领域里数据有一些特点,首先是数据量非常大,我们的设备规模通常会达到几个亿的量级,而且这个数据与其他业务有所不同,不是每天都有一个高峰期和低峰期,它会固定地产生数据,也就是说它永远是业务高峰期,除非它下线了否则它永远都在产生数据。所以这个数据不会实时地向上汇报,而是持续向内写入,并且我们会关心它的实时性。比如基于这个数据做一个无人零售店,这时需要一个数据去做一个门禁的管控,如果某一个数据到临界值时产生一个开关,所以对于实时性的要求是非常高的。数据库要做到的就是快速响应,通常可以做到毫秒级别。另外由于设备量很大,所以写的量也就相应变大。其次就是结构化问题,所有的数据是有设备描述信息的,所以它是一个结构化的数据。另一个特点是数据是时序的,对于数据本身来说需要人为的对数据进行管理,所以需要给予时间维度将这些数据进行快速的管理,然后把实施的数据和历史的数据及时的提供给上层的应用。
大量的设备接入,所面临的业务类型与传统的电商业务类型是不同的,如果用传统的关系数据库来承接的话,最大的问题就是已经没有方案可以支持大量的设备去写,其次就是存储成本很高。设备的数据是持续写入的,并且设备量也很大。另一个问题就是需要把数据更加实时的反馈给业务,所以在实际业务中已经验证了是不能够大量的、持续地写入,以及高性能的查询场景。

HiTSDB 核心能力指标

之所以推崇时序数据库,是因为它有相应的能力去支持的,阿里云推出的时序数据库所能达到的能力在双11电商环境中已经得到验证,分布式集群架构水平扩展,双十一集群峰值支持每秒两千万数据点写入,支持千万物联网设备接入。压缩比达到10:1,基于XOR的值压缩技术和Delta Of Delta时间戳压缩技术,节约了90%存储空间。
针对物联网场景所提供的特定的时序数据库的功能,在设备出现故障时数据传输就会中断,由于数据是不间断运转的,如果数据没有存储条处理那么在这段时间数据就是空白的,插值就是利用数学函数方式在缺少的数据点上,根据前后数据变化规律将数据补全。

HiTSDB 核心能力-Downsampling

23


数据产生的纬度都是比较固化的,设备大多是按秒或者毫秒产生数据的,但是我们在业务上通常会有不同的纬度使用数据,所以在真的业务层所展示的经度与需要的展示纬度是不同的,我们关心实时数据的可能会关心每一秒数据的值,如果看整体数据,就可以把每秒的值聚合到一起。

24


空间聚合的意思是对于大量的设备会有很多的类型分析,一方面会关心一台设备的指标,还有可能按照类型把一批的机器的指标聚合分析,所以会把一批的指标聚合到一起,计算一批机器平均的指标。

25


这是我们所能覆盖的三大互联网行业,分别是新型物联网平台、工业物联网、业务和性能监控,APM在类似双11这种场景下,除了在设备层的管理外,也可以在设备的应用层把相应的应用的指标接进来,可以进行类似阿里这样从应用层到设备层完全一个体系的管理。

26


在云上会有相应的产品支撑,对于设备接入会有SDK去做设备的嵌入,嵌入后会有IotHub这样的网关做相应的设备接入、认证。实时计算也是其中的一个能力,可以依赖它做特定的函数的业务逻辑的嵌入分析,最终所有设备数据或业务指标数据都在时序数据库构建一个整体的物联网的数据中心,随后就可以基于这些数据中心做很多数据分析。

案例:HiTSDB助力建设云上能源管理系统

工业企业的能耗占了全社会能耗的绝大多数。这其中包括风水电气等多种复杂介质。本方案采用互联网架构实现数据采集、统计分析、平衡调度、节能优化等全面的能源管控协同平台。选用HiTSDB的原因有三点:
1)大规模:分布式集群架构,轻松应对千万点以上的数据存储需求,多副本保障数据的可靠性。
2)内置高效率的压缩机制,擅长处理海量工业物联网的传感器数据的流水涌入比传统采集方案节省 90% 存储成本。
3)利用系统提供的独特的预聚合、降精度算法,为大跨度高频次巨量数据访问提供保障,为后期数据分析提供可靠保障。
本文由云栖志愿者小组毛鹤整理编辑。

相关文章
|
26天前
|
SQL 数据挖掘 测试技术
南大通用GBase8s数据库:LISTAGG函数的解析
南大通用GBase8s数据库:LISTAGG函数的解析
|
1月前
|
数据库 索引
深入探索数据库索引技术:回表与索引下推解析
【10月更文挑战第15天】在数据库查询优化的领域中,回表和索引下推是两个核心概念,它们对于提高查询性能至关重要。本文将详细解释这两个术语,并探讨它们在数据库操作中的作用和影响。
53 3
|
2月前
|
机器学习/深度学习 数据采集 存储
时间序列预测新突破:深入解析循环神经网络(RNN)在金融数据分析中的应用
【10月更文挑战第7天】时间序列预测是数据科学领域的一个重要课题,特别是在金融行业中。准确的时间序列预测能够帮助投资者做出更明智的决策,比如股票价格预测、汇率变动预测等。近年来,随着深度学习技术的发展,尤其是循环神经网络(Recurrent Neural Networks, RNNs)及其变体如长短期记忆网络(LSTM)和门控循环单元(GRU),在处理时间序列数据方面展现出了巨大的潜力。本文将探讨RNN的基本概念,并通过具体的代码示例展示如何使用这些模型来进行金融数据分析。
383 2
|
2月前
|
存储 NoSQL 关系型数据库
数据库技术深度解析:从基础到进阶
【10月更文挑战第17天】数据库技术深度解析:从基础到进阶
99 0
|
2月前
|
SQL 关系型数据库 MySQL
数据库导入SQL文件:全面解析与操作指南
在数据库管理中,将SQL文件导入数据库是一个常见且重要的操作。无论是迁移数据、恢复备份,还是测试和开发环境搭建,掌握如何正确导入SQL文件都至关重要。本文将详细介绍数据库导入SQL文件的全过程,包括准备工作、操作步骤以及常见问题解决方案,旨在为数据库管理员和开发者提供全面的操作指南。一、准备工作在导
464 0
|
1月前
|
存储 负载均衡 监控
数据库多实例的深入解析
【10月更文挑战第24天】数据库多实例是一种重要的数据库架构方式,它为数据库的高效运行和灵活管理提供了多种优势。在实际应用中,需要根据具体的业务需求和技术环境,合理选择和配置多实例,以充分发挥其优势,提高数据库系统的性能和可靠性。随着技术的不断发展和进步,数据库多实例技术也将不断完善和创新,为数据库管理带来更多的可能性和便利。
110 57
|
8天前
|
存储 关系型数据库 MySQL
double ,FLOAT还是double(m,n)--深入解析MySQL数据库中双精度浮点数的使用
本文探讨了在MySQL中使用`float`和`double`时指定精度和刻度的影响。对于`float`,指定精度会影响存储大小:0-23位使用4字节单精度存储,24-53位使用8字节双精度存储。而对于`double`,指定精度和刻度对存储空间没有影响,但可以限制数值的输入范围,提高数据的规范性和业务意义。从性能角度看,`float`和`double`的区别不大,但在存储空间和数据输入方面,指定精度和刻度有助于优化和约束。
|
26天前
|
SQL 存储 Oracle
南大通用GBase 8s数据库游标变量解析:提升数据库操作效率
南大通用GBase 8s 数据库游标变量解析:提升数据库操作效率
|
27天前
|
SQL Java 数据库连接
canal-starter 监听解析 storeValue 不一样,同样的sql 一个在mybatis执行 一个在数据库操作,导致解析不出正确对象
canal-starter 监听解析 storeValue 不一样,同样的sql 一个在mybatis执行 一个在数据库操作,导致解析不出正确对象
|
2月前
|
Web App开发 SQL 数据库
使用 Python 解析火狐浏览器的 SQLite3 数据库
本文介绍如何使用 Python 解析火狐浏览器的 SQLite3 数据库,包括书签、历史记录和下载记录等。通过安装 Python 和 SQLite3,定位火狐数据库文件路径,编写 Python 脚本连接数据库并执行 SQL 查询,最终输出最近访问的网站历史记录。
44 4

推荐镜像

更多