HiTSDB高性能时间序列数据库产品解析

本文涉及的产品
云解析 DNS,旗舰版 1个月
全局流量管理 GTM,标准版 1个月
公共DNS(含HTTPDNS解析),每月1000万次HTTP解析
简介: 2018云栖大会武汉峰会IOT物联网专场,阿里巴巴数据库产品专家艾乐强带来题为HiTSDB高性能时间序列数据库产品解析的演讲。主要内容从四个方面进行解说,首先介绍了物联网数据特征和数据库困境,然后是对HiTSDB 核心能力进行介绍,紧接着对物联网平台方案和架构设计进行了讲解,最后对时序数据库应用场景进行了详细的阐述。

2018云栖大会武汉峰会IOT物联网专场,阿里巴巴数据库产品专家艾乐强带来题为HiTSDB高性能时间序列数据库产品解析的演讲。主要内容从四个方面进行解说,首先介绍了物联网数据特征和数据库困境,然后是对HiTSDB 核心能力进行介绍,紧接着对物联网平台方案和架构设计进行了讲解,最后对时序数据库应用场景进行了详细的阐述。
数十款阿里云产品限时折扣中赶快点击这里领券开始云上实践吧!
精彩视频请点击
以下是精彩视频内容整理:

时序数据&时序数据库

21


俗话说所知不止于感知,在物联网领域中能感知世界的就是数据,所有物联网数据又有一个共同的特征,我们称这一类数据为时序数据。时序数据中的“序”指的是一个先后关系,在互联网中的数据是以时间维度划分的,所有的数据产生都会有一个相应的标签,有了时间标签以后我们关注的是数据的变化过程。简单理解就是在传统的电商或者其他行业中更关心数据的是当前的状态,比如说交易是否成功,订单是否是完成状态,库存是否首发了等当前状态。而物联网领域中最为人们所关心的其实是一个变化的过程,也就是说数据的一个产生,经过中间的过程以及产生结果的过程,也就是说整个过程是一个变化的过程,我们关心的是整个数据。所以加上时间的顺序以后,就形成了类似上图的曲线,类似我们平时所看到的监控一样,像这样的数据在物联网领域中是非常有特征性的,这种数据就叫做时序数据。

时序数据是物联网核心资产

22


具体的在物联网领域中的数据大概有哪些类型:
  • 设备数据,设备数据相对简单,物联网所连接的这些设备,包括工业中的机床或工业制造的一些设备,包括新型物联网领域中新能源的一些汽车、共享单车以及智能手环,这些都称之为设备。这些设备也都在无时无刻地产生数据,所以我们会关心什么时候去使用这套设备,也就是什么时候这套设备是在线的,什么时候是不在线的,这里有个关键词就是“什么时候”,这就是一个时间点,所以这类数据叫做设备数据。
  • 状态类数据,当设备上线的时候有哪些设备是在物联网平台里面的以便我们进行设备管理。其次就是状态管理,也就是说设备本身是否有故障,是否是正常运转的,是否是在工作状态的或者说它是否即将出现故障,所以我们在判断一个设备是否有故障时,并不是等到设备出现故障的一瞬间去进行诊断,而是通过设备数据变化的趋势,来预测设备何时会出现故障,所以可以提前做好预警。
  • 业务数据,如果我们关注的是一个手环,我们会关注每天走了多少步、夜晚睡眠时间如何,这就是业务数据。业务数据可以让我们掌握具体的业务指标。业务数据又分为历史数据和实时数据,实时数据是我们最关心的是强预警数据。历史数据是一个趋势性的数据,比如温室效应,在科研分析的时候是一个长期的数据,短期的数据是看不到效果的。

物联网数据特点

在物联网领域里数据有一些特点,首先是数据量非常大,我们的设备规模通常会达到几个亿的量级,而且这个数据与其他业务有所不同,不是每天都有一个高峰期和低峰期,它会固定地产生数据,也就是说它永远是业务高峰期,除非它下线了否则它永远都在产生数据。所以这个数据不会实时地向上汇报,而是持续向内写入,并且我们会关心它的实时性。比如基于这个数据做一个无人零售店,这时需要一个数据去做一个门禁的管控,如果某一个数据到临界值时产生一个开关,所以对于实时性的要求是非常高的。数据库要做到的就是快速响应,通常可以做到毫秒级别。另外由于设备量很大,所以写的量也就相应变大。其次就是结构化问题,所有的数据是有设备描述信息的,所以它是一个结构化的数据。另一个特点是数据是时序的,对于数据本身来说需要人为的对数据进行管理,所以需要给予时间维度将这些数据进行快速的管理,然后把实施的数据和历史的数据及时的提供给上层的应用。
大量的设备接入,所面临的业务类型与传统的电商业务类型是不同的,如果用传统的关系数据库来承接的话,最大的问题就是已经没有方案可以支持大量的设备去写,其次就是存储成本很高。设备的数据是持续写入的,并且设备量也很大。另一个问题就是需要把数据更加实时的反馈给业务,所以在实际业务中已经验证了是不能够大量的、持续地写入,以及高性能的查询场景。

HiTSDB 核心能力指标

之所以推崇时序数据库,是因为它有相应的能力去支持的,阿里云推出的时序数据库所能达到的能力在双11电商环境中已经得到验证,分布式集群架构水平扩展,双十一集群峰值支持每秒两千万数据点写入,支持千万物联网设备接入。压缩比达到10:1,基于XOR的值压缩技术和Delta Of Delta时间戳压缩技术,节约了90%存储空间。
针对物联网场景所提供的特定的时序数据库的功能,在设备出现故障时数据传输就会中断,由于数据是不间断运转的,如果数据没有存储条处理那么在这段时间数据就是空白的,插值就是利用数学函数方式在缺少的数据点上,根据前后数据变化规律将数据补全。

HiTSDB 核心能力-Downsampling

23


数据产生的纬度都是比较固化的,设备大多是按秒或者毫秒产生数据的,但是我们在业务上通常会有不同的纬度使用数据,所以在真的业务层所展示的经度与需要的展示纬度是不同的,我们关心实时数据的可能会关心每一秒数据的值,如果看整体数据,就可以把每秒的值聚合到一起。

24


空间聚合的意思是对于大量的设备会有很多的类型分析,一方面会关心一台设备的指标,还有可能按照类型把一批的机器的指标聚合分析,所以会把一批的指标聚合到一起,计算一批机器平均的指标。

25


这是我们所能覆盖的三大互联网行业,分别是新型物联网平台、工业物联网、业务和性能监控,APM在类似双11这种场景下,除了在设备层的管理外,也可以在设备的应用层把相应的应用的指标接进来,可以进行类似阿里这样从应用层到设备层完全一个体系的管理。

26


在云上会有相应的产品支撑,对于设备接入会有SDK去做设备的嵌入,嵌入后会有IotHub这样的网关做相应的设备接入、认证。实时计算也是其中的一个能力,可以依赖它做特定的函数的业务逻辑的嵌入分析,最终所有设备数据或业务指标数据都在时序数据库构建一个整体的物联网的数据中心,随后就可以基于这些数据中心做很多数据分析。

案例:HiTSDB助力建设云上能源管理系统

工业企业的能耗占了全社会能耗的绝大多数。这其中包括风水电气等多种复杂介质。本方案采用互联网架构实现数据采集、统计分析、平衡调度、节能优化等全面的能源管控协同平台。选用HiTSDB的原因有三点:
1)大规模:分布式集群架构,轻松应对千万点以上的数据存储需求,多副本保障数据的可靠性。
2)内置高效率的压缩机制,擅长处理海量工业物联网的传感器数据的流水涌入比传统采集方案节省 90% 存储成本。
3)利用系统提供的独特的预聚合、降精度算法,为大跨度高频次巨量数据访问提供保障,为后期数据分析提供可靠保障。
本文由云栖志愿者小组毛鹤整理编辑。

相关文章
|
13天前
|
文字识别 算法 API
视觉智能开放平台产品使用合集之人脸数据库容量是否支持扩容
视觉智能开放平台是指提供一系列基于视觉识别技术的API和服务的平台,这些服务通常包括图像识别、人脸识别、物体检测、文字识别、场景理解等。企业或开发者可以通过调用这些API,快速将视觉智能功能集成到自己的应用或服务中,而无需从零开始研发相关算法和技术。以下是一些常见的视觉智能开放平台产品及其应用场景的概览。
|
13天前
|
存储 移动开发 数据库
视觉智能开放平台产品使用合集之人脸数据库容量是否支持扩容
视觉智能开放平台是指提供一系列基于视觉识别技术的API和服务的平台,这些服务通常包括图像识别、人脸识别、物体检测、文字识别、场景理解等。企业或开发者可以通过调用这些API,快速将视觉智能功能集成到自己的应用或服务中,而无需从零开始研发相关算法和技术。以下是一些常见的视觉智能开放平台产品及其应用场景的概览。
|
11天前
|
存储 C# 关系型数据库
“云端融合:WPF应用无缝对接Azure与AWS——从Blob存储到RDS数据库,全面解析跨平台云服务集成的最佳实践”
【8月更文挑战第31天】本文探讨了如何将Windows Presentation Foundation(WPF)应用与Microsoft Azure和Amazon Web Services(AWS)两大主流云平台无缝集成。通过具体示例代码展示了如何利用Azure Blob Storage存储非结构化数据、Azure Cosmos DB进行分布式数据库操作;同时介绍了如何借助Amazon S3实现大规模数据存储及通过Amazon RDS简化数据库管理。这不仅提升了WPF应用的可扩展性和可用性,还降低了基础设施成本。
29 0
|
11天前
|
Java 数据库连接 数据库
AI 时代风起云涌,Hibernate 实体映射引领数据库高效之路,最佳实践与陷阱全解析!
【8月更文挑战第31天】Hibernate 是一款强大的 Java 持久化框架,可将 Java 对象映射到关系数据库表中。本文通过代码示例详细介绍了 Hibernate 实体映射的最佳实践,包括合理使用关联映射(如 `@OneToMany` 和 `@ManyToOne`)以及正确处理继承关系(如单表继承)。此外,还探讨了常见陷阱,例如循环依赖可能导致的无限递归问题,并提供了使用 `@JsonIgnore` 等注解来避免此类问题的方法。通过遵循这些最佳实践,可以显著提升开发效率和数据库操作性能。
28 0
|
11天前
|
JSON 数据格式 Java
化繁为简的魔法:Struts 2 与 JSON 联手打造超流畅数据交换体验,让应用飞起来!
【8月更文挑战第31天】在现代 Web 开发中,JSON 成为数据交换的主流格式,以其轻量、易读和易解析的特点受到青睐。Struts 2 内置对 JSON 的支持,结合 Jackson 库可便捷实现数据传输。本文通过具体示例展示了如何在 Struts 2 中进行 JSON 数据的序列化与反序列化,并结合 AJAX 技术提升 Web 应用的响应速度和用户体验。
26 0
|
11天前
|
SQL 存储 数据库
|
13天前
|
SQL Oracle 关系型数据库
实时计算 Flink版产品使用问题之Oracle数据库是集群部署的,怎么进行数据同步
实时计算Flink版作为一种强大的流处理和批处理统一的计算框架,广泛应用于各种需要实时数据处理和分析的场景。实时计算Flink版通常结合SQL接口、DataStream API、以及与上下游数据源和存储系统的丰富连接器,提供了一套全面的解决方案,以应对各种实时计算需求。其低延迟、高吞吐、容错性强的特点,使其成为众多企业和组织实时数据处理首选的技术平台。以下是实时计算Flink版的一些典型使用合集。
|
13天前
|
监控 网络协议 Java
Tomcat源码解析】整体架构组成及核心组件
Tomcat,原名Catalina,是一款优雅轻盈的Web服务器,自4.x版本起扩展了JSP、EL等功能,超越了单纯的Servlet容器范畴。Servlet是Sun公司为Java编程Web应用制定的规范,Tomcat作为Servlet容器,负责构建Request与Response对象,并执行业务逻辑。
Tomcat源码解析】整体架构组成及核心组件
|
1月前
|
存储 NoSQL Redis
redis 6源码解析之 object
redis 6源码解析之 object
52 6
|
1天前
|
开发工具
Flutter-AnimatedWidget组件源码解析
Flutter-AnimatedWidget组件源码解析

推荐镜像

更多