当前物联网的浪潮席卷全球,甚至于人们还没有真正意识到物联网的存在,但它已经无处不在 。个人智能手环,家庭里使用的智能空调,空气净化器,电饭煲,到社会化共享经济的共享单车,共享汽车,再到汽车制造车间生产线,IT机房的网络设备和服务器,交通监控和信号设备,甚至于全球气候的监测设备等等,这一切都通过物联网进行连接,设备和设备之间,人和设备之间万物互联。
透过现象看本质,物联网的本质是数据的采集和价值利用,而物联网领域最广泛和典型的数据类型就是时间序列数据。时间序列数据是同一指标按时间顺序记录的数据列。在同一数据列中的各个数据必须是同口径的,要求具有可比性。时序数据可以是时期数,也可以时点数。如:股票的交易点数,随着时间的推进,产生一系列的数据点。
据Gatener 2017年的报告数据显示,到2020年将有200亿的物联网设备被使用,市场规模达到2万亿美金,面对大规模的时序数据场景,对数据库产品的技术服务能力提出了更大的挑战 ,HiTSDB在这个背景下应运而生。
HiTSDB (High-performance Time Series Database) 是阿里巴巴自主研发的面向物联网及相关领域的高性能时间序列数据库产品 。在物联网及相关领域HiTSDB主要解决以下问题。
1. 大规模的物联网设备的时序数据高并发写入:
物联网场景一个特点是设备规模巨大,设备上的数据采集点更是达到百万以上的级别,数据采集就更加庞大。比如我们说气温的波动,每秒测量一次,一天是86400秒,如果是我们做系统监控,或者像气温这样的科学仪器持续的调数据的话,24小时都要用,平均每一个仪器仪表在一个时间点上产生一个数据点,一个仪表就产生86400个数据,如果把全国各个县都布一个采样点,那一天数据就上亿了,实际上对气象采样来说每一个县对应一个温度传感器显然有点不够的,可能是每一个街道甚至每个小区都有这样的传感器,那么这个数据加起来实际上是一个非常惊人的数字。
这种场景下,平均每秒需要写入几十万甚至上百万的数据点到数据库,传统数据库由于自己数据架构的限制,完全不能够支持这么大规模的并发写入。 HiTSDB 时序数据库则可以轻松应对。阿里内部双十一可以支持到每秒 10,000,000 时序数据点写入。
2. 低成本的存储
物联网时序数据的另外一个特点是数据持续写入,在高并发写入的情况下持续写入,那么就会产生海量的数据。比如工业领域某客户每个厂区具有 20000 个监测点,500 毫秒一个采集周期,一共 20 个厂区。一年将产生的 26 万亿个数据点,假设每个点 50Byte,数据总量将达 1P,如果每台服务器 10T 的硬盘,那么总共需要 100 多台服务器。这个存储成本对企业来说是非常巨大的。
HiTSDB采用独有的算法可以对原始数据进行有效压缩,实际平均压缩比例可以10:1,存储机器成本从100台减少到10台。
3. 灵活高效的数据分析能力
数据分析是物联网应用的重要环节。设备上采集到的数据需要进行统计和分析和展现才可以让数据的价值得到直观体现。比如我们需要把一年的温度数据按照天的纬度的提取展示出来,单日的温度数据按照当天采样数据的平均值计算,那么就需要数据库能够提供高效的基于时间纬度的数据读取分析能力。
HiTSDB 提供时序数据聚合分析能力,百万数据点读取分析响应时间小于5秒 。同时可以将用户的查询结果通过图标直观的呈现给客户。能够解决用户高效的数据分析的需求。