“数聚云端·智驭未来”——阿里云数据库创新上云峰会暨第3届数据库性能挑战赛决赛颁奖典礼已圆满结束,更多干货内容欢迎大家观看峰会直播回放。
峰会直播回放📎https://developer.aliyun.com/live/247301
上海市新能源汽车公共数据采集与监测研究中心技术总监-王成名
本篇内容是上海市新能源汽车公共数据采集与监测研究中心技术总监王成名在这次峰会上的分享,将从以下四个方面来介绍云原生数据库助力新能源汽车监管平台数字化转型提速:
- 上海市新能源汽车数据平台介绍
- 具体开展业务说明
- 数据库层面的技术转型
- 平台的愿景和目标
我们做的事情是在上海销售的所有新能源汽车数据的接入,包含乘用车、商用车、物流、大巴、网约车等电动汽车数据全接入,也包括插电式混合动力汽车和氢能源燃汽车。截止到目前已经进接入了大概100家车企,超过100个品牌,接近1000种车型57万辆汽车,目前是全中国新能源汽车最多的地方性数据监管平台。
我们作为一个政府平台是2014年由上海市经济和信息化委员会成立的一个地方监管平台。首先我们要说明的是数据接入是明确的,按照国家上位法,也就是新能源汽车的32960国家标准。按照国标里面的大概是一共是120多项字段,包含了38项的静态数据和80多项的动态数据,以VIN码为基础的整车数据、发动机、驱动电机、电池数据、报警数据等,所有这些新能源汽车数据进行了全量实时接入。
首先我们不仅仅是有新能源汽车数据,而是一个多源的数据中心。除了这57万辆电动车的数据,还有就是燃料汽车及加氢站的数据,这些数据其实都是物联网时序数据,同时我们还有电池溯源数据,电动汽车的电池从生产到进入汽车再到销毁,整个过程中的数据必须要对它进行监管,因为目前它还是按照危化学用品,需要对电池实现来源可查去向可追。
同时我们还有可再生能源的数据,也就是光伏储能这些数据,以及智能网联汽车数据,我们是上海市唯一的智能网联汽车监管平台,现在所有上路的智能网联汽车测试数据必须要到我们监管平台,所以我们的数据是多源异构的。
采集这些数据之后我们可以做什么呢?我们面向政府和市场提供服务,面向政府首先就是数据的接入,我们在政府政策制定,政策执行和政策后评估提供数据支撑。比如说新能源汽车要用充电桩,充电桩的部署肯定不是拍脑袋决定的。需要基于用户的充电行为和行驶行为,做充电桩的合理规划布局。包括用户进小区的充电怎么样?公共充电桩使用情况情况怎么样?都可以基于数据做分析。此外新能源汽车现在随着发展部分进入二手车市场,可以借助于数据基于大数据分析对产品做一个性能残值预测。
另外在安全监管方面我们的数据也起到很重要的作用,比如车辆出现事故,之后我们会分析,是车子本身性能的问题还是驾驶行为导致的。当然交通事故逃逸这种案件我们也会给相关部门提供车辆追踪定位服务。
上述是面向政府的服务,而面向企业方面,车厂最关注销量,所以也会关注4S店的部署是否科学合理。我们可以借助用户的出行行为和用户的充电行为进行分析从而提供数据支撑和规划建议。另外我们还涉及二手车交易,汽车后市场比如保险再保险产品的规划等,因为现在这些产品的规划如果不介入技术手段,可能会存在一些问题。比方说高端车辆和低端车辆的区别,不同电池的保险产品设计也应该有区别,不同的车型在二手车市场里面的评值也应该不同。
我们也有一个数据开放平台,面向高校和科研机构开放数据。同时我们每年会举办大数据竞赛,去年有大概100多家高校的300个团队也借助我们的平台参与了竞赛。
我们数据的接入不是简单http的数据推送,而根据相关标准采用物联网网关进行的接入。无论从数据体量还是数据存储技术实现上对技术本身都有一定的要求。面对海量多源异构的数据需要进行怎样的架构进行存储?采用什么样的技术选型?我们的数据来源于不是车辆直连,而是车辆把数据转发到车企平台,由车企平台根据协议转发到我们地方监管平台。也就是数据先进入我们的网关,然后我们网关做消息队列分发,分发之后我们会进行存储。在这里面存储不是简单粗暴的单一存储引擎就可以解决,因为我们要平衡数据的存储成本和分析性能,我们会进行多层存储,最终作为应用展示,这就是整个的数据流。
我们会主要面临哪些技术内容和挑战呢?首先就是技术的数据的接入,因为57万辆车算高峰平均30%在线,这个数据量也是很大的。一辆车一天产生的数据大概是3000个人一天产生的数据,那这种数据量对于数据的接入我们需要考虑如何保证高性能,让数据能保证完整性接入。同时需要考虑数据存储怎么样做分层分级和数据压缩。当我们面对这种量级数据的时候,到今天为止最大的成本还是数据的存储成本。如果我们把所有的数据放在一个存储引擎里面,比方说或者hbase或者hdfs,尽管我们说hdfs是压缩的,但是实际上它的存储成本还是很大的。我们要做数据归档,这是我们从这里面最大的一个考验。
那另外就是数据管理,怎么做好数据标签,怎么做好数据资产管理,以及怎么做好数据安全管理,也是我们很重要的内容。最后就是数据价值的挖掘,因为我们不是说把数据接上来存下来就结束了,要对数据挖掘它的价值,对于行业的促进后市场的发展,这些都是很重要的数据挖掘的议题。
我们整个数据的存储是通过多级缓存去存储的,短期热数据我们会把它放到hbase当中。三到五年的长期的数据,我们会把数据放到hdfs里面存储。那么若干年后的数据,比如说十年的数据怎么办?
按照国家的要求,新能源汽车全生命周期数据需要全部保存,否则无法实现溯源,数据如果全部放在hdfs,需要调用的时候会全盘扫描,都要去过滤,性能会很长,且成本很高,那怎么办呢?我们需要数据进行高度压缩,采用oss这种做真正的冷热分离把数据做归档。归档之后如果还需要调用,会把数据回流到hdfs进行分析应用。所以我们整个数据的生命周期是一个循环的,并不是一个固定的生命周期。
在2019年我们作为第一批用户已经使用了阿里云的lindorm,那么这个产品最大的好处,就是前面说的数据同步和读取,另外就是像我们这种还属于中小型公司,IT人员配置有限,我们希望把精力抽出来,做核心业务开发,把这种底层纯技术的问题交给专业的团队,所以我们选用了这个阿里的平台。我们是lindorm比较早的一批用户,我们也提出了很多的一些意见和我们自己的想法,得到了阿里的响应,并且做了修改。
我们这种车联网数据,特别是面向于智能网联汽车的数据,其实它是很复杂的,不仅仅是物联网数据,这里面其实我们还有很多的技术挑战和需要和大家一起去攻破,比如流媒体的实时处理、基于AI的决策实现等等。
在IT界有一句比较流行的话:万般皆下品,唯有存储高。因为数据库确实还是一个最有技术含量的基础组件,所以我觉得大家都应该是比较感兴趣想去挑战和突破的,那么我们作为这样一个地方平台,我们的愿景和目标是,构建基于智能网联汽车和新能源汽车数据的生态,在这个生态和平台之上提供数据提供平台。