上海市新能源汽车数据平台技术总监王成名:云原生数据库助力新能源汽车监管平台数字化转型提速

本文涉及的产品
RDS MySQL Serverless 基础系列,0.5-2RCU 50GB
Redis 开源版,标准版 2GB
推荐场景:
搭建游戏排行榜
云数据库 RDS MySQL,集群系列 2核4GB
推荐场景:
搭建个人博客
简介: 本篇内容分享了云原生数据库助力新能源汽车监管平台数字化转型提速。

“数聚云端·智驭未来”——阿里云数据库创新上云峰会暨第3届数据库性能挑战赛决赛颁奖典礼已圆满结束,更多干货内容欢迎大家观看峰会直播回放。

GCH1773.JPG

峰会直播回放📎https://developer.aliyun.com/live/247301

王成名 上海市新能源汽车公共数据采集与监测研究中心技术总监.JPG

上海市新能源汽车公共数据采集与监测研究中心技术总监-王成名


本篇内容是上海市新能源汽车公共数据采集与监测研究中心技术总监王成名在这次峰会上的分享,将从以下四个方面来介绍云原生数据库助力新能源汽车监管平台数字化转型提速:


  • 上海市新能源汽车数据平台介绍
  • 具体开展业务说明
  • 数据库层面的技术转型
  • 平台的愿景和目标


image001.png

我们做的事情是在上海销售的所有新能源汽车数据的接入,包含乘用车、商用车、物流、大巴、网约车等电动汽车数据全接入,也包括插电式混合动力汽车和氢能源燃汽车。截止到目前已经进接入了大概100家车企,超过100个品牌,接近1000种车型57万辆汽车,目前是全中国新能源汽车最多的地方性数据监管平台。

image003.png

我们作为一个政府平台是2014年由上海市经济和信息化委员会成立的一个地方监管平台。首先我们要说明的是数据接入是明确的,按照国家上位法,也就是新能源汽车的32960国家标准。按照国标里面的大概是一共是120多项字段,包含了38项的静态数据和80多项的动态数据,以VIN码为基础的整车数据、发动机、驱动电机、电池数据、报警数据等,所有这些新能源汽车数据进行了全量实时接入。

image005.png

首先我们不仅仅是有新能源汽车数据,而是一个多源的数据中心。除了这57万辆电动车的数据,还有就是燃料汽车及加氢站的数据,这些数据其实都是物联网时序数据,同时我们还有电池溯源数据,电动汽车的电池从生产到进入汽车再到销毁,整个过程中的数据必须要对它进行监管,因为目前它还是按照危化学用品,需要对电池实现来源可查去向可追。

 

同时我们还有可再生能源的数据,也就是光伏储能这些数据,以及智能网联汽车数据,我们是上海市唯一的智能网联汽车监管平台,现在所有上路的智能网联汽车测试数据必须要到我们监管平台,所以我们的数据是多源异构的。

image007.png

采集这些数据之后我们可以做什么呢?我们面向政府和市场提供服务,面向政府首先就是数据的接入,我们在政府政策制定,政策执行和政策后评估提供数据支撑。比如说新能源汽车要用充电桩,充电桩的部署肯定不是拍脑袋决定的。需要基于用户的充电行为和行驶行为,做充电桩的合理规划布局。包括用户进小区的充电怎么样?公共充电桩使用情况情况怎么样?都可以基于数据做分析。此外新能源汽车现在随着发展部分进入二手车市场,可以借助于数据基于大数据分析对产品做一个性能残值预测。

 

另外在安全监管方面我们的数据也起到很重要的作用,比如车辆出现事故,之后我们会分析,是车子本身性能的问题还是驾驶行为导致的。当然交通事故逃逸这种案件我们也会给相关部门提供车辆追踪定位服务。

 AB78CF18-D825-4aea-86B0-3DED405C9766.png

上述是面向政府的服务,而面向企业方面,车厂最关注销量,所以也会关注4S店的部署是否科学合理。我们可以借助用户的出行行为和用户的充电行为进行分析从而提供数据支撑和规划建议。另外我们还涉及二手车交易,汽车后市场比如保险再保险产品的规划等,因为现在这些产品的规划如果不介入技术手段,可能会存在一些问题。比方说高端车辆和低端车辆的区别,不同电池的保险产品设计也应该有区别,不同的车型在二手车市场里面的评值也应该不同。 


我们也有一个数据开放平台,面向高校和科研机构开放数据。同时我们每年会举办大数据竞赛,去年有大概100多家高校的300个团队也借助我们的平台参与了竞赛。

image009.png

我们数据的接入不是简单http的数据推送,而根据相关标准采用物联网网关进行的接入。无论从数据体量还是数据存储技术实现上对技术本身都有一定的要求。面对海量多源异构的数据需要进行怎样的架构进行存储?采用什么样的技术选型?我们的数据来源于不是车辆直连,而是车辆把数据转发到车企平台,由车企平台根据协议转发到我们地方监管平台。也就是数据先进入我们的网关,然后我们网关做消息队列分发,分发之后我们会进行存储。在这里面存储不是简单粗暴的单一存储引擎就可以解决,因为我们要平衡数据的存储成本和分析性能,我们会进行多层存储,最终作为应用展示,这就是整个的数据流。

image011.png

我们会主要面临哪些技术内容和挑战呢?首先就是技术的数据的接入,因为57万辆车算高峰平均30%在线,这个数据量也是很大的。一辆车一天产生的数据大概是3000个人一天产生的数据,那这种数据量对于数据的接入我们需要考虑如何保证高性能,让数据能保证完整性接入。同时需要考虑数据存储怎么样做分层分级和数据压缩。当我们面对这种量级数据的时候,到今天为止最大的成本还是数据的存储成本。如果我们把所有的数据放在一个存储引擎里面,比方说或者hbase或者hdfs,尽管我们说hdfs是压缩的,但是实际上它的存储成本还是很大的。我们要做数据归档,这是我们从这里面最大的一个考验。

 

那另外就是数据管理,怎么做好数据标签,怎么做好数据资产管理,以及怎么做好数据安全管理,也是我们很重要的内容。最后就是数据价值的挖掘,因为我们不是说把数据接上来存下来就结束了,要对数据挖掘它的价值,对于行业的促进后市场的发展,这些都是很重要的数据挖掘的议题。

image013.png

我们整个数据的存储是通过多级缓存去存储的,短期热数据我们会把它放到hbase当中。三到五年的长期的数据,我们会把数据放到hdfs里面存储。那么若干年后的数据,比如说十年的数据怎么办?

 

按照国家的要求,新能源汽车全生命周期数据需要全部保存,否则无法实现溯源,数据如果全部放在hdfs,需要调用的时候会全盘扫描,都要去过滤,性能会很长,且成本很高,那怎么办呢?我们需要数据进行高度压缩,采用oss这种做真正的冷热分离把数据做归档。归档之后如果还需要调用,会把数据回流到hdfs进行分析应用。所以我们整个数据的生命周期是一个循环的,并不是一个固定的生命周期。

image015.png

2019年我们作为第一批用户已经使用了阿里云的lindorm,那么这个产品最大的好处,就是前面说的数据同步和读取,另外就是像我们这种还属于中小型公司,IT人员配置有限,我们希望把精力抽出来,做核心业务开发,把这种底层纯技术的问题交给专业的团队,所以我们选用了这个阿里的平台。我们是lindorm比较早的一批用户,我们也提出了很多的一些意见和我们自己的想法,得到了阿里的响应,并且做了修改。

 

我们这种车联网数据,特别是面向于智能网联汽车的数据,其实它是很复杂的,不仅仅是物联网数据,这里面其实我们还有很多的技术挑战和需要和大家一起去攻破,比如流媒体的实时处理、基于AI的决策实现等等。

 

IT界有一句比较流行的话:万般皆下品,唯有存储高。因为数据库确实还是一个最有技术含量的基础组件,所以我觉得大家都应该是比较感兴趣想去挑战和突破的,那么我们作为这样一个地方平台,我们的愿景和目标是,构建基于智能网联汽车和新能源汽车数据的生态,在这个生态和平台之上提供数据提供平台。

image017.png

相关实践学习
基于MaxCompute的热门话题分析
本实验围绕社交用户发布的文章做了详尽的分析,通过分析能得到用户群体年龄分布,性别分布,地理位置分布,以及热门话题的热度。
SaaS 模式云数据仓库必修课
本课程由阿里云开发者社区和阿里云大数据团队共同出品,是SaaS模式云原生数据仓库领导者MaxCompute核心课程。本课程由阿里云资深产品和技术专家们从概念到方法,从场景到实践,体系化的将阿里巴巴飞天大数据平台10多年的经过验证的方法与实践深入浅出的讲给开发者们。帮助大数据开发者快速了解并掌握SaaS模式的云原生的数据仓库,助力开发者学习了解先进的技术栈,并能在实际业务中敏捷的进行大数据分析,赋能企业业务。 通过本课程可以了解SaaS模式云原生数据仓库领导者MaxCompute核心功能及典型适用场景,可应用MaxCompute实现数仓搭建,快速进行大数据分析。适合大数据工程师、大数据分析师 大量数据需要处理、存储和管理,需要搭建数据仓库?学它! 没有足够人员和经验来运维大数据平台,不想自建IDC买机器,需要免运维的大数据平台?会SQL就等于会大数据?学它! 想知道大数据用得对不对,想用更少的钱得到持续演进的数仓能力?获得极致弹性的计算资源和更好的性能,以及持续保护数据安全的生产环境?学它! 想要获得灵活的分析能力,快速洞察数据规律特征?想要兼得数据湖的灵活性与数据仓库的成长性?学它! 出品人:阿里云大数据产品及研发团队专家 产品 MaxCompute 官网 https://www.aliyun.com/product/odps 
相关文章
|
2月前
|
存储 机器学习/深度学习 分布式计算
大数据技术——解锁数据的力量,引领未来趋势
【10月更文挑战第5天】大数据技术——解锁数据的力量,引领未来趋势
|
17天前
|
存储 机器学习/深度学习 SQL
大数据处理与分析技术
大数据处理与分析技术
63 2
|
2月前
|
存储 分布式计算 数据可视化
大数据常用技术与工具
【10月更文挑战第16天】
121 4
|
19天前
|
存储 分布式计算 NoSQL
【赵渝强老师】大数据技术的理论基础
本文介绍了大数据平台的核心思想,包括Google的三篇重要论文:Google文件系统(GFS)、MapReduce分布式计算模型和BigTable大表。这些论文奠定了大数据生态圈的技术基础,进而发展出了Hadoop、Spark和Flink等生态系统。文章详细解释了GFS的架构、MapReduce的计算过程以及BigTable的思想和HBase的实现。
|
2月前
|
存储 数据采集 监控
大数据技术:开启智能决策与创新服务的新纪元
【10月更文挑战第5天】大数据技术:开启智能决策与创新服务的新纪元
|
13天前
|
机器学习/深度学习 存储 大数据
云计算与大数据技术的融合应用
云计算与大数据技术的融合应用
|
19天前
|
SQL 存储 算法
比 SQL 快出数量级的大数据计算技术
SQL 是大数据计算中最常用的工具,但在实际应用中,SQL 经常跑得很慢,浪费大量硬件资源。例如,某银行的反洗钱计算在 11 节点的 Vertica 集群上跑了 1.5 小时,而用 SPL 重写后,单机只需 26 秒。类似地,电商漏斗运算和时空碰撞任务在使用 SPL 后,性能也大幅提升。这是因为 SQL 无法写出低复杂度的算法,而 SPL 提供了更强大的数据类型和基础运算,能够实现高效计算。
|
22天前
|
存储 大数据 定位技术
大数据 数据索引技术
【10月更文挑战第26天】
47 3
|
22天前
|
存储 大数据 OLAP
大数据数据分区技术
【10月更文挑战第26天】
57 2
|
25天前
|
消息中间件 分布式计算 大数据
数据为王:大数据处理与分析技术在企业决策中的力量
【10月更文挑战第29天】在信息爆炸的时代,大数据处理与分析技术为企业提供了前所未有的洞察力和决策支持。本文探讨了大数据技术在企业决策中的重要性和实际应用,包括数据的力量、实时分析、数据驱动的决策以及数据安全与隐私保护。通过这些技术,企业能够从海量数据中提取有价值的信息,预测市场趋势,优化业务流程,从而在竞争中占据优势。
73 2

相关产品

  • 云原生数据库 PolarDB