更多云场景实践研究案例,点击这里:
【云场景实践研究合集】联合不是简单的加法,而是无限的生态,谁会是下一个独角兽
国网浙江电力大数据平台架构师陈振带来Dataworks/MaxCompute在国网应用的实践。本文主要从建设数据仓库的三个痛点开始谈起,借助阿里云服务引出企业级数仓架构设计,数据集成和企业级管理的提升,最后作了简要的展望。
国网浙江电力大数据平台架构师陈振带来Dataworks/MaxCompute在国网应用的实践。本文主要从建设数据仓库的三个痛点开始谈起,借助阿里云服务引出企业级数仓架构设计,数据集成和企业级管理的提升,最后作了简要的展望。
采用的阿里云产品
阿里云Dataworks
阿里云MaxCompute
阿里云云效(RDS)
阿里云ADS
阿里云云数据库HBase
为什么使用阿里云
借助阿里云服务助力国网浙江电力建设数据仓库,构建企业级数仓架构,数据集成和企业级管理
关于国网浙江电力
国网浙江省电力公司是国家电网公司下属的全资子公司,主要承担建设、运营、发展浙江电网,为浙江经济社会发展和人民生活提供可靠优质的电力保障,促进全省电力资源优化配置的重要责任。
面临的痛点
由于长期业务系统的竖井式发展,导致业务系统中数据存储分散,当要进行多个业务系统中数据的联合统计场景时,通常不得不汇总三到四个以上的业务系统数据,久而久之就会在数据中心里形成一张非常复杂的数据集成网络,由于业务系统给出的接口非常老旧,导致在数据集成网络中涉及到的技术手段又非常多,总共这三大痛点给国网浙江电力数据中心管理带来非常大的困难。
为什么选择阿里云
首先,国网浙江电力想要企业级数仓具备比较高的时效性,因为数据最终面向不特定的业务场景,它的后端需求是在不断变化的;其次,需要企业级数仓具备企业级管理能力;最后,需要有灵活的数据输出。基于以上需求,国网浙江电力开展了企业级数据仓库架构设计,下图的数据仓库符合一般的数仓技术架构,数据从多种数据源出来,被数据集成框架输入到两条路径中,上面一条路径比较慢,下面一条路径比较快,快路径数据输入到HBase中,慢路径数据输入到MaxCompute中,慢数据中全部业务数据都放到数据仓库中,快路径主要接入一些电力传输网络上的传感器发送过来的数据,这部分数据实时性比较高,
MaxCompute和HBase中数据经过统计和分析之后,产生的结果数据通过数据输出链路传输给
RDS、ADS实例,由它们作为企业级数仓数据输出端口。
在这一整套技术架构里面,数据在里面成功流转的关键在于两方面。一方面是数据集成、数据处理和数据输出三条链路的驱动;一方面是MaxCompute中四层企业级管理。
期望与展望
在未来,国网浙江电力希望在以下方面进行优化和升级:
基础技术层面:期望可以驱动更多底层引擎,提供更多技术选项。这会涉及到不同处理引擎间迁移数据,我们可以通过一系列自动配置数据集成链路来处理不同数据处理引擎间的数据交互。数据处理层面:需要解决数据处理任务从慢到快的过程,增量过滤条件上推,全增量处理,规范源端时间标记,全链路维护时间戳,优化增量数据处理性能。数据服务:加强数据服务发布工具研发,优化数据使用体验,包括数据服务目录发布,自动分级、脱敏,链路异常告警广播等。
关于国网浙江电力的更多实践详情:
数加DataWorks/MaxCompute在国网浙江电力的最佳实践
原文发布日期:2017-12-08
云栖社区场景研究小组成员:董黎明,仲浩。