【云栖号案例 | 能源】东润环能利用MaxCompute资源确保数据在云端也可以万无一失

本文涉及的产品
RDS MySQL Serverless 基础系列,0.5-2RCU 50GB
云数据库 RDS MySQL,集群系列 2核4GB
推荐场景:
搭建个人博客
对象存储 OSS,20GB 3个月
简介: 企业自建大数据平台存在投资成本过高、运维复杂,成本增加等问题。通过MaxCompute总成本降低,方便产生的数据有效管理,对数据权限有很高的管理及防护能力。

云栖号案例库:【点击查看更多上云案例】
不知道怎么上云?看云栖号案例库,了解不同行业不同发展阶段的上云方案,助力你上云决策!

公司简介

我们北京东润环能科技股份有限公司是一家从事新能源电力领域的数据信息服务公司,公司的经营聚焦为:新能源产业大数据应用与投资服务领跑者!我们东润环能开创之初,提供了新能源发电功率预测系统、电网调度管理与支持系统、新能源城市规划与咨询服务等基础性产品,并逐步打造三大新能源互联网智慧服务生态圈平台,包括新能源投资开发生态圈第一平台、绿色电力交易与智慧用能生态圈第一平台、新能源资产智慧营运生态圈第一平台,在新能源产业金融领域将打造新能源产业数据挖掘投资服务系统。

我们公司作为新三板首批进入创新层的上市企业,基于专业的气象环境技术、空间环境技术及大数据技术每天为全国数千家新能源电站提供风光项目现场功率预测,为省级及地级调度部门提供专业气象服务和大数据应用;并通过电网侧为全国500余家新能源子站提供控制策略并执行控制命令。旗下产品及业务开拓均基于对大数据的挖掘应用。

问题及挑战

作为我们东润环能全资子公司北京能量魔方数据技术有限公司开发的“能量魔方”,将大数据为代表的互联网创新理念与新能源发展当中的切实应用需求结合起来,推动虚拟世界和现实世界融合发展,促进新以行业生产、管理、经营模式变革,重塑产业价值链。但就在这个能够造福一方的研发过程中,东润环能却遇到了不小的问题。正如东润环能技术研发部总监王云所言,要分析出个地方可再生资源的信息,必然涉及巨大的数据分析,我们公司在决定建设大数据平台项目之初,就在是否自建系统上犯了愁。

自建大数据平台存在以下问题:

  • 投资成本过高。
    在数据分析平台项目启动之初,我们公司已经存储将近40TB的数据,且这一数据随着我们公司业务的发展还在逐年增加,如果自建系统从投入、时间、人力等综合成本考虑都不合适。在IDC中心自建大数据平台(如Hadoop集群)要充分考虑物理投入,人力运维投入,研发投入,业务波动等多方面的影响。一方面,硬件投入成本增加,需要根据业务的峰值来考虑硬件的投入;另一方面,人力成本也在增加,项目实施复杂度、应用开发及维护难度提高。总体上来说,实施大数据平台(如Hadoop集群)项目需要服务器、存储和网络管理、Hadoop集群搭建和维护管理以及Hadoop应用开发的三大类技能,项目实施复杂度高、项目技术人员的技术要求高、人才难获得、人力投入高。
  • 运维复杂,成本增加
    单纯以目前较为成熟的离线计算来看,Hadoop生态体系提供的MapReduce等性能较好。但是,此时Hadoop集群的性能严重依赖于虚拟机所提供的I/O性能、网络带宽以及系统稳定性等因素的限制。自建大数据平台基础设施,对于东润环能现有的人力物力比较而言,风险还是较大。另一方面,如此庞大的系统,需要运维人员同时对软、硬件做维护,专人维护提高了系统的使用成本;对系统足够了解,同时还需要兼顾不同系统间的版本兼容性问题,这些都需要非常专业的技术人员对多款开源产品进行维护。无形中不仅增加运维成本,更增加了稳定风险。

这些问题接踵而至,对于传统IT来说,大数据分析和云计算技术的引入无疑是一种巨大的业务压力和技术挑战,想要全部搞定必须上马大系统,雇佣高端专业人才,而这就意味着大投入、大团队。另一方面,传统公有云虽然从理论上也能够支持这样的业务,但国内公有云应用普遍集中在互联网领域;对于这样的新兴应用来说缺乏相应的技术接口和运维管理软件支持。

解决方案

image

新能源产业互联网大数据应用服务云平台是我们公司应用能源互联网大数据理念开发建设的新能源电力大数据应用服务平台,集成气象、地理、设备、金融等各类数据,能够实现为包括政府、金融企业、电力投资企业、机械设备企业、设计院等不同类型参与者提供大数据分析和信息服务。此平台定位为大数据信息SaaS服务平台,提供在大数据基础上建设的各种服务和应用工具,目前规划有八个模块,分别为:资源评估、气象服务、设备选型、运营管理、设计规划、专业技术、项目评估、金融服务。

  • 数据中心
    我们公司新能源部门使用大数据分布式文件存储及并行计算技术,此前采用了Hadoop集群对海量气象数据进行存储及计算处理。
  • 应用平台
    项目采用基于JavaEE标准的、我们公司自主研发的E3云平台开发Web应用,基于超图的GIS平台软件搭建GIS应用服务平台提供地图展示服务,采用高性能计算集群部署自主气象计算服务平台,自主计算覆盖全国、指定分辨率、指定年限的气象数据。
  • 部署平台
    通过采用某传统IT厂商公有云服务平台的虚拟机部署Web应用,自主搭建负载均衡服务支持高并发高性能访问;采用关系型数据库进行业务应用数据存储管理;采用对象存储存储海量气象数据进行数据存储管理,可根据业务需要选择存储历史10、20、30年的历史气象数据;自主搭建Hadoop分布式计算技术对海量数据进行分析处理,按照经纬度、所在位置的气象数据生成统计数据,也可以对历史气象数据等做更多维度的数据挖掘。

为了摸索出一套真正适合中国国情的新能源数据应用服务方案,云计算和大数据技术成为了东润环能创新的重要手段。而经过了各方面测试和挑选,我们公司最终选择了阿里云作为合作伙伴。而让我们公司选择阿里云的原因,除了阿里云强大的云平台能力之外,还有阿里云数加MaxCompute的全方位服务能力及其稳定安全的表现。另外,我们双方联合推出针对新能源的专属数据服务产品:资源评估、气象服务、高精度数据下载三项气象数据产品;部分产品已经通过阿里云数加数据服务市场对外售卖。

上云价值

  • 让企业专注业务

阿里云云计算平台允许东润环能在拥有少量IT设施的同时,在我们公司上线大数据平台时间紧任务急的情况下,用了不到3个月时间,就将业务全面的交付云端,让云端的海量资源真正为业务服务。而阿里云成熟的业务扩展方案也让我们公司在业务无缝扩展等具体事务上无需操心太多。

从性能来看,阿里云数加MaxCompute最新的2.0版本在TPCH测试中,比Hive 2.0+Tez快90%。直接部署于物理机的阿里云数加MaxCompute服务也排除了虚拟机对分布式下高I/O吞吐量,高网络流量的不良影响。此前我们公司租用虚拟机,在虚拟机上自行搭建hadoop集群用于分析当天生产的气象数据,由于运行效率低,每天数据处理需要至少3个小时以上;于2016年5月份开始将数据迁移至阿里云数加平台;目前每天数据处理仅需要1个小时就可以完成,处理时间仅仅不到原来的1/3。

最重要的是采用阿里云数加,我们公司将所有精力都放在业务上,节省了自建机房在学习成本、开发成本、管理成本、投入机房资源和运维成本的总成本,相比自建Hadoop物理集群,使用阿里云数加MaxCompute的总成本有较大降低,应用开发效率有很大提高。显然,一家新能源像互联网企业拥有强大的IT能力是一件不容易的事。而阿里云则提供了全面的服务支持,阿里云除了最基础的资源池化之外,还提供众多高级管理功能,方便我们公司所产生的海量数据的有效管理和快速处理。

由于在我们公司数据平台过程中应用了阿里云数加MaxCompute,完全不需要关注服务器和网络管理,也不需要关注分布式集群软件的维护管理。基于阿里云数加MaxCompute提供的开放接口和各类工具,以及一站式的大数据开发套件,项目实施难度低,让开发者将精力全部放在数据处理、分析和应用上,极大的降低大数据应用开发的技术难度。而阿里云平台所提供的7×24小时技术支持服务则可以让我们公司随时随地获得专业的技术支持,让IT不再成为业务发展的限制。

  • 安全稳定

基于阿里云在关键业务领域多年的积累,阿里云提供安全可靠的云解决方案。阿里云数加MaxCompute通过多重安全沙箱防护作用,同样起到了保护用户系统安全的目的,其安全性并不低于简单的物理隔离。更重要的是,阿里云数加MaxCompute提供的多种安全机制能够支撑阿里巴巴集团上万员工同时工作于同一套服务。对数据权限有非常高的管理及防护能力。

在稳定性上,阿里云数加MaxCompute作为一款存Serverless服务。不需要用户关心任何硬件、软件维护问题。阿里云数加专业的运维及开发团队为用户免除这些困扰,且所有工作对用户透明。依托于阿里云在安全性方面有全面考虑的底层平台和众多的安全监控工具,我们公司的各类应用数据即使放在云端也可以确保万无一失。而这些宝贵的数据正是我们公司核心竞争力的来源。

相关产品

  • 大数据计算服务 · MaxCompute
    MaxCompute(原ODPS)是一项大数据计算服务,它能提供快速、完全托管的PB级数据仓库解决方案,使您可以经济并高效的分析处理海量数据。

更多关于阿里云MaxCompute的介绍,参见MaxCompute产品详情页

  • 云服务器ECS

云服务器(Elastic Compute Service,简称ECS)是阿里云提供的性能卓越、稳定可靠、弹性扩展的IaaS(Infrastructure as a Service)级别云计算服务。云服务器ECS免去了您采购IT硬件的前期准备,让您像使用水、电、天然气等公共资源一样便捷、高效地使用服务器,实现计算资源的即开即用和弹性伸缩。阿里云ECS持续提供创新型服务器,解决多种业务需求,助力您的业务发展。
更多关于云服务器ECS的介绍,参见云服务器ECS产品详情页

  • 负载均衡SLB

负载均衡(Server Load Balancer)是将访问流量根据转发策略分发到后端多台云服务器(ECS实例)的流量分发控制服务。负载均衡扩展了应用的服务能力,增强了应用的可用性。
更多关于负载均衡SLB的介绍,参见负载均衡产品详情页

  • 云数据库RDS MySQL版

MySQL 是全球最受欢迎的开源数据库之一,作为开源软件组合 LAMP(Linux + Apache + MySQL + Perl/PHP/Python)中的重要一环,广泛应用于各类应用场景。
更多关于云数据库RDS MySQL版的介绍,参见云数据库RDS MySQL版产品详情页

  • 对象存储OSS

阿里云对象存储服务(Object Storage Service,简称 OSS),是阿里云提供的海量、安全、低成本、高可靠的云存储服务。其数据设计持久性不低于 99.9999999999%(12 个 9),服务设计可用性(或业务连续性)不低于 99.995%。
更多关于对象存储OSS的介绍,参见对象存储OSS产品详情页

  • DataWorks

DataWorks是一个提供了大数据OS能力、并以all in one box的方式提供专业高效、安全可靠的一站式大数据智能云研发平台。 同时能满足用户对数据治理、质量管理需求,赋予用户对外提供数据服务的能力。
更多关于阿里云DataWorks的介绍,参见DataWorks产品详情页

【云栖号在线课堂】每天都有产品技术专家分享!
在线课堂地址:https://yqh.aliyun.com/zhibo

立即加入社群,与专家面对面,及时了解课程最新动态!
【云栖号在线课堂 社群】https://c.tb.cn/F3.Z8gvnK

相关实践学习
基于MaxCompute的热门话题分析
本实验围绕社交用户发布的文章做了详尽的分析,通过分析能得到用户群体年龄分布,性别分布,地理位置分布,以及热门话题的热度。
SaaS 模式云数据仓库必修课
本课程由阿里云开发者社区和阿里云大数据团队共同出品,是SaaS模式云原生数据仓库领导者MaxCompute核心课程。本课程由阿里云资深产品和技术专家们从概念到方法,从场景到实践,体系化的将阿里巴巴飞天大数据平台10多年的经过验证的方法与实践深入浅出的讲给开发者们。帮助大数据开发者快速了解并掌握SaaS模式的云原生的数据仓库,助力开发者学习了解先进的技术栈,并能在实际业务中敏捷的进行大数据分析,赋能企业业务。 通过本课程可以了解SaaS模式云原生数据仓库领导者MaxCompute核心功能及典型适用场景,可应用MaxCompute实现数仓搭建,快速进行大数据分析。适合大数据工程师、大数据分析师 大量数据需要处理、存储和管理,需要搭建数据仓库?学它! 没有足够人员和经验来运维大数据平台,不想自建IDC买机器,需要免运维的大数据平台?会SQL就等于会大数据?学它! 想知道大数据用得对不对,想用更少的钱得到持续演进的数仓能力?获得极致弹性的计算资源和更好的性能,以及持续保护数据安全的生产环境?学它! 想要获得灵活的分析能力,快速洞察数据规律特征?想要兼得数据湖的灵活性与数据仓库的成长性?学它! 出品人:阿里云大数据产品及研发团队专家 产品 MaxCompute 官网 https://www.aliyun.com/product/odps 
相关文章
|
1月前
|
存储 分布式计算 数据挖掘
数据架构 ODPS 是什么?
数据架构 ODPS 是什么?
348 7
|
1月前
|
存储 分布式计算 大数据
大数据 优化数据读取
【11月更文挑战第4天】
53 2
|
1月前
|
数据采集 监控 数据管理
数据治理之道:大数据平台的搭建与数据质量管理
【10月更文挑战第26天】随着信息技术的发展,数据成为企业核心资源。本文探讨大数据平台的搭建与数据质量管理,包括选择合适架构、数据处理与分析能力、数据质量标准与监控机制、数据清洗与校验及元数据管理,为企业数据治理提供参考。
90 1
|
29天前
|
机器学习/深度学习 存储 大数据
在大数据时代,高维数据处理成为难题,主成分分析(PCA)作为一种有效的数据降维技术,通过线性变换将数据投影到新的坐标系
在大数据时代,高维数据处理成为难题,主成分分析(PCA)作为一种有效的数据降维技术,通过线性变换将数据投影到新的坐标系,保留最大方差信息,实现数据压缩、去噪及可视化。本文详解PCA原理、步骤及其Python实现,探讨其在图像压缩、特征提取等领域的应用,并指出使用时的注意事项,旨在帮助读者掌握这一强大工具。
69 4
|
1月前
|
存储 大数据 数据管理
大数据分区简化数据维护
大数据分区简化数据维护
24 4
|
1月前
|
存储 大数据 Serverless
大数据增加分区优化资源使用
大数据增加分区优化资源使用
30 1
|
1月前
|
存储 大数据 定位技术
大数据 数据索引技术
【10月更文挑战第26天】
58 3
|
1月前
|
存储 大数据 OLAP
大数据数据分区技术
【10月更文挑战第26天】
71 2
|
1月前
|
消息中间件 分布式计算 大数据
数据为王:大数据处理与分析技术在企业决策中的力量
【10月更文挑战第29天】在信息爆炸的时代,大数据处理与分析技术为企业提供了前所未有的洞察力和决策支持。本文探讨了大数据技术在企业决策中的重要性和实际应用,包括数据的力量、实时分析、数据驱动的决策以及数据安全与隐私保护。通过这些技术,企业能够从海量数据中提取有价值的信息,预测市场趋势,优化业务流程,从而在竞争中占据优势。
115 2
|
1月前
|
数据采集 分布式计算 大数据
数据治理之道:大数据平台的搭建与数据质量管理
【10月更文挑战第27天】在数字化时代,数据治理对于确保数据资产的保值增值至关重要。本文探讨了大数据平台的搭建和数据质量管理的重要性及实践方法。大数据平台应包括数据存储、处理、分析和展示等功能,常用工具如Hadoop、Apache Spark和Flink。数据质量管理则涉及数据的准确性、一致性和完整性,通过建立数据质量评估和监控体系,确保数据分析结果的可靠性。企业应设立数据治理委员会,投资相关工具和技术,提升数据治理的效率和效果。
117 2