零门槛构建弹性大数据云分析平台-阿里云开发者社区

零门槛构建弹性大数据云分析平台

2020-01-10 2192

版权

本文内容由阿里云实名注册用户自发贡献，版权归原作者所有，阿里云开发者社区不拥有其著作权，亦不承担相应法律责任。具体规则请查看《阿里云开发者社区用户服务协议》和《阿里云开发者社区知识产权保护指引》。如果您发现本社区中有涉嫌抄袭的内容，填写侵权投诉表单进行举报，一经查实，本社区将立刻删除涉嫌侵权内容。

简介： 从基础设施、运维管理、云生态等角度，详细了解下云托管的部分优势。

作者：鲍远松
原文链接

大数据和大数据分析成为时下企业关注的焦点，大数据分析平台正在从企业的高配变为标配，是企业实现“一切业务数据化，一切数据业务化”目标的基础平台。

阿里云智能高级解决方案架构师鲍远松，分享《零门槛构建弹性大数据云分析平台》，过程中对大数据分析平台建设进行阶段划分，并对每阶段进行了详尽的阐述。

如下图，为大数据分析平台建设的四个阶段，分别是自建、云托管、云服务和云原生。

大数据分析平台建设之自建

为什么要自建大数据分析平台呢？主要原因有三：

传统大数据分析技术已经不能满足大数据分析，需要通过引入新技术进行提升。
早期大数据技术相对不成熟、不可靠，需要专门的技术人才去研究。
市场上缺乏有效的大数据分析的成功案例和实践，企业必须摸着石头过河。

自建大数据分析平台属于重资产模式，存在多方面不足，主要有如下几点：

周期长：整个建设周期特别长，涉及机房选择、硬件采购、集群部署、测试调优、数据服务、运维管理等诸多环节。

成本高：成本分为两类，一类是服务器、存储、网络、运维、IDC 等显性成本，另一类是业务影响、资源闲置、弹性扩容、一次性资金投入等隐性成本。这些成本的投入是确定的，但产出却是未知的。

门槛高：近些年大数据技术蓬勃发展，数据集成、数据存储、分析计算及数据作业每个维度都有很多细分的技术，任何一个技术都需要投入专人进行深入研究，对于普通企业来说人才门槛很高。

见效慢：大数据分析平台需要自始至终不断地进行迭代和修正，直至数据质量符合预期，数据分析结果可信，才能真正达到极致弹性性能、高可靠、多场景应用的效果。

大数据分析平台建设之云托管

自建大数据分析平台种种不足的背景下，云托管应需而生，原因有三：

企业甩掉重资产的包袱。
大数据技术趋于成熟，企业不再聚焦于大数据技术本身，而是需要一批具有大数据技能的人来做大数据的开发。
云厂商结合自身的优势，提供了云上大数据托管平台。

自建大数据分析平台通常是基于开源 Hadoop 平台，而云托管是把自建开源 Hadoop 平台转化为企业级、标准型大数据分析平台，具备统一集群管理、完备的监控报警、计算与存储分离、弹性扩容、按需构建、数据安全、低门槛运维、丰富云生态对接等优势。

EMR 提供了基础资源、平台管理、数据存储、数据集成、计算引擎、数据使用和作业管理等平台能力，对于所有组件都提供了完备的监控报警，任何组件异常都可以第一时间做报警并且通知到用户，同时基于平台提供了智能的运维管理、调度等功能。

接下来我们从基础设施、运维管理、云生态等角度，详细了解下云托管的部分优势。

云托管之基础设施

首先，云上有丰富的产品规格族，阿里云整个虚拟机分为通用计算、异构计算、裸金属&高性能计算三大类，每一类满足不同的场景，可以快速构建不同场景下的大数据分析平台。

其次，利用云的弹性，计算和存储资源可以进行独立扩充，满足业务高峰期或业务对极致性能的追求的同时，还可以灵活的按需构建。

最后，云上构建大数据分析平台在成本上可以做大量优化，可以根据业务特性灵活选择购买方式，如通过 Spot Instance 大幅降低计算节点的成本。

云托管之运维管理

运维整个大数据分析平台非常复杂，需要专业的人才和大量的投入。从基础运维到管理运维，再到组件运维，云厂商提供了多维度运维能力。

基础运维：云厂商借助自身大规模服务器运维经验构建 AlOps 系统，可以提前对硬件做检测分析、发现故障后快速进行主动运维，减少对业务的影响。

管理运维：EMR 实现一键部署、开箱即用，还提供统一的配置管理、平台状态监控和故障报警等功能。

组件运维：组件运维是大数据分析平台最复杂的部分，当进行版本升级时，由于组件之间存在着千丝万缕的关联，保证兼容是重中之重。

组件运维还有一个很重要的点就是性能优化，云厂商会结合自身云计算优势对底层基础设施进行优化，对内核引擎进行优化，帮助开源组件提升性能。

云托管之云生态

云上有丰富的生态，避免后来者重复造轮子或从零开始，如下图：

底层存储在云上可以提供 OSS 对象存储、HDFS 存储，HDFS 存储可以直接去无缝访问 OSS 对象存储，与访问 HDFS 文件没有任何差别，这样一来，就可以灵活的进行数据归档和成本调优。

在数据源方面，支持 OSS、SLS、RDS、消息队列等服务作为数据源；在计算引擎方面，云上 EMR 平台可与 MaxCompute、Flink、Tensorflow 引擎进行打通。

在融合方面，云上提供 DataWorks 服务，通过 DataWorks 可以把 Hadoop 整个上层元数据的管理、数据质量管理进行统一。

除此之外，云上还提供 DataV、QuickBI 等分析展示能力。

除以上概述内容外，后续还有云服务和云原生等方面更多干货，请戳视频进行观看

阿里巴巴开源大数据技术团队成立Apache Spark中国技术社区，定期推送精彩案例，技术专家直播，问答区数个Spark技术同学每日在线答疑，只为营造纯粹的Spark氛围，欢迎钉钉扫码加入！

零门槛构建弹性大数据云分析平台

大数据分析平台建设之自建

大数据分析平台建设之云托管

云托管之基础设施

云托管之运维管理

云托管之云生态

开源大数据平台 E-MapReduce

热门文章

最新文章

相关课程

相关电子书