零门槛构建弹性大数据云分析平台

本文涉及的产品
EMR Serverless StarRocks,5000CU*H 48000GB*H
简介: 从基础设施、运维管理、云生态等角度,详细了解下云托管的部分优势。

作者:鲍远松
原文链接


大数据和大数据分析成为时下企业关注的焦点,大数据分析平台正在从企业的高配变为标配,是企业实现“一切业务数据化,一切数据业务化”目标的基础平台。

阿里云智能高级解决方案架构师鲍远松,分享《零门槛构建弹性大数据云分析平台》,过程中对大数据分析平台建设进行阶段划分,并对每阶段进行了详尽的阐述。

如下图,为大数据分析平台建设的四个阶段,分别是自建、云托管、云服务和云原生。

image.png

大数据分析平台建设之自建

  • 为什么要自建大数据分析平台呢?主要原因有三:
  1. 传统大数据分析技术已经不能满足大数据分析,需要通过引入新技术进行提升。
  2. 早期大数据技术相对不成熟、不可靠,需要专门的技术人才去研究。
  3. 市场上缺乏有效的大数据分析的成功案例和实践,企业必须摸着石头过河。
  • 自建大数据分析平台属于重资产模式,存在多方面不足,主要有如下几点:

周期长:整个建设周期特别长,涉及机房选择、硬件采购、集群部署、测试调优、数据服务、运维管理等诸多环节。

成本高:成本分为两类,一类是服务器、存储、网络、运维、IDC 等显性成本,另一类是业务影响、资源闲置、弹性扩容、一次性资金投入等隐性成本。这些成本的投入是确定的,但产出却是未知的。

门槛高:近些年大数据技术蓬勃发展,数据集成、数据存储、分析计算及数据作业每个维度都有很多细分的技术,任何一个技术都需要投入专人进行深入研究,对于普通企业来说人才门槛很高。

见效慢:大数据分析平台需要自始至终不断地进行迭代和修正,直至数据质量符合预期,数据分析结果可信,才能真正达到极致弹性性能、高可靠、多场景应用的效果。

大数据分析平台建设之云托管

自建大数据分析平台种种不足的背景下,云托管应需而生,原因有三:

  1. 企业甩掉重资产的包袱。
  2. 大数据技术趋于成熟,企业不再聚焦于大数据技术本身,而是需要一批具有大数据技能的人来做大数据的开发。
  3. 云厂商结合自身的优势,提供了云上大数据托管平台。

自建大数据分析平台通常是基于开源 Hadoop 平台,而云托管是把自建开源 Hadoop 平台转化为企业级、标准型大数据分析平台,具备统一集群管理、完备的监控报警、计算与存储分离、弹性扩容、按需构建、数据安全、低门槛运维、丰富云生态对接等优势。

EMR 提供了基础资源、平台管理、数据存储、数据集成、计算引擎、数据使用和作业管理等平台能力,对于所有组件都提供了完备的监控报警,任何组件异常都可以第一时间做报警并且通知到用户,同时基于平台提供了智能的运维管理、调度等功能。

接下来我们从基础设施、运维管理、云生态等角度,详细了解下云托管的部分优势。

云托管之基础设施

image.png

首先,云上有丰富的产品规格族,阿里云整个虚拟机分为通用计算、异构计算、裸金属&高性能计算三大类,每一类满足不同的场景,可以快速构建不同场景下的大数据分析平台。

其次,利用云的弹性,计算和存储资源可以进行独立扩充,满足业务高峰期或业务对极致性能的追求的同时,还可以灵活的按需构建。

最后,云上构建大数据分析平台在成本上可以做大量优化,可以根据业务特性灵活选择购买方式,如通过 Spot Instance 大幅降低计算节点的成本。

云托管之运维管理

image.png

运维整个大数据分析平台非常复杂,需要专业的人才和大量的投入。从基础运维到管理运维,再到组件运维,云厂商提供了多维度运维能力。

基础运维:云厂商借助自身大规模服务器运维经验构建 AlOps 系统,可以提前对硬件做检测分析、发现故障后快速进行主动运维,减少对业务的影响。

管理运维:EMR 实现一键部署、开箱即用,还提供统一的配置管理、平台状态监控和故障报警等功能。

组件运维:组件运维是大数据分析平台最复杂的部分,当进行版本升级时,由于组件之间存在着千丝万缕的关联,保证兼容是重中之重。

组件运维还有一个很重要的点就是性能优化,云厂商会结合自身云计算优势对底层基础设施进行优化,对内核引擎进行优化,帮助开源组件提升性能。

云托管之云生态

云上有丰富的生态,避免后来者重复造轮子或从零开始,如下图:

底层存储在云上可以提供 OSS 对象存储、HDFS 存储,HDFS 存储可以直接去无缝访问 OSS 对象存储,与访问 HDFS 文件没有任何差别,这样一来,就可以灵活的进行数据归档和成本调优。

在数据源方面, 支持 OSS、SLS、RDS、消息队列等服务作为数据源;在计算引擎方面,云上 EMR 平台可与 MaxCompute、Flink、Tensorflow 引擎进行打通。

在融合方面,云上提供 DataWorks 服务,通过 DataWorks 可以把 Hadoop 整个上层元数据的管理、数据质量管理进行统一。

除此之外,云上还提供 DataV、QuickBI 等分析展示能力。

除以上概述内容外,后续还有云服务和云原生等方面更多干货,请戳视频进行观看


阿里巴巴开源大数据技术团队成立Apache Spark中国技术社区,定期推送精彩案例,技术专家直播,问答区数个Spark技术同学每日在线答疑,只为营造纯粹的Spark氛围,欢迎钉钉扫码加入!
image.png

相关实践学习
基于MaxCompute的热门话题分析
本实验围绕社交用户发布的文章做了详尽的分析,通过分析能得到用户群体年龄分布,性别分布,地理位置分布,以及热门话题的热度。
SaaS 模式云数据仓库必修课
本课程由阿里云开发者社区和阿里云大数据团队共同出品,是SaaS模式云原生数据仓库领导者MaxCompute核心课程。本课程由阿里云资深产品和技术专家们从概念到方法,从场景到实践,体系化的将阿里巴巴飞天大数据平台10多年的经过验证的方法与实践深入浅出的讲给开发者们。帮助大数据开发者快速了解并掌握SaaS模式的云原生的数据仓库,助力开发者学习了解先进的技术栈,并能在实际业务中敏捷的进行大数据分析,赋能企业业务。 通过本课程可以了解SaaS模式云原生数据仓库领导者MaxCompute核心功能及典型适用场景,可应用MaxCompute实现数仓搭建,快速进行大数据分析。适合大数据工程师、大数据分析师 大量数据需要处理、存储和管理,需要搭建数据仓库?学它! 没有足够人员和经验来运维大数据平台,不想自建IDC买机器,需要免运维的大数据平台?会SQL就等于会大数据?学它! 想知道大数据用得对不对,想用更少的钱得到持续演进的数仓能力?获得极致弹性的计算资源和更好的性能,以及持续保护数据安全的生产环境?学它! 想要获得灵活的分析能力,快速洞察数据规律特征?想要兼得数据湖的灵活性与数据仓库的成长性?学它! 出品人:阿里云大数据产品及研发团队专家 产品 MaxCompute 官网 https://www.aliyun.com/product/odps 
相关文章
|
25天前
|
存储 机器学习/深度学习 SQL
大数据处理与分析技术
大数据处理与分析技术
86 2
|
28天前
|
SQL 数据采集 分布式计算
【赵渝强老师】基于大数据组件的平台架构
本文介绍了大数据平台的总体架构及各层的功能。大数据平台架构分为五层:数据源层、数据采集层、大数据平台层、数据仓库层和应用层。其中,大数据平台层为核心,负责数据的存储和计算,支持离线和实时数据处理。数据仓库层则基于大数据平台构建数据模型,应用层则利用这些模型实现具体的应用场景。文中还提供了Lambda和Kappa架构的视频讲解。
110 3
【赵渝强老师】基于大数据组件的平台架构
|
15天前
|
机器学习/深度学习 存储 大数据
在大数据时代,高维数据处理成为难题,主成分分析(PCA)作为一种有效的数据降维技术,通过线性变换将数据投影到新的坐标系
在大数据时代,高维数据处理成为难题,主成分分析(PCA)作为一种有效的数据降维技术,通过线性变换将数据投影到新的坐标系,保留最大方差信息,实现数据压缩、去噪及可视化。本文详解PCA原理、步骤及其Python实现,探讨其在图像压缩、特征提取等领域的应用,并指出使用时的注意事项,旨在帮助读者掌握这一强大工具。
29 4
|
16天前
|
机器学习/深度学习 分布式计算 算法
【大数据分析&机器学习】分布式机器学习
本文主要介绍分布式机器学习基础知识,并介绍主流的分布式机器学习框架,结合实例介绍一些机器学习算法。
102 5
|
28天前
|
存储 监控 数据挖掘
【Clikhouse 探秘】ClickHouse 物化视图:加速大数据分析的新利器
ClickHouse 的物化视图是一种特殊表,通过预先计算并存储查询结果,显著提高查询性能,减少资源消耗,适用于实时报表、日志分析、用户行为分析、金融数据分析和物联网数据分析等场景。物化视图的创建、数据插入、更新和一致性保证通过事务机制实现。
107 14
|
1月前
|
消息中间件 分布式计算 大数据
数据为王:大数据处理与分析技术在企业决策中的力量
【10月更文挑战第29天】在信息爆炸的时代,大数据处理与分析技术为企业提供了前所未有的洞察力和决策支持。本文探讨了大数据技术在企业决策中的重要性和实际应用,包括数据的力量、实时分析、数据驱动的决策以及数据安全与隐私保护。通过这些技术,企业能够从海量数据中提取有价值的信息,预测市场趋势,优化业务流程,从而在竞争中占据优势。
84 2
|
1月前
|
数据采集 机器学习/深度学习 搜索推荐
大数据与社交媒体:用户行为分析
【10月更文挑战第31天】在数字化时代,社交媒体成为人们生活的重要部分,大数据技术的发展使其用户行为分析成为企业理解用户需求、优化产品设计和提升用户体验的关键手段。本文探讨了大数据在社交媒体用户行为分析中的应用,包括用户画像构建、情感分析、行为路径分析和社交网络分析,以及面临的挑战与机遇。
|
1月前
|
机器学习/深度学习 搜索推荐 大数据
大数据与教育:学生表现分析的工具
【10月更文挑战第31天】在数字化时代,大数据成为改善教育质量的重要工具。本文探讨了大数据在学生表现分析中的应用,介绍学习管理系统、智能评估系统、情感分析技术和学习路径优化等工具,帮助教育者更好地理解学生需求,制定个性化教学策略,提升教学效果。尽管面临数据隐私等挑战,大数据仍为教育创新带来巨大机遇。
|
1月前
|
人工智能 供应链 搜索推荐
大数据分析:解锁商业智能的秘密武器
【10月更文挑战第31天】在信息爆炸时代,大数据分析成为企业解锁商业智能的关键工具。本文探讨了大数据分析在客户洞察、风险管理、供应链优化、产品开发和决策支持等方面的应用,强调了明确分析目标、选择合适工具、培养专业人才和持续优化的重要性,并展望了未来的发展趋势。
|
2月前
|
机器学习/深度学习 监控 搜索推荐
电商平台如何精准抓住你的心?揭秘大数据背后的神秘推荐系统!
【10月更文挑战第12天】在信息爆炸时代,数据驱动决策成为企业优化决策的关键方法。本文以某大型电商平台的商品推荐系统为例,介绍其通过收集用户行为数据,经过预处理、特征工程、模型选择与训练、评估优化及部署监控等步骤,实现个性化商品推荐,提升用户体验和销售额的过程。
88 1