零门槛构建弹性大数据云分析平台

本文涉及的产品
EMR Serverless Spark 免费试用,1000 CU*H 有效期3个月
EMR Serverless StarRocks,5000CU*H 48000GB*H
简介: 从基础设施、运维管理、云生态等角度,详细了解下云托管的部分优势。

作者:鲍远松
原文链接


大数据和大数据分析成为时下企业关注的焦点,大数据分析平台正在从企业的高配变为标配,是企业实现“一切业务数据化,一切数据业务化”目标的基础平台。

阿里云智能高级解决方案架构师鲍远松,分享《零门槛构建弹性大数据云分析平台》,过程中对大数据分析平台建设进行阶段划分,并对每阶段进行了详尽的阐述。

如下图,为大数据分析平台建设的四个阶段,分别是自建、云托管、云服务和云原生。

image.png

大数据分析平台建设之自建

  • 为什么要自建大数据分析平台呢?主要原因有三:
  1. 传统大数据分析技术已经不能满足大数据分析,需要通过引入新技术进行提升。
  2. 早期大数据技术相对不成熟、不可靠,需要专门的技术人才去研究。
  3. 市场上缺乏有效的大数据分析的成功案例和实践,企业必须摸着石头过河。
  • 自建大数据分析平台属于重资产模式,存在多方面不足,主要有如下几点:

周期长:整个建设周期特别长,涉及机房选择、硬件采购、集群部署、测试调优、数据服务、运维管理等诸多环节。

成本高:成本分为两类,一类是服务器、存储、网络、运维、IDC 等显性成本,另一类是业务影响、资源闲置、弹性扩容、一次性资金投入等隐性成本。这些成本的投入是确定的,但产出却是未知的。

门槛高:近些年大数据技术蓬勃发展,数据集成、数据存储、分析计算及数据作业每个维度都有很多细分的技术,任何一个技术都需要投入专人进行深入研究,对于普通企业来说人才门槛很高。

见效慢:大数据分析平台需要自始至终不断地进行迭代和修正,直至数据质量符合预期,数据分析结果可信,才能真正达到极致弹性性能、高可靠、多场景应用的效果。

大数据分析平台建设之云托管

自建大数据分析平台种种不足的背景下,云托管应需而生,原因有三:

  1. 企业甩掉重资产的包袱。
  2. 大数据技术趋于成熟,企业不再聚焦于大数据技术本身,而是需要一批具有大数据技能的人来做大数据的开发。
  3. 云厂商结合自身的优势,提供了云上大数据托管平台。

自建大数据分析平台通常是基于开源 Hadoop 平台,而云托管是把自建开源 Hadoop 平台转化为企业级、标准型大数据分析平台,具备统一集群管理、完备的监控报警、计算与存储分离、弹性扩容、按需构建、数据安全、低门槛运维、丰富云生态对接等优势。

EMR 提供了基础资源、平台管理、数据存储、数据集成、计算引擎、数据使用和作业管理等平台能力,对于所有组件都提供了完备的监控报警,任何组件异常都可以第一时间做报警并且通知到用户,同时基于平台提供了智能的运维管理、调度等功能。

接下来我们从基础设施、运维管理、云生态等角度,详细了解下云托管的部分优势。

云托管之基础设施

image.png

首先,云上有丰富的产品规格族,阿里云整个虚拟机分为通用计算、异构计算、裸金属&高性能计算三大类,每一类满足不同的场景,可以快速构建不同场景下的大数据分析平台。

其次,利用云的弹性,计算和存储资源可以进行独立扩充,满足业务高峰期或业务对极致性能的追求的同时,还可以灵活的按需构建。

最后,云上构建大数据分析平台在成本上可以做大量优化,可以根据业务特性灵活选择购买方式,如通过 Spot Instance 大幅降低计算节点的成本。

云托管之运维管理

image.png

运维整个大数据分析平台非常复杂,需要专业的人才和大量的投入。从基础运维到管理运维,再到组件运维,云厂商提供了多维度运维能力。

基础运维:云厂商借助自身大规模服务器运维经验构建 AlOps 系统,可以提前对硬件做检测分析、发现故障后快速进行主动运维,减少对业务的影响。

管理运维:EMR 实现一键部署、开箱即用,还提供统一的配置管理、平台状态监控和故障报警等功能。

组件运维:组件运维是大数据分析平台最复杂的部分,当进行版本升级时,由于组件之间存在着千丝万缕的关联,保证兼容是重中之重。

组件运维还有一个很重要的点就是性能优化,云厂商会结合自身云计算优势对底层基础设施进行优化,对内核引擎进行优化,帮助开源组件提升性能。

云托管之云生态

云上有丰富的生态,避免后来者重复造轮子或从零开始,如下图:

底层存储在云上可以提供 OSS 对象存储、HDFS 存储,HDFS 存储可以直接去无缝访问 OSS 对象存储,与访问 HDFS 文件没有任何差别,这样一来,就可以灵活的进行数据归档和成本调优。

在数据源方面, 支持 OSS、SLS、RDS、消息队列等服务作为数据源;在计算引擎方面,云上 EMR 平台可与 MaxCompute、Flink、Tensorflow 引擎进行打通。

在融合方面,云上提供 DataWorks 服务,通过 DataWorks 可以把 Hadoop 整个上层元数据的管理、数据质量管理进行统一。

除此之外,云上还提供 DataV、QuickBI 等分析展示能力。

除以上概述内容外,后续还有云服务和云原生等方面更多干货,请戳视频进行观看


阿里巴巴开源大数据技术团队成立Apache Spark中国技术社区,定期推送精彩案例,技术专家直播,问答区数个Spark技术同学每日在线答疑,只为营造纯粹的Spark氛围,欢迎钉钉扫码加入!
image.png

相关实践学习
基于MaxCompute的热门话题分析
本实验围绕社交用户发布的文章做了详尽的分析,通过分析能得到用户群体年龄分布,性别分布,地理位置分布,以及热门话题的热度。
SaaS 模式云数据仓库必修课
本课程由阿里云开发者社区和阿里云大数据团队共同出品,是SaaS模式云原生数据仓库领导者MaxCompute核心课程。本课程由阿里云资深产品和技术专家们从概念到方法,从场景到实践,体系化的将阿里巴巴飞天大数据平台10多年的经过验证的方法与实践深入浅出的讲给开发者们。帮助大数据开发者快速了解并掌握SaaS模式的云原生的数据仓库,助力开发者学习了解先进的技术栈,并能在实际业务中敏捷的进行大数据分析,赋能企业业务。 通过本课程可以了解SaaS模式云原生数据仓库领导者MaxCompute核心功能及典型适用场景,可应用MaxCompute实现数仓搭建,快速进行大数据分析。适合大数据工程师、大数据分析师 大量数据需要处理、存储和管理,需要搭建数据仓库?学它! 没有足够人员和经验来运维大数据平台,不想自建IDC买机器,需要免运维的大数据平台?会SQL就等于会大数据?学它! 想知道大数据用得对不对,想用更少的钱得到持续演进的数仓能力?获得极致弹性的计算资源和更好的性能,以及持续保护数据安全的生产环境?学它! 想要获得灵活的分析能力,快速洞察数据规律特征?想要兼得数据湖的灵活性与数据仓库的成长性?学它! 出品人:阿里云大数据产品及研发团队专家 产品 MaxCompute 官网 https://www.aliyun.com/product/odps 
目录
打赏
0
0
0
0
3055
分享
相关文章
高科技生命体征探测器、情绪感受器以及传感器背后的大数据平台在健康监测、生命体征检测领域的设想与系统构建
本系统由健康传感器、大数据云平台和脑机接口设备组成。传感器内置生命体征感应器、全球无线定位、人脸识别摄像头等,搜集超出现有科学认知的生命体征信息。云平台整合大数据、云计算与AI,处理并传输数据至接收者大脑芯片,实现实时健康监测。脑机接口设备通过先进通讯技术,实现对健康信息的实时感知与反馈,确保身份验证与数据安全。
鹰角基于 Flink + Paimon + Trino 构建湖仓一体化平台实践项目
本文整理自鹰角网络大数据开发工程师朱正军在Flink Forward Asia 2024上的分享,主要涵盖四个方面:鹰角数据平台架构、数据湖选型、湖仓一体建设及未来展望。文章详细介绍了鹰角如何构建基于Paimon的数据湖,解决了Hudi入湖的痛点,并通过Trino引擎和Ranger权限管理实现高效的数据查询与管控。此外,还探讨了湖仓一体平台的落地效果及未来技术发展方向,包括Trino与Paimon的集成增强、StarRocks的应用以及Paimon全面替换Hive的计划。
鹰角基于 Flink + Paimon + Trino 构建湖仓一体化平台实践项目
美的楼宇科技基于阿里云 EMR Serverless Spark 构建 LakeHouse 湖仓数据平台
美的楼宇科技基于阿里云 EMR Serverless Spark 建设 IoT 数据平台,实现了数据与 AI 技术的有效融合,解决了美的楼宇科技设备数据量庞大且持续增长、数据半结构化、数据价值缺乏深度挖掘的痛点问题。并结合 EMR Serverless StarRocks 搭建了 Lakehouse 平台,最终实现不同场景下整体性能提升50%以上,同时综合成本下降30%。
数据的秘密:如何用大数据分析挖掘商业价值
数据的秘密:如何用大数据分析挖掘商业价值
48 9
MaxCompute Data + AI:构建 Data + AI 的一体化数智融合
本次分享将分为四个部分讲解:第一部分探讨AI时代数据开发范式的演变,特别是MaxCompute自研大数据平台在客户工作负载和任务类型变化下的影响。第二部分介绍MaxCompute在资源大数据平台上构建的Data + AI核心能力,提供一站式开发体验和流程。第三部分展示MaxCompute Data + AI的一站式开发体验,涵盖多模态数据管理、交互式开发环境及模型训练与部署。第四部分分享成功落地的客户案例及其收益,包括互联网公司和大模型训练客户的实践,展示了MaxFrame带来的显著性能提升和开发效率改进。
DataWorks年度发布:智能化湖仓一体数据开发与治理平台的演进
阿里云在过去15年中持续为268集团提供数据服务,积累了丰富的实践经验,并连续三年在IDC中国数据治理市场份额中排名第一。新一代智能数据开发平台DateWorks推出了全新的DateStudio IDE,支持湖仓一体化开发,新增Flink计算引擎和全面适配locs,优化工作流程系统和数据目录管理。同时,阿里云正式推出个人开发环境模式和个人Notebook,提升开发者体验和效率。此外,DateWorks Copilot通过自然语言生成SQL、代码补全等功能,显著提升了数据开发与分析的效率,已累计帮助开发者生成超过3200万行代码。
机器学习与大数据分析的结合:智能决策的新引擎
机器学习与大数据分析的结合:智能决策的新引擎
263 15
DataWorks产品测评|基于DataWorks和MaxCompute产品组合实现用户画像分析
本文介绍了如何使用DataWorks和MaxCompute产品组合实现用户画像分析。首先,通过阿里云官网开通DataWorks服务并创建资源组,接着创建MaxCompute项目和数据源。随后,利用DataWorks的数据集成和数据开发模块,将业务数据同步至MaxCompute,并通过ODPS SQL完成用户画像的数据加工,最终将结果写入`ads_user_info_1d`表。文章详细记录了每一步的操作过程,包括任务开发、运行、运维操作和资源释放,帮助读者顺利完成用户画像分析。此外,还指出了文档中的一些不一致之处,并提供了相应的解决方法。
用户画像分析(MaxCompute简化版)
通过本教程,您可以了解如何使用DataWorks和MaxCompute产品组合进行数仓开发与分析,并通过案例体验DataWorks数据集成、数据开发和运维中心模块的相关能力。
AI助理

你好,我是AI助理

可以解答问题、推荐解决方案等