EMR管控平台全面升级:智能化助力客户实现在离线混部和降本增效

本文涉及的产品
EMR Serverless StarRocks,5000CU*H 48000GB*H
简介: 本次介绍EMR开源大数据平台2.0的最新特性,基于微服务架构,提供更稳定高效的服务。平台升级主要体现在智能化和Serverless两个方面。智能化功能利用大语言模型提升运维效率,推出一键诊断和根因分析,缩短问题定位时间。全托管弹性伸缩根据业务动态自动调整资源,提高资源利用率。即将推出的EMR on ACS产品形态支持离在线业务混部,进一步优化资源使用,帮助用户实现降本增效。

本次将介绍EMR开源大数据平台产品最新的一些特性,EMR 2.0的新平台基于微服务的架构,能够更加稳定和高效的服务开源大数据的业务。


过去一年对平台做进一步的升级和全面的更新主要体现在智能化和Serverless 两个方面。在大语言模型出现之后,各行各业都值得被大语言模型重塑一次,对于大数据平台的产品也不例外。


一、智能化功能

对于大数据的应用降本增效是持续不断的目标。而降本增效本身是包括人力的降本增效和资源的降本增效两个方面。围绕这两个核心的方面基于大模型的基础能力对EMR平台的智能诊断分析,运维弹性伸缩两个方面做功能的升级,首先看诊断和运维,传统大数据的运维通常还是组件,当组件出现问题,组件的负责人通过查看日志和监控的指标,对问题进行排查。一些基础性的组件比如HDFS或ZooKeeper基础性的组件出现问题,它会影响多个相关联的组件。


因的定位非常依赖运维人员的经验,类似复杂问题的定位排查的效率会直接影响到业务的效果,为提升复杂问题根因的定位和分析的效率把EMR服务公有云客户的专家经验沉淀到产品里,推出一键诊断和根因分析的功能根据真实的EMR平台的最新诊断分析报告,看到非常详细的关于问题的链条,问题的原因,还有优化建议相关的信息,从技术实现的层面上,基于通义1000问大语言模型的能力会对组件的日志监控指标进行一个智能化的分析和理解。


同时整合多个组件的数据进行全方位的分析和根因的定位从而出比较全面的结论另外模型和专家系统具备动态的更新和优化的能力,通过用户对诊断分析报告的正面和负面的反馈,持续对专家系统进行优化,最终EMR平台能够很大幅度的缩短用户定位复杂问题的时间,从而能够避免问题的升级和故障的产生。接下来通过一段简单的Demo看新的智能诊断分析产品的使用方法和效果。


首先模拟通过billy提交SQL作业,看到当前任务卡顿需要迅速的定位修复。来到EMR控制台,看到在监控诊断模块当前服务状态异常,传统方法需要逐一检查服务的指标和日志耗时且复杂。当前EMR支持一键发起健康诊断,发起诊断后,诊断报告及时生成报告概览部分展示问题总数、严重性以及趋势,可以帮助客户快速的把握集群状况,切换到拓扑视图,看到在拓扑视图下可以直观的展示问题关联优先解决根源问题,以当前示例问题报告会展示具体问题的现象、原因分析,并给出详细的原因以及优化建议。其中在优化建议板块会给出客户具体的优化建议配置项及配置值,客户根据优化建议可以快速的解决异常问题,极大提升运维效率。


传统的弹性伸缩是依赖用户,需要根据对于资源整体消耗的特点理解和分析,手动的配置弹性伸缩的规则,为达到既不影响业务的效果,又能够节省资源的一个目标比较高的使用门槛非常依赖运维人员相关的经验,EMR平台为简化对于弹性伸缩的使用,推出全托管弹性伸缩的功能,自动根据业务历史的资源用量的情况实时的资源的消耗排队的情况,动态申请和释放资源,不仅更加的智能化,而且能够及时的响应业务动态负载的变化,对于整个资源使用的效率也会有进一步的提升。


相比于自定义的弹性伸缩规则,托管的弹性伸缩会提供智能化的优化算法,另外在指标的收集指标的检测冷却时间方面,也会有大幅度的提升,从弹性伸缩的效果上看托管弹性伸缩具备更好的动态性面向同样变化的负载会有更好的扩缩容的效率和更低的冷却时间。展示一个真实负载下托管弹性伸缩和自定义弹性伸缩对比的情况。不管是扩容还是缩容,托管弹性伸缩所需要的时间。不管是响应时间还是完成时间,相比于自定义弹性伸缩规则都有非常大的优化,接下来通过Demo看托管弹性伸缩的功能,以及使用的方法效果。阿里云EMR正式发布托管弹性伸缩功能。只需要为集群指定最小、最大最大按量task节点数并一键保存应用。阿里云EMR将自动调整集群规模,以实现最优性能与资源利用率。面对业务激增,EMR可以在较短时间内自动补充资源,并将新增任务调度至新的节点上,在业务高峰过后,自动移除多余资源,任务将平滑的回到原有节点上。在整个过程中,业务排队情况一直维持在较低水平。相比于未开启弹性伸缩托管弹性伸缩将资源利用率从30%提高至75%,提升了集群资源利用效率。


二、Serverless化

对于EMR公有云上的数以千计的集群的资源使用情况的观察和分析。发现还是存在大量的没有资源峰谷情况的资源浪费。Serverless 还是势在必行的。与此同时观察到对于在线业务,它的资源使用量非常大,并且在线资源的业务具备比较明显的昼夜峰谷特点用户会愿意把离线业务在夜间复用在线资源,基于自己持有的资源池实现离线的混部,以及资源的分时复用。但客户自己持有的资源池和云服务厂商提供的托管的资源池,两个资源池去客观上是不现实的,在这种背景下,新推出产品形态EMR on ACS这种产品形态也依赖阿里云的一款新的产品叫ACS,ACS提供托管的k8s服务,实际上提供在离线负载的混合资源调度的能力,利用ACS在离线负载混合调度的能力,可以对用户屏蔽自己在离线负载的资源隔离调度复杂度,从而更轻松的实现在离线的混部


EMR主要负责大数据组件的部署,监控的诊断用量管理。相比于EMR on ECS这种产品形态ECS有服务器状态无服务器的形态可以按量按需的使用资源。所以EMR on ACS的资源使用效率更高一些。另外依托ACS提供的全托管k8s的能力,可以非常灵活的实现弹性伸缩的功能,与此同时用户能更关注自己的业务,不需要自己管理和运维k8s的版本和升级,业界也出现自己进行k8s的升级出现问题导致大规模的故障,在EMR on ACS这种产品形态不需要有这种困扰,在k8s资源调度器场景,相比于传统的调度器它在队列管理上的功能偏弱,在EMR on ACS产品形态下也提供比较完善的资源管理功能,通过资源队列对资源进行隔离。


用户可以按照不同业务的形态,划分不同的队列,进行资源的分配,以及code的管理还有统计和记账,在EMR on ACS产品形态支持各种各样不同类型的任务,包括不限于流式处理的Flink的任务批处理Spark的任务Olap分析的Traino类型的任务。用户可以用EMR on ACS的单一产品构建数据湖仓处理的全链路,此外在EMR on ACS产品形态,也支持智能化的作业诊断分析,EMR on ACS里真实的spark任务的诊断结果看到智能化的诊断出一些异常信息的描述,以及相关优化的一些建议。另外一个重要的方面是固定和弹性资源的配比,固定弹性资源的配比优化和资源的形态服务器是没有关系的,可以把它类比到日常生活中手机的套餐,通常手机根据自己的通话数据流量的使用情况,选择适合的套餐,超过套餐之外的按量付费如果连续几个月使用情况都超出套餐运营商会给客户打电话,推荐更高级别的新套餐。


所以在EMR on ACS产品形态也会提供前面提到的智能化的、托管的,弹性伸缩的能力帮助客户能够更加方便的高效的实现最优的固定和弹性资源的配比。依托EMRACS的产品能力用户可以比较轻松的基于自有的资源池实现在线业务和离线业务的混合的部署和资源的复用。接下来通过Demo看即将推出的EMR on ACS的产品形态的使用的方式效果。已创建好EMR on ACS的工作空间,在基础信息页面看到,工作空间与ACS集群相关联,点击跳转至ACS集群页面,看到当前已有四个在线微服务正在运行中,跳转至grafana监控页面,看到模拟电商业务,当前业务各接口运行正常。回到EMR控制台,可以在控制台中对工作空间进行资源管理、应用管理以及作业列表的查看。首先到资源管理页面在提交作业前,需要对运行作业的队列进行限制,避免资源浪费。设置好队列后,来到应用管理页面,通过QB提交作业,打开QB的web ui页面。首先设置本次任务的目标队列及刚才创建的Demo队列,通过Spark对存储在OSS上的电商数据进行预处理,提取用户购买链路上的行为数据,并存入到新表,命名为user Log。


作业提交后回到作业列表,看到Spark作业处于运行中,会持续的写入数据运行完毕后,来到OSS浏览器,看到当前已有按时间分区的user log数据。接下来通过trainer对刚才生成的userlog表进行查询,生成用户的行为分析数据漏斗模型,看到用户从点击到加购收藏再到购买的转化情况,回到作业列表,看到刚才提交的SQL执行情况以及所花费的时长。再回到ACS监控大盘,查看在线业务的指标情况,看到离线任务对在线业务没有影响。当所有任务执行完毕后,可以通过资源管理查看刚才操作所耗费的资源情况,例如整体工作空间的资源消耗以及各个队列的消耗情况。以上是EMR on ACS功能演示的全部内容。


最新的EMR管控的平台不仅可以利用智能化的一键诊断、根因分析的功能,还有托管的弹性伸缩的功能。而且即将推出EMR on ACS新的产品形态,支持使用自有的资源池实现在线业务的混部

 

 

相关实践学习
基于EMR Serverless StarRocks一键玩转世界杯
基于StarRocks构建极速统一OLAP平台
快速掌握阿里云 E-MapReduce
E-MapReduce 是构建于阿里云 ECS 弹性虚拟机之上,利用开源大数据生态系统,包括 Hadoop、Spark、HBase,为用户提供集群、作业、数据等管理的一站式大数据处理分析服务。 本课程主要介绍阿里云 E-MapReduce 的使用方法。
相关文章
|
2天前
|
SQL 存储 缓存
EMR Serverless StarRocks 全面升级:重新定义实时湖仓分析
本文介绍了EMR Serverless StarRocks的发展路径及其架构演进。首先回顾了Serverless Spark在EMR中的发展,并指出2021年9月StarRocks开源后,OLAP引擎迅速向其靠拢。随后,EMR引入StarRocks并推出全托管产品,至2023年8月商业化,已有500家客户使用,覆盖20多个行业。 文章重点阐述了EMR Serverless StarRocks 1.0的存算一体架构,包括健康诊断、SQL调优和物化视图等核心功能。接着分析了存算一体架构的挑战,如湖访问不优雅、资源隔离不足及冷热数据分层困难等。
|
5月前
|
存储 缓存 Cloud Native
阿里云EMR数据湖文件系统问题之JindoFS架构升级后的问题如何解决
阿里云EMR数据湖文件系统问题之JindoFS架构升级后的问题如何解决
|
存储 SQL 缓存
阿里云EMR 2.0:定义下一代云原生智能数据湖
本次分享主要介绍了阿里云云原生数据湖分析解决方案的三个核心要素:全托管,湖存储;一站式,湖管理;多模态,湖计算。
29787 1
阿里云EMR 2.0:定义下一代云原生智能数据湖
|
存储 人工智能 运维
阿里云开源大数据平台升级EMR2.0发布 性能最高可提升6倍
阿里云EMR2.0为用户提供了全新的平台、开发、资源形态、分析场景等更优的产品体验,通过EMR Doctor健康检查、全面的服务巡检和事件通知、节点故障补偿等运维能力的升级,预估运维成本可降低20%-30%。新平台致力于为客户快速构建高性价比、安全可靠、兼容生态的开源大数据平台。
阿里云开源大数据平台升级EMR2.0发布  性能最高可提升6倍
|
存储 运维 分布式计算
阿里云开源大数据平台EMR全面升级 性能最高可提升6倍
12月27日,阿里云正式发布云原生开源大数据平台EMR 2.0,升级后的开源大数据平台在成本持平的情况下,扩缩容性能最高可提升6倍。
751 0
阿里云开源大数据平台EMR全面升级 性能最高可提升6倍
|
SQL 存储 弹性计算
EMR重磅发布智能运维诊断系统(EMR Doctor)——开源大数据平台运维利器
E-MapReduce 推出面向开源大数据集群的智能运维诊断系统 E-MapReduce Doctor,有效提升大数据集群运维效率,辅助 EMR 用户完善集群监控体系。
3557 0
EMR重磅发布智能运维诊断系统(EMR Doctor)——开源大数据平台运维利器
|
分布式计算 Hadoop
EMR 升级Hadoop 2.8.5
信息摘要: EMR 提供Hadoop 2.8.5,方便开发者使用新版Hadoop功能。适用客户: 所有客户版本/规格功能: EMR-3.18.0及以后版本,Hadoop升级为2.8.5,开发者可以方便地使用新版Hadoop的功能。
|
分布式计算 大数据 Hadoop
E-MapReduce上如何升级EMR-Core
本文档将介绍如何将老集群的EMR-Core升级到最新版本 什么是EMR-Core EMR-Core是E-MapReduce集群上支持Hadoop生态组件读写OSS的依赖包。它提供一种高效地读写OSS数据的实现,并不断地在优化中。
2566 0
|
5月前
|
分布式计算 大数据 MaxCompute
EMR Remote Shuffle Service实践问题之阿里云RSS的开源计划内容如何解决
EMR Remote Shuffle Service实践问题之阿里云RSS的开源计划内容如何解决
|
5月前
|
分布式计算 测试技术 调度
EMR Remote Shuffle Service实践问题之集群中落地阿里云RSS如何解决
EMR Remote Shuffle Service实践问题之集群中落地阿里云RSS如何解决