EMR Spark Runtime Filter性能优化 | 7月5号云栖夜读

本文涉及的产品
云原生大数据计算服务 MaxCompute,5000CU*H 100GB 3个月
云原生大数据计算服务MaxCompute,500CU*H 100GB 3个月
简介: 今天的首篇文章,讲述了:Join是一个非常耗费资源耗费时间的操作,特别是数据量很大的情况下。一般流程上会涉及底层表的扫描/shuffle/Join等过程, 如果我们能够尽可能的在靠近源头上减少参与计算的数据,一方面可以提高查询性能,另一方面也可以减少资源的消耗(网络/IO/CPU等),在同样的资源的情况下可以支撑更多的查询。

点击订阅云栖夜读日刊,专业的技术干货,不容错过!

阿里专家原创好文

1.EMR Spark Runtime Filter性能优化

Join是一个非常耗费资源耗费时间的操作,特别是数据量很大的情况下。一般流程上会涉及底层表的扫描/shuffle/Join等过程, 如果我们能够尽可能的在靠近源头上减少参与计算的数据,一方面可以提高查询性能,另一方面也可以减少资源的消耗(网络/IO/CPU等),在同样的资源的情况下可以支撑更多的查询。阅读更多》》

2.JVM-SANDBOX:从阿里精准测试走出的开源贡献奖

稳定性是历年双11的技术质量保障核心。从 2016 年开始淘宝技术质量部潜心修行,创新地研发了一套实时无侵入的字节码增强框架,于是「JVM-SANDBOX」诞生了,并且顺手在 MTSC 大会上拿了开源贡献奖,今天,我们来瞅瞅这个拿奖的项目。阅读更多》》

3.分布式服务架构下的混沌工程实践

本文希望阐述清楚LVS的各种转发模式,以及他们的工作流程和优缺点,同时从网络包的流转原理上解释清楚优缺点的来由,并结合阿里云的slb来说明优缺点。阅读更多》》

4.云原生应用 Kubernetes 监控与弹性实践

一篇干货好文,值得一读!阅读更多》》

5.MaxCompute 项目子账号做权限管理

一个企业使用多款阿里云产品,MaxCompute是其中一个产品,用的是同个主账号,主账号不是由使用MaxCompute的大数据同学管理, 大数据同学使用的是子账号。大数据同学日常需要给MaxCompute项目 操作新增子账号(add user),新的子账号授权(grant xx on project/table)等操作,即日常权限管理。阅读更多》》

视频课程及PPT下载

1.DTCC 2019第十届中国数据库技术大会--《NoSQL数据库最新技术发展趋势》
议题简介:企业 IT 系统面临层出不穷的新业务,安全,成本等诸多挑战。阿里云 NoSQL 数据库通过与企业业务深度结合,快速创新,提供最新的技术帮助企业用户迎接挑战,获得金融、社交、直播等众多大客户的信任。本次演讲重点介绍阿里云 NoSQL 数据库在全球分布式,多模,弹性,HTAP,cloudNative,图,时序,时空等众多最新领域的创新和技术实践。
视频地址:https://yq.aliyun.com/live/1049

2.DTCC 2019第十届中国数据库技术大会--《探索互联数据的奥秘——图数据库GDB》
议题简介:阿里图数据库 GDB 是一种支持属性图模型、用于处理高度连接数据查询与存储的实时、可靠、可扩展的在线数据库服务。基于图数据库 GDB,可以帮助用户快速构建基于高度连接的数据集的应用程序,高效地构建社交网络、推荐引擎、欺诈检测、知识图谱等应用。
视频地址:https://yq.aliyun.com/live/1050

3.DTCC 2019第十届中国数据库技术大会--《云时代数据库迁移 & 容灾技术新进展与应用》
议题简介:关于数据库灾备,你想知道的都在这里!迁移 & 容灾是数据库的强需求,传统的迁移 & 容灾技术已经发展多年,随着云时代的来临,在迁移 & 容灾的使用场景、网络、技术都有很大的变化,如何在云时代下更简单的实现数据库的迁移 & 容灾,云厂商如何通过新的技术实现弯道超车,本次 topic 主要分享阿里云在此领域的技术新进展和应用。
视频地址:https://yq.aliyun.com/live/1048

更多精彩直播

热门话题

1.谷歌Chrome内置广告拦截器将于7月9日在全球发布,你的站点广告能过关吗?(有奖话题)

  • 对于此次功能更新,你有什么看法?

点此进入回答赢取礼物

2.小程序的发展越来越快,你还在观望吗?一起来聊聊你眼中的小程序吧!(有奖话题)

  • 你眼中的小程序
  • 你对小程序有什么期待?

点此进入回答赢取礼物

往期精彩回顾

如何带领团队“攻城略地”?优秀的架构师这样做 | 7月4号云栖夜读

点击订阅云栖夜读日刊,专业的技术干货,不容错过!

相关实践学习
阿里云图数据库GDB入门与应用
图数据库(Graph Database,简称GDB)是一种支持Property Graph图模型、用于处理高度连接数据查询与存储的实时、可靠的在线数据库服务。它支持Apache TinkerPop Gremlin查询语言,可以帮您快速构建基于高度连接的数据集的应用程序。GDB非常适合社交网络、欺诈检测、推荐引擎、实时图谱、网络/IT运营这类高度互连数据集的场景。 GDB由阿里云自主研发,具备如下优势: 标准图查询语言:支持属性图,高度兼容Gremlin图查询语言。 高度优化的自研引擎:高度优化的自研图计算层和存储层,云盘多副本保障数据超高可靠,支持ACID事务。 服务高可用:支持高可用实例,节点故障迅速转移,保障业务连续性。 易运维:提供备份恢复、自动升级、监控告警、故障切换等丰富的运维功能,大幅降低运维成本。 产品主页:https://www.aliyun.com/product/gdb
目录
相关文章
|
24天前
|
SQL 分布式计算 Serverless
EMR Serverless Spark:一站式全托管湖仓分析利器
本文根据2024云栖大会阿里云 EMR 团队负责人李钰(绝顶) 演讲实录整理而成
118 2
|
4月前
|
存储 分布式计算 Serverless
|
2月前
|
SQL 分布式计算 Serverless
阿里云 EMR Serverless Spark 版正式开启商业化
阿里云 EMR Serverless Spark 版正式开启商业化,内置 Fusion Engine,100% 兼容开源 Spark 编程接口,相比于开源 Spark 性能提升300%;提供 Notebook 及 SQL 开发、调试、发布、调度、监控诊断等一站式数据开发体验!
149 3
阿里云 EMR Serverless Spark 版正式开启商业化
|
4月前
|
弹性计算 分布式计算 运维
迟来的EMR Serverless Spark评测报告
本文是一篇关于阿里云EMR Serverless Spark产品评测的文章,作者分享了使用体验和理解。EMR Serverless Spark是阿里云提供的全托管、一站式的Spark数据计算平台,简化了大数据处理流程,让用户专注于数据分析。文章提到了产品的主要优势,如快速启动、弹性伸缩、高资源利用率和低成本。
236 8
|
3月前
|
分布式计算 Serverless 数据处理
EMR Serverless Spark 实践教程 | 通过 Apache Airflow 使用 Livy Operator 提交任务
Apache Airflow 是一个强大的工作流程自动化和调度工具,它允许开发者编排、计划和监控数据管道的执行。EMR Serverless Spark 为处理大规模数据处理任务提供了一个无服务器计算环境。本文为您介绍如何通过 Apache Airflow 的 Livy Operator 实现自动化地向 EMR Serverless Spark 提交任务,以实现任务调度和执行的自动化,帮助您更有效地管理数据处理任务。
205 0
|
3月前
|
分布式计算 大数据 MaxCompute
EMR Remote Shuffle Service实践问题之阿里云RSS的开源计划内容如何解决
EMR Remote Shuffle Service实践问题之阿里云RSS的开源计划内容如何解决
|
3月前
|
分布式计算 测试技术 调度
EMR Remote Shuffle Service实践问题之集群中落地阿里云RSS如何解决
EMR Remote Shuffle Service实践问题之集群中落地阿里云RSS如何解决
|
1月前
|
SQL 存储 缓存
阿里云EMR StarRocks X Paimon创建 Streaming Lakehouse
本文介绍了阿里云EMR StarRocks在数据湖分析领域的应用,涵盖StarRocks的数据湖能力、如何构建基于Paimon的实时湖仓、StarRocks与Paimon的最新进展及未来规划。文章强调了StarRocks在极速统一、简单易用方面的优势,以及在数据湖分析加速、湖仓分层建模、冷热融合及全链路ETL等场景的应用。
260 2
阿里云EMR StarRocks X Paimon创建 Streaming Lakehouse
|
27天前
|
SQL 存储 缓存
降本60% ,阿里云 EMR StarRocks 全新发布存算分离版本
阿里云 EMR Serverless StarRocks 现已推出全新存算分离版本,该版本不仅基于开源 StarRocks 进行了全面优化,实现了存储与计算解耦架构,还在性能、弹性伸缩以及多计算组隔离能力方面取得了显著进展。
259 6
|
1月前
|
SQL 存储 缓存
阿里云EMR StarRocks X Paimon创建 Streaming Lakehouse
讲师焦明烨介绍了StarRocks的数据湖能力,如何使用阿里云EMR StarRocks构建基于Paimon的极速实时湖仓,StarRocks与Paimon的最新进展及未来规划。
122 3