阿里云EMR计算速度提升2.2倍 连续两年打破大数据领域最难竞赛世界纪录!

本文涉及的产品
EMR Serverless StarRocks,5000CU*H 48000GB*H
简介: 4月26日,大数据领域权威竞赛TPC-DS公布了最新结果,阿里云作为全球唯一入选的云计算公司获得第一。值得一提的是,去年阿里云EMR首次打破该竞赛纪录,成为全球首个通过TPC认证的公共云产品。今年在这一基础上,EMR的计算速度提升了2.2倍,连续两年打破了这项大数据领域最难竞赛的世界纪录。

4月26日,大数据领域权威竞赛TPC-DS公布了最新结果,阿里云作为全球唯一入选的云计算公司获得第一。值得一提的是,去年阿里云EMR首次打破该竞赛纪录,成为全球首个通过TPC认证的公共云产品。今年在这一基础上,EMR的计算速度提升了2.2倍,性能指标(QphDS)首次超过一千万分,是友商的商业大数据产品3.5倍。同时,E-MapReduce继续保持数据处理能力的规模优势,100TB的数据规模是竞争对手产品最大处理能力的10倍。
image

本次测评全记录参见TPC官网:http://www.tpc.org/tpcds/results/tpcds_perf_results5.asp?resulttype=all


E-MapReduce再次打破世界记录

TPC-DS是第一个基于SQL的大数据系统基准测试标准,该标准创立十几年以来,世界上只有两家公司的数据库软件通过了TPC-DS的官方认证,阿里云是其中一家。TPC-DS以其SQL的复杂度、流程的完善度和极大的数据量而闻名,被称为当前业界最难完成的大数据测试标准。

以数据量为例,这次EMR使用的10TB测试数据集包含了超过13亿商品库存,500亿笔交易以及6千万用户的模拟数据,大部分查询请求需要同时处理这份海量数据,并且需要在十几秒或一分钟之内返回。

E-MapReduce(阿里云EMR)

作为运行在阿里云平台上的一种大数据处理的系统解决方案,阿里云E-MapReduce产品构建于阿里云云服务器 ECS 上,基于开源的 Apache Hadoop 和 Apache Spark,让用户可以方便地使用 Hadoop 和 Spark 生态系统中的其他周边系统(如 Apache Hive、Apache Kafka、Apache HBase 等)来分析和处理自己的数据。不仅如此,E-MapReduce 还可以方便的与阿里云其他的云数据存储系统和数据库系统(如阿里云 OSS、阿里云 Log Service等)进行数据传输。目前,EMR已服务新零售、互联网、教育、人工智能及政务等行业企业和机构,以国际知名营销服务公司Yeahmobi为例,该公司通过使用阿里云EMR构建大数据计算平台,实现了统一存储、统一分析,整体成本下降超30%。
官网:https://www.aliyun.com/product/emapreduce

emr_4_27

重磅引擎Jindo Spark

Jindo Spark是阿里云智能E-MapReduce团队在开源的Apache Spark基础上自主研发的云原生分布式计算和存储引擎,已经在近千E-MapReduce客户中大规模部署使用。Jindo Spark在开源版本基础上做了大量优化和扩展,深度集成和连接了众多阿里云基础服务。

Jindo Spark和开源的Apache Spark相比,除了保持接口的兼容性,在功能和性能上都有较大提升。以这次TPC-DS 10TB基准测试为例,Jindo Spark可以跑通所有测试流程,而Apache Spark暂时还不支持数据更新等流程,并且在数据查询测试中,部分查询操作无法正常得到结果(99个SQL中的2个)。在查询性能上Jindo Spark也有较大的优势,Apache Spark的97个查询的总耗时是JindoSpark的6.1倍,Jindo Spark在部分查询(比如query67和query78)的性能提升超过100倍。EMR 4.0版本中Jindo引擎在性能和功能上的亮点有:

1.Jindo Spark支持Native Runtime 计算引擎

Jindo Spark将开源Spark SQL中最核心的全阶段Java代码生成框架(Whole Stage Code Generation)升级为Native代码生成框架,引入了Weld-IR技术极大的提升了生成代码的执行效率,并支持投机性编译和全局代码缓存。Jindo Spark的Native Runtime计算引擎分析了高频使用的SQL算子,部分算子实现了Native优化,比如高性能的SortMergeJoin和PartitionBy算子对最耗时Shuffle阶段性能提升效果明显。

同时,Jindo Spark改进了Spark SQL Catalyst Optimizer,实现了基于CTE 和 PK/FK的优化,支持动态Runtime Filter,TPC-DS的部分SQL实现了数十倍的性能提升。

2.数据湖解决方案重磅升级

阿里云EMR和OSS为客户提供一站式数据湖解决方案,提供全新的计算存储相分离方案最新的 JindoFS 同时支持 Cache 和 Block 模式,全面支持 EMR 各种计算引擎和 HBase数据库。

在 Block 模式上,JindoFS 组合利用本地高性能存储和 OSS 海量可靠低成本存储,在性能上接近本地存储,在容量,弹性和成本上接近 OSS 存储。JindoFS 透明支持数据在本地存储和 OSS 存储之间冷热迁移,EMR 计算不需要显式迁移和维护元数据位置,不需要显式挂载。在 Cache 模式上,JindoFS 保持 OSS 的原有访问方式和兼容,支持对元数据和文件数据的可选性缓存加速。无论哪种模式,JindoFS 全面支持 EMR 各种计算和场景,包括 MapReduce,Spark,Hive,Flink,Impala,Presto,Kafka,甚至 HBase。JindoFS 支持非 EMR 集群外部环境访问,支持上下游打通。

3.可以玩转各种实时数据流的搭建:

  • 支持Kafka/Kudu/Druid/HBase等多种存储引擎的集群类型,并且与Jindo Spark深度集成,满足实时数据湖的各种业务场景需求
  • 支持Spark Streaming SQL,提供实时ETL能力,降低开发使用门槛
  • 支持MySQL Binlog CDC数据实时同步到数据湖,用户可以使用模板快速构建数据流,并在数据湖里实现实时数据查询(支持Spark SQL、Presto、Hive等引擎)

4.Spark Cube

Spark Cube 支持将任意表或视图表示的关系型数据持久化到存储上,可实现类似传统数据仓库物化视图和Cube的功能。Cache 数据的存储支持各种数据源与数据格式,以及分区,分桶,排序,文件索引等数据组织方式,Jindo Spark 自动选择合适的 cache 重写用户查询的执行计划以加速查询执行速度。通过数据的预组织和预计算,Spark Cube能够支持超大规模数据亚秒级响应的交互式分析需求,适用于多维分析,BI 报表,Dashboard 等应用场景。

Spark Cube已经开源,欢迎使用和提供建议 https://github.com/alibaba/SparkCube

未来

阿里云计算平台事业群总裁贾扬清表示,“阿里云积极拥抱开源技术的同时,也在不断投入自研创新技术,此次阿里云连续两年刷新世界纪录,是多年自研技术的必然成果,阿里云希望用这些创新技术服务更多的企业。

未来的 E-MapReduce 团队还会继续努力,完善 Jindo 核心引擎,在性能、功能和扩展性上更进一步,挑战更大规模的数据集,满足更广泛的云上大数据客户需求,让 E-MapReduce 成为阿里云智能的标杆性产品。更多对Jindo Spark的性能优化和功能增强工作还在进行中,对开源大数据和数据库OLAP场景感兴趣的同学可加入钉钉群交流
https://qr.dingtalk.com/action/joingroup?code=v1,k1,cNBcqHn4TvG0iHpN3cSc1B86D1831SGMdvGu7PW+sm4=&_dt_no_comment=1&origin=11


背景信息:

事务处理性能委员会( Transaction Processing Performance Council )TPC,是目前最知名的数据管理系统评测基准标准化组织。其制定商务应用基准程序(Benchmark)的标准规范、性能和价格度量,发布了多款数据库评测基准,在业界得到了广泛应用。

----

相关阅读:
阿里云大数据+AI技术沙龙上海站回顾 | ​揭秘TPC-DS 榜单第一名背后的强大引擎
JindoFS: 云上大数据的高性能数据湖存储方案

EMR打破世界纪录宣传海报-04.png
海报jindofs.png

相关实践学习
基于MaxCompute的热门话题分析
本实验围绕社交用户发布的文章做了详尽的分析,通过分析能得到用户群体年龄分布,性别分布,地理位置分布,以及热门话题的热度。
SaaS 模式云数据仓库必修课
本课程由阿里云开发者社区和阿里云大数据团队共同出品,是SaaS模式云原生数据仓库领导者MaxCompute核心课程。本课程由阿里云资深产品和技术专家们从概念到方法,从场景到实践,体系化的将阿里巴巴飞天大数据平台10多年的经过验证的方法与实践深入浅出的讲给开发者们。帮助大数据开发者快速了解并掌握SaaS模式的云原生的数据仓库,助力开发者学习了解先进的技术栈,并能在实际业务中敏捷的进行大数据分析,赋能企业业务。 通过本课程可以了解SaaS模式云原生数据仓库领导者MaxCompute核心功能及典型适用场景,可应用MaxCompute实现数仓搭建,快速进行大数据分析。适合大数据工程师、大数据分析师 大量数据需要处理、存储和管理,需要搭建数据仓库?学它! 没有足够人员和经验来运维大数据平台,不想自建IDC买机器,需要免运维的大数据平台?会SQL就等于会大数据?学它! 想知道大数据用得对不对,想用更少的钱得到持续演进的数仓能力?获得极致弹性的计算资源和更好的性能,以及持续保护数据安全的生产环境?学它! 想要获得灵活的分析能力,快速洞察数据规律特征?想要兼得数据湖的灵活性与数据仓库的成长性?学它! 出品人:阿里云大数据产品及研发团队专家 产品 MaxCompute 官网 https://www.aliyun.com/product/odps 
相关文章
|
1月前
|
存储 云计算 开发者
【预告】阿里云计算新品速递:HPC优化实例商业化发布
5月30日14:00,将推出专为云上高性能计算设计的HPC优化实例hpc8ae,旨在解决现有云计算基础设施对HPC应用优化不足的问题,提供经济高效的仿真解决方案,提升计算效率,加速业务创新。直播中,阿里云专家将展示实例在计算流体、有限元分析等领域的应用,并通过两个云上工业仿真Demo进行实践演示。参与直播还有机会赢取丰富礼品。
【预告】阿里云计算新品速递:HPC优化实例商业化发布
|
9天前
|
人工智能 分布式计算 DataWorks
首批!阿里云 MaxCompute 完成中国信通院数据智能平台专项测试
2024年5月31日,在中国信通院组织的首批数据智能平台专项测试中,阿里云数据智能平台解决方案(MaxCompute、DataWorks、PAI)顺利完成测试。
75 5
首批!阿里云 MaxCompute 完成中国信通院数据智能平台专项测试
|
1天前
|
存储 机器学习/深度学习 弹性计算
阿里云ECS计算型c8i服务器测评_网络PPS_云盘IOPS性能参数
阿里云ECS计算型c8i实例采用Intel Xeon Emerald Rapids或Sapphire Rapids CPU,主频2.7 GHz起,支持CIPU架构,提供强大计算、存储、网络和安全性能。适用于机器学习、数据分析等场景。实例规格从2核到192核,内存比例1:2,支持ESSD云盘,网络带宽高达100 Gbit/s,具备IPv4/IPv6,vTPM和内存加密功能。详细规格参数表包括不同实例的vCPU、内存、网络带宽、IOPS等信息,最高可达100万PPS和100万IOPS。
|
19天前
|
SQL 分布式计算 DataWorks
DataWorks产品使用合集之如何将CSV文件从阿里云OSS同步到ODPS表,并且使用列作为表分区
DataWorks作为一站式的数据开发与治理平台,提供了从数据采集、清洗、开发、调度、服务化、质量监控到安全管理的全套解决方案,帮助企业构建高效、规范、安全的大数据处理体系。以下是对DataWorks产品使用合集的概述,涵盖数据处理的各个环节。
DataWorks产品使用合集之如何将CSV文件从阿里云OSS同步到ODPS表,并且使用列作为表分区
|
1天前
|
SQL 存储 运维
网易游戏如何基于阿里云瑶池数据库 SelectDB 内核 Apache Doris 构建全新湖仓一体架构
随着网易游戏品类及产品的快速发展,游戏数据分析场景面临着越来越多的挑战,为了保证系统性能和 SLA,要求引入新的组件来解决特定业务场景问题。为此,网易游戏引入 Apache Doris 构建了全新的湖仓一体架构。经过不断地扩张,目前已发展至十余集群、为内部上百个项目提供了稳定可靠的数据服务、日均查询量数百万次,整体查询性能得到 10-20 倍提升。
网易游戏如何基于阿里云瑶池数据库 SelectDB 内核 Apache Doris 构建全新湖仓一体架构
|
4天前
|
分布式计算 算法 Java
阿里云ODPS PySpark任务使用mmlspark/synapseml运行LightGBM进行Boosting算法的高效训练与推理
阿里云ODPS PySpark任务使用mmlspark/synapseml运行LightGBM进行Boosting算法的高效训练与推理
|
8天前
|
SQL 运维 Serverless
阿里云 EMR StarRocks VS 开源版本功能差异介绍
阿里云 E-MapReduce Serverless StarRocks 版是阿里云提供的 Serverless StarRocks 全托管服务,提供高性能、全场景、极速统一的数据分析体验,具备开箱即用、弹性扩展、监控管理、慢 SQL 诊断分析等全生命周期能力。内核 100% 兼容 StarRocks,性能比传统 OLAP 引擎提升 3-5 倍,助力企业高效构建大数据应用。本篇文章重点介绍阿里云 EMR StarRocks 与开源 StarRocks 的对比与客户案例。
45 5
|
6天前
|
SQL 分布式计算 大数据
MaxCompute产品使用问题之odps sql 底层计算框架是MR吗
MaxCompute作为一款全面的大数据处理平台,广泛应用于各类大数据分析、数据挖掘、BI及机器学习场景。掌握其核心功能、熟练操作流程、遵循最佳实践,可以帮助用户高效、安全地管理和利用海量数据。以下是一个关于MaxCompute产品使用的合集,涵盖了其核心功能、应用场景、操作流程以及最佳实践等内容。
|
1月前
|
SQL 分布式计算 监控
基于阿里云 EMR Serverless Spark 版快速搭建OSS日志分析应用
本文演示了使用 EMR Serverless Spark 产品搭建一个日志分析应用的全流程,包括数据开发和生产调度以及交互式查询等场景。
56452 7
基于阿里云 EMR Serverless Spark 版快速搭建OSS日志分析应用
|
1天前
|
缓存 运维 Devops
阿里云云效操作报错合集之在构建过程中,Docker尝试从缓存中获取某个文件(或计算缓存键)时遇到了问题,该如何处理
本合集将整理呈现用户在使用过程中遇到的报错及其对应的解决办法,包括但不限于账户权限设置错误、项目配置不正确、代码提交冲突、构建任务执行失败、测试环境异常、需求流转阻塞等问题。阿里云云效是一站式企业级研发协同和DevOps平台,为企业提供从需求规划、开发、测试、发布到运维、运营的全流程端到端服务和工具支撑,致力于提升企业的研发效能和创新能力。