TPCx-BB官宣最新世界纪录,阿里巴巴计算力持续突破

简介: 飞天大数据平台计算引擎MaxCompute成为全球首个TPCx-BB认证的公共云产品,是除Hive、Spark以外TPCx-BB第三个标准支持的大数据引擎。不仅首次将数据规模拓展到100TB,性能达到25641.21QPM,更在TPCx-BB已有最大30TB规模上,将性能提升近一倍,达到6427.86QPM,单位价格下降一半,达到169.76$/QPM。

2019年9月17日,TPC官宣Alibaba Cloud MaxCompute认证结果。同月26日,杭州云栖大会阿里巴巴宣布了这一成绩,飞天大数据平台计算引擎MaxCompute成为全球首个TPCx-BB认证的公共云产品,是除Hive、Spark以外TPCx-BB第三个标准支持的大数据引擎。不仅首次将数据规模拓展到100TB,性能达到25641.21QPM,更在TPCx-BB已有最大30TB规模上,将性能提升近一倍,达到6427.86QPM,单位价格下降一半,达到169.76$/QPM。

image

TPCx-BB是由国际标准化测试权威组织(TPC)发布的基于零售业场景构建的端到端大数据测试基准,支持主流分布式大数据处理引擎,模拟了整个线上与线下业务流程,有30个查询语句,涉及到描述性过程型查询、数据挖掘以及机器学习的算法。涵盖了结构化、半结构化和非结构化数据,能够从客户实际场景角度更全面的评估大数据系统软硬件性能、性价比、服务和功耗等各个方面。

MaxCompute正是希望能够从更加接近实际生产场景和客户场景的角度,来呈现飞天大数据平台的计算性能和性价比优势。而MaxCompute在TPCx-BB性能、性价比等方面的领先无疑是由MaxCompute技术先进性决定的。

作为支撑MaxCompute计算力的核心之一的SQL引擎,包括了编译器、运行时和优化器3个模块。SQL编译器支持标准SQL,100%支持TPC-DS、TPCx-BB语法。运行时支持列式处理和丰富的关系算符,基于LLVM进行微架构级别的优化。优化器支持基于历史信息的HBO和基于Calcite的CBO,通过多种优化手段提升MaxCompute SQL的性能。

存储方面,则使用先进的存储格式Aliorc,支持列式存储、灵活的编码格式、异步预读及高效的压缩算法,与开源存储格式相比,在存储效率和读写效率上都有显著的提升。MaxCompute以外表的形式支持多种数据源,比如HDFS、OSS外表,可以将TPCx-BB生成在HDFS中的数据高效导入MaxCompute。

调度方面采用基于飞天平台的Fuxi2.0调度系统。其DAG2.0将资源调度overhead控制在了10us级别,远远领先业界同类框架。Shuffle2.0通过数据重排,在磁盘和网络之间找到平衡点,将集群吞吐效率提升30%。

此外,MaxCompute原生支持阿里巴巴机器学习平台PAI,用户可以一站式完成大数据处理与机器学习模型训练及预测。机器学习PAI是飞天AI平台中的核心产品,构建在阿里云MaxCompute等计算平台之上,在机器学习大规模分布式训练场景拥有非常强的性能表现,在本次TPCx-BB的比赛中,PAI基于MaxCompute,在逻辑回归、Kmeans、朴素贝叶斯三个算法的表现性能上取得很好的成绩。

在MaxCompute/PAI多年的系统优化过程中,英特尔作为阿里巴巴重要的合作伙伴,提供了许多助力。英特尔作为测试基准中BigBench的重要贡献者,与阿里云开发团队深入合作,共同扩展TPCx-BB测试集,增加对MaxCompute计算引擎的支持,并一起在TPCx-BB委员会中共同推广MaxCompute/PAI,促成TPCx-BB官方测试集升级,继而正式纳入阿里云MaxCompute/PAI计算引擎的支持。

对于未来双方在飞天大数据和AI平台(MaxCompute/PAI)持续优化上的合作,英特尔高级首席工程师、大数据分析和人工智能创新院院长戴金权先生表示,双方在新的硬件架构技术平台有非常紧密的合作,共同探索如何更好地利用新的技术,为大数据处理分析、机器学习平台赋能。另外,双方也合作致力于将AI平台和大数据平台紧密联合,使不同的组件更好地联合在一起,打通整个计算流水线。

相关实践学习
使用PAI-EAS一键部署ChatGLM及LangChain应用
本场景中主要介绍如何使用模型在线服务(PAI-EAS)部署ChatGLM的AI-Web应用以及启动WebUI进行模型推理,并通过LangChain集成自己的业务数据。
机器学习概览及常见算法
机器学习(Machine Learning, ML)是人工智能的核心,专门研究计算机怎样模拟或实现人类的学习行为,以获取新的知识或技能,重新组织已有的知识结构使之不断改善自身的性能,它是使计算机具有智能的根本途径,其应用遍及人工智能的各个领域。 本课程将带你入门机器学习,掌握机器学习的概念和常用的算法。
目录
相关文章
|
7月前
|
消息中间件 Cloud Native Serverless
阿里云在云原生领域喜获多项 OSCAR 开源尖峰案例奖
阿里云在云原生领域喜获多项 OSCAR 开源尖峰案例奖
|
SQL 缓存 分布式计算
揭秘阿里云神龙团队拿下TPCx-BB排名第一的背后技术
阿里云自主研发的神龙大数据加速引擎获得了TPCx-BB SF3000世界排名第一的成绩。
揭秘阿里云神龙团队拿下TPCx-BB排名第一的背后技术
|
新零售 定位技术 双11
阿里巴巴何以超越周期?
11月2日,阿里公布了2019财年Q2财报,即自然年2018年Q3的运营数据,本季度阿里营收851.48亿,同比增长54%,其中核心电商收入724.75亿,同比增长56%;云计算收入56.67亿元,同比增长90%。
123 0
阿里巴巴何以超越周期?
|
机器学习/深度学习 人工智能 城市大脑
阿里自研NPU将于下半年推出,阿里云十年再出发,达摩院加持
智能升级后,阿里云(智能)于 3 月 21 日召开了第一场发布会,主论坛上,不仅发布了与 AI 相关的产品,还透露了阿里自研的第一款 NPU 将于今年下半年推出的消息。
241 0
阿里自研NPU将于下半年推出,阿里云十年再出发,达摩院加持
|
运维 数据中心
哥本哈根能效中心最新报告:阿里巴巴的液冷实践
日前,哥本哈根能源效率中心UDP发布了一篇题为《Innovative Data-Centre Cooling Technologies in China-Liquid Cooling Solution》的液冷研究报告,重点介绍了阿里巴巴液冷技术在中国数据中心的发展与商业实践。
哥本哈根能效中心最新报告:阿里巴巴的液冷实践
|
消息中间件 弹性计算 Cloud Native
估值百亿独角兽爱学习教育集团:通过云原生实践与时间赛跑
iiMedia Research(艾媒咨询)数据显示,在线教育市场规模保持逐年增长的态势,2019年在线教育市场规模已突破4000亿元。在疫情的助推下,在线教育加速渗透,市场空间有望进一步打开,预计2020年中国在线教育市场规模将达到4538亿元。
2999 1
估值百亿独角兽爱学习教育集团:通过云原生实践与时间赛跑
|
SQL 存储 分布式计算
阿里云EMR计算速度提升2.2倍 连续两年打破大数据领域最难竞赛世界纪录!
4月26日,大数据领域权威竞赛TPC-DS公布了最新结果,阿里云作为全球唯一入选的云计算公司获得第一。值得一提的是,去年阿里云EMR首次打破该竞赛纪录,成为全球首个通过TPC认证的公共云产品。今年在这一基础上,EMR的计算速度提升了2.2倍,连续两年打破了这项大数据领域最难竞赛的世界纪录。
阿里云EMR计算速度提升2.2倍 连续两年打破大数据领域最难竞赛世界纪录!
|
人工智能 NoSQL Java
【云周刊】第215期:阿里靠什么支撑 EB 级计算力?
欢迎订阅云周刊 本期头条 阿里靠什么支撑 EB 级计算力? MaxCompute 是阿里EB级计算平台,经过十年磨砺,它成为阿里巴巴集团数据中台的计算核心和阿里云大数据的基础服务。去年MaxCompute 做了哪些工作,这些工作背后的原因是什么?大数据市场进入普惠+红海的新阶段,如何与生态发展共赢?人工智能进入井喷阶段,如何支持与借力?本文从过去一年的总结,核心技术概览,以及每条技术线路未来展望等几个方面做一个概述。
3356 0
|
人工智能 前端开发 大数据
4月18日云栖精选夜读 | 阿里靠什么支撑 EB 级计算力?
MaxCompute 是阿里EB级计算平台,经过十年磨砺,它成为阿里巴巴集团数据中台的计算核心和阿里云大数据的基础服务。
3265 0
|
达摩院 Go 定位技术
1月7日云栖精选夜读 | 阿里巴巴,果然开始拥有“预测未来”的能力了
文 | 史中 顶灯闪烁,笛声响彻。 救护车载着病人,冲向茫茫车海,在时间的赛道上狂奔。 高德地图、GPS 卫星导航、路面磁感线圈、1300 个路口摄像头同时开动,为这辆救护车勘探最快路线; GPS 传回实时数据,后台根据辅助数据纠偏,锚定救护车每一刻的精确位置; 救护车将要经过的沿途,车辆情况被实时计算。
2770 0