比世界纪录快3倍 阿里云377秒完成100TB数据排序

简介: 本文讲的是 比世界纪录快3倍 阿里云377秒完成100TB数据排序,10月28日,Sort Benchmark在官方网站公布了2015年排序竞赛的最终成绩。

本文讲的是 比世界纪录快3倍 阿里云377秒完成100TB数据排序,10月28日,Sort Benchmark在官方网站公布了2015年排序竞赛的最终成绩。阿里云用不到7分钟(377秒)就完成了100TB的数据排序,打破了Apache Spark的纪录23.4分钟。Sort Benchmark是全球科技公司的计算奥运会,更早之前Hadoop的记录是72分钟。

image

Sort Benchmark的排序竞赛包含4项比赛,其中GraySort和MinuteSort主要评测计算系统的规模和效率,是4项比赛中含金量最高的两项。每一项比赛又分通用目的排序(Daytona)和专用目的排序(Indy)两个类别。阿里云飞天分布式计算系统,在这两项重量级比赛中打破了全部4项世界纪录。

image

GraySort评测的是超大规模数据量排序的速度。飞天用了377秒对100TB数据完成排序,也就是说1分钟能够完成15.9TB的数据排序。去年Apache Spark成绩为4.35TB/分钟。MinuteSort评测的是系统在1分钟内能够完成排序的数据量。飞天用1分钟完成了对7.7TB数据的排序,去年冠军三星为3.7TB。

阿里云首席架构师唐洪表示,排序是最基础的计算问题。100TB排序,是把1万亿条无规律的100字节纪录,严格按照从小到大的顺序排序,考验分布式系统中存储、调度、通信等各个子系统的性能,能够反映出一个平台的整体计算能力。GraySort和MinuteSort这两项比赛,充分证明了阿里云在计算方面的核心能力。“未来视频、音频数据、生物数据等非结构化数据将爆发式增长,我们需要在最短的时间、用最小的资源计算准确。面对大数据,如何算得快、算得准、算得起?这是未来云计算的核心能力。”

Sort Benchmark是一个专门从事排序基准评估的非盈利机构,该机构每年都会举办一次国际顶级排序基准评估比赛,被认为是计算界的奥运会。全球顶尖公司和学术机构都会带着他们最新的研究成果来参加,以评估他们的研究成果。

image

原文发布时间为:十月 28, 2015
本文作者:aqniu
本文来自云栖社区合作伙伴安全牛,了解相关信息可以关注安全牛。
原文链接:http://www.aqniu.com/industry/11226.html

相关文章
|
6月前
|
SQL 人工智能 分布式计算
活动速递|VeloxCon China 将于12月13日在北京举办,议题征集已开放!
Velox 首届中国大会(VeloxCon China 2025)将于 2025 年 12 月 13 日在北京举办!
|
人工智能 关系型数据库 分布式数据库
PolarDB一站式记忆管理重磅上线:让记忆成为数据库最有温度的力量
PolarDB-PG 推出一站式长记忆管理系统,融合图+向量记忆库、开放记忆引擎与模型算子,支持跨会话/跨应用持续记忆用户偏好与历史交互,解决大模型“失忆”痛点,实现个性化、高可靠 AI 体验。
|
缓存 NoSQL Java
基于SpringBoot的Redis开发实战教程
Redis在Spring Boot中的应用非常广泛,其高性能和灵活性使其成为构建高效分布式系统的理想选择。通过深入理解本文的内容,您可以更好地利用Redis的特性,为应用程序提供高效的缓存和消息处理能力。
1273 79
|
6月前
|
人工智能 分布式计算 PyTorch
Ray Forward 2025 定档 12 月 20 日北京!议题征集通道已开放
由蚂蚁集团发起的 Ray 中文社区与蚂蚁开源联合主办的 Ray Forward 2025,将于 12 月 20 日在北京蚂蚁 T 空间正式启幕,以 “拥抱 AI,Ray 向未来” 为主题,邀您共探下一代智能计算架构的进化方向。
|
6月前
|
存储 人工智能 算法
从 VLDB‘25 看向量数据库发展方向:行业观察与技术前瞻
第 51 届国际大型数据库会议(The 51st International Conference on Very Large Data Bases,简称VLDB 2025)是数据管理、数据库系统与大规模数据处理领域最具影响力的国际顶级学术会议之一。本届 VLDB 在于2025 年 9 月 1 日至 9 月 5 日在英国伦敦Queen Elizabeth II Centre (QEII Centre) 举办。
|
6月前
|
机器学习/深度学习 文字识别 Shell
高效率办公PDF批量处理:批量OCR识别PDF区域文字内容,用PDF内容批量改名或导出表格的货物运单应用案例
针对铁路货运物流单存档需求,本项目基于WPF与飞桨OCR技术,实现批量图片多区域文字识别与自动重命名。用户可自定义识别区域,系统提取关键信息(如车号、批次号)并生成规范文件名,提升档案管理效率与检索准确性,支持PDF及图像文件处理。
861 1
|
8月前
|
数据采集 消息中间件 并行计算
Python多线程与多进程性能对比:从原理到实战的深度解析
在Python编程中,多线程与多进程是提升并发性能的关键手段。本文通过实验数据、代码示例和通俗比喻,深入解析两者在不同任务类型下的性能表现,帮助开发者科学选择并发策略,优化程序效率。
642 1
|
9月前
|
存储 人工智能 自然语言处理
AI代理内存消耗过大?9种优化策略对比分析
在AI代理系统中,多代理协作虽能提升整体准确性,但真正决定性能的关键因素之一是**内存管理**。随着对话深度和长度的增加,内存消耗呈指数级增长,主要源于历史上下文、工具调用记录、数据库查询结果等组件的持续积累。本文深入探讨了从基础到高级的九种内存优化技术,涵盖顺序存储、滑动窗口、摘要型内存、基于检索的系统、内存增强变换器、分层优化、图形化记忆网络、压缩整合策略以及类操作系统内存管理。通过统一框架下的代码实现与性能评估,分析了每种技术的适用场景与局限性,为构建高效、可扩展的AI代理系统提供了系统性的优化路径和技术参考。
595 4
AI代理内存消耗过大?9种优化策略对比分析
|
10月前
|
机器学习/深度学习 数据挖掘 大数据
大数据集特征工程实践:将54万样本预测误差降低68%的技术路径与代码实现详解
本文通过实际案例演示特征工程在回归任务中的应用效果,重点分析包含数值型、分类型和时间序列特征的大规模表格数据集的处理方法。
362 0
大数据集特征工程实践:将54万样本预测误差降低68%的技术路径与代码实现详解
|
存储 Cloud Native 数据处理
Flink 2.0 状态管理存算分离架构演进
本文整理自阿里云智能 Flink 存储引擎团队负责人梅源在 Flink Forward Asia 2023 的分享,梅源结合阿里内部的实践,分享了状态管理的演进和 Flink 2.0 存算分离架构的选型。
1813 1
Flink 2.0 状态管理存算分离架构演进
下一篇
开通oss服务