比世界纪录快3倍 阿里云377秒完成100TB数据排序

简介: 本文讲的是 比世界纪录快3倍 阿里云377秒完成100TB数据排序,10月28日,Sort Benchmark在官方网站公布了2015年排序竞赛的最终成绩。

本文讲的是 比世界纪录快3倍 阿里云377秒完成100TB数据排序,10月28日,Sort Benchmark在官方网站公布了2015年排序竞赛的最终成绩。阿里云用不到7分钟(377秒)就完成了100TB的数据排序,打破了Apache Spark的纪录23.4分钟。Sort Benchmark是全球科技公司的计算奥运会,更早之前Hadoop的记录是72分钟。

image

Sort Benchmark的排序竞赛包含4项比赛,其中GraySort和MinuteSort主要评测计算系统的规模和效率,是4项比赛中含金量最高的两项。每一项比赛又分通用目的排序(Daytona)和专用目的排序(Indy)两个类别。阿里云飞天分布式计算系统,在这两项重量级比赛中打破了全部4项世界纪录。

image

GraySort评测的是超大规模数据量排序的速度。飞天用了377秒对100TB数据完成排序,也就是说1分钟能够完成15.9TB的数据排序。去年Apache Spark成绩为4.35TB/分钟。MinuteSort评测的是系统在1分钟内能够完成排序的数据量。飞天用1分钟完成了对7.7TB数据的排序,去年冠军三星为3.7TB。

阿里云首席架构师唐洪表示,排序是最基础的计算问题。100TB排序,是把1万亿条无规律的100字节纪录,严格按照从小到大的顺序排序,考验分布式系统中存储、调度、通信等各个子系统的性能,能够反映出一个平台的整体计算能力。GraySort和MinuteSort这两项比赛,充分证明了阿里云在计算方面的核心能力。“未来视频、音频数据、生物数据等非结构化数据将爆发式增长,我们需要在最短的时间、用最小的资源计算准确。面对大数据,如何算得快、算得准、算得起?这是未来云计算的核心能力。”

Sort Benchmark是一个专门从事排序基准评估的非盈利机构,该机构每年都会举办一次国际顶级排序基准评估比赛,被认为是计算界的奥运会。全球顶尖公司和学术机构都会带着他们最新的研究成果来参加,以评估他们的研究成果。

image

原文发布时间为:十月 28, 2015
本文作者:aqniu
本文来自云栖社区合作伙伴安全牛,了解相关信息可以关注安全牛。
原文链接:http://www.aqniu.com/industry/11226.html

相关文章
|
人工智能 关系型数据库 分布式数据库
PolarDB一站式记忆管理重磅上线:让记忆成为数据库最有温度的力量
PolarDB-PG 推出一站式长记忆管理系统,融合图+向量记忆库、开放记忆引擎与模型算子,支持跨会话/跨应用持续记忆用户偏好与历史交互,解决大模型“失忆”痛点,实现个性化、高可靠 AI 体验。
|
11月前
|
分布式计算 监控 大数据
大数据之路:阿里巴巴大数据实践——离线数据开发
该平台提供一站式大数据开发与治理服务,涵盖数据存储计算、任务调度、质量监控及安全管控。基于MaxCompute实现海量数据处理,结合D2与DataWorks进行任务开发与运维,通过SQLSCAN与DQC保障代码质量与数据准确性。任务调度系统支持定时、周期、手动运行等多种模式,确保高效稳定的数据生产流程。
489 0
大数据之路:阿里巴巴大数据实践——离线数据开发
|
缓存 NoSQL Java
基于SpringBoot的Redis开发实战教程
Redis在Spring Boot中的应用非常广泛,其高性能和灵活性使其成为构建高效分布式系统的理想选择。通过深入理解本文的内容,您可以更好地利用Redis的特性,为应用程序提供高效的缓存和消息处理能力。
1489 79
|
8月前
|
人工智能 分布式计算 PyTorch
Ray Forward 2025 定档 12 月 20 日北京!议题征集通道已开放
由蚂蚁集团发起的 Ray 中文社区与蚂蚁开源联合主办的 Ray Forward 2025,将于 12 月 20 日在北京蚂蚁 T 空间正式启幕,以 “拥抱 AI,Ray 向未来” 为主题,邀您共探下一代智能计算架构的进化方向。
|
11月前
|
存储 人工智能 自然语言处理
AI代理内存消耗过大?9种优化策略对比分析
在AI代理系统中,多代理协作虽能提升整体准确性,但真正决定性能的关键因素之一是**内存管理**。随着对话深度和长度的增加,内存消耗呈指数级增长,主要源于历史上下文、工具调用记录、数据库查询结果等组件的持续积累。本文深入探讨了从基础到高级的九种内存优化技术,涵盖顺序存储、滑动窗口、摘要型内存、基于检索的系统、内存增强变换器、分层优化、图形化记忆网络、压缩整合策略以及类操作系统内存管理。通过统一框架下的代码实现与性能评估,分析了每种技术的适用场景与局限性,为构建高效、可扩展的AI代理系统提供了系统性的优化路径和技术参考。
783 4
AI代理内存消耗过大?9种优化策略对比分析
|
11月前
|
人工智能 运维 数据挖掘
瑶池数据库Data+AI驱动的全栈智能实践开放日回顾
阿里云瑶池数据库重磅推出“Data+AI能力家族”,包括DTS AI数据准备、Data Agent系列智能体及DMS MCP统一数据访问服务,重构数据与AI协同边界。通过智能化工具链,覆盖数据全生命周期,提升企业数据开发、分析、治理与运维效率,降低技术门槛,激活数据资产价值,助力企业迈向全栈智能新时代。
|
12月前
|
机器学习/深度学习 数据挖掘 大数据
大数据集特征工程实践:将54万样本预测误差降低68%的技术路径与代码实现详解
本文通过实际案例演示特征工程在回归任务中的应用效果,重点分析包含数值型、分类型和时间序列特征的大规模表格数据集的处理方法。
448 0
大数据集特征工程实践:将54万样本预测误差降低68%的技术路径与代码实现详解
|
存储 Cloud Native 数据处理
Flink 2.0 状态管理存算分离架构演进
本文整理自阿里云智能 Flink 存储引擎团队负责人梅源在 Flink Forward Asia 2023 的分享,梅源结合阿里内部的实践,分享了状态管理的演进和 Flink 2.0 存算分离架构的选型。
1878 1
Flink 2.0 状态管理存算分离架构演进
|
人工智能 关系型数据库 分布式数据库
PolarDB-PG AI最佳实践3 :PolarDB AI多模态相似性搜索最佳实践
本文介绍了如何利用PolarDB结合多模态大模型(如CLIP)实现数据库内的多模态数据分析和查询。通过POLAR_AI插件,可以直接在数据库中调用AI模型服务,无需移动数据或额外的工具,简化了多模态数据的处理流程。具体应用场景包括图像识别与分类、图像到文本检索和基于文本的图像检索。文章详细说明了技术实现、配置建议、实战步骤及多模态检索示例,展示了如何在PolarDB中创建模型、生成embedding并进行相似性检索