基础设施助力双11(二): 发挥异构计算硬件资源的软实力

简介: 如何把繁杂的业务需求高效地映射到异构资源上,使得异构资源各尽所长发挥最佳效能,同时也能最大程度地提升业务性能,是个非常有挑战性的难题。

背景

阿里巴巴有着庞大且复杂的业务场景,从图像分类、视频检测,到语音辅助、搜索推荐,使用了多种机器学习/深度学习的算法和模型,需要强大的计算力做支撑。另一方面,阿里巴巴基础架构除了炫酷的数据中心、高带宽的网络架构、高密度的存储系统外,也拥有强大的异构计算资源。并且随着AIS团队技术力量的日益成熟,基础架构中的计算资源正迅速多样化,从CPU、GPU、FPGA,到深度定制、自研加速器,计算硬实力有了爆发式增长。如何把繁杂的业务需求高效地映射到异构资源上,使得异构资源各尽所长发挥最佳效能,同时也能最大程度地提升业务性能,是个非常有挑战性的难题。

所以,在发展异构计算硬实力的同时,如何展示其潜力、把效能发挥到极致的软实力同样也是攸关重要的,而编译技术正是这个展现软实力的核心技术之核心。

计算力:软硬实力的完美协同

经典的编译算法解决了多种编程语言对多种微处理器架构的问题,在统一的编译框架上实现高级编程语言(比如C++ 和Java)到目标机器可执行代码的转换,这是编译1.0 时代的主要目标。在编译2.0 时代,增强了通用优化和关于target架构的针对性优化,以产生最优可执行代码。而在AI/机器学习时代,我们把编译技术从面向语言、面向目标架构的这两个阶段提升到面向场景的软硬一体全栈式优化阶段,即所谓的编译 3.0。

image.png

通过一体化的编译技术,深度理解和识别应用程序的特性和对计算资源的需求,根据异构硬件的特征,灵活适配任务的执行单元,同时通过对应用特征的全局分析,分割或融合应用开发者对应用的原始功能划分,从而找到最佳的数据传输和布局方案。

软硬一体的深度优化最大程度发挥出硬件的真正实力,提升了业务性能,大幅改进资源利用率。

编译:算法与优化的分离

面向场景的编译技术实现了对异构资源的抽象,使得业务逻辑和编程框架更加灵活。不仅如此,资源抽象也增加了业务逻辑和性能在多种执行环境下(数据中心和边缘计算)的可移植性。开发者在业务逻辑上的优化,可以适用于任何后端计算平台。

更为重要的是,业务逻辑和硬件逻辑开发可以在各自的领域里快速迭代、优化而不会互相影响对方的迭代进度。以编译平台赋能的松耦合、并行开发,为业务的及时落地和硬件创新打下良好的基础。

小结

双11是阿里巴巴对技术极限的追求,目前已在机器学习/深度学习领域、面向场景的编译平台上,在发挥异构计算的潜力上初见成效。阿里巴巴基础架构的软硬实力双剑合璧,成功地支撑了双11的商业奇迹。

目录
相关文章
|
9月前
|
关系型数据库 MySQL 数据库
MyEMS开源系统安装之数据库
本文详细讲解MyEMS的安装步骤,重点介绍数据库架构与脚本部署。MyEMS支持MySQL 8.0、MariaDB 10.5及SingleStore 7.0等数据库服务器。通过命令行或客户端工具执行SQL脚本完成安装,包括多个数据库(如myems_billing_db、myems_energy_db等)。此外,提供解决常见问题的方法,如“用户拒绝访问”、“COLLATE设置”和“MAX_ALLOWED_PACKET错误”。注意,不建议在生产环境中将数据库安装于Docker容器内。
267 1
|
6月前
|
人工智能 机器人 Linux
开源的基于RTOnBoot多核异构框架打造的低成本高性能Linux主控加Ethercat主站解决方案,同步周期可稳定达到125微秒
开源的基于RTOnBoot多核异构框架打造的低成本高性能Linux主控加Ethercat主站解决方案,同步周期可稳定达到125微秒
|
机器学习/深度学习 数据采集 人工智能
AI赋能教育:深度学习在个性化学习系统中的应用
【10月更文挑战第26天】随着人工智能的发展,深度学习技术正逐步应用于教育领域,特别是个性化学习系统中。通过分析学生的学习数据,深度学习模型能够精准预测学生的学习表现,并为其推荐合适的学习资源和规划学习路径,从而提供更加高效、有趣和个性化的学习体验。
756 9
|
11月前
|
人工智能 安全 API
0 代码为你的 Typecho 博客接入阿里云百炼(可接入 DeepSeek-R1 满血版!)
随着科技企业LLM发展成熟,AIHelper插件让Typecho博客轻松拥有AI助手。通过集成阿里云百炼API,支持DeepSeek-R1、Qwen等模型,帮助读者快速查找内容、总结文章。本文详细介绍了从导出文章、配置阿里云百炼、创建AI应用到安装配置插件的全过程,确保安全高效地为博客添加智能交互功能。相比官方方案,AIHelper提供更安全的访问限制和低代码部署方式,无需编写代码即可实现智能化管理。
0 代码为你的 Typecho 博客接入阿里云百炼(可接入 DeepSeek-R1 满血版!)
|
12月前
|
人工智能 边缘计算 运维
容器化浪潮下的AI赋能:智能化运维与创新应用
近年来,容器技术以其轻量、高效、可移植的特性成为云原生时代的基石,推动应用开发和部署方式革新。随着容器化应用规模扩大,传统运维手段逐渐力不从心。AI技术的引入为容器化生态带来新活力,实现智能监控、自动化故障诊断与修复及智能资源调度,提升运维效率和可靠性。同时,AI驱动容器化创新应用,如模型训练、边缘计算和Serverless AI服务,带来更多可能性。未来,AI与容器技术的融合将更加紧密,推动更智能、高效的运维平台和丰富的创新应用场景,助力数字化转型。
|
12月前
|
C# 图形学
unity抛物线的制作
该教程展示了如何在Unity中使用LineRenderer组件和C#脚本绘制抛物线。具体步骤如下:创建一个空物体并添加LineRenderer组件,挂载提供的`SeletParabola`脚本;新建两个Cube作为起点和终点,并将其拖到脚本对应的公共变量上。运行后即可看到从起点到终点的抛物线效果。代码通过计算抛物线上的点并设置给LineRenderer来实现这一效果。此外,还可以为LineRenderer添加贴图以增强视觉效果。
|
人工智能 搜索推荐 安全
《AI赋能鸿蒙Next视频内容分析与理解,开启智能新视界》
鸿蒙Next结合人工智能,特别是盘古大模型,为视频内容分析、理解与处理带来创新。系统可精准识别图像、语音和文本,实现智能分类、个性化推荐及内容审核,确保安全合规。同时,支持智能剪辑、创作及质量优化,提升用户体验。未来,AI将持续优化,推动视频领域创新发展。
421 3
|
机器学习/深度学习 存储 人工智能
阿里云与零一万物达成战略合作,成立产业大模型联合实验室
阿里云与零一万物达成战略合作,成立“产业大模型联合实验室”。结合双方顶尖研发实力,加速大模型从技术到应用的落地。实验室涵盖技术、业务、人才等板块,通过阿里云百炼平台提供模型服务,针对ToB行业打造全面解决方案,推动大模型在金融、制造、交通等领域的应用,助力AI驱动的产业升级。
811 8
|
搜索推荐 数据挖掘 大数据
利用CRM系统实现老客户自动化运营与维护策略
在数字化时代,CRM系统成为企业洞察老客户需求、自动化运营和维护的核心工具。通过数据驱动的客户反馈收集、个性化服务与分层管理、自动化营销、客户关怀及忠诚度计划,企业能提升客户满意度与留存率,促进业务增长。CRM系统助力精准分析客户行为,优化营销策略,确保企业长期发展。
|
敏捷开发 数据可视化 搜索推荐
游戏开发团队必备!哪些办公软件能像板栗看板提升节日协作效率?
本文深入剖析了6款可视化团队协作办公软件在游戏行业的节日协作中的应用,包括板栗看板、Trello、Asana、飞书、Jira和Monday.com。这些工具通过任务可视化、团队协同、项目规划、即时通讯、工作流自动化等功能,助力游戏公司在节日期间高效协作,确保项目按时上线,提升游戏品质,最终为玩家带来精彩绝伦的游戏体验。
230 3