如何推进软硬件协同优化,点亮 AI 新时代?看看这些大咖怎么说

简介: 围绕 AI、操作系统、 Arm 生态等关键技术和领域,深入探讨了 AI 技术与操作系统的融合。

近日,2024 龙蜥操作系统大会阿里云分论坛在北京圆满举办,该论坛由阿里云智能程序语言与编译器技术总监李三红,龙蜥社区运营委员会副主席、龙腾计划生态负责人金美琴联合出品。本次分论坛上,来自阿里云、安谋科技、小鹏汽车、蚂蚁集团、英伟达以及清华大学等企业大咖和教授,围绕 AI、操作系统、 Arm 生态等关键技术和领域,深入探讨了 AI 技术与操作系统的融合。会上,也邀请了清华大学计算机系长聘教授,清华大学人工智能研究院视觉智能研究中心主任邓志东,安谋科技业务发展总监侯科鑫,NVidia 亚太区网络产品市场部总监宋庆春,阿里云 智能集团弹性计算资深产品技术架构师吴天议等技术大咖,就“如何推进软硬件协同优化,点亮 AI 新时代”话题进行讨论,探讨云计算能力的跃升与应用生态的多元化发展。

(图/阿里云分论坛现场嘉宾合照)


会议伊始,中关村科学城管理委员会产业促进二处处长、海淀区科学技术和经济信息化局局长(二级巡视员)何建吾,阿里云智能集团研发副总裁、龙蜥社区理事长马涛做开场致辞。

何建吾表示,加快推进高水平的科技自立自强,归根到底就是要推动产业生态体系的建设,提升自主核心技术的核心竞争力。作为科技平台企业,阿里云对推动国产操作系统的发展作出了重要贡献。可以看到,由阿里云等头部厂商牵头成立的龙蜥社区也充分发挥了开源协作的优势,联合超过千家的上下游合作伙伴,形成了强大的发展合力。龙蜥社区的繁荣也印证了开源合作共赢的价值,展现了强大的生命力和创新能力,促进了国内操作系统生态的繁荣与发展。未来,何建吾也期待更多的科技企业扎根海淀持续发展。

(图/何建吾)


马涛指出,在 AI 时代背景下,操作系统承担着智能化转型的重要责任。通过提升框架、存储计算和网络能力,充分发挥软硬件协同优势,更好地支持 AI 应用的发展。面对 AI 挑战,操作系统需在 AI for System 和 System for AI 两个方向上创新,以提升用户的使用体验和系统效能。同时,操作系统研发人员需探索云计算、AI 硬件和软件的协同工作模式,解决未来算力需求,推动 AI 生态和应用迭代升级。

(图/马涛)


安谋科技全球服务市场部总经理谢伟联合阿里云智能集团弹性计算资深产品技术架构师吴天议分享了《AI 时代,云原生芯片技术趋势和产品》技术主题。通用计算提供低成本高密计算力,采用存算分离分布式架构,构建面向多租户云原生算力服务。面临性能一致性,多租户干扰等挑战, 阿里云底层硬件神龙服务器采用 CIPU 实现 CPU、存储、网络互联。在操作系统层面,构建基于分布式环境下 AliOS 能力。阿里云面向不同应用场景引入 Intel、ARM、AMD 等多种芯片,通过 AliOS 为用户屏蔽硬件差异,同时提供更有的性能优化,运维管理能力;面向 AI 训练与推理场景,通过计算虚拟化为应用提供灵活的资源切分能力;基于 RunD 提供轻量级虚拟化能力。

(图从左至右/谢伟、吴天议)


小鹏汽车运维负责人黄威做了《小鹏汽车公有云基础平台架构演进与倚天助力降本》主题分享。黄威分享了如何实现平滑迁移和小鹏汽车近两年将 ECS 机器迁移至倚天上后给公司业务带来的变化和收益,以及使用过程中遇到的问题。同时,他也展望了对未来的期待。

(图/黄威)


蚂蚁集团 ZOLOZ 技术专家谭华哲带来了《ZOLOZ 大规模海外 AI 深度模型推理实践》技术分享。ZOLOZ 致力于提供高效、安全且实时的实人认证服务,面临视觉AI推理过程中的算力与成本挑战。我们利用阿里云 AC2 平台,在公有云环境中实现了大规模的 AI 容器化部署,在这个过程中总结了海外 AI 应用在 Intel 第五代英特尔至强处理器上的最佳实践。

(图/谭华哲)


阿里云操作系统架构师、龙蜥社区 AI SIG Maintaner 林演分享了《阿里云操作系统智能助手 OS Copilot 开源共建》。OS Copilot 是基于大模型构建的操作系统智能助手,支持自然语言问答、辅助命令执行、系统运维调优等功能,帮助您更好地使用 Linux 系统,提高Linux 系统的使用效率。目前已经支持Alinux、Anolis OS、Ubuntu 等系统,探讨龙蜥各成员单位合作支持各家的操作系统和独有软件特性以及资料共建计划。

(图/林演)


阿里云通义灵码产品解决方案架构师余晓做了 《AIGC 时代,通义灵码的智能编码探索与实践》主题分享。灵码作为智能编码助手,依赖强大的模型能力和产品解决方案能力,协助研发技术人员进行代码续写、代码解释、单元测试、研发问答等场景下的效能提升。企业沉淀多年的研发资产,如何和灵码结合,既感知大模型推理生成能力,又可以感知企业个性化资产的沉淀。会上,余晓详细阐述了解决方案并做了演示。

(图/余晓)


安谋科技主任软件工程师、龙蜥社区 Arm SIG Maintainer 贺军分享了《赋能未来计算:龙蜥操作系统对 Arm 架构的深度支持与生态共建》。探讨最新发布的龙蜥操作系统对 Arm 架构特性的优秀支持,重点关注龙蜥在 Linux 内核,常用工具链和基础库方面的全面优化,为上层常见应用与关键场景的稳定高效运行提供了坚实的基础。此外,贺军也通过具体案例介绍了 Arm 生态系统中的合作伙伴如何在龙蜥社区中通过 Arm SIG 等途径,实现深度协作和资源共享,推动整个生态系统的蓬勃发展,并以此吸引更多伙伴和开发者加入,共同构建富有活力的 Arm 生态。

(图/贺军)


阿里云智能程序语言与编译器技术总监李三红主持,邀请了清华大学计算机系长聘教授,清华大学人工智能研究院视觉智能研究中心主任邓志东,安谋科技业务发展总监侯科鑫,NVidia 亚太区网络产品市场部总监宋庆春,阿里云智能集团弹性计算资深产品技术架构师吴天议等嘉宾共同探讨“如何推进软硬件协同优化,点亮 AI 新时代”清华大学计算机系长聘教授,清华大学人工智能研究院视觉智能研究中心主任邓志东表示,未来 AI 算力需求将会数量级别的增加,大模型不仅可以助力操作系统的发展,也可促进 CPU 的效能提升与定制化芯片的设计。同时,他也讨论了异构计算在当前和未来架构中的应用及挑战,以及操作系统在处理复杂计算架构时的必要性。安谋科技业务发展总监侯科鑫指出,随着 AI 的快速发展,模型变得越来越复杂,导致基础设施的算力要求更高。安谋科技为 AI 的发展提供了提高计算效率、降低功耗的解决方案。同时,她也强调了 CPU 和 GPU 协同工作的重要性,以及在不同场景下 CPU 和 GPU 的最优利用。NVidia 亚太区网络产品市场部总监宋庆春强调了软件和硬件协同设计对于推动 AI 发展的关键作用,并指出数据中心不应仅被视为硬件堆砌,而应像一台计算机那样考虑软硬件协同。除此之外,宋庆春强调了网络在实现高性能扩展中的核心地位,以及对优化数据中心性能、实现线性可扩展的必要性。阿里云智能集团弹性计算资深产品技术架构师吴天议从云的角度,提及了在云计算环境中如何更好地利用 AI,特别是在多租户共享和安全切分方面的发展。


最后,各位嘉宾结合 AI 发展趋势,对未来龙蜥社区的发展给出了中肯的建议,指出龙蜥社区在保持开放性与国际化的同时,提出除了软件发展,还应注重软硬件结合,以实现技术突破。建议社区扩大多样性,促进算法、软件、硬件的兼容性,并与合作伙伴一起探索创新,共同为人工智能发展贡献力量。

(图/圆桌讨论现场)


本次分论坛,配合演讲主题也特设了产品的动手实验专区,可现场体验 Alibaba Cloud Linux、基于 Arm 架构的 ECS 倚天实例、Alibaba Cloud AI Containers、操作系统智能助手OS Copilot、通义灵码等多款产品,参会嘉宾体验爆满。

(图/现场嘉宾体验)

感谢本次分论坛出品团队:金美琴、李三红、王云志、王轶飞、蔡佳丽、贺迪。

视频回放、课件获取:

「阿里云分论坛」直播回放及技术 PPT上线啦,欢迎点击下方链接:

https://openanolis.cn/video/#1204116065183219730

技术 PPT :关注龙蜥公众号【OpenAnolis 龙蜥】,回复“龙蜥课件”获取。

—— 完 ——

相关文章
|
1月前
|
人工智能 并行计算 安全
从零到一,打造专属AI王国!大模型私有化部署全攻略,手把手教你搭建、优化与安全设置
【10月更文挑战第24天】本文详细介绍从零开始的大模型私有化部署流程,涵盖需求分析、环境搭建、模型准备、模型部署、性能优化和安全设置六个关键步骤,并提供相应的示例代码,确保企业能够高效、安全地将大型AI模型部署在本地或私有云上。
420 7
|
2月前
|
机器学习/深度学习 人工智能
打开AI黑匣子,三段式AI用于化学研究,优化分子同时产生新化学知识,登Nature
【10月更文挑战第11天】《自然》杂志发表了一项突破性的化学研究,介绍了一种名为“Closed-loop transfer”的AI技术。该技术通过数据生成、模型训练和实验验证三个阶段,不仅优化了分子结构,提高了光稳定性等性质,还发现了新的化学现象,为化学研究提供了新思路。此技术的应用加速了新材料的开发,展示了AI在解决复杂科学问题上的巨大潜力。
36 1
|
5天前
|
存储 人工智能 算法
【AI系统】计算图的优化策略
本文深入探讨了计算图的优化策略,包括算子替换、数据类型转换、存储优化等,旨在提升模型性能和资源利用效率。特别介绍了Flash Attention算法,通过分块计算和重算策略优化Transformer模型的注意力机制,显著减少了内存访问次数,提升了计算效率。此外,文章还讨论了内存优化技术,如Inplace operation和Memory sharing,进一步减少内存消耗,提高计算性能。
58 34
【AI系统】计算图的优化策略
|
4天前
|
机器学习/深度学习 人工智能 自然语言处理
Llama 3.3:Meta AI 开源新的纯文本语言模型,专注于多语言对话优化
Meta AI推出的Llama 3.3是一款70B参数的纯文本语言模型,支持多语言对话,具备高效、低成本的特点,适用于多种应用场景,如聊天机器人、客户服务自动化、语言翻译等。
43 13
Llama 3.3:Meta AI 开源新的纯文本语言模型,专注于多语言对话优化
|
5天前
|
机器学习/深度学习 存储 人工智能
【AI系统】离线图优化技术
本文回顾了计算图优化的各个方面,包括基础优化、扩展优化和布局与内存优化,旨在提高计算效率。基础优化涵盖常量折叠、冗余节点消除、算子融合、算子替换和算子前移等技术。这些技术通过减少不必要的计算和内存访问,提高模型的执行效率。文章还探讨了AI框架和推理引擎在图优化中的应用差异,为深度学习模型的优化提供了全面的指导。
20 5
【AI系统】离线图优化技术
|
5天前
|
存储 机器学习/深度学习 人工智能
【AI系统】计算图优化架构
本文介绍了推理引擎转换中的图优化模块,涵盖算子融合、布局转换、算子替换及内存优化等技术,旨在提升模型推理效率。计算图优化技术通过减少计算冗余、提高计算效率和减少内存占用,显著改善模型在资源受限设备上的运行表现。文中详细探讨了离线优化模块面临的挑战及解决方案,包括结构冗余、精度冗余、算法冗余和读写冗余的处理方法。此外,文章还介绍了ONNX Runtime的图优化机制及其在实际应用中的实现,展示了如何通过图优化提高模型推理性能的具体示例。
29 4
【AI系统】计算图优化架构
|
8天前
|
存储 人工智能 编译器
【AI系统】算子手工优化
本文深入探讨了手写算子调度的关键因素及高性能算子库的介绍,通过计算分析指标和 RoofLine 模型评估计算与访存瓶颈,提出了循环、指令、存储三大优化策略,并介绍了 TVM 和 Triton 两种 DSL 开发算子的方法及其在实际应用中的表现。
20 2
【AI系统】算子手工优化
|
8天前
|
机器学习/深度学习 人工智能 算法
【AI系统】AI 编译器后端优化
AI编译器采用多层架构,首先通过前端优化将不同框架的模型转化为统一的Graph IR并进行计算图级别的优化,如图算融合、内存优化等。接着,通过后端优化,将优化后的计算图转换为TensorIR,针对单个算子进行具体实现优化,包括循环优化、算子融合等,以适应不同的硬件架构,最终生成高效执行的机器代码。后端优化是提升算子性能的关键步骤,涉及复杂的优化策略和技术。
24 3
|
8天前
|
存储 机器学习/深度学习 人工智能
【AI系统】指令和存储优化
在AI编译器底层,除了广泛应用的循环优化外,还存在指令优化和存储优化两大类。指令优化通过利用硬件提供的特殊加速指令,如向量化和张量化,提高计算效率;存储优化则关注如何高效管理数据存储与访问,减少延迟,提高整体计算效率。这些技术共同作用,极大提升了AI系统的性能。
18 1
|
8天前
|
存储 机器学习/深度学习 人工智能
【AI系统】算子循环优化
循环优化是提升计算性能的关键技术,主要通过改进数据局部性和增强计算并行性来实现。数据局部性优化利用缓存机制减少内存访问延迟,如循环分块、重排等;计算并行性优化则通过多核、向量化等技术最大化硬件效能,如循环展开、融合、拆分等。这些方法共同作用,显著提升程序执行效率。
20 1

热门文章

最新文章