驱动性能提升,如何加速基于龙蜥和企业平台的Arm系统开发与部署进程?

简介: 龙蜥社区走进Arm MeetUp回顾文来啦。

近日,以「驱动性能提升:Arm 平台的 AI 与系统优化加速龙蜥生态落地」为主题的龙蜥社区走进 Arm MeetUp 于上海圆满结束。现场汇聚了来自阿里云、安谋科技、码题诗科技、中兴通讯、平头哥等企业技术专家,大家围绕 AI 技术、Arm 平台优化、最新特性和最佳实践等热门话题展开探讨,并展示了 Arm 和龙蜥社区在产品优化和技术创新上的最新成果。

(图/现场嘉宾合照)


会议开始,安谋科技(Arm China)业务发展总监侯科鑫和龙蜥社区Arm ARCH SIG Maintainer、阿里云智能集团编译器技术总监李三红做开场致辞。

安谋科技(Arm China)业务发展总监侯科鑫强调了 Arm 作为全球最广泛计算生态系统的核心,拥有超过 1000 家全球技术合作伙伴。“Arm 与阿里云等合作伙伴共同优化了软件性能,降低了成本,提高了效率。Arm 还积极参与了龙蜥社区的成长,建立了 Arm Arch SIG 和 Arm 工作组,加速了 Arm 软件的部署,并为从 x86 架构向 Arm 架构迁移提供支持。我们很高兴看到龙蜥社区迅速发展成为国内开源社区的一支重要力量。”

(图/安谋科技(Arm China)业务发展总监侯科鑫)


龙蜥社区Arm ARCH SIG Maintainer、阿里云智能集团编译器技术总监李三红强调了 Arm 在推动龙蜥社区发展中的重要作用,并对众多开发人员齐聚一堂表示欣喜。“Arm 架构在数据中心领域的重要性日益凸显,其影响力与日俱增。阿里云于2021 年发布了基于 Arm v9 架构的倚天 710 芯片,并在次年推出了倚天 ECS 预览版,正式开启了公共云邀测。时至今日,倚天 ECS 已在阿里云各 PaaS 产品线及集团在线电商场景中实现了大规模商用部署。作为国内开源社区的重要力量,龙蜥社区始终致力于推动 Arm 架构领域的技术创新。我们期待未来能有更多开发者加入这场技术盛宴,共同探索无限可能。”

(图/龙蜥社区Arm ARCH SIG Maintainer、阿里云智能集团编译器技术总监李三红)


技术分享环节,安谋科技(Arm China)资深软件工程师李天羽分享了《为 RTP-LLM 提供 Arm CPU 后端,助力 Arm AI 软件生态持续发展》。随着大语言模型(LLM)的普及与应用,AI 计算需求快速增长。许多 LLM模型运行在基于 GPU 的硬件上,而随着 Arm 架构不仅在边缘设备,而且在数据中心领域也愈发流行,如何让 RTP-LLM(实时推理框架)有效支持 Arm CPU 平台变得尤为重要。通过优化 LLM 在 Arm 平台的推理性能,可以进一步提升功耗效率和模型部署的灵活性。

(图/安谋科技(Arm China)资深软件工程师李天羽)


阿里云高级工程师张权做了《阿里巴巴生态应用在Arm平台性能优化实践》主题演讲。Arm 作为最为普遍使用的架构,吸引了广大开发者的兴趣。最近阿里巴巴生态核心应用在 Arm 平台上部署后显示较大的性能差异,通过分析发现主要是 CPU 前端瓶颈,因此我们在 JVM 层面进行了针对性优化,提出的代码压缩、热代码集中分配等技术方案在落地后进一步完善性能,给后续更大规模的部署提供了信心;同时,Arm 平台也拥有丰富的性能分析工具,比如 CoreSight 提供了指令流分析的能力,基于这些信息阿里云发现了 JVM中编译阈值对 profile 采集准确性的影响,针对性调整后达到了更佳的性能效果。

(图/阿里云高级工程师张权)


码题诗科技创始人李成栋分享了《AArch64 架构调用链性能数据采集原理》。调用链 (Callchain) 是软硬件事件上下文信息之一,对性能优化和故障排具有非常重要的作用。如著名的火焰图 (Flamegraph) 就是对调用链信息汇总统计和可视化的结果。但是在调用链收集的过程中,工程师往往因为不了解底层的采集原理导致调用链收集不完整,采集开销不可控等问题。本议题核心介绍了在 AArch64 架构下调用链采集的原理,比较它们之间的不同和阐述适用场景。同时对 Linux 内核态和 eBPF 调用链采集做了一些简单介绍。

(图/码题诗科技创始人李成栋)


阿里云工程师刘依男、苏峰联合分享《PAS 工具分享 - FrameScope 与 RTRadar》。云计算服务的主营业务之一便是资源售卖,云厂商会采购不同平台、不同型号的服务器,通过池化技术整合机器资源,再将不同规格的资源弹性售卖给开发者。对开发者而言,是否能够在这众多的云服务器产品中选择出能运行目标程序最佳性能的产品,同时能够在此基础上进一步优化程序性能从而充分利用云资源的性能,是提升上云性价比的第一要务,而 FrameScope 可以协助用户快速应对上述场景。在应用性能评估中,事务执行延迟是重要指标之一,随着分布式架构的广泛应用,厂商可通过分布式链路跟踪技术(例如 Dapper)将延迟瓶颈定位到单节点上(物理机、虚拟机、容器),然而深入分析单节点上复杂的事务延迟时,现有工具往往显得不足。针对以上问题,阿里云自研了一套工具,通过采集事务关键事件以及内核系统事件,重建事务执行过程、分析依赖关系、量化各影响因素对整体延迟的贡献占比,从而定位延迟瓶颈。

(图从左至右/阿里云工程师刘依男、苏峰)


阿里云高级工程师张菁《Perf Arm SPE介绍与使用》为主题与大家分享。SPE 是 Armv8.2 引入一种性能剖析机制,可以提供更加细节的 CPU 运行时采样信息。本次分享主要介绍如何在倚天 710 平台上利用 Arm SPE 特性定位伪共享问题、分析内存访问、分析指令延时以及监控访存延时等功能。

(图/阿里云高级工程师张菁)


华东师范大学数据科学与工程学院系统优化实验室(SOLE)博士研究生刘通宇分享了《高效可靠的处理器微体系结构性能测量技术》。近年来,在 Arm 成熟的软硬件生态支持下,Arm 架构处理器走进数据中心。应用的跨平台迁移及处理器设计研发均依赖于处理器微体系结构的性能数据,准确、可靠的性能测量是性能工程的重要基础。本次演讲围绕性能测量,着重分享了两项工作。第一项工作是关于如何高效地复用硬件性能计数器进行可靠测量,此项工作主要针对现有工具在复用硬件性能计数器测量时存在的低效行为,通过研究 Linux 内核性能事件的调度机制,提出一种自适应的性能事件分组方法提高性能计数器的复用效率。第二项工作是关于Arm架构处理器实时内存带宽的通用测量方法,Arm 架构的灵活性赋予了各硬件厂商定制处理器的能力。此项工作探索了 Arm 架构下实时内存带宽测量通用方案的可能性。

(图/华东师范大学数据科学与工程学院系统优化实验室(SOLE)博士研究生刘通宇)


安谋科技(Arm China)资深软件工程师顾煜祺分享了《Spark SQL 向量化执行引擎框架Gluten-Velox在AArch64使能和优化》。Apache Spark 是当前流行的开源数据处理引擎,Spark SQL 为用户提供可靠的查询计算解决方案。近期,Gluten 项目作为基于 Apache Arrow 的原生 SQL 引擎正式亮相,旨在增强 Spark SQL 计算性能。与此同时,多个向量化 SQL 引擎和更加活跃的开源社区也纷纷涌现。其中 Velox 项目尤为引人注目,它提供了向量化数据库加速库。本议题简要介绍了 Gluten-Velox 框架的概况和原理,同步 Gluten-Velox 社区在 AArch64平台上的使能状态,并通过一个 Velox 的优化案例,展示此 Spark SQL 向量化执行引擎框架在 AArch64 上的潜力。

(图/安谋科技(Arm China)资深软件工程师顾煜祺)


除了干货满满的技术演讲外,现场也准备了精美茶歇和丰厚礼品:


最后,感谢本次活动各位嘉宾的精彩演讲,也感谢 Arm 及龙蜥社区伙伴成员:彭雨、贺军、俞琦、金美琴、蔡佳丽、孙林林、袁艳桃、周虎晨(以上排名不分先后)等人的组织与配合,也特别感谢思否、阅码场等媒体/企业对本次活动直播的支持,有各位的辛苦付出,使得 MeetUp 活动圆满结束。

 

视频回放、课件获取:

本次直播回放及技术 PPT上线啦,欢迎点击下方链接或文末”阅读原文“观看~

回放链接(复制链接浏览器打开或点击阅读原文):

https://openanolis.cn/video/#1249031087754543105

技术 PPT :关注龙蜥公众号【OpenAnolis 龙蜥】,回复“龙蜥课件”获取。

—— 完 ——

目录
打赏
0
9
9
0
1177
分享
相关文章
如何通过pm2以cluster模式多进程部署next.js(包括docker下的部署)
通过这些步骤,可以确保您的Next.js应用在多核服务器上高效运行,并且在Docker环境中实现高效的容器化管理。
281 44
【Azure 环境】部署ARM Linked Template时候 Blob SAS Token不能正常工作
Unable to retrieve url https://<stroage account name>.blob.core.chinacloudapi.cn/arm/azuredeploy.json?sp=r 'st' is not recognized as an internal or external command, operable program or batch file. 'se' is not recognized as an internal or external command, operable program or batch file. 'spr' is no
PyTorch团队为TorchAO引入1-8比特量化,提升ARM平台性能
PyTorch团队推出创新技术,在其低精度计算库TorchAO中引入低位运算符支持,实现1至8位精度的嵌入层权重量化及8位动态量化激活的线性运算符。该技术通过模块化设计和高效硬件利用,优化了资源受限环境下的深度学习计算,提升了计算效率并降低了资源消耗。新内核与PyTorch生态系统无缝集成,支持即时执行、编译优化及边缘计算,为开发者提供全方位性能优势。测试结果显示,多层次量化策略显著提升了计算效率,保持了模型精度。这一突破为深度学习框架优化开辟了多个研究方向,推动了人工智能在边缘计算等领域的广泛应用。
141 11
PyTorch团队为TorchAO引入1-8比特量化,提升ARM平台性能
【Azure 环境】ARM部署模板大于4MB的解决方案及Linked Template遇见存储账号防火墙无法访问
【Azure 环境】ARM部署模板大于4MB的解决方案及Linked Template遇见存储账号防火墙无法访问
硬核议程一睹为快!龙蜥社区走进Arm MeetUp邀您报名
如何加速基于龙蜥和企业平台的Arm系统开发与部署进程?
Xinference实战指南:全面解析LLM大模型部署流程,携手Dify打造高效AI应用实践案例,加速AI项目落地进程
【8月更文挑战第6天】Xinference实战指南:全面解析LLM大模型部署流程,携手Dify打造高效AI应用实践案例,加速AI项目落地进程
Xinference实战指南:全面解析LLM大模型部署流程,携手Dify打造高效AI应用实践案例,加速AI项目落地进程
Android P 性能优化:创建APP进程白名单,杀死白名单之外的进程
本文介绍了在Android P系统中通过创建应用进程白名单并杀死白名单之外的进程来优化性能的方法,包括设置权限、获取运行中的APP列表、配置白名单以及在应用启动时杀死非白名单进程的代码实现。
139 1
|
8月前
|
【Azure Developer】Github Action部署资源(ARM模板)到Azure中国区时,遇见登录问题的解决办法
【Azure Developer】Github Action部署资源(ARM模板)到Azure中国区时,遇见登录问题的解决办法
飞天技术沙龙回顾:业务创新新选择,倚天 Arm 架构深入探讨
飞天技术沙龙回顾:业务创新新选择,倚天 Arm 架构深入探讨

热门文章

最新文章

AI助理

你好,我是AI助理

可以解答问题、推荐解决方案等