驱动性能提升,如何加速基于龙蜥和企业平台的Arm系统开发与部署进程?

简介: 龙蜥社区走进Arm MeetUp回顾文来啦。

近日,以「驱动性能提升:Arm 平台的 AI 与系统优化加速龙蜥生态落地」为主题的龙蜥社区走进 Arm MeetUp 于上海圆满结束。现场汇聚了来自阿里云、安谋科技、码题诗科技、中兴通讯、平头哥等企业技术专家,大家围绕 AI 技术、Arm 平台优化、最新特性和最佳实践等热门话题展开探讨,并展示了 Arm 和龙蜥社区在产品优化和技术创新上的最新成果。

(图/现场嘉宾合照)


会议开始,安谋科技(Arm China)业务发展总监侯科鑫和龙蜥社区Arm ARCH SIG Maintainer、阿里云智能集团编译器技术总监李三红做开场致辞。

安谋科技(Arm China)业务发展总监侯科鑫强调了 Arm 作为全球最广泛计算生态系统的核心,拥有超过 1000 家全球技术合作伙伴。“Arm 与阿里云等合作伙伴共同优化了软件性能,降低了成本,提高了效率。Arm 还积极参与了龙蜥社区的成长,建立了 Arm Arch SIG 和 Arm 工作组,加速了 Arm 软件的部署,并为从 x86 架构向 Arm 架构迁移提供支持。我们很高兴看到龙蜥社区迅速发展成为国内开源社区的一支重要力量。”

(图/安谋科技(Arm China)业务发展总监侯科鑫)


龙蜥社区Arm ARCH SIG Maintainer、阿里云智能集团编译器技术总监李三红强调了 Arm 在推动龙蜥社区发展中的重要作用,并对众多开发人员齐聚一堂表示欣喜。“Arm 架构在数据中心领域的重要性日益凸显,其影响力与日俱增。阿里云于2021 年发布了基于 Arm v9 架构的倚天 710 芯片,并在次年推出了倚天 ECS 预览版,正式开启了公共云邀测。时至今日,倚天 ECS 已在阿里云各 PaaS 产品线及集团在线电商场景中实现了大规模商用部署。作为国内开源社区的重要力量,龙蜥社区始终致力于推动 Arm 架构领域的技术创新。我们期待未来能有更多开发者加入这场技术盛宴,共同探索无限可能。”

(图/龙蜥社区Arm ARCH SIG Maintainer、阿里云智能集团编译器技术总监李三红)


技术分享环节,安谋科技(Arm China)资深软件工程师李天羽分享了《为 RTP-LLM 提供 Arm CPU 后端,助力 Arm AI 软件生态持续发展》。随着大语言模型(LLM)的普及与应用,AI 计算需求快速增长。许多 LLM模型运行在基于 GPU 的硬件上,而随着 Arm 架构不仅在边缘设备,而且在数据中心领域也愈发流行,如何让 RTP-LLM(实时推理框架)有效支持 Arm CPU 平台变得尤为重要。通过优化 LLM 在 Arm 平台的推理性能,可以进一步提升功耗效率和模型部署的灵活性。

(图/安谋科技(Arm China)资深软件工程师李天羽)


阿里云高级工程师张权做了《阿里巴巴生态应用在Arm平台性能优化实践》主题演讲。Arm 作为最为普遍使用的架构,吸引了广大开发者的兴趣。最近阿里巴巴生态核心应用在 Arm 平台上部署后显示较大的性能差异,通过分析发现主要是 CPU 前端瓶颈,因此我们在 JVM 层面进行了针对性优化,提出的代码压缩、热代码集中分配等技术方案在落地后进一步完善性能,给后续更大规模的部署提供了信心;同时,Arm 平台也拥有丰富的性能分析工具,比如 CoreSight 提供了指令流分析的能力,基于这些信息阿里云发现了 JVM中编译阈值对 profile 采集准确性的影响,针对性调整后达到了更佳的性能效果。

(图/阿里云高级工程师张权)


码题诗科技创始人李成栋分享了《AArch64 架构调用链性能数据采集原理》。调用链 (Callchain) 是软硬件事件上下文信息之一,对性能优化和故障排具有非常重要的作用。如著名的火焰图 (Flamegraph) 就是对调用链信息汇总统计和可视化的结果。但是在调用链收集的过程中,工程师往往因为不了解底层的采集原理导致调用链收集不完整,采集开销不可控等问题。本议题核心介绍了在 AArch64 架构下调用链采集的原理,比较它们之间的不同和阐述适用场景。同时对 Linux 内核态和 eBPF 调用链采集做了一些简单介绍。

(图/码题诗科技创始人李成栋)


阿里云工程师刘依男、苏峰联合分享《PAS 工具分享 - FrameScope 与 RTRadar》。云计算服务的主营业务之一便是资源售卖,云厂商会采购不同平台、不同型号的服务器,通过池化技术整合机器资源,再将不同规格的资源弹性售卖给开发者。对开发者而言,是否能够在这众多的云服务器产品中选择出能运行目标程序最佳性能的产品,同时能够在此基础上进一步优化程序性能从而充分利用云资源的性能,是提升上云性价比的第一要务,而 FrameScope 可以协助用户快速应对上述场景。在应用性能评估中,事务执行延迟是重要指标之一,随着分布式架构的广泛应用,厂商可通过分布式链路跟踪技术(例如 Dapper)将延迟瓶颈定位到单节点上(物理机、虚拟机、容器),然而深入分析单节点上复杂的事务延迟时,现有工具往往显得不足。针对以上问题,阿里云自研了一套工具,通过采集事务关键事件以及内核系统事件,重建事务执行过程、分析依赖关系、量化各影响因素对整体延迟的贡献占比,从而定位延迟瓶颈。

(图从左至右/阿里云工程师刘依男、苏峰)


阿里云高级工程师张菁《Perf Arm SPE介绍与使用》为主题与大家分享。SPE 是 Armv8.2 引入一种性能剖析机制,可以提供更加细节的 CPU 运行时采样信息。本次分享主要介绍如何在倚天 710 平台上利用 Arm SPE 特性定位伪共享问题、分析内存访问、分析指令延时以及监控访存延时等功能。

(图/阿里云高级工程师张菁)


华东师范大学数据科学与工程学院系统优化实验室(SOLE)博士研究生刘通宇分享了《高效可靠的处理器微体系结构性能测量技术》。近年来,在 Arm 成熟的软硬件生态支持下,Arm 架构处理器走进数据中心。应用的跨平台迁移及处理器设计研发均依赖于处理器微体系结构的性能数据,准确、可靠的性能测量是性能工程的重要基础。本次演讲围绕性能测量,着重分享了两项工作。第一项工作是关于如何高效地复用硬件性能计数器进行可靠测量,此项工作主要针对现有工具在复用硬件性能计数器测量时存在的低效行为,通过研究 Linux 内核性能事件的调度机制,提出一种自适应的性能事件分组方法提高性能计数器的复用效率。第二项工作是关于Arm架构处理器实时内存带宽的通用测量方法,Arm 架构的灵活性赋予了各硬件厂商定制处理器的能力。此项工作探索了 Arm 架构下实时内存带宽测量通用方案的可能性。

(图/华东师范大学数据科学与工程学院系统优化实验室(SOLE)博士研究生刘通宇)


安谋科技(Arm China)资深软件工程师顾煜祺分享了《Spark SQL 向量化执行引擎框架Gluten-Velox在AArch64使能和优化》。Apache Spark 是当前流行的开源数据处理引擎,Spark SQL 为用户提供可靠的查询计算解决方案。近期,Gluten 项目作为基于 Apache Arrow 的原生 SQL 引擎正式亮相,旨在增强 Spark SQL 计算性能。与此同时,多个向量化 SQL 引擎和更加活跃的开源社区也纷纷涌现。其中 Velox 项目尤为引人注目,它提供了向量化数据库加速库。本议题简要介绍了 Gluten-Velox 框架的概况和原理,同步 Gluten-Velox 社区在 AArch64平台上的使能状态,并通过一个 Velox 的优化案例,展示此 Spark SQL 向量化执行引擎框架在 AArch64 上的潜力。

(图/安谋科技(Arm China)资深软件工程师顾煜祺)


除了干货满满的技术演讲外,现场也准备了精美茶歇和丰厚礼品:


最后,感谢本次活动各位嘉宾的精彩演讲,也感谢 Arm 及龙蜥社区伙伴成员:彭雨、贺军、俞琦、金美琴、蔡佳丽、孙林林、袁艳桃、周虎晨(以上排名不分先后)等人的组织与配合,也特别感谢思否、阅码场等媒体/企业对本次活动直播的支持,有各位的辛苦付出,使得 MeetUp 活动圆满结束。

 

视频回放、课件获取:

本次直播回放及技术 PPT上线啦,欢迎点击下方链接或文末”阅读原文“观看~

回放链接(复制链接浏览器打开或点击阅读原文):

https://openanolis.cn/video/#1249031087754543105

技术 PPT :关注龙蜥公众号【OpenAnolis 龙蜥】,回复“龙蜥课件”获取。

—— 完 ——

相关文章
|
2天前
|
调度 云计算 芯片
云超算技术跃进,阿里云牵头制定我国首个云超算国家标准
近日,由阿里云联合中国电子技术标准化研究院主导制定的首个云超算国家标准已完成报批,不久后将正式批准发布。标准规定了云超算服务涉及的云计算基础资源、资源管理、运行和调度等方面的技术要求,为云超算服务产品的设计、实现、应用和选型提供指导,为云超算在HPC应用和用户的大范围采用奠定了基础。
|
9天前
|
存储 运维 安全
云上金融量化策略回测方案与最佳实践
2024年11月29日,阿里云在上海举办金融量化策略回测Workshop,汇聚多位行业专家,围绕量化投资的最佳实践、数据隐私安全、量化策略回测方案等议题进行深入探讨。活动特别设计了动手实践环节,帮助参会者亲身体验阿里云产品功能,涵盖EHPC量化回测和Argo Workflows量化回测两大主题,旨在提升量化投研效率与安全性。
云上金融量化策略回测方案与最佳实践
|
11天前
|
人工智能 自然语言处理 前端开发
从0开始打造一款APP:前端+搭建本机服务,定制暖冬卫衣先到先得
通义灵码携手科技博主@玺哥超carry 打造全网第一个完整的、面向普通人的自然语言编程教程。完全使用 AI,再配合简单易懂的方法,只要你会打字,就能真正做出一个完整的应用。
8880 20
|
15天前
|
Cloud Native Apache 流计算
资料合集|Flink Forward Asia 2024 上海站
Apache Flink 年度技术盛会聚焦“回顾过去,展望未来”,涵盖流式湖仓、流批一体、Data+AI 等八大核心议题,近百家厂商参与,深入探讨前沿技术发展。小松鼠为大家整理了 FFA 2024 演讲 PPT ,可在线阅读和下载。
4769 12
资料合集|Flink Forward Asia 2024 上海站
|
15天前
|
自然语言处理 数据可视化 API
Qwen系列模型+GraphRAG/LightRAG/Kotaemon从0开始构建中医方剂大模型知识图谱问答
本文详细记录了作者在短时间内尝试构建中医药知识图谱的过程,涵盖了GraphRAG、LightRAG和Kotaemon三种图RAG架构的对比与应用。通过实际操作,作者不仅展示了如何利用这些工具构建知识图谱,还指出了每种工具的优势和局限性。尽管初步构建的知识图谱在数据处理、实体识别和关系抽取等方面存在不足,但为后续的优化和改进提供了宝贵的经验和方向。此外,文章强调了知识图谱构建不仅仅是技术问题,还需要深入整合领域知识和满足用户需求,体现了跨学科合作的重要性。
|
23天前
|
人工智能 自动驾驶 大数据
预告 | 阿里云邀您参加2024中国生成式AI大会上海站,马上报名
大会以“智能跃进 创造无限”为主题,设置主会场峰会、分会场研讨会及展览区,聚焦大模型、AI Infra等热点议题。阿里云智算集群产品解决方案负责人丛培岩将出席并发表《高性能智算集群设计思考与实践》主题演讲。观众报名现已开放。
|
11天前
|
人工智能 容器
三句话开发一个刮刮乐小游戏!暖ta一整个冬天!
本文介绍了如何利用千问开发一款情侣刮刮乐小游戏,通过三步简单指令实现从单个功能到整体框架,再到多端优化的过程,旨在为生活增添乐趣,促进情感交流。在线体验地址已提供,鼓励读者动手尝试,探索编程与AI结合的无限可能。
三句话开发一个刮刮乐小游戏!暖ta一整个冬天!
|
10天前
|
消息中间件 人工智能 运维
12月更文特别场——寻找用云高手,分享云&AI实践
我们寻找你,用云高手,欢迎分享你的真知灼见!
878 58