EdgeShard:通过协作边缘计算实现高效的大语言模型推理——论文解读
EdgeShard是一种基于协作边缘计算的大语言模型(LLM)推理框架,旨在解决LLM在云端部署面临的延迟高、带宽压力大和隐私泄露等问题。通过将LLM分片部署在多个边缘设备上,结合云边协同与设备间协作,EdgeShard实现了高效的模型推理。其核心创新包括:联合设备选择与模型划分优化、支持流水线并行与微批处理、提出EdgeShard-No-Bubbles策略以减少设备空闲时间,从而显著提升推理吞吐量并降低延迟。实验表明,EdgeShard在异构边缘设备上可实现高达50%的延迟降低和2倍的吞吐量提升,支持全精度模型推理而无精度损失,为资源受限的边缘环境提供了高效的LLM部署方案。
《探秘鸿蒙NEXT中的人工智能核心架构》
华为HarmonyOS NEXT将AI与操作系统深度融合,开启智能新时代。其核心架构包括:1) 基础层的全栈硬件和云端协同算力系统,提供强大动力支持;2) 模型层的盘古大模型,赋予小艺智能助手超强能力;3) 框架层的鸿蒙原生智能框架与意图框架,实现多模态个性化场景体验;4) 应用层的开放API和控件,支持第三方应用集成;5) 安全隐私层的星盾安全架构,保障数据安全。各层协同工作,为用户带来智能、便捷、安全的体验,并推动智能生态发展。