过去十年,人工智能的叙事几乎被“云端”主导——海量数据上传,巨量算力集中,大模型在数据中心里吞吐亿万参数。然而,2024年至2026年,一股反向的力量正在积聚:AI正在从云端下沉到边缘设备,从手机到汽车,从摄像头到传感器,从家用电器到工业机械。这场“边缘智能”革命,正在重新定义AI的部署边界、商业模式和生态格局。
参考:https://xrzqr.cn
为什么是边缘?云端AI的三大瓶颈
边缘智能的兴起,并非要取代云端,而是因为云端AI在三大核心问题上遭遇瓶颈。
第一是延迟。云端推理的往返时间通常在100至500毫秒之间,这对聊天机器人或许可以接受,但对自动驾驶(要求10毫秒以内)、工业机器人(要求1毫秒以内)、增强现实(要求5毫秒以内)来说,100毫秒的延迟足以酿成事故。边缘设备在本地完成推理,延迟可以压缩到毫秒甚至微秒级。
第二是带宽和成本。一台高清摄像头每天产生数TB的视频数据,全部上传云端既不现实也不经济。以智慧城市为例,一座百万人口城市部署10万个摄像头,每月产生的数据量高达百亿亿字节级别,即使压缩后也远超骨干网络承载能力。边缘智能让摄像头本地提取特征、仅上传结构化信息(“某路口有人跌倒”、“某车牌进入小区”),带宽需求骤降99%以上。
第三是隐私和安全。医疗数据、金融交易、家庭监控、企业机密——这些敏感信息上传云端,即便加密也存在泄露风险。欧盟GDPR和中国《个人信息保护法》都强调“数据最小化”原则,边缘智能天然符合这一理念:数据不离设备,只上传脱敏后的分析结果。
边缘AI芯片:百花齐放的市场
边缘AI的硬件基础是低功耗、高效能、低成本的AI芯片。与云端动辄数百瓦功耗的GPU不同,边缘芯片功耗通常在几毫瓦到几瓦之间,且要兼顾推理精度、成本、面积、散热等多重约束。
高通、联发科、苹果是智能手机端侧AI的领先者。高通的Hexagon NPU从骁龙8 Gen 1到Gen 4,AI算力从26 TOPS提升至100 TOPS(INT8),足以在手机上运行70亿参数的大模型。苹果A18 Pro芯片的神经网络引擎拥有35 TOPS算力,且能效极高——运行Llama 3-7B模型生成一个token仅消耗0.4毫焦耳,是云端推理能耗的千分之一。
参考:https://xgmoi.cn
在更低功耗的物联网领域,安霸、瑞芯微、地平线、嘉楠科技等公司提供了从0.5 TOPS到10 TOPS的多样化选择。最具代表性的是Arm推出的Ethos-U系列NPU,专为Cortex-M系列MCU设计,功耗仅几毫瓦,可以让智能传感器在纽扣电池供电下运行数月。
值得关注的是“存内计算”芯片在边缘场景的突破。知存科技、闪易半导体、Myhtic等公司的存内计算芯片,将神经网络权重存储在非易失性存储器中,计算直接在存储单元内完成,彻底消除了“内存墙”。以Myhtic的M1076芯片为例,其能效达到25 TOPS/W,是传统架构的10倍以上,特别适合始终在线的关键词唤醒、活动识别等场景。
端侧大模型:手机上的70亿参数
2025年最令人兴奋的边缘智能突破,是大模型在端侧的部署。过去认为大模型至少需要数十GB显存和强大GPU,但通过量化、剪枝、蒸馏等技术,70亿参数的模型已经被压缩到3至4GB,可以在旗舰手机上流畅运行。
谷歌的Gemini Nano是首个预装在手机操作系统中的端侧大模型。Pixel 9系列手机上的Gemini Nano可以离线完成录音转写、邮件智能回复、文档摘要等任务,响应速度比云端版本快5倍,且完全不需要网络连接。苹果在iOS 19中深度集成了自研的端侧模型,用于Siri的自然语言理解、相册的自然语言搜索、键盘的智能联想等功能。用户询问“帮我找到去年在北海道拍的有雪的照片”,端侧模型直接在手机本地完成多模态检索,不需要上传任何照片。
中国的手机厂商也在跟进。vivo的蓝心大模型70亿端侧版本,OPPO的AndesGPT,小米的MiLM,都已在2025年下半年推送。这些端侧模型不仅支持文本任务,还集成了视觉理解——摄像头实时识别物体、场景、文字,甚至能够“看懂”图表和手写体。
参考:https://vhjpe.cn
端侧大模型与云端大模型的协作模式正在形成。简单的、时效性要求高的任务由端侧处理;复杂的、需要超大规模知识或联网搜索的任务,则由端侧判断是否需要调用云端。这种“端云协同”兼顾了速度、隐私和能力。例如,用户问“附近的日料店”,端侧模型根据本地缓存的地图和偏好推荐;用户问“2025年诺贝尔物理学奖得主是谁”,端侧判断自己不知道,自动调用云端模型查询。
智能摄像头与边缘感知网络
计算机视觉是边缘智能最大的单一应用领域。传统的“云端智能摄像头”将视频流持续上传,而新一代“边缘智能摄像头”内置AI芯片,在本地完成人脸检测、车牌识别、行为分析、异常报警。
海康威视、大华股份在2025年全面转向边缘智能产品线。其新款“深眸”系列摄像头搭载地平线征程3芯片,提供4 TOPS算力,可以实时分析视频流中的20多种行为——人员跌倒、区域入侵、物品遗留、火焰烟雾、未戴安全帽等。摄像头只上传报警事件和关键截图,视频流永不离开设备。对于需要录像的场景,摄像头采用“事件触发存储”:平时只缓存30秒循环,检测到事件后才将前后10秒的视频保存到本地或云端,大幅降低存储成本。
在智能零售领域,边缘AI正在改变门店运营。沃尔玛在3000家门店部署了边缘AI摄像头系统,用于分析客流热力图、货架空缺、排队长度。系统在本地处理视频,只输出统计数据和警报(“3号货架缺货”、“收银台排队超过5人”),不存储任何顾客可识别信息,兼顾了商业洞察与隐私合规。
工业边缘智能:预测性维护与质量检测
工业物联网是边缘智能的另一重要战场。工厂环境往往网络条件差、数据敏感度高、实时性要求苛刻,边缘计算是自然选择。
预测性维护是工业边缘AI最具投资回报的场景。在风力发电机、数控机床、传送带轴承等设备上安装振动、温度、电流传感器,边缘AI模型实时分析传感器数据,识别异常模式,提前数周乃至数月预测设备故障。西门子2025年发布的数据显示,在其客户工厂部署的边缘预测性维护系统,将非计划停机时间减少70%,维护成本降低30%,投资回收期平均为8个月。
机器视觉质检也在从云端走向边缘。传统的AI质检系统需要将高清图像上传到服务器处理,传输和计算延迟导致生产线节拍受限。新一代边缘AI质检相机(如康耐视的In-Sight 9000系列)内置NPU,每秒处理200帧图像,检测速度达到每分钟1000个产品,精度高达99.97%。在手机外壳划痕检测、锂电池极耳焊接检测、药品泡罩包装检测等场景,边缘AI已经替代了大部分人工目检。
边缘智能的挑战:碎片化、安全、生命周期管理
边缘智能虽然前景广阔,但面临云端AI不曾遇到的独特挑战。
硬件碎片化是第一大难题。云端AI模型可以假设有充足的算力和内存,但在边缘端,有上百种不同的AI芯片架构——高通、联发科、苹果、Arm、地平线、瑞芯微、安霸……每个都有自己独特的指令集、内存层级、算子库。为每个平台手工优化模型成本极高。ONNX Runtime、TensorFlow Lite Micro、TVM等跨平台推理框架正在努力解决这一问题,但“一次编写,处处高效运行”的理想仍未完全实现。
边缘设备的安全攻击面远大于云端数据中心。一台部署在偏远地区的边缘网关,可能被物理接触、侧信道攻击、模型窃取、对抗样本投毒等多种方式攻击。轻量级可信执行环境、硬件安全模块、模型加密和混淆技术正在成为边缘AI产品的标配,但这增加了成本和功耗。
生命周期管理也是现实难题。云端模型可以随时更新,但边缘设备可能数月甚至数年不被维护。如何远程、安全、低流量地更新边缘AI模型?如何回滚有问题的版本?如何监控海量边缘设备的运行状态?这些需要专门的管理平台。华为的HiLens、AWS IoT Greengrass、Azure IoT Edge提供了较为成熟的解决方案,但在超大规模部署(百万级设备)时仍面临挑战。
未来展望:无处不在的微型AI
展望2028至2030年,边缘智能将走向“无处不在的微型AI”。传感器级别的设备将集成毫瓦级AI加速器,能够持续感知、识别、决策,而无需连接云端或频繁更换电池。可穿戴设备将拥有本地推理能力,实时监测健康、提供智能提醒,所有数据留存在用户手中。家居设备将理解用户的行为习惯和环境上下文,主动提供服务——“你离开时忘记关窗,预报两小时后有雨,需要我帮你关吗?”
更重要的是,边缘AI将成为云端AI的“感官”和“执行器”。云端大模型负责复杂推理和长期规划,边缘小模型负责实时感知和快速响应。两者不是替代关系,而是分工协作。正如人类的思考不仅发生在大脑,也发生在脊髓和神经节中,未来的AI系统也将在云端、边缘、终端之间形成有机的分层智能。
边缘智能不是云端的对立面,而是云端的延伸和补充。当AI从实验室走向现实世界,它必须适应物理世界的约束——时间、带宽、功耗、隐私。边缘智能,正是AI与物理世界之间的桥梁。
参考:https://qeext.cn