当无人机遇上Agentic AI:新的应用场景及挑战

简介: 本文简介了Agentic AI与AI Agents的不同、Agentic无人机的概念、应用场景、以及所面临的挑战

什么是Agentic AI?美国康奈尔大学等研究机构指出,Agentic AI是多个智能体(Agents)通过任务动态分解、共享记忆、协同工作等机制,来实现更高水平智能的一种新范式[1]。

Title_1B.jpg

上述的研究还指出,Agentic AI在概念上有别于AI Agents。

Agentic AI通过汇集多个AI模型,来完成比较复杂的任务。例如:根据视频写文章,就需要具有不同能力的多个AI模型来协作完成;在水果自动采摘的场景中,需要多个机器人和无人机分别负责采摘、分拣、运输、指挥等工作;在网络安全事件响应的场景中,多个Agents可以分别负责威胁分类、日志关联、评估事件严重程度等工作。

Figure_11b.jpg

相比之下,AI Agents一般以单独的AI模型为核心,通过集成AI模型之外的其它工具和API,来实现对单个AI模型能力的拓展,例如:为AI模型增加联网搜索能力、为AI模型增加查询数据库的能力、等等。尽管AI Agents也具有一定的自主和自适应能力,其所能完成的任务比起Agentic AI来要相对单一一些。

Agentic无人机

上述机构的研究人员近期围绕Agentic AI与无人机的融合、以及由此形成的Agentic无人机(Agentic UAV)的概念,发表了最新一篇综述性论文[2],探讨了Agentic无人机的架构、关键技术、与传统无人机的比较、多领域应用、面临的挑战以及未来发展方向等。

Title_2.jpg

论文目录[2]:

Contents_2.jpg

根据这篇综述性论文[2],Agentic无人机的架构主要围绕感知(Perception)、认知(Cognition)、控制(Control)和通信(Communication)四个核心层次组成。

Figure_2a.jpg

  • 无人机上可能搭载有图像、热成像、激光雷达、多光谱、声音、惯性测量单元(IMU)、气压等多种探测器;感知层负责收集并处理多种探测器的探测结果,并通过AI模型,来理解周围环境中的物体、地形、人员等;
  • 认知层‌通过推理、任务分解、规划、以及强化学习等技术,将探测结果转换成决策,例如在无人机播种的任务中,根据地面植被的覆盖情况、任务目标、以及无人机的能耗目标等,来规划飞行路径;
  • 控制层‌将计划动作转换成为具体轨迹,例如在多作物农田的无人机喷洒任务中,根据路径规划、风、地形、障碍物等来实时控制飞行轨迹;
  • 通信层‌负责数据交换和任务协调,通过V2X(Vehicle-to-Everything)协议,实现无人机与其它无人机、云端或地面设备的交互,也可以通过自然语言接口、共享语义地图等,让无人机成为智能、可互操作的生态系统的一部分。

Agentic无人机所使用的关键技术包括[2]:

Figure_2b.jpg

  • 边缘侧AI/机载计算——用于进行语义分割、目标检测、路径重配置、避障等的计算;
  • 多模态传感器的融合——多方位感知环境,也可以在不同的照明、气象等条件下增强感知的鲁棒性;
  • 视觉-语言模型(Vision-Language Models)——Flamingo、LLaVA和OpenFlamingo等AI模型可以理解并协助无人机执行自然语言指令(例如“检查太阳能板是否损坏”、“在河流附近寻找植被少的地段”、“检查屋顶上有没有挥手的人”等)。

Agentic无人机应用场景

根据上述论文[2]的描述,Agentic无人机已经不止是一个遥控平台,其搭载的新一代技术,为拓展应用场景提供了新的可能性。

灾害响应与搜救

Figure_4a.jpg

灾害响应与搜救对于时间的要求非常紧迫;同时,灾害现场的环境千差万别。与使用预设路线、高度依赖无人机飞手的传统无人机相比,Agentic无人机可以更好地在这种场景中发挥作用。

机载的彩色相机、热成像、激光雷达等探测器、以及SLAM和边缘AI处理器,可以让Agentic无人机自主生成3D地形图,发现结构不稳定的区域,以及构建并更新环境模型。机载的热成像、运动跟踪和声音定位等功能还可以用于废墟及难以抵达区域中的幸存者检测。

当灾害现场的区域较大、救援人员短缺、或者大量救援人员尚未到达现场时,Agentic无人机集群可以发挥重要作用。

基础设施巡检

Figure_4e.jpg

在桥梁、建筑、铁塔、公路、隧道、太阳能板、屋顶等基础设施的巡检中,Agentic无人机能够沿着复杂的形状自主导航,依靠视觉、红外、超声、激光雷达等探测器以及多角度拍摄,检测坑洼、裂缝、腐蚀、材料疲劳、线缆破损、密封老化、结构错位、表面变形、生物繁殖等缺陷和安全隐患,提高巡检的效率和安全性。

野生动物保护及生态监测

Figure_5c.jpg

野生动物保护及生态监测所涉及的地区往往比较偏远,相关的野外工作不仅耗时费力,而且人力能够覆盖的区域有限。载有热成像、超光谱、声音等探测器的Agentic无人机能够在植被之下、夜间、以及崎岖的地形中发现野生动物,还能够通过视觉模型发现捕猎行为,并将捕猎行为的位置快速传给有关人员。

Agentic无人机还能用于发现濒危动物的繁殖地点、通过多光谱相机发现入侵植物物种。

Agentic无人机能够在跟随野生动物时,自主调整跟随的距离、高度和速度,以避免打扰野生动物。此外,Agentic无人机能够通过简化的人机交互以及自然语言来进行操作,便于当地人员、护林队员等使用无人机。

建筑与采矿自动化

Figure_5d.jpg

在采矿作业和建筑施工现场,Agentic无人机可以自主地进行测绘、统计原材料数量、跟踪进度、发现施工中的结构偏差、检查缺失零部件,还可以自主地检测地质不稳定性、结构不稳定性、接线松动、物料泄漏、燃气泄漏等,同时为ERP软件或工地信息系统实时传递数据。

Agentic无人机面临的挑战与局限

上述论文[2]也指出了Agentic无人机的应用所面临的诸多挑战与局限。

一、技术方面的制约[2][3]:

  • Agentic无人机所能搭载的AI处理器、各种探测器、通信设备等耗能较多,大计算量、连续监测、远距离飞行等,都需要考虑电池的容量问题;

Figure_3.jpg

  • 多种机载设备会导致无人机总重量增加;如果采用轻型的设备,则需要考虑设备的重量与分辨率、有效范围等性能指标的平衡;
  • 在卫星信号受限的条件下进行无人机的导航和定位,仍是有待进一步研究的问题——现有的解决方案,包括视觉惯性里程计(Visual-Inertial Odometry)、激光SLAM(LiDAR SLAM)、以及声学定位(Acoustic Localization)等,都比较容易受到环境的影响;
  • Agentic无人机需要融合视觉、热成像、深度、惯性测量单元等多种探测器的探测结果,来对环境进行语义理解;然而,不同的探测器有不同的时间和空间分辨率,实时对齐多种探测信号,需要校准、时间同步、异常点去除等,从而增加系统的复杂程度;在快速变化的环境中(如火灾烟雾、行驶中的车辆等),多探测器的融合计算哪怕出现轻微误差,可能就会影响到无人机的决策、避障、异常检测等;
  • 在偏远地区、或者需要低延迟计算的场景中,依靠云端计算不太现实,需要依靠机载计算;然而很多小型无人机上仅能搭载NVIDIA Jetson系列、或者类似的GPU;当运行基于Transformer的视觉-语言模型、或者进行高分辨率的3D重建、大型强化学习的策略计算时,需要在AI模型的复杂程度、帧频、计算延迟等之间寻找平衡;
  • 计算设备的散热也是需要解决的问题,解决不好会导致组件退化、空中停机等。

二、法规、伦理与安全方面的问题[2]:

  • 与传统的无人机相比,Agentic无人机能够自主决策,但也因此带来了更多的空管、合规、责任、认证、社会接受程度等问题;
  • 很多的远距离送货、搜救、野生动物监测等无人机应用都涉及超视距(Beyond Visual Line of Sight,简称BVLOS)飞行;多数国家的民航管理部门对超视距飞行有严格的限制——超视距飞行需要具备可靠的检测和规避(Detect-and-Avoid,简称DAA)系统、实时遥测功能、以及备用通讯协议;按照现有的监管标准和规则,Agentic无人机尽管具有自主导航和自适应决策的能力,但难以得到监管的认证;这其中的部分原因也包括缺乏无人机的自主等级、可解释性、冗余性等的统一标准;
  • 在Agentic无人机自主执行任务时,往往会收集图像、热成像扫描、或者人的行为数据。在基础设施巡检等城市或民用环境中,无人机可能会在无意中收集到个人信息,触及个人隐私;无人机的自主拍摄和跟踪应该由谁来负责?此外,限制非必要的数据收集、实施地理围栏、无人机上的匿名化处理等机制都变得非常重要。

三、数据与模型的可靠性问题[2]:

  • 机载的AI模型在应用中可能会由于输入数据的复杂多变、模型泛化能力的不足、语义理解错误、计算的不确定性等而影响性能的发挥,甚至带来安全风险;
  • 很多AI模型,例如目标检测、语义分割、视觉-语言模型等,其训练数据来自于受控环境、或者较理想的环境;当遇到新的天气状况、多样化的地形、或者特殊情况时,AI模型的泛化能力可能会暴露出不足,例如:采用城市交通数据训练出来的目标检测模型,可能会难以识别出矿区的施工车辆、灾害地区的应急车辆等;语义场景理解(Semantic Scene Understanding)可能会将阴影识别为障碍物,或者无法识别出玻璃、水等透明或反光表面;
  • Agentic无人机应该能够实时处理大量的、多模态的探测器数据,然而在各种实际条件下,AI推理可能会由于硬件的限制、输入的噪音、丢帧、传感器阻塞、硬件过热等,出现延迟、瘫痪、或者返回部分结果、返回不准确结果;
  • 很多AI模型在输出结果时,不能提供结果的置信度、或者预测的不确定性指标;
  • AI模型的训练数据往往不够全面(例如:应该既包括森林又包括沙漠,既包括白天又包括黑夜,既包括晴天又包括雨天,等等);此外、数据标注的前后不一致、训练数据的类别间不平衡、大规模、高质量航拍数据集的短缺等,都有可能影响到Agentic无人机的性能,制约Agentic无人机的鲁棒性。

参考文献

[1] AI Agents vs. Agentic AI: A Conceptual Taxonomy, Applications and Challenges

https://arxiv.org/abs/2505.10468

使用许可协议:CC BY

https://creativecommons.org/licenses/by/4.0/

[2] UAVs Meet Agentic AI: A Multidomain Survey of Autonomous Aerial Intelligence and Agentic UAVs

https://arxiv.org/abs/2506.08045

使用许可协议:CC BY

https://creativecommons.org/licenses/by/4.0/

[3] Deep Reinforcement Learning based Autonomous Decision-Making for Cooperative UAVs: A Search and Rescue Real World Application

https://arxiv.org/abs/2502.20326

使用许可协议:CC BY

https://creativecommons.org/licenses/by/4.0/


封面图:JESHOOTS.com、Pexels

目录
相关文章
|
18天前
|
机器学习/深度学习 人工智能 自然语言处理
AI产品经理的技术必修课:从工具应用到系统设计
AI产品经理的技术必修课:从工具应用到系统设计
210 84
|
2月前
|
存储 人工智能 Kubernetes
AI 场景深度优化!K8s 集群 OSSFS 2.0 存储卷全面升级,高效访问 OSS 数据
阿里云对象存储OSS是一款海量、安全、低成本、高可靠的云存储服务,是用户在云上存储的高性价比选择…
|
1月前
|
传感器 人工智能 自然语言处理
比亚迪座舱接入通义大模型,未来将联合打造更多AI智能座舱场景
比亚迪与阿里云深度合作,将通义大模型应用于智能座舱和营销服务。通过通义万相,腾势推出“AI壁纸”功能;借助通义星尘,实现“心理伴聊”等情感陪伴场景。阿里云Mobile-Agent智能体落地比亚迪座舱,支持复杂语音操作,如查询淘宝物流、订火车票等。该方案基于全视觉解决技术,具有强泛化能力,未来双方将持续拓展更多AI应用。
234 8
|
5天前
|
XML 人工智能 测试技术
在AI应用中Prompt撰写重要却难掌握,‘理解模型与行业知识是关键’:提升迫在眉睫
本文三桥君探讨Prompt优化技巧对AI应用的重要性。内容涵盖理解大语言模型、行业Know-how及Prompt撰写方法,助力提升AI输出质量与应用效率。
98 58
|
1天前
|
人工智能 自然语言处理 数据可视化
Open WebUI 和 Dify 在构建企业AI应用时的主要区别
本文对比了企业AI应用构建中的两大开源工具——Open WebUI与Dify,在技术架构、核心能力及适用场景方面的差异。Open WebUI适合轻量级对话场景,侧重本地部署与基础功能;而Dify则聚焦复杂业务流程,提供可视化工作流编排与端到端RAG支持。文章结合典型用例与落地建议,助力企业合理选型并实现高效AI集成。
|
15天前
|
传感器 机器学习/深度学习 人工智能
从仿真到现实:数字孪生解锁具身AI全景应用
Embodied AI正在重塑智能机器人系统的格局,尤其通过为复杂且动态的环境中的行动执行提供许多现实可行的解决方案。然而,具身AI需要生成大量数据用于训练和评估,以确保其与物理环境交互的安全性。因此,有必要构建一个成本效益高的模拟环境,能够从物理特性、物体属性及交互中提供充足的训练和优化数据。Digital Twins是工业5.0中的关键议题,它通过镜像真实世界对应体的状态和行动,实现对物理过程的实时监控、模拟与优化。本综述探讨了将数字孪生与具身AI结合的方式,通过将虚拟环境转化为动态且数据丰富的平台,弥合仿真与现实之间的差距。
109 7
|
23天前
|
人工智能 运维 安全
F5推出AI网关,赋能企业化解大模型应用风险
F5推出AI网关,赋能企业化解大模型应用风险
62 5
|
24天前
|
人工智能 监控 算法
基于无人机与AI视觉的矿山盗采智能监测系统技术解析
本文提出融合无人机与AI的三维监管方案。通过全天候视频覆盖、AI车辆识别与行为分析、数据闭环管理及动态算法迭代,实现对矿区24小时智能监控,大幅提升响应效率与监管精度,有效降低人工成本,保障矿区安全。
81 6

热门文章

最新文章