人工智能:有多少人工,才能有多少智能?

简介: 当下AI大模型的能力,特别是Agent领域,到底离不开多少“人工”的加持?本文将结合我的实际经验,深入探讨高质量数据与有效评价体系在Agent发展中的决定性作用,并通过编码Agent、Web Agent和GUI Agent的成熟度分析,揭示AI智能体发展面临的挑战与机遇。

最近大家都在聊AI,尤其大模型。但说句大实话,大模型当下的能力,那真是离不开大量人类智能(Human Intelligence) 的投入,特别是在 Agent(智能体)领域,这一点体现得淋漓尽致。在我看来,高质量的数据和有效的评价体系,真的真的真的太重要了! 现在顶会也有很多很多做数据集工作的,未来一段时间应该会火

【个人观察💡】 构建数据和Benchmark(评估基准)这活儿,看着简单,但实际操作起来简直是难上加难!想当年在学校,还是现在工作,一直在给这些 Agent “当牛做马”..

咱们就拿三种最有代表性的 Agent 来聊聊它们的成熟度吧,按我个人经验排个序:编码 Agent > Web Agent > GUI Agent


💻 编码 Agent:辅助编程的得力助手

像 Cursor、Windsurf 这些编码 Agent,现在已经能很好地辅助我们写代码了。它们之所以能做得这么出色,其中一个重要原因就是编码任务的数据相对更容易获取,而且结果非常客观,做评估(Evaluation)也特别方便。毕竟代码跑得通就是通,跑不通就是不通,黑白分明。

这也就不难理解,为什么编码辅助这条赛道现在大厂们都卷得厉害了——毕竟,程序员的薪资可不低,能提高效率、降低成本,谁不爱呢?


🌐 Web Agent:挑战真实世界的复杂性

再来看看 Web Agent,各家大厂也相继推出了不少这类智能体,比如最近的一些 Deep Research 智能体。它们在完成一些简单的、通用性任务上表现还行,但一旦遇到复杂的多步骤长链操作,或者需要特定领域知识(domain knowledge) 的任务,Web Agent 的水平基本也就只能到实习生级别了。

比如,让它生成一份专业的行业研究报告,表面上看可能逻辑完整、篇幅足够,但你仔细一看,就会发现各种“幻觉”(胡编乱造)、信息冗余、内容空洞等问题。这时候,如何评价这份报告的质量,就真的需要专业人士的知识来对齐了。毕竟,Deep Research 考验的是信息搜索、总结提炼、内容生成等一系列综合能力。

【我的看法✍️】 目前 Web Agent 领域,高质量的数据和能够全面衡量其复杂能力的 Benchmark,都还挺稀缺的。这正是其发展亟需突破的关键点。


🎯 GUI Agent:模拟人机交互的终极挑战

GUI Agent 可以说是模拟人类操作电脑的终极形态了。它的输入是屏幕截图(相当于AI的“眼睛”),输出则是下一步要执行的操作(比如点击哪里、输入什么)。其核心能力在于 规划(Planning)和多模态落地(Multi-Modal Grounding),用来理解屏幕截图上的内容,并规划下一步怎么操作。

虽然说,有几千条高质量的操作轨迹数据,结合强化学习(RL)就能带来不错的提升,但如何构造高效且准确的长链轨迹数据,至今仍然是一个难以绕开的巨大挑战。因为现实中的人机交互路径太复杂、太灵活了,而且很多细微的判断,AI目前还很难捕捉。


核心挑战:高质量数据与有效Benchmark不可或缺

无论是哪种 Agent,当下主流的技术方案无外乎两种:

  1. 基于基础模型搭建 Workflow(工作流)并结合模型推理: 这种方式通过编排大模型的调用顺序和逻辑来完成任务。
  2. 直接对模型进行微调(Model Tuning): 让模型更好地适应特定任务和数据。

但无论是哪种方案,都离不开高质量的数据和有效的 Benchmark(评估基准)

  • 好的 Workflow 设计,需要有数据和 Benchmark 去不断地对齐和优化
  • 要微调模型,那就更不用说了,数据是它的“食粮”。
  • 强化学习(RL)也特别贴合 Agent 的场景,因为它通过奖励机制来驱动模型学习。但这些 奖励函数(Reward Function)的设计,同样也离不开好的 Benchmark 来评测和引导,否则模型可能学不到你想要的东西。

【我的思考🤔】 所以你看,AI智能体发展到现在,最核心的瓶颈,依然在于我们到底能提供多少“高质量的人工智能”——也就是多少来自人类专家经验、标注、反馈沉淀下来的数据和评价标准。这决定了AI能走多远,能有多“智能”。


欢迎大家在评论区一起探讨🤝。多尝试,做不好也没关系,如何呢又能怎🤷‍♂️


相关文章
|
9月前
|
机器学习/深度学习 人工智能 自然语言处理
人工智能与未来教育:探索智能教学的新纪元
【10月更文挑战第16天】 在21世纪这个信息爆炸的时代,技术革新正以惊人的速度改变着我们的生活和工作方式。其中,人工智能(AI)作为引领变革的先锋力量,不仅重塑了工业、医疗、金融等多个行业的面貌,也正悄然渗透进教育领域,预示着一场关于学习与教学方式的革命。本文旨在探讨人工智能如何为未来教育带来前所未有的机遇与挑战,从个性化学习路径的定制到教育资源的优化分配,再到教师角色的转变,我们一同展望一个更加智能、高效且包容的教育新纪元。
|
1月前
|
机器学习/深度学习 人工智能 算法
人机融合智能 | 以人为中心人工智能新理念
本文探讨了“以人为中心的人工智能”(HCAI)理念,强调将人的需求、价值和能力置于AI设计与开发的核心。HCAI旨在确保AI技术服务于人类,增强而非取代人类能力,避免潜在危害。文章分析了AI的双刃剑效应及其社会挑战,并提出了HCAI的设计目标与实施路径,涵盖技术、用户和伦理三大维度。通过系统化方法,HCAI可推动AI的安全与可持续发展,为国内外相关研究提供重要参考。
94 3
|
3月前
|
数据采集 机器学习/深度学习 人工智能
数据驱动智能,智能优化数据——大数据与人工智能的双向赋能
数据驱动智能,智能优化数据——大数据与人工智能的双向赋能
232 4
|
7月前
|
机器学习/深度学习 人工智能 运维
人工智能在云计算中的运维优化:智能化的新时代
人工智能在云计算中的运维优化:智能化的新时代
732 49
|
6月前
|
机器学习/深度学习 数据采集 人工智能
人工智能在变更管理中的应用:变革的智能化之路
人工智能在变更管理中的应用:变革的智能化之路
298 13
|
7月前
|
机器学习/深度学习 人工智能 算法
人工智能与机器人的结合:智能化世界的未来
人工智能与机器人的结合:智能化世界的未来
954 32
|
8月前
|
人工智能 监控 物联网
深度探索人工智能与物联网的融合:构建未来智能生态系统###
在当今这个数据驱动的时代,人工智能(AI)与物联网(IoT)的深度融合正引领着一场前所未有的技术革命。本文旨在深入剖析这一融合背后的技术原理、探讨其在不同领域的应用实例及面临的挑战与机遇,为读者描绘一幅关于未来智能生态系统的宏伟蓝图。通过技术创新的视角,我们不仅揭示了AI与IoT结合的强大潜力,也展望了它们如何共同塑造一个更加高效、可持续且互联的世界。 ###
|
8月前
|
机器学习/深度学习 存储 人工智能
政务部门人工智能OCR智能化升级:3大技术架构与4项核心功能解析
本项目针对政务服务数字化需求,建设智能文档处理平台,利用OCR、信息抽取和深度学习技术,实现文件自动解析、分类、比对与审核,提升效率与准确性。平台强调本地部署,确保数据安全,解决低质量扫描件、复杂表格等痛点,降低人工成本与错误率,助力智慧政务发展。
220 0
|
9月前
|
机器学习/深度学习 移动开发 自然语言处理
基于人工智能技术的智能导诊系统源码,SpringBoot作为后端服务的框架,提供快速开发,自动配置和生产级特性
当身体不适却不知该挂哪个科室时,智能导诊系统应运而生。患者只需选择不适部位和症状,系统即可迅速推荐正确科室,避免排错队浪费时间。该系统基于SpringBoot、Redis、MyBatis Plus等技术架构,支持多渠道接入,具备自然语言理解和多输入方式,确保高效精准的导诊体验。无论是线上医疗平台还是大型医院,智能导诊系统均能有效优化就诊流程。
312 0
|
4月前
|
机器学习/深度学习 存储 人工智能
AI职场突围战:夸克应用+生成式人工智能认证,驱动“打工人”核心竞争力!
在AI浪潮推动下,生成式人工智能(GAI)成为职场必备工具。文中对比了夸克、豆包、DeepSeek和元宝四大AI应用,夸克以“超级入口”定位脱颖而出。同时,GAI认证为职场人士提供系统学习平台,与夸克结合助力职业发展。文章还探讨了职场人士如何通过加强学习、关注技术趋势及培养合规意识,在AI时代把握机遇。