数据 + 模型 驱动 AI Native 应用发展

本文涉及的产品
实时计算 Flink 版,1000CU*H 3个月
实时数仓Hologres,5000CU*H 100GB 3个月
智能开放搜索 OpenSearch行业算法版,1GB 20LCU 1个月
简介: 随着人工智能技术的飞速发展,从生成式人工智能(GenAI)到自主代理人工智能(Agentic AI)的演进,企业面临着构建 AI Native 应用的机遇与挑战。本文将深入探讨 AI 开发模式的转变、企业应用的挑战以及技术架构和开发工具的应用,旨在为读者提供一个全面的视角,以理解如何利用数据和模型驱动 AI Native 应用的发展。

作者:魏博文 阿里云智能集团资深产品解决方案总监、大数据和人工智能平台解决方案负责人


一.引言

从早期的生成式人工智能(Generative AI)到如今备受关注的自主代理人工智能(Agentic AI),AI 技术正经历着前所未有的变革。这些变革不仅影响着技术的演进方向,也深刻地改变着企业构建和部署 AI 应用的方式。随着数据量的爆炸式增长和业务需求的日益复杂,企业对 AI 应用的要求也越来越高。AI Native 应用作为一种新型的开发模式,将数据和模型深度融合,为企业提供了更高效、更智能的解决方案。本文将深入探讨这一变革过程,分析企业面临的挑战,并介绍相应的技术架构和开发工具,以助力企业更好地把握 AI 发展的脉搏。


二.AI 开发模式的演进

1.从 Generative AI 到 Agentic AI

生成式人工智能(Generative AI)主要侧重于内容生成,通过调用大模型的能力,在给定上下文的限制下生成文本、图像等。然而,其自主性较低,通常仅能对输入做出被动反应。随着时间的推移,AI 开发模式逐渐向任务执行和复杂目标达成转变,这便是自主代理人工智能(Agentic AI)的兴起。

Agentic AI 具备更高的自主性,能够通过多个代理(Agent)的协同工作,达成复杂的系统级目标。它不仅能够执行任务,还能进行推理、规划,并拥有持久的记忆系统,使得多个代理之间可以共享知识,共同完成动态、多领域的复杂任务。

从 Generative AI 到 Agentic AI 的演进,不仅是技术上的进步,更是 AI 应用场景的拓展。Generative AI 主要应用于内容创作、文本生成等相对单一的任务,而 Agentic AI 则能够在复杂的业务流程中发挥重要作用。


2.AI 开发工具的演进

AI 开发将经历从 AI 基础设施(AI Infra)、大型语言模型和代理工作室(LLM&Agent Studio)到 Agentic AI 的演进过程。这一趋势表明,未来的 AI 开发将更加注重代理的构建和协作,以满足日益复杂的业务需求。AI 开发工具的演进反映了技术发展的方向,也为开发者提供了更强大的支持。

开发工具的进步使得构建 Agentic AI 应用变得更加可行。

1. 感知与工具使用:通过检索增强生成(RAG)技术,使代理能够获取和利用最新的外部知识,减少幻觉现象。同时,改进函数调用和工具集成框架,提升代理与外部系统互动的灵活性和可靠性。


2. 推理与规划:采用更高级的 Agentic 循环(如 ReAct 变体),使代理能够深入思考和规划。探索因果建模和模拟规划技术,让代理在虚拟环境中测试策略,从而更好地理解和应对现实世界的复杂性。


3. 记忆系统构建:发展持久记忆架构,包括情景记忆、语义记忆和向量记忆,使代理能够维持长期上下文并共享知识,为复杂任务的完成提供记忆支持。


4. 多代理协作:构建多代理编排框架,实现任务分解、角色分配和冲突解决的智能化。发展标准化的代理间通信协议(如 A2A,Agent-to-Agent),提高协作效率和互操作性。引入反思与自我批评机制,使代理团队能够评估自身表现并进行修正。


5. 可信赖性:建立监控、审计和可解释性管道,记录代理的决策和互动过程,提高系统的透明度,便于调试和责任追溯。


6. 治理感知架构:设计具备在不同业务/领域数据的多 Agent 场景下做角色隔离、权限控制、安全沙箱等功能的架构,确保代理行为符合规范。探索伦理对齐方法,使代理团队的目标与人类价值观保持一致。


三.企业 Native AI 应用的挑战

1.全链路 AI Native 应用的挑战

企业构建 AI Native 应用需要面对全链路的挑战,包括微调、训练、部署和评测等环节。对于中小企业而言,这些环节的门槛较高,导致 AI 应用效率不足。全链路的应用挑战主要体现在:

1. 何时触发大模型后训练

  • 在上线后的服务遇到精度瓶颈时,需要判断是通过增量微调(Fine-tuning)还是从头再训练更大规模模型;
  • 触发条件包括在线流量下降、核心指标(如召回率、准确率)持续跌落,以及新业务需求出现时的评估决策。

2. 在线服务不中断保障

  • 在进行模型更新或再训练时,需采用蓝绿部署或滚动更新等策略,确保系统在切换期间持续可用;
  • 需结合流量切分、灰度发布和回滚机制,避免一次大规模模型替换导致线上服务不可用。

3. 资源与成本控制

  • 从预训练大模型到再训练,所需 GPU 集群、存储和网络带宽投入巨大;
  • 对中小企业来讲,何时使用云端托管、何时自建私有算力,都需要在成本和数据安全之间做权衡。


2.数据处理的复杂性

随着多模态数据(如文本、图像、视频、音频等)的引入,企业的数据链路已不再是单一的结构化表格。一个典型的回流链路是:

  • 结构化 → 生成 BI 报表(图表) → 输出为图像/视频等非结构化格式 → 再回流至数据平台进行二次迭代

在这个过程中,企业面临:

1. 数据格式转换

  • 如何将业务数据库中的结构化数据快速转换为适合可视化的宽表(宽表生成器);
  • 如何对外输出的图表、视频流等非结构化文件进行自动解析,提取数值、时间戳等要素并回流。

2. 双向流水线建设

  • 从原始结构化数据到前端可视化的正向流水线需要高效的 ETL 与图表生成能力;
  • 从非结构化输出到模型训练/监控的反向流水线需要 OCR、图像识别或视频分帧等多模态解析组件。

3. 一致性与实时性

  • 保证回流数据与原始数据库在时间维度和业务维度上的一致性;
  • 支持实时或近实时的双向数据流转,避免延迟累积影响决策。


3.数据基础设施的升级

原本的大数据架构在不断升级迭代的过程中,面临着引入 AI 技术后的复杂性挑战。如何利用云计算的技术优势,将大数据与 AI 有机结合,成为企业亟待解决的问题。


四.Chat BI 技术架构及开发流程

1.Chat BI 技术架构

以下是关于构建复杂 BI 系统的简化描述:

1. 数据接入与管理

  • 多源数据整合:系统需支持从多种数据源(数据库、数据仓库、非结构化存储等)接入数据,并管理底层数据引擎的异构性。
  • 元数据与历史记录:需存储数据的元信息(如表结构、字段定义)及历史执行的 SQL 语句和返回结果,以辅助系统理解业务流程并优化后续操作。

2. 数据处理与优化

  • 宽表生成器构建业务场景适配的宽表,将分散数据整合为高效查询的中间表,提升BI查询速度。宽表需关联业务属性,支持生命周期管理(如实时更新、版本控制)。
  • 模板系统基于自然语言(NL)输入,通过预设模板或大模型生成的模板映射用户问题(如财务趋势查询),提高结果精准度。模板可由人工录入或系统自动生成,并与宽表数据联动。

3. Agent工作流(核心逻辑)

  • 自然语言解析到任务编排
  • 将用户输入的自然语言转化为具体任务,生成 SQL 查询或数据操作指令。
  • 根据数据集推荐结果,选择合适的表或宽表作为查询目标。
  • 动态调试与执行
  • 生成的 SQL 或查询指令可能因语法或数据问题失败,需通过模型分析错误并调整指令,形成循环优化、失败重试、模型自动纠错等流程。
  • 支持多步骤查询组合(如顺序执行多条SQL),并管理执行结果的一致性。

4. 数据推荐与执行支持

  • 数据集推荐系统
  • 结合知识库(包含表元数据、人工标注信息)和历史问答记录,推荐与用户查询最匹配的数据集。
  • 例如:用户提问“营销效果”,系统需自动关联底层营销相关的数据表或宽表。
  • 执行与反馈
  • 成功执行后生成数据结果表,并进一步提炼为可视化报表和数据洞察(如趋势分析、异常提示)。
  • 系统可基于结果主动推荐后续问题或优化建议(如“是否需按区域细分销售数据?”)。

5. 反馈与持续优化

  • 闭环迭代机制
  • 将每次交互的自然语言输入、推荐数据、执行结果及用户反馈回流至系统,持续训练模型、优化模板库和数据推荐策略。
  • 通过历史数据积累提升系统对业务流程的理解能力,减少人工干预。


2.构建 Chat BI 对话核心流程

构建 Chat BI 对话核心流程包括以下几个关键步骤:

1. 数据集推荐:结合历史查询库和业务数据构建的知识库,推荐匹配的数据集。


2. NL to SQL 转换:调用 NL to SQL 模块,生成与业务需求匹配的 SQL 语句。


3. SQL 执行与纠错:执行 SQL 语句,并对可能出现的错误进行纠正,获取准确的执行结果。例如,如果 SQL 语句存在语法错误或逻辑错误,系统会自动检测并纠正,确保查询结果的准确性。


4. 数据可视化与洞察生成:基于执行结果生成图表及数据洞察,为业务决策提供直观的支持。


5. BI 报告生成与进一步探查:生成 BI 报告,并推荐基于报告的进一步数据探查问题,引导用户深入分析数据。


3.NL2DATA Workflow

在构建数据驱动系统时,系统首先需要识别目标数据集并检查是否存在所需表格。若表格缺失,将触发异常处理机制,系统会直接返回"无法执行"的反馈,并由外部代理根据结果提示用户补充信息或调整指令。当表格存在时,系统会将自然语言指令转换为结构化操作,生成执行逻辑并返回处理结果,过程中嵌入多层异常处理(如数据获取失败时跳过执行)。为支持这一流程,系统需整合数据与 AI 开发全链路:实时接入原始数据,完成解析、预处理、特征工程等步骤,并通过检索模块调用数据资源。

生成的训练数据持续优化模型,形成"数据采集-处理-训练-部署"的闭环。底层模型支持持续更新,可无缝回流至线上系统。整个架构采用模块化设计,代理系统与数据引擎深度耦合,数据平台具备弹性扩展能力,使开发人员专注业务优化,底层数据流转与模型迭代由自动化流程处理,从而加速系统迭代并降低维护成本。这种端到端架构在保证可靠性的同时,实现了从用户指令到数据输出的灵活处理。


五.系统开发及基础开发工具

1.面向多模态数据的 Data+AI一站式开发

为了应对多模态数据的挑战,企业需要构建一站式的数据和 AI 开发平台,其关键组件包括:

1. 大数据处理平台:提供数据集成、数据开发和任务调度等功能,支持多种数据源的接入和处理。

2. 数据挖掘与检索:利用数据挖掘技术发现数据中的潜在价值,并通过检索技术快速获取所需信息。

3. 向量增强版 Elasticsearch:提升搜索引擎的能力,支持向量相似性搜索,更好地处理多模态数据。

4. PAI(平台人工智能):涵盖多模态检索、Tag 表、人工标注数据、解析写入、Meta 表、更新表和向量化数据写入等功能,为 AI 模型的训练和应用提供支持。


2.企业级 AI 应用开发:阿里云 PAI-LangStudio 产品架构

LangStudio 技术架构包含底层 Ops 平台(含 runtime 检查、数据安全、评测工具、全链路可观测及 tracing)及应用搭建两部分,涉及 Agent 构建(DDSL、协议对接、系统内存)和 Workflow 编排能力。

LangStudio 作为企业级 AI 应用开发平台,提供了从模型到应用的全流程支持。其产品架构包括:

1. AI Agent 应用生态:涵盖数据分析 Chat BI Agent、AI Search & RAG Agent、Deep Research Agent 等多种代理应用,满足不同业务场景的需求。

2. AI 应用适配层:实现对不同 AI 应用的适配,确保应用能够在平台上稳定运行。

3. 模板市场:提供丰富的模板资源,方便开发者快速构建 AI 应用。

4. LangStudio - LLM 企业级应用平台:包括 Model Gallery、Agent DSL、Reasoning/Plan、Agentic workflow、Agent Memory、Knowledge Retrieval、Agent Tool Use、MCP/A2A Loop/Iteration、Dify 兼容等功能模块,为开发者提供强大的开发能力。

5. LLMOps 平台层:关注准确性、高性能和稳定性,确保 AI 应用的可靠运行。

6. 工具生态:整合 PAI-DLC(AI 分布式训练)、PAI-DSW(AI 交互式开发)和 PAI-EAS(AI 推理服务)等工具,为 AI 应用开发提供全方位支持。

7. AI 基础架构:依托 GPU、高性能计算和高速网络等基础设施,为 AI 应用提供强大的计算能力。例如,GPU 的并行计算能力可以加速 AI 模型的训练和推理过程,提高应用的性能。


3.Workflow 编排

Flow 作为核心架构提供了多维度的能力集成,包括大模型推理、Python 脚本执行、知识库检索以及外部工具调用,支持将端到端业务流程或 Agent 内部子流程封装为可复用的 Workflow。

此类 Workflow 可进一步打包为独立 Agent,实现系统级功能的二次集成与扩展,并支持全链路 Tracing 调试能力。平台预置了标准化 Workflow 模板及 Agent 组件,用户可直接调用或基于场景定制。

在 Agent 构建层面,Agent Builder 支持复杂系统对接,例如定义多源外部输入接口、编排多角色 Large Language Model 协同(如规划类 Orchestration Agent、检索增强生成 RAG Agent 及函数调用专用 Agent),并通过反馈机制优化多 Agent 间的任务协调与环境交互。最终,结合模型微调、Agent 工程化封装与Workflow 编排,可形成完整的应用模块,并通过与 Hologres 等数据引擎的深度集成(调用其 MPP 计算能力),实现低技术复杂度的分析型系统快速构建,相较传统架构显著简化技术栈。

4.Agents Builder

Agents Builder 提供了强大的代理构建能力,其流程示意图包括:

1. Agent 节点构建:构建代理节点,包括模型测评、模型微调、Workflow 构建和 Agent 应用构建等步骤。

2. LangStudio 模块:涵盖 Agent 应用、模型部署、模型调用等功能模块,支持代理应用的完整开发生命周期。


5.数据分析:ChatBI+Hologres MCP Server

数据分析 ChatBI 与 Hologres MCP Server 的集成应用步骤如下:

1. Model Gallery 部署 LLM 模型:在 Model Gallery 中部署大语言模型(LLM),为数据分析提供基础支持。

2. 搭建 Hologres MCP Server 应用:配置 Hologres MCP Server,实现数据的高效存储和管理。

3. LangStudio 使用模板构建数据分析 Hologres ChatBI Agent 应用:利用 LangStudio 提供的模板,快速构建数据分析 ChatBI Agent应用。

4. 在 LangStudio 运行对话模式进行 Chat 数据分析验证:通过对话模式对构建的应用进行验证,确保其能够准确地完成数据分析任务。

5. 在 LangStudio 部署 Qwen 模型服务,支持 API 调用模型推理能力:部署 Qwen 模型服务,使其能够通过 API 提供模型推理能力,为数据分析应用提供智能化支持。


六.结论

随着 AI 技术的不断发展,企业构建 AI Native 应用面临着前所未有的机遇与挑战。从 GenAI 到 Agentic AI 的演进,不仅推动了 AI 开发模式的变革,也为企业提供了更强大的工具和能力。然而,在数据处理、基础设施升级和全链路应用构建等方面,企业仍需克服诸多困难。通过合理利用 Chat BI 技术架构、LangStudio 产品架构等先进的技术和工具平台,企业能够更高效地开发和部署 AI Native 应用,实现智能化转型,提升竞争力,在数字化浪潮中脱颖而出。未来,随着技术的进一步成熟和应用场景的拓展,AI Native 应用将在更多的行业和领域发挥重要作用,为企业创造更大的价值。

以上提到的部分阿里云产品,欢迎大家在阿里云上开通与免费使用。

相关文章
|
1月前
|
云安全 人工智能 自然语言处理
阿里云x硅基流动:AI安全护栏助力构建可信模型生态
阿里云AI安全护栏:大模型的“智能过滤系统”。
|
1月前
|
人工智能 监控 安全
提效40%?揭秘AI驱动的支付方式“一键接入”系统
本项目构建AI驱动的研发提效系统,通过Qwen Coder与MCP工具链协同,实现跨境支付渠道接入的自动化闭环。采用多智能体协作模式,结合结构化Prompt、任务拆解、流程管控与安全约束,显著提升研发效率与交付质量,探索大模型在复杂业务场景下的高采纳率编码实践。
365 26
提效40%?揭秘AI驱动的支付方式“一键接入”系统
|
1月前
|
人工智能 运维 Kubernetes
Serverless 应用引擎 SAE:为传统应用托底,为 AI 创新加速
在容器技术持续演进与 AI 全面爆发的当下,企业既要稳健托管传统业务,又要高效落地 AI 创新,如何在复杂的基础设施与频繁的版本变化中保持敏捷、稳定与低成本,成了所有技术团队的共同挑战。阿里云 Serverless 应用引擎(SAE)正是为应对这一时代挑战而生的破局者,SAE 以“免运维、强稳定、极致降本”为核心,通过一站式的应用级托管能力,同时支撑传统应用与 AI 应用,让企业把更多精力投入到业务创新。
400 29
|
1月前
|
人工智能 自然语言处理 测试技术
从人工到AI驱动:天猫测试全流程自动化变革实践
天猫技术质量团队探索AI在测试全流程的落地应用,覆盖需求解析、用例生成、数据构造、执行验证等核心环节。通过AI+自然语言驱动,实现测试自动化、可溯化与可管理化,在用例生成、数据构造和执行校验中显著提效,推动测试体系从人工迈向AI全流程自动化,提升效率40%以上,用例覆盖超70%,并构建行业级知识资产沉淀平台。
从人工到AI驱动:天猫测试全流程自动化变革实践
|
1月前
|
设计模式 人工智能 自然语言处理
3个月圈粉百万,这个AI应用在海外火了
不知道大家还记不记得,我之前推荐过一个叫 Agnes 的 AI 应用,也是当时在 WAIC 了解到的。
311 1
|
1月前
|
人工智能 运维 关系型数据库
云栖大会|AI时代的数据库变革升级与实践:Data+AI驱动企业智能新范式
2025云栖大会“AI时代的数据库变革”专场,阿里云瑶池联合B站、小鹏、NVIDIA等分享Data+AI融合实践,发布PolarDB湖库一体化、ApsaraDB Agent等创新成果,全面展现数据库在多模态、智能体、具身智能等场景的技术演进与落地。
|
1月前
|
人工智能 搜索推荐 程序员
当AI学会“跨界思考”:多模态模型如何重塑人工智能
当AI学会“跨界思考”:多模态模型如何重塑人工智能
258 120
|
1月前
|
人工智能 运维 Java
Spring AI Alibaba Admin 开源!以数据为中心的 Agent 开发平台
Spring AI Alibaba Admin 正式发布!一站式实现 Prompt 管理、动态热更新、评测集构建、自动化评估与全链路可观测,助力企业高效构建可信赖的 AI Agent 应用。开源共建,现已上线!
3114 43