智能体Agent解析:用自然语言重构数据开发工作方式

本文涉及的产品
大数据开发治理平台DataWorks,资源组抵扣包 750CU*H
简介: 大数据开发治理平台DataWorks基于MCP协议,正式发布了DataWorks Agent,内置DataWorks MCP Server V1.0。该功能支持在DataWorks Data Studio中通过自然语言交互完成数据开发任务,实现了需求即代码的开发体验。本文将详细介绍如何通过配置使用DataWorks MCP Server进行任务的开发和运维管理。

引言:本文分享如何基于利用MCP协议,配置MCP Server,以调用大数据开发与治理平台DataWorks Open API搭建智能体Agent,实现通过自然语言完成数据集成与数据开发等任务。文章还介绍了MCP协议的基本知识,帮助大家了解背后实现原理。大家可以通过自行配置体验数据工作流智能自动化运行。


前言

您是否常常为数据集成的繁琐配置而烦恼?是否因为手撕SQL语句为数据开发而头疼呢?传统的数据开发工作就像在迷宫中穿行,据统计,开发者平均每天执行137次点击操作,60%时间消耗在功能检索而非核心逻辑,效率十分低下。试想:如果能够有一个平台,通过自然语言输入就能智能化自动运行数据集成和数据开发任务就好了。现在,阿里云大数据开发治理平台DataWorks的智能体Agent(基于MCP协议)即可实现这个想法,下面让我们来了解下具体实现方式吧!


什么是MCP?

Model Context Protocol(MCP)是人工智能领域提出的一种标准化协议框架,其全称“Model Context Protocol”直译为“模型上下文协议”。该协议的核心目标是为大模型(如超大规模语言模型、多模态模型等)提供统一的上下文接口标准,使其能够无缝连接外部数据源、工具和服务。通过标准化的数据交互规范和功能调用机制,MCP打破了传统AI系统中模型与外部资源之间的“孤岛效应”,使模型能够像调用自身内置功能一样灵活地利用外部资源。

该协议通过定义四⼤核⼼原语实现交互标准化:

1. 资源(Resources):结构化数据⽚段,如实时⾏情数据、历史报表等,为大模型提供决策依据;

2. ⼯具(Tools):封装的可执⾏函数,⽀持 SQL 查询、可视化渲染等专业操作;

3. 提示(Prompts):预定义的任务指令模板,引导 LLM ⽣成符合业务规范的输出;

4. 采样(Sampling):异步调⽤机制,允许服务器向 LLM 请求多轮推理结果。

其设计理念可类比软件开发从汇编语言到高级语言的演进,通过协议抽象降低AI应用开发门槛。


DataWorks MCP Server基本介绍

基本架构

DataWorks新版数据开发的个人开发环境,在阿里云原生的能力上搭建了用户专属的开发环境,环境中内置了VSCode客户端,登录DataWorks后可通过浏览器访问,您可以选择安装MCP Client插件(如Cline),通过配置DataWorks开源的MCP Server,输入指令即可完成DataWorks的数据开发运维等动作。


基本概念


如上图所示,个人开发环境本质上是用户在DataWorks上创建出来的一台服务器,除了DataWorks的开发运维,还能安装开源生态的各种插件,比如:

  • 通过filesystem实现对文件的读写操作。
  • 通过git实现对Git工作空间的git操作。

不局限于此,您可以添加各种开源的mcp servers到个人开发环境。


DataWorks Agent是什么?

阿里云大数据开发治理平台DataWorks基于MCP协议搭建的DataWorks Agent,内置 DataWorks MCP Server V1.0,支持在DataWorks Data Studio中通过自然语言交互来自动化操作DataWorks上的产品功能,完成数据集成、数据开发等一些复杂的操作,使得Data Studio平台实现了从"工具操作"向"语义理解"的演进。


DataWorks  Agent ,现已支持将 DataWorks 数据集成、数据开发、任务运维相关的OpenAPI作为Tools的DataWorks MCP Server,可为开发者提供智能Agent服务,开发者无需再到平台UI中到处查找功能界面,给出自然语言指令即完成相关工作,“所言即所得”,大大提升了工作效率和体验。


DataWorks Agent  核心功能

DataWorks  Agent当前支持通过自然语言指令自动化创建和启动实时/离线数据同步任务,一键查看同步任务配置信息和执行概况;支持快速批量创建和修改数据开发节点,避免了用户繁琐重复的机械性操作;支持运行任务的智能分析,针对需要重跑的任务自动化执行重跑操作,有效提升任务运维的效率。


现在,DataWorks Agent正全面推进面向数据开发、数据治理、任务运维等场景应用能力的上线,未来,DataWorks将具备开发者通过使用自然语言即可完成数据开发与治理全链路的能力,真正进入数据开发与治理的新纪元。


如何配置DataWorks MCP Server

1. 没有个人开发环境


2. 已有个人开发环境升级

  • 打开terminal,执行以下脚本:
wget https://nodejs.org/dist/v20.19.0/node-v20.19.0-linux-x64.tar.xz
tar xf node-v20.19.0-linux-x64.tar.xz
mv /etc/dsw/node /etc/dsw/node14
mv node-v20.19.0-linux-x64 /etc/dsw/node
bash <(curl -s https://dataworks-notebook-${REGION}.oss-${REGION}.aliyuncs.com/public-datasets/aone-release/dwcode-server/scripts/update.sh)  0.2.169


  • 刷新页面后,从VSCode的应用市场搜索Cline进行安装



3. 配置LLM APIKey,支持您配置使用不同的LLM模型(此处以阿里云百炼的API为例)


  • 完成模型配置。


4. 安装MCP Server

  • 通过界面打开DataWorks MCP Server的配置界面-Configure MCP Servers。


  • 在配置界面填入如下配置,注意修改其中的REGION信息:
{
  "mcpServers": {
    "alibabacloud-dataworks-mcp-server": {
      "command": "npx",
      "args": [
        "alibabacloud-dataworks-mcp-server"
      ],
      "env": {
        "REGION": "cn-beijing",
        "ALIBABA_CLOUD_CREDENTIALS_URI": "http://localhost:7002/api/v1/credentials/0",
        "TOOL_CATEGORIES": "SERVER_IDE_DEFAULT"
      },
      "disabled": false,
      "autoApprove": [],
      "timeout": 60
    }
  }
}


  • 看到如下加载成功的Tools可确认alibabacloud-dataworks-mcp-server已安装成功:


  • 在任务界面,您可以输入“我有哪些工作空间?”开始测试


进阶玩法:安装其他MCP Servers进行探索

您可以参考mcp-servers安装其他的MCP Servers到个人开发环境。参考地址:https://github.com/modelcontextprotocol/servers/


立即体验

目前,DataWorks Agent支持安装并启用应用市场的多种MCP Server!

参与DataWorks Data Studio新版公测即可使用DataWorks Agent,欢迎使用DataWorks产品进行体验!

相关实践学习
基于Hologres轻量实时的高性能OLAP分析
本教程基于GitHub Archive公开数据集,通过DataWorks将GitHub中的项⽬、行为等20多种事件类型数据实时采集至Hologres进行分析,同时使用DataV内置模板,快速搭建实时可视化数据大屏,从开发者、项⽬、编程语⾔等多个维度了解GitHub实时数据变化情况。
相关文章
|
5月前
|
数据采集 SQL 人工智能
长文详解|DataWorks Data+AI一体化开发实战图谱
DataWorks是一站式智能大数据开发治理平台,内置阿里巴巴15年大数据建设方法论,深度适配阿里云MaxCompute、EMR、Hologres、Flink、PAI 等数十种大数据和AI计算服务,为数仓、数据湖、OpenLake湖仓一体数据架构提供智能化ETL开发、数据分析与主动式数据资产治理服务,助力“Data+AI”全生命周期的数据管理。
|
4月前
|
传感器 人工智能 自然语言处理
火热邀测!DataWorks数据集成支持大模型AI处理
阿里云DataWorks数据集成新增大模型AI处理功能,支持在数据同步中无缝调用通义千问等AI模型,实现文本翻译、情感分析、摘要生成等功能。适用于电商客服、智能汽车、供应链、医疗、金融、法律及教育等多个场景,大幅提升数据处理效率与洞察深度。用户可通过自然语言配置,快速完成高级数据分析与处理,无需额外部署调试。立即申请测试资格,体验智能化数据处理!
火热邀测!DataWorks数据集成支持大模型AI处理
|
5月前
|
人工智能 自然语言处理 运维
智能体Agent:用自然语言重构数据开发
本文分享如何基于利用MCP协议,配置MCP Server,以调用大数据开发与治理平台DataWorks Open API搭建智能体Agent,实现通过自然语言完成数据集成与数据开发等任务。文章还介绍了MCP协议的基本知识,帮助大家了解背后实现原理。大家可以通过自行配置体验数据工作流智能自动化运行。
609 50
智能体Agent:用自然语言重构数据开发
|
5月前
|
人工智能 自然语言处理 供应链
为什么一定要做Agent智能体?
作者通过深入分析、理解、归纳,最后解答了“为什么一定要做Agent”这个问题。
971 40
为什么一定要做Agent智能体?
|
4月前
|
SQL DataWorks 大数据
DataWorks x 婚礼纪:智能一站式数据开发治理平台让千万新人的幸福时刻“数智化”
婚礼纪是杭州火烧云科技推出的结婚服务平台,覆盖婚宴酒店、婚纱摄影等全产业链,年服务超2000万对新人。为应对海量数据处理挑战,婚礼纪选择阿里云DataWorks作为一站式大数据开发治理平台,解决数据血缘不清、指标口径混乱等问题。通过湖仓一体架构与全链路数据治理,实现多源异构数据高效整合,支撑精准营销、交易风控等核心场景。DataWorks新版数据开发Data Studio大幅提升开发效率,Copilot智能助手优化SQL代码生成与测试,助力婚礼纪构建数据驱动的结婚产业服务中枢。
|
5月前
|
人工智能 自然语言处理 算法
阿里云 AI 搜索开放平台:从算法到业务——AI 搜索驱动企业智能化升级
本文介绍了阿里云 AI 搜索开放平台的技术的特点及其在各行业的应用。
560 3
|
2月前
|
机器学习/深度学习 人工智能 监控
数据分析智能体:让AI成为你的数据科学家
作为一名在数据科学领域深耕多年的技术博主,我深刻感受到了AI技术在数据分析领域的革命性变化。从最初的手工编写SQL查询、绘制图表,到如今AI智能体能够自主完成复杂的数据探索、建模和洞察提取,这种转变不仅仅是技术进步,更是数据科学工作范式的根本性变革。 数据分析智能体(Data Analysis Agent)代表了数据科学发展的新阶段,它将传统的数据分析师、统计学家和机器学习工程师的核心能力集成到一个智能系统中。这个系统不仅能够理解业务需求,自动执行数据预处理,还能够选择合适的分析方法、构建预测模型,并生成易于理解的洞察报告。
280 1
|
5月前
|
人工智能 自然语言处理 DataWorks
DataWorks Copilot 集成Qwen3-235B-A22B混合推理模型,数据开发与分析效率再升级!
阿里云DataWorks平台正式接入Qwen3模型,支持最大235B参数量。用户可通过DataWorks Copilot智能助手调用该模型,以自然语言交互实现代码生成、优化、解释及纠错等功能,大幅提升数据开发与分析效率。Qwen3作为最新一代大语言模型,具备混合专家(MoE)和稠密(Dense)架构,适应多种应用场景,并支持MCP协议优化复杂任务处理。目前,用户可通过DataWorks Data Studio新版本体验此功能。
383 23
DataWorks Copilot 集成Qwen3-235B-A22B混合推理模型,数据开发与分析效率再升级!
|
7月前
|
人工智能 自然语言处理 DataWorks
DataWorks X DeepSeek : 用AI实现数据开发治理!
阿里云DataWorks正式接入DeepSeek-R1系列模型,用户可通过DataWorks Copilot智能助手,以自然语言交互完成代码操作,实现数据开发、分析与治理全流程。DataWorks内置阿里巴巴16年大数据建设方法论,支持多种大数据引擎和AI计算服务,助力“Data+AI”全生命周期管理。开通DataWorks后即可免费体验DataWorks Copilot。
|
7月前
|
人工智能 DataWorks 大数据
大数据AI一体化开发再加速:DataWorks 支持GPU类型资源
大数据开发治理平台 DataWorks 的Serverless资源组支持GPU资源类型,以免运维、按需付费、弹性伸缩的Serverless架构,将大数据处理与AI开发能力无缝融合。面向大数据&AI协同开发场景,DataWorks提供了交互式开发和分析工具Notebook。开发者在创建个人开发环境时,可以选择GPU类型的资源作为Notebook运行环境,以支持进行高性能的计算工作。本教程将基于开源多模态大模型Qwen2-VL-2B-Instruct,介绍如何使用 DataWorks Notebook及LLaMA Factory训练框架完成文旅领域大模型的构建。
495 24