智能体Agent解析:用自然语言重构数据开发工作方式

本文涉及的产品
大数据开发治理平台DataWorks,资源组抵扣包 750CU*H
简介: 大数据开发治理平台DataWorks基于MCP协议,正式发布了DataWorks Agent,内置DataWorks MCP Server V1.0。该功能支持在DataWorks Data Studio中通过自然语言交互完成数据开发任务,实现了需求即代码的开发体验。本文将详细介绍如何通过配置使用DataWorks MCP Server进行任务的开发和运维管理。

引言:本文分享如何基于利用MCP协议,配置MCP Server,以调用大数据开发与治理平台DataWorks Open API搭建智能体Agent,实现通过自然语言完成数据集成与数据开发等任务。文章还介绍了MCP协议的基本知识,帮助大家了解背后实现原理。大家可以通过自行配置体验数据工作流智能自动化运行。


前言

您是否常常为数据集成的繁琐配置而烦恼?是否因为手撕SQL语句为数据开发而头疼呢?传统的数据开发工作就像在迷宫中穿行,据统计,开发者平均每天执行137次点击操作,60%时间消耗在功能检索而非核心逻辑,效率十分低下。试想:如果能够有一个平台,通过自然语言输入就能智能化自动运行数据集成和数据开发任务就好了。现在,阿里云大数据开发治理平台DataWorks的智能体Agent(基于MCP协议)即可实现这个想法,下面让我们来了解下具体实现方式吧!


什么是MCP?

Model Context Protocol(MCP)是人工智能领域提出的一种标准化协议框架,其全称“Model Context Protocol”直译为“模型上下文协议”。该协议的核心目标是为大模型(如超大规模语言模型、多模态模型等)提供统一的上下文接口标准,使其能够无缝连接外部数据源、工具和服务。通过标准化的数据交互规范和功能调用机制,MCP打破了传统AI系统中模型与外部资源之间的“孤岛效应”,使模型能够像调用自身内置功能一样灵活地利用外部资源。

该协议通过定义四⼤核⼼原语实现交互标准化:

1. 资源(Resources):结构化数据⽚段,如实时⾏情数据、历史报表等,为大模型提供决策依据;

2. ⼯具(Tools):封装的可执⾏函数,⽀持 SQL 查询、可视化渲染等专业操作;

3. 提示(Prompts):预定义的任务指令模板,引导 LLM ⽣成符合业务规范的输出;

4. 采样(Sampling):异步调⽤机制,允许服务器向 LLM 请求多轮推理结果。

其设计理念可类比软件开发从汇编语言到高级语言的演进,通过协议抽象降低AI应用开发门槛。


DataWorks MCP Server基本介绍

基本架构

DataWorks新版数据开发的个人开发环境,在阿里云原生的能力上搭建了用户专属的开发环境,环境中内置了VSCode客户端,登录DataWorks后可通过浏览器访问,您可以选择安装MCP Client插件(如Cline),通过配置DataWorks开源的MCP Server,输入指令即可完成DataWorks的数据开发运维等动作。


基本概念


如上图所示,个人开发环境本质上是用户在DataWorks上创建出来的一台服务器,除了DataWorks的开发运维,还能安装开源生态的各种插件,比如:

  • 通过filesystem实现对文件的读写操作。
  • 通过git实现对Git工作空间的git操作。

不局限于此,您可以添加各种开源的mcp servers到个人开发环境。


DataWorks Agent是什么?

阿里云大数据开发治理平台DataWorks基于MCP协议搭建的DataWorks Agent,内置 DataWorks MCP Server V1.0,支持在DataWorks Data Studio中通过自然语言交互来自动化操作DataWorks上的产品功能,完成数据集成、数据开发等一些复杂的操作,使得Data Studio平台实现了从"工具操作"向"语义理解"的演进。


DataWorks  Agent ,现已支持将 DataWorks 数据集成、数据开发、任务运维相关的OpenAPI作为Tools的DataWorks MCP Server,可为开发者提供智能Agent服务,开发者无需再到平台UI中到处查找功能界面,给出自然语言指令即完成相关工作,“所言即所得”,大大提升了工作效率和体验。


DataWorks Agent  核心功能

DataWorks  Agent当前支持通过自然语言指令自动化创建和启动实时/离线数据同步任务,一键查看同步任务配置信息和执行概况;支持快速批量创建和修改数据开发节点,避免了用户繁琐重复的机械性操作;支持运行任务的智能分析,针对需要重跑的任务自动化执行重跑操作,有效提升任务运维的效率。


现在,DataWorks Agent正全面推进面向数据开发、数据治理、任务运维等场景应用能力的上线,未来,DataWorks将具备开发者通过使用自然语言即可完成数据开发与治理全链路的能力,真正进入数据开发与治理的新纪元。


如何配置DataWorks MCP Server

1. 没有个人开发环境


2. 已有个人开发环境升级

  • 打开terminal,执行以下脚本:
wget https://nodejs.org/dist/v20.19.0/node-v20.19.0-linux-x64.tar.xz
tar xf node-v20.19.0-linux-x64.tar.xz
mv /etc/dsw/node /etc/dsw/node14
mv node-v20.19.0-linux-x64 /etc/dsw/node
bash <(curl -s https://dataworks-notebook-${REGION}.oss-${REGION}.aliyuncs.com/public-datasets/aone-release/dwcode-server/scripts/update.sh)  0.2.169


  • 刷新页面后,从VSCode的应用市场搜索Cline进行安装



3. 配置LLM APIKey,支持您配置使用不同的LLM模型(此处以阿里云百炼的API为例)


  • 完成模型配置。


4. 安装MCP Server

  • 通过界面打开DataWorks MCP Server的配置界面-Configure MCP Servers。


  • 在配置界面填入如下配置,注意修改其中的REGION信息:
{
  "mcpServers": {
    "alibabacloud-dataworks-mcp-server": {
      "command": "npx",
      "args": [
        "alibabacloud-dataworks-mcp-server"
      ],
      "env": {
        "REGION": "cn-beijing",
        "ALIBABA_CLOUD_CREDENTIALS_URI": "http://localhost:7002/api/v1/credentials/0",
        "TOOL_CATEGORIES": "SERVER_IDE_DEFAULT"
      },
      "disabled": false,
      "autoApprove": [],
      "timeout": 60
    }
  }
}


  • 看到如下加载成功的Tools可确认alibabacloud-dataworks-mcp-server已安装成功:


  • 在任务界面,您可以输入“我有哪些工作空间?”开始测试


进阶玩法:安装其他MCP Servers进行探索

您可以参考mcp-servers安装其他的MCP Servers到个人开发环境。参考地址:https://github.com/modelcontextprotocol/servers/


立即体验

目前,DataWorks Agent支持安装并启用应用市场的多种MCP Server!

参与DataWorks Data Studio新版公测即可使用DataWorks Agent,欢迎使用DataWorks产品进行体验!

相关实践学习
基于MaxCompute的热门话题分析
本实验围绕社交用户发布的文章做了详尽的分析,通过分析能得到用户群体年龄分布,性别分布,地理位置分布,以及热门话题的热度。
一站式大数据开发治理平台DataWorks初级课程
DataWorks 从 2009 年开始,十ー年里一直支持阿里巴巴集团内部数据中台的建设,2019 年双 11 稳定支撑每日千万级的任务调度。每天阿里巴巴内部有数万名数据和算法工程师正在使用DataWorks,承了阿里巴巴 99%的据业务构建。本课程主要介绍了阿里巴巴大数据技术发展历程与 DataWorks 几大模块的基本能力。 产品官网 https://www.aliyun.com/product/bigdata/ide 大数据&amp;AI体验馆 https://workbench.data.aliyun.com/experience.htm#/ 帮助文档https://help.aliyun.com/zh/dataworks 课程目标 &nbsp;通过讲师的详细讲解与实际演示,学员可以一边学习一边进行实际操作,可以深入了解DataWorks各大模块的使用方式和具体功能,让学员对DataWorks数据集成、开发、分析、运维、安全、治理等方面有深刻的了解,加深对阿里云大数据产品体系的理解与认识。 适合人群 &nbsp;企业数据仓库开发人员 &nbsp;大数据平台开发人员 &nbsp;数据分析师 &nbsp;大数据运维人员 &nbsp;对于大数据平台、数据中台产品感兴趣的开发者
目录
打赏
0
3
3
0
128
分享
相关文章
长文详解|DataWorks Data+AI一体化开发实战图谱
DataWorks是一站式智能大数据开发治理平台,内置阿里巴巴15年大数据建设方法论,深度适配阿里云MaxCompute、EMR、Hologres、Flink、PAI 等数十种大数据和AI计算服务,为数仓、数据湖、OpenLake湖仓一体数据架构提供智能化ETL开发、数据分析与主动式数据资产治理服务,助力“Data+AI”全生命周期的数据管理。
智能体Agent:用自然语言重构数据开发
本文分享如何基于利用MCP协议,配置MCP Server,以调用大数据开发与治理平台DataWorks Open API搭建智能体Agent,实现通过自然语言完成数据集成与数据开发等任务。文章还介绍了MCP协议的基本知识,帮助大家了解背后实现原理。大家可以通过自行配置体验数据工作流智能自动化运行。
501 50
智能体Agent:用自然语言重构数据开发
为什么一定要做Agent智能体?
作者通过深入分析、理解、归纳,最后解答了“为什么一定要做Agent”这个问题。
718 39
为什么一定要做Agent智能体?
DataWorks x 婚礼纪:智能一站式数据开发治理平台让千万新人的幸福时刻“数智化”
婚礼纪是杭州火烧云科技推出的结婚服务平台,覆盖婚宴酒店、婚纱摄影等全产业链,年服务超2000万对新人。为应对海量数据处理挑战,婚礼纪选择阿里云DataWorks作为一站式大数据开发治理平台,解决数据血缘不清、指标口径混乱等问题。通过湖仓一体架构与全链路数据治理,实现多源异构数据高效整合,支撑精准营销、交易风控等核心场景。DataWorks新版数据开发Data Studio大幅提升开发效率,Copilot智能助手优化SQL代码生成与测试,助力婚礼纪构建数据驱动的结婚产业服务中枢。
Hologres实时数仓在B站游戏的建设与实践
本文介绍了B站游戏业务中实时数据仓库的构建与优化过程。为满足日益增长的数据实时性需求,采用了Hologres作为核心组件优化传统Lambda架构,实现了存储层面的流批一体化及离线-实时数据的无缝衔接。文章详细描述了架构选型、分层设计(ODS、DWD、DIM、ADS)及关键技术挑战的解决方法,如高QPS点查、数据乱序重写等。目前,该实时数仓已广泛应用于运营分析、广告投放等多个场景,并计划进一步完善实时指标体系、扩展明细层应用及研发数据实时解析能力。
Hologres实时数仓在B站游戏的建设与实践
什么是阿里云无影云手机?看完秒懂,云手机价格、创建及连接教程
阿里云无影云手机是一种基于云端的虚拟手机服务,适用于仿真测试、云游戏、数字人直播等场景。它提供轻量型、通用型、标准型和性能型四种规格,支持包年包月与按量付费模式,价格从65元/月起。使用时需创建实例组,选择地域、规格、镜像等配置,并完成支付。应用可通过控制台安装,连接方式包括管理控制台、无影客户端及ADB工具。详尽教程助您快速上手无影云手机。
401 3
火热邀测!DataWorks数据集成支持大模型AI处理
阿里云DataWorks数据集成新增大模型AI处理功能,支持在数据同步中无缝调用通义千问等AI模型,实现文本翻译、情感分析、摘要生成等功能。适用于电商客服、智能汽车、供应链、医疗、金融、法律及教育等多个场景,大幅提升数据处理效率与洞察深度。用户可通过自然语言配置,快速完成高级数据分析与处理,无需额外部署调试。立即申请测试资格,体验智能化数据处理!
火热邀测!DataWorks数据集成支持大模型AI处理
在IDEA中借助满血版 DeepSeek 提高编码效率
通义灵码2.0引入了DeepSeek V3与R1模型,新增Qwen2.5-Max和QWQ模型,支持个性化服务切换。阿里云发布开源推理模型QwQ-32B,在数学、代码及通用能力上表现卓越,性能媲美DeepSeek-R1,且部署成本低。AI程序员功能涵盖表结构设计、前后端代码生成、单元测试与错误排查,大幅提升开发效率。跨语言编程示例中,成功集成DeepSeek-R1生成公告内容。相比1.0版本,2.0支持多款模型,丰富上下文类型,具备多文件修改能力。总结显示,AI程序员生成代码准确度高,但需参考现有工程风格以确保一致性,错误排查功能强大,适合明确问题描述场景。相关链接提供下载与原文参考。
613 160
在IDEA中借助满血版 DeepSeek 提高编码效率
DataWorks Copilot 集成Qwen3-235B-A22B混合推理模型,数据开发与分析效率再升级!
阿里云DataWorks平台正式接入Qwen3模型,支持最大235B参数量。用户可通过DataWorks Copilot智能助手调用该模型,以自然语言交互实现代码生成、优化、解释及纠错等功能,大幅提升数据开发与分析效率。Qwen3作为最新一代大语言模型,具备混合专家(MoE)和稠密(Dense)架构,适应多种应用场景,并支持MCP协议优化复杂任务处理。目前,用户可通过DataWorks Data Studio新版本体验此功能。
302 23
DataWorks Copilot 集成Qwen3-235B-A22B混合推理模型,数据开发与分析效率再升级!
DataWorks X DeepSeek : 用AI实现数据开发治理!
阿里云DataWorks正式接入DeepSeek-R1系列模型,用户可通过DataWorks Copilot智能助手,以自然语言交互完成代码操作,实现数据开发、分析与治理全流程。DataWorks内置阿里巴巴16年大数据建设方法论,支持多种大数据引擎和AI计算服务,助力“Data+AI”全生命周期管理。开通DataWorks后即可免费体验DataWorks Copilot。

热门文章

最新文章

AI助理

你好,我是AI助理

可以解答问题、推荐解决方案等

登录插画

登录以查看您的控制台资源

管理云资源
状态一览
快捷访问