长文详解|DataWorks Data+AI一体化开发实战图谱

本文涉及的产品
大数据开发治理平台DataWorks,资源组抵扣包 750CU*H
简介: DataWorks是一站式智能大数据开发治理平台,内置阿里巴巴15年大数据建设方法论,深度适配阿里云MaxCompute、EMR、Hologres、Flink、PAI 等数十种大数据和AI计算服务,为数仓、数据湖、OpenLake湖仓一体数据架构提供智能化ETL开发、数据分析与主动式数据资产治理服务,助力“Data+AI”全生命周期的数据管理。

引言:当数据智能遇见开发革命

在数字经济时代,企业正面临数据规模指数级增长与AI应用场景爆发式增长的双重挑战,企业数据工程师也面临着双重挑战:既要应对PB级数据处理需求,又要驾驭AI工程化落地的复杂性。

阿里云DataWorks作为国内领先的一站式智能数据开发治理平台,内置阿里巴巴十余年大数据建设方法论,为数据仓库、数据湖、OpenLake湖仓一体数据架构提供Data+AI数据架构开发、数据分析与主动式数据资产治理服务。通过数据开发Data Studio 个人开发环境实例支持Python开发、Notebook分析与Git集成,同时支持丰富多样的插件生态,实现了实时离线一体化、湖仓一体化、大数据AI一体化,助力“Data+AI”全生命周期的数据管理。

自2009年起,DataWorks不断对阿里巴巴数据体系进行产品化沉淀,服务于政务、金融、零售、互联网、汽车、制造等行业,使数以万计的客户信赖并选择DataWorks进行数字化升级和价值创造。


DataWorks 数据开发核心能力全景图

一、AI原生开发环境

1. 智能算力调度

  • 支持CPU/GPU混合资源池化调度:DataWorks  Serverless资源组支持配置CPU类型和GPU类型的资源。以免运维、按需付费、弹性伸缩的Serverless架构,将大数据处理与AI开发能力无缝融合。开发者在创建个人开发环境时,可以按需选择个人开发环境实例的资源规格,以支持进行高性能的计算工作。

image.png


2. 全栈开发支持

  • 深度集成阿里云DSW,提供AI原生的Python开发环境:在个人开发环境下,Data Studio支持Python语言的智能生成、一键纠错、注释生成及代码解释等能力,开发效率翻倍,同时支持Python的可视化断点调试、代码即时运行以及发布到调度系统,实现了Python的全流程开发闭环。

compress_截屏2025-04-08 17.36.18.png


3. Notebook交互式编程

  • 提供交互式、灵活且可复用的数据处理和分析环境 Notebook:增强了数据开发与分析过程中的直观性、模块化和交互性,帮助您更轻松地进行数据处理、探索、可视化和模型构建。

image.png


4. 跨域智能编排

  • 深度集成阿里云人工智能平台 PAI:数据开发 Data Studio支持PAI Flow节点,突破性实现可视化通过拖拽式编排大数据算子服务来构建PAI Flow节点,创新打造可无缝衔接MaxCompute、Hologres、PAI Flow节点等的WorkFlow,通过统一编排,打通数据处理与模型训练双闭环,自动生成全域数据血缘图谱,完整覆盖从特征工程到模型部署的智能链路。

image.png


二、智能开发矩阵

DataWorks Copilot,作为一站式智能数据开发治理平台 DataWorks 的智能助手,借助AI推理和自然语言处理能力,在代码开发场景下,帮助开发者根据自然语言快速完成多种代码相关操作,包括 SQL/Python 代码的生成、续写、改写、优化、解释及代码纠错/测试用例生成等功能为数据开发的智能引擎,能够根据上下文快速理解业务需求,在企业专属领域知识库的加持下,DataWorks Copilot让开发者能够轻松、高效、便捷地完成数据ETL及数据分析工作,节省时间和精力,据调研统计,DataWorks Copilot 可平均为数据开发和分析工作效率提升35%。

image.png


代码补全

  • DataWorks Copilot代码补全能力,可对您正在编写的SQL进行智能代码补全。

compress_截屏2025-04-08 17.17.43 (1).png


代码生成

  • 您可通过自然语言表达您的业务需求,DataWorks Copilot会将自然语言指令自动转换成SQL/Python语句。

compress_截屏2025-04-08 17.21.05.png


代码改写

  • 您可通过自然语言对已有代码进行修改,只需要用自然语言说出您的要求,DataWorks Copilot就会对指定的代码进行改写;

compress_截屏2025-04-08 17.22.09.png


代码纠错

  • 在DataWorks中,在代码执行前,您可以主动对已有代码进行错误检查;在代码运行出错后,也可以通过一键纠错,发起对代码错误的纠正。DataWorks Copilot会告诉您当前代码运行出错的原因以及修正后的代码。

compress_截屏2025-04-08 17.50.47.png


代码解释

  • DataWorks Copilot可对您指定的代码内容进行解释,提升代码的可读性,方便您快速学习和理解代码。

截屏2025-04-08 17.51.45.png


生成注释

  • 您可以对指定的代码生成注释,提升代码的完整性及可读性。

截屏2025-04-08 17.52.31.png


代码问答

  • 您可以用自然语言提出对SQL语法或者MaxCompute函数的相关问题,DataWorks Copilot会给出解释和用法示例,帮助您加深对SQL语法及函数的理解。

截屏2025-04-08 17.53.01.png


DataWorks Copilot在官方默认的模型基础上,深度对接 DeepSeek-R1 系列模型,支持用户在Copilot Chat对话时,自由选择所需模型。

以下示例为在DeepSeek-R1 系列模型的加持下,DataWorks Copilot 新增实现的SQL优化与SQL测试功能。

代码优化

  • 在DataWorks Copilot Chat窗口中,您可以对指定的代码发起SQL优化,如引入JOIN结合多表等方式简化代码逻辑,提升代码运行效率,一定程度降低数据库的负载。

截屏2025-04-08 17.54.15.png


代码测试

  • 在DataWorks Copilot Chat窗口中,您可以对指定的代码生成测试用例。DataWorks Copilot会为您生成完整的代码测试报告,包含单元测试、代码性能、边界条件验证等多角度,并生成测试代码,您可据此逐步验证任务代码的每个部分是否按预期工作。

截屏2025-04-08 17.55.05.png


三、Agent智能应用

DataWorks Copilot 同时提供覆盖数据集成、数据开发、数据分析和数据治理等全链路的AI Agent服务,为开发者和企业用户提供智能化产品体验,以高效完成 DataWorks 产品操作。

1. AI可视化建表

  • 在Data Studio-数据目录中,借助DataWorks Copilot建表助手,您只需输入表名关键字即可完成表的创建。也可一键触发,智能推荐字段名称和字段描述的补全。

截屏2025-04-08 18.10.01.png


2. 数据开发Agent

  • 在Data Studio-数据开发中,借助DataWorks Copilot发布助手,您可一键生成上线发布描述,提高发布效率。

image.png


3. 查询结果可视化图表及见解生成

  • DataWorks-数据开发/数据分析中,借助DataWorks Copilot智能图表助手,您可一键生成基于查询结果的可视化图表及数据见解。

截屏2025-04-08 18.13.02.png


4. 智能数据洞察

  • DataWorks数据洞察能够基于AI模型计算,智能分析海量数据的特征、分布、异常、关联及趋势,高效生成数据见解和可视化图表。您可以使用数据洞察了解数据分布,创建数据卡片,并组合成数据报告。


5. 智能诊断专家

  • DataWorks运维中心的智能诊断正式对接Qwen、DeepSeek-R1(671B)模型。当任务运行异常时,您只需点击运行诊断,大模型即可秒级提取日志中的关键信息、提供错误分析、解决建议,并推荐错误修复的快捷操作,让AI成为您的运维助手。

image.png


6. 数据质量规则

  • DataWorks的数据质量规则模板可以帮助用户建设数据质量,在离线表上定义相关的规则。为优化手动配置规则的工作量,DataWorks的智能助手 DataWorks Copilot 推出了数据质量规则推荐功能,您可以使用这一功能,自动生成合适的数据质量规则,减少手动配置规则的时间和复杂性,提升数据质量工作效率,一键优化对核心表的数据质量保障。
  • 智能推荐数据质量规则:用户可以通过一键唤起Copilot的能力,基于DataWorks中完整的元数据信息,快速生成适用于特定数据表或业务场景的数据质量规则
  • 支持多种数据源类型:该功能支持常见的大数据引擎(如MaxCompute、E-MapReduce、Hologres等),并能够根据不同的数据源特性生成适配的规则
  • 多维度质量校验:推荐的规则覆盖数据质量的多个维度,包括完整性、准确性、有效性、一致性、唯一性和及时性,确保全面监控数据问题

compress_截屏2025-04-08 18.22.24.png


7. 数据服务API

  • DataWorks数据服务能够借助Copilot智能助手进行快捷API封装,极速定义请求参数和返回参数。

截屏2025-04-08 18.23.49.png


即刻行动

登录DataWorks体验智能开发,开启您的智能数据工程之旅 → 体验入口

更多案例,请进入DataWorks Gallery进行体验。


相关实践学习
基于MaxCompute的热门话题分析
本实验围绕社交用户发布的文章做了详尽的分析,通过分析能得到用户群体年龄分布,性别分布,地理位置分布,以及热门话题的热度。
一站式大数据开发治理平台DataWorks初级课程
DataWorks 从 2009 年开始,十ー年里一直支持阿里巴巴集团内部数据中台的建设,2019 年双 11 稳定支撑每日千万级的任务调度。每天阿里巴巴内部有数万名数据和算法工程师正在使用DataWorks,承了阿里巴巴 99%的据业务构建。本课程主要介绍了阿里巴巴大数据技术发展历程与 DataWorks 几大模块的基本能力。 产品官网 https://www.aliyun.com/product/bigdata/ide 大数据&AI体验馆 https://workbench.data.aliyun.com/experience.htm#/ 帮助文档https://help.aliyun.com/zh/dataworks 课程目标  通过讲师的详细讲解与实际演示,学员可以一边学习一边进行实际操作,可以深入了解DataWorks各大模块的使用方式和具体功能,让学员对DataWorks数据集成、开发、分析、运维、安全、治理等方面有深刻的了解,加深对阿里云大数据产品体系的理解与认识。 适合人群  企业数据仓库开发人员  大数据平台开发人员  数据分析师  大数据运维人员  对于大数据平台、数据中台产品感兴趣的开发者
相关文章
|
1月前
|
人工智能 程序员 测试技术
AI 时代,为什么编程能力≠ 开发门槛
在 2.0 阶段,我们目标是实现面向任务的协同编码模式,人的主要职责转变为任务的下发、干预以及最后结果的审查。在这个过程中,人的实际工作量开始减轻,AI 工作的占比显著提升。目前的 2.0 版本是我们最近上线的。
380 93
|
25天前
|
人工智能 Kubernetes API
Dify+DeepSeek实战教程!企业级 AI 文档库本地化部署,数据安全与智能检索我都要
接下来这篇文章,就打算用最接地气的方式,手把手带你从 0 到 1 搭建一套专属的本地知识库系统。无论你是想优化企业内部文档检索(不用担心敏感数据上传云端的风险),还是像我一样想为用户打造更智能的文档服务,都能跟着步骤一步步实现。咱们不卖关子,直接上干货
Dify+DeepSeek实战教程!企业级 AI 文档库本地化部署,数据安全与智能检索我都要
|
9天前
|
人工智能 缓存 JavaScript
通义灵码深度体验:AI编程助手如何提升全栈开发效率
通义灵码是一款强大的AI编程助手,支持从代码补全到智能体自主开发的全流程辅助。在React+Node.js项目中,其实现了100%字段匹配的Mongoose Schema生成;通过`@灵码`指令,30秒内完成天气查询CLI工具开发,包含依赖管理与文档编写。其上下文记忆能力可自动关联模块逻辑,如为商品模型扩展库存校验。集成MCP服务时,不仅生成基础代码,还推荐最佳实践并添加缓存优化。测试显示,其响应速度快、复杂任务准确率高,适合中小型项目快速迭代,初期开发效率提升约40%。尽管存在文档同步延迟和TypeScript支持不足的问题,仍是一款优秀的AI编程伙伴。
49 6
|
15天前
|
人工智能 自然语言处理 开发者
HarmonyOS NEXT~鸿蒙开发利器:CodeGenie AI辅助编程工具全面解析
鸿蒙开发迎来新利器!DevEco CodeGenie 是华为推出的 AI 辅助编程工具,专为 HarmonyOS NEXT 开发者设计。它具备智能代码生成(支持 ArkTS 和 C++)、精准知识问答以及万能卡片生成三大核心功能,大幅提升编码效率。通过与 DeepSeek 深度整合,CodeGenie 实现流畅的问答体验,帮助开发者解决技术难题。无论是新手还是资深开发者,都能从中受益,享受更智能高效的开发过程。快来体验吧!
71 5
|
1月前
|
人工智能 开发框架 决策智能
谷歌开源多智能体开发框架 Agent Development Kit:百行代码构建复杂AI代理,覆盖整个开发周期!
谷歌开源的Agent Development Kit(ADK)是首个代码优先的Python工具包,通过多智能体架构和灵活编排系统,支持开发者在百行代码内构建复杂AI代理,提供预置工具库与动态工作流定义能力。
221 3
谷歌开源多智能体开发框架 Agent Development Kit:百行代码构建复杂AI代理,覆盖整个开发周期!
|
15天前
|
人工智能 搜索推荐 API
🚀 2小时极速开发!基于DeepSeek+智体OS的AI社交「头榜」震撼上线!
基于DeepSeek大模型与DTNS协议的革命性AI社交平台「头榜」震撼上线!仅需2小时极速开发,即可构建完整社交功能模块。平台具备智能社交网络、AI Agent生态、Prompt市场、AIGC创作等六大核心优势,支持低代码部署与个性化定制。开发者可快速接入DeepSeek API,体验去中心化架构与数据自主权。官网:[dtns.top](https://dtns.top),立即开启你的AI社交帝国!#AI社交 #DeepSeek #DTNS协议
43 4
|
26天前
|
人工智能 搜索推荐 API
AI赋能大学计划·大模型技术与应用实战学生训练营——华东师范大学站圆满结营
4月24日,由中国软件行业校园招聘与实习公共服务平台携手阿里魔搭社区共同举办的AI赋能大学计划·大模型技术与产业趋势高校行大模型应用实战学生训练营——华东师范大学站圆满结营。
78 2
|
1月前
|
人工智能 JSON 小程序
【一步步开发AI运动APP】七、自定义姿态动作识别检测——之规则配置检测
本文介绍了如何通过【一步步开发AI运动APP】系列博文,利用自定义姿态识别检测技术开发高性能的AI运动应用。核心内容包括:1) 自定义姿态识别检测,满足人像入镜、动作开始/停止等需求;2) Pose-Calc引擎详解,支持角度匹配、逻辑运算等多种人体分析规则;3) 姿态检测规则编写与执行方法;4) 完整示例展示左右手平举姿态检测。通过这些技术,开发者可轻松实现定制化运动分析功能。
|
15天前
|
人工智能 自然语言处理 文字识别
阿里云 AI 搜索开放平台新增:服务开发能力
阿里云 AI 搜索开放平台新发布:服务开发能,可通过集成 dsw 能力并新增 notebook 功能,进一步提升用户编排效率。
116 0
|
1月前
|
人工智能 Java 定位技术
Java 开发玩转 MCP:从 Claude 自动化到 Spring AI Alibaba 生态整合
本文以原理与示例结合的形式讲解 Java 开发者如何基于 Spring AI Alibaba 框架玩转 MCP。
762 91

热门文章

最新文章

相关产品

  • 大数据开发治理平台 DataWorks