DataWorks:新一代 Data+AI 数据开发与数据治理平台演进

本文涉及的产品
大数据开发治理平台DataWorks,Serverless资源组抵扣包300CU*H
简介: 本文介绍了阿里云 DataWorks 在 DA 数智大会 2024 上的最新进展,包括新一代智能数据开发平台 DataWorks Data Studio、全新升级的 DataWorks Copilot 智能助手、数据资产治理、全面云原生转型以及更开放的开发者体验。这些更新旨在提升数据开发和治理的效率,助力企业实现数据价值最大化和智能化转型。

本文根据 DA 数智大会(Data+AI Conference)2024演讲实录整理而成,演讲信息如下:

演讲人:田奇铣 | 阿里云智能集团高级产品专家、阿里云 DataWorks 产品负责人

演讲内容:

- 新一代智能数据开发平台 DataWorks Data Studio,Data+AI 协同开发平台

- 全新升级 DataWorks Copilot 智能助手,数据开发分析平均提效35%

- DataWorks 全新升级数据资产治理,AI 时代的数据资产治理

- DataWorks 全面云原生转型,资源组全面 Serverless 化

- 更开放的 DataWorks,更好的开发者体验


image.png


DataWorks 积累和沉淀了阿里巴巴15年大数据建设方法论和最佳实践,深度适配阿里云 MaxCompute、Hologres、EMR、Flink、PAI 等数十种大数据和 AI 计算服务。阿里云智能集团高级产品专家、DataWorks 产品负责人田奇铣在DA数智大会(Data+AI Conference)中表示,今年,DataWorks全新升级和推出新一代Data+ AI智能湖仓一体数据开发与治理平台,为 OpenLake 湖仓一体数据架构提供智能化数据集成、数据开发、数据分析与主动式数据资产治理服务,助力“Data+AI”全生命周期的数据管理,致力于为用户构建一个开放的云原生数据开发治理平台。

新一代智能数据开发平台 DataWorks Data Studio,Data+AI 协同开发平台

为更好的适应湖仓一体、Data+AI 的发展趋势与需求,DataWorks 正式推出全新一代数据开发 IDE,即DataWorks Data Studio,在原有基础上进行全面的架构和云原生化升级,致力于打造一个更加开放的、更符合开发者习惯的云原生 WebIDE。新一代 Data Studio 适配更多计算引擎,新增支持流式计算引擎 Flink、StarRocks 等主流 OLAP 计算引擎;全新升级工作流,将工作流定义为可编排可管理、可独立调度的实体对象;覆盖多种数据仓库、Lakehouse 湖仓的统一元数据管理,同时覆盖了包含 AI 数据集、AI 模型在内的数据实体对象。可支持基于 OpenLake 湖仓一体架构的多种计算引擎协同数据开发。


新一代 Data Studio 更大的升级是在开发模式上,在传统的 WebIDE 之上,DataWorks 全新推出个人开发环境。个人开发环境是一种云原生的 WebIDE,构建在 Serverless 资源组之上,可为开发者提供自定义容器实例和自定义镜像能力,可以执行 Python、Shell 等脚本,并支持代码调试。在个人开发环境中,支持连接云存储 NAS 和 GIT,用户可以自由选择将任务代码存储在 NAS 中或者使用 GIT 进行代码版本管理。从 WebIDE 到云原生版 WebIDE,DataWorks 可以让你在任意地点像使用本地 IDE 一样使用云上的 IDE,最大程度为开发者保留更 Native 的开发体验。


个人开发环境的出现使得 DataWorks Notebook 应运而生,DataWorks Notebook 基于 PAI-DSW 构建,重点解决了 Jupyter Notebook 对于大数据开发分析支持的不完善的问题和增强了 Data+AI 协同开发的能力。DataWorks Notebook 支持多种计算引擎 SQL 查询,增强数据可视化,支持 Python 与 SQL 交互式数据分析,内置 Copilot 智能助手。DataWorks Notebook 同时将大数据计算引擎的分布式数据处理、Python 单机和分布式数据处理、AI 模型训练协同起来,提供 Data+AI 一站式协同开发。


全新升级 DataWorks Copilot 智能助手,数据开发分析平均提效35%

DataWorks Copilot 全面支持包含 MaxCompute SQL、Hologres SQL、Spark SQL、Hive SQL、StarRocks SQL 等在内的各类计算引擎的 SQL 方言的生成和 SQL 代码补全,同时支持 Python 等非 SQL 语言的代码生成;在 AI Agent 方向持续丰富,尤其是数据开发流程上提供各类 Agent,通过大模型的语义理解与内容生成能力,在找表、建表、图表生成、代码变更描述和函数描述生成等方面提供 Agent,提升了操作效率和体验。据调研统计,DataWorks Copilot 可平均为数据开发和分析工作效率提升35%,更重要的是, Copilot 为开发者在开发过程中带来愉悦感。


DataWorks 全新升级数据资产治理,AI 时代的数据资产治理

业务价值是数据资产治理的核心驱动力,为加速企业数据治理工作的落地,我们将 DataWorks 数据治理中心全新升级为 DataWorks 数据资产治理,提供了从技术视角+业务视角的资产治理体系和 Data+AI 全方位数据资产治理体系。DataWorks 数据资产治理新增通过业务标签将数据资产按数据产品或者业务进行分类,然后基于业务标签自动进行业务数据资产的健康评估,自动识别问题业务资产,推荐场景化数据治理计划,增强数据质量管理及数据安全管控。DataWorks 数据资产治理增加了对 AI 资产的覆盖,全新推出 Data+AI 全链路数据血缘,从数据集、数据处理、PAI 模型训练到 PAI 推理服务,端到端全链路追溯和可视化展现数据血缘,帮助 AI 开发者记录和识别数据与模型之间的关系,加速 AI 模型的迭代效率。


DataWorks 全面云原生转型,资源组全面 Serverless 化

为提升整体的服务效率和平台的开放度,DataWorks 进行了Kubernetes 改造,优化了任务调度策略,增强了网络层的灵活性以适配多样化需求。此外,引入了云原生调度系统,并对资源节点进行优化,以便更好地对接云产品,同时简化了用户对网络管理的复杂度,提升了数据处理的便捷性和灵活性。在此基础上 DataWorks 实现了资源组全面 Serverless 化,从原有多类型资源组统一为通用型资源组,Serverless 化不仅带来使用门槛的降低,更显著提升了资源的利用效率,付费方式的灵活和资源效率的提升,在保障更高安全性的情况下,大幅度降低了使用成本,特定使用场景下成本最高可节省40%。未来 DataWorks 将持续释放云原生技术红利,帮助企业有效降低数据生产的成本。


更开放的 DataWorks,更好的开发者体验

DataWorks 致力于为开发者提供更开放的、更灵活、更 Native 的开发体验。

DataWorks 将调度系统中DAG背后完整的定义描述FlowSpec完全开源(https://github.com/aliyun/alibabacloud-DataWorks-tool-dflow),并提供了便捷的配套工具,用户可以基于DataWorks FlowSpec快速将其他调度系统的工作流导入到DataWorks,也可以便捷的将DataWorks中的工作流导出,从而不用担心被Lock-in的问题。

同时,DataWorks 在提供高效方便的可视化开发界面的同时,也为用户提供了覆盖 DataWorks 完整产品能力的全套 OpenAPI,使得用户可以结合自身业务特点,将DataWorks的能力集成到其自有平台,甚至是构建一套高度定制化的数据管理平台。


DataWorks致力于打造更加开放、更加智能的,面向湖仓一体架构和Data+AI场景的一站式数据开发治理平台,助力企业快速实现数据价值的最大化和智能化转型。

产品体验优惠

为了回馈广大用户的支持,DataWorks将在11月推出版本使用优惠活动*,在基础版免费使用的基础上,届时新购/升级到标准版或专业版的用户,将免费体验企业版独有的数据资产治理功能3个月;购买/升级到企业版的用户,可享受首月299元的优惠。

*具体活动细则与说明,敬请关注阿里云官网DataWorks产品详情页

相关实践学习
基于MaxCompute的热门话题分析
本实验围绕社交用户发布的文章做了详尽的分析,通过分析能得到用户群体年龄分布,性别分布,地理位置分布,以及热门话题的热度。
一站式大数据开发治理平台DataWorks初级课程
DataWorks 从 2009 年开始,十ー年里一直支持阿里巴巴集团内部数据中台的建设,2019 年双 11 稳定支撑每日千万级的任务调度。每天阿里巴巴内部有数万名数据和算法工程师正在使用DataWorks,承了阿里巴巴 99%的据业务构建。本课程主要介绍了阿里巴巴大数据技术发展历程与 DataWorks 几大模块的基本能力。 课程目标  通过讲师的详细讲解与实际演示,学员可以一边学习一边进行实际操作,可以深入了解DataWorks各大模块的使用方式和具体功能,让学员对DataWorks数据集成、开发、分析、运维、安全、治理等方面有深刻的了解,加深对阿里云大数据产品体系的理解与认识。 适合人群  企业数据仓库开发人员  大数据平台开发人员  数据分析师  大数据运维人员  对于大数据平台、数据中台产品感兴趣的开发者
目录
相关文章
|
1月前
|
存储 人工智能 Cloud Native
云栖重磅|从数据到智能:Data+AI驱动的云原生数据库
在9月20日2024云栖大会上,阿里云智能集团副总裁,数据库产品事业部负责人,ACM、CCF、IEEE会士(Fellow)李飞飞发表《从数据到智能:Data+AI驱动的云原生数据库》主题演讲。他表示,数据是生成式AI的核心资产,大模型时代的数据管理系统需具备多模处理和实时分析能力。阿里云瑶池将数据+AI全面融合,构建一站式多模数据管理平台,以数据驱动决策与创新,为用户提供像“搭积木”一样易用、好用、高可用的使用体验。
云栖重磅|从数据到智能:Data+AI驱动的云原生数据库
|
1月前
|
人工智能 关系型数据库 分布式数据库
拥抱Data+AI|“全球第一”雅迪如何实现智能营销?DMS+PolarDB注入数据新活力
针对雅迪“云销通App”的需求与痛点,本文将介绍阿里云瑶池数据库DMS+PolarDB for AI提供的一站式Data+AI解决方案,助力销售人员高效用数,全面提升销售管理效率。
|
3天前
|
人工智能 数据可视化 JavaScript
NodeTool:AI 工作流可视化构建器,通过拖放节点设计复杂的工作流,集成 OpenAI 等多个平台
NodeTool 是一个开源的 AI 工作流可视化构建器,通过拖放节点的方式设计复杂的工作流,无需编码即可快速原型设计和测试。它支持本地 GPU 运行 AI 模型,并与 Hugging Face、OpenAI 等平台集成,提供模型访问能力。
41 14
NodeTool:AI 工作流可视化构建器,通过拖放节点设计复杂的工作流,集成 OpenAI 等多个平台
|
6天前
|
人工智能 数据库 自然语言处理
拥抱Data+AI|DMS+AnalyticDB助力钉钉AI助理,轻松玩转智能问数
「拥抱Data+AI」系列文章由阿里云瑶池数据库推出,基于真实客户案例,展示Data+AI行业解决方案。本文通过钉钉AI助理的实际应用,探讨如何利用阿里云Data+AI解决方案实现智能问数服务,使每个人都能拥有专属数据分析师,显著提升数据查询和分析效率。点击阅读详情。
拥抱Data+AI|DMS+AnalyticDB助力钉钉AI助理,轻松玩转智能问数
|
17天前
|
人工智能 自然语言处理 前端开发
Lobe Vidol:AI数字人交互平台,可与虚拟人和3D模型聊天互动
Lobe Vidol是一款开源的AI数字人交互平台,允许用户创建和互动自己的虚拟偶像。该平台提供流畅的对话体验、丰富的动作姿势库、优雅的用户界面设计以及多种技术支持,如文本到语音和语音到文本技术。Lobe Vidol适用于娱乐互动、在线教育、客户服务、品牌营销和社交媒体等多个应用场景。
76 7
Lobe Vidol:AI数字人交互平台,可与虚拟人和3D模型聊天互动
|
23天前
|
存储 人工智能 自然语言处理
拥抱Data+AI|B站引入阿里云DMS+X,利用AI赋能运营效率10倍提升
本篇文章针对B站在运营场景中的痛点,深入探讨如何利用阿里云Data+AI解决方案实现智能问数服务,赋能平台用户和运营人员提升自助取数和分析能力,提高价值交付效率的同时为数据平台减负。
拥抱Data+AI|B站引入阿里云DMS+X,利用AI赋能运营效率10倍提升
|
1月前
|
人工智能 数据挖掘 数据库
拥抱Data+AI|破解电商7大挑战,DMS+AnalyticDB助力企业智能决策
本文为数据库「拥抱Data+AI」系列连载第1篇,该系列是阿里云瑶池数据库面向各行业Data+AI应用场景,基于真实客户案例&最佳实践,展示Data+AI行业解决方案的连载文章。本篇内容针对电商行业痛点,将深入探讨如何利用数据与AI技术以及数据分析方法论,为电商行业注入新的活力与效能。
拥抱Data+AI|破解电商7大挑战,DMS+AnalyticDB助力企业智能决策
|
11天前
|
SQL 数据采集 DataWorks
基于DataWorks的多场景实践及数据开发Data Studio最新体验测评
DataWorks是阿里云推出的一站式智能大数据开发治理平台,自2009年发布以来,历经多次迭代,成为企业数字化转型的重要工具。本文通过多个实践案例,如公共电影票房数据预处理,展示了DataWorks如何帮助企业高效处理大数据,涵盖数据集成、ETL开发、数据分析及治理等全流程。最新版DataWorks引入了智能助手Copilot,进一步提升了用户体验和工作效率。
|
1月前
|
存储 人工智能 关系型数据库
拥抱Data+AI|解码Data+AI助力游戏日志智能分析
「拥抱Data+AI」系列第2篇:阿里云DMS+AnalyticDB助力游戏日志数据分析与预测
拥抱Data+AI|解码Data+AI助力游戏日志智能分析
|
19天前
|
数据采集 DataWorks 搜索推荐
DataWorks产品评测:数据处理最佳实践与平台体验
DataWorks产品评测:数据处理最佳实践与平台体验
48 8

热门文章

最新文章

相关产品

  • 大数据开发治理平台 DataWorks
  • 下一篇
    DataWorks