DataWorks年度发布:智能化湖仓一体数据开发与治理平台的演进

本文涉及的产品
检索分析服务 Elasticsearch 版,2核4GB开发者规格 1个月
实时计算 Flink 版,5000CU*H 3个月
智能开放搜索 OpenSearch行业算法版,1GB 20LCU 1个月
简介: 阿里云在过去15年中持续为268集团提供数据服务,积累了丰富的实践经验,并连续三年在IDC中国数据治理市场份额中排名第一。新一代智能数据开发平台DateWorks推出了全新的DateStudio IDE,支持湖仓一体化开发,新增Flink计算引擎和全面适配locs,优化工作流程系统和数据目录管理。同时,阿里云正式推出个人开发环境模式和个人Notebook,提升开发者体验和效率。此外,DateWorks Copilot通过自然语言生成SQL、代码补全等功能,显著提升了数据开发与分析的效率,已累计帮助开发者生成超过3200万行代码。

一、阿里云发展现况

1.背景

15年我们一直服务和支撑268集团内部的数据动态的建设,每个月有超过5万名同学不断地在打磨我们的产品,我们也在不断地积累和沉淀大数据建设的方法论最佳实践,并将他们产品化,在云上输出,服务于云上千行百业的企业组织各类的单位。在idc的中国数据资产中国数据治理份额的报告当中,阿里云已经连续三年获得市场份额第一,在itc中国大数据平台市场份额云服务市场。阿里云已经连续四年获得市场份第一。同时我们也是国内唯一入forest的宇宙仓位卓越表现者和lachouse wave
竞争者以上下线的厂商。


2.现代企业数据架构的演进

近60年以来,我们企业的数据架构一直在不断地演变。从最初的数据库到数据仓库数据服到服仓一体不断地演进,不断地遇到更大的挑战与之对应的数据的需求变得更加复杂多变。从去年开始,date加ai成为了热点。严格来说date加ai其实不算是一种数据架构,它更像一种需求场景。dATA+Ai时代要求企业数据架构能够更好的去满足大数据ai体化的开发和治理的需求。这时湖仓一体的架构优势就凸显出来了,的能力可以很好管理节目化的数据。而湖能力就可以很好的支持非整化数据的管理。基于这个背景我们正式发布了阿里云openlake的解决方案。open lake是一个开放的平台架构,可以用于构建大数据搜索网ai一体化的解决方案。databox为open leg架构提供了统一的数据管理平台,它可以让自由地去选择各种各样的计算引擎。比如说p的流的olap,还有ai和搜索。可以去自由去访问狗蛋的数据,然后进行数据的处理和ai的计算。基于open lake价格呢databox今年全面升级为一式的智能化湖仓一体的数据开发治理平台,希望为企业提供全生命周期的数据管理。


二、新一代的智能数据开发平台

Dateworks将在今天正式推出新一代的数据开发ide--Datestudio。为了更好的去适应我们湖仓一体的Date +ai的发展需求。我们对Datestudio进行了全新的架构升级和云烟分化的改造,希望能够达到一个更加开放的,更加符合开发者体验,更加符合开放的习惯的云原生的外利益。


1.Datestudio全新升级湖仓一体化数据开发

湖仓一体开发方向的新一代Datestudio,我们做了很多的升级,适配了更多的计算引擎新增的flink计算引擎可以支持牛皮体化的数据开发。我们对locs也做了全面的适配,包括从数据集成开发、调度、运维到数据治理做的端到端的适配同时也升级了工作流程系统。原有的业务流程更多的是一种业务流程新一代的工作系统一个可以被编排被管理,可以被独立调动的对象。可以在工作者里面编排各种各样的计划节点,也可以将工作流视为一个节点进行整体的管理。第点我们提供的湖仓一体化的数据目录管理。不管是用数据湖,还是数据仓库,不管多少种madosloop都可以在数据目录里面进行统一的管理。同时我们的数据目录也覆盖了更多的数据实体对象,包含内表、外表、物化视图以及ai市场,包括ai的数据及ai的模型。我们的数据目录可以跟我们的ide进行无缝的结合,可以帮助你在数据开发的过程中随时随地去查找所需要的元数据。


2. 全新推出个人开发环境模式

如果说前面这点只能算是一个常规的升级,那么新一代的这些studio更大的升级其实是在开发模式上面,我们今天正式推出个人开发环境传统的webide更加注重的是项目内部的协作大家同在一个工作空间,共享一份项目空间,代码以及资源都是共享的缺乏个人空间,经常导致每个人在工作空间里面要建各种各样的个人目录来管理自己的私人资产。而且传统的webide是以数据开发为主的,一般来说只能写一些SQL并且要提交到远程的云上的计算引擎中进行执行,不具备在本地去执行任何的计算,任何的脚本。云远程webide是在传统的webide基础项目协同开发环境基础上,额外提供了个人开发环境。个人开发环境底下搭配的是云烟生化的资源实力。这个实力完全是容器化的管理,你可以自己去定义你的镜像,这样就可以允许你去执行各种各样的脚本。比如pathon或者需要的脚本,也可以进行代码的调试。而且我们将代码的管理的自由度全部开放给开发者,你可以用自己的gitnas来存储和管理你的代码版本做代码的导入导出在我们新一代的X96,我们的云烟生化的webide,你可以在个人开发环境和项目协同的环境中来回切换你在个人开发环境开发好的任务,可以发布到项目项目协同环境里面去做工作的编排跟任务的调度。我们希望像打造一个随时随地用本地Ide一样去使用我们云上的flinm加ai的开发的IDE


3.全新推出notebook接下来让我们来看一段新一代Datestudio的产品显示。

dateworks支持按照工作流的方式进行多引擎数据开发工作流,支持数据集成、xcomputer等数十种引擎类型的引擎编排节点创建完成后,我们可以通过格式化拖拽的方式进行任务编排。我们还可以对工作流程所有节点的通用参数及属性进行统一配置,无需对单个节点进行逐一配置。Datestudio支持数据集成xcompeter数十种不同引擎类型节点的数据开发。它还支持复杂的调试配置及调度配置。我们还可以按照需要将数据开发任务发布至开发或生产环境。Datestudio具备湖仓一体的数据目录管理能力。我们可以在数据目录中新建并管理我们所需的原数据。切换至个人开发环境,我们可以将pathon代码文件存储至个人文件存储服务,我们还可以开发pathon代码,并对它进行运行及调试。


那么有了各的开发环境之后,studio就不仅仅可以提供像ide这样的服务。我们今天将正式推出dataox notebook。这几年来notebook广受我们ai开发者的欢迎,但是guptnotebook它对数据开发和数据分析的真实能力其实并不完善dateworksnotebook是在guptnotebook的基础之上做大量的优化和增强。比如我们提供了SQL的能力,可以支持多种计算引擎的circle的查询,开发circle,还与pathon进行非常深整合提供的交互式的查询,我们提供数据可视化的能力,集成了copai智能化的能力。我们的notebook可以编排到工作流里做调度接下来关于Notebook的视频。


在dateworksnotebook中支持新增cpocail.。面向多种大数据引擎进行数据开发与分析,这是emS8cpo,支持holesciSQL。支持StarRocksSQL。也支持nescompeterSQL.。运行SQL我们还可以将查询结果制作成各种可视化图表。除此之外,data dateworksnotebook还支持交互式分析。通过pathon编写wisos组件能够在SQL中实现更加简单直观的交互式查询。SQL查询结果能够存储在paidnag frame数据对象中,以变量的形式进行传递。例如,在pathoncil中可以读取dateframe变量位置图表,实现pathonSQL的联动,内置智能编程助手,能够通过dataworks copilot辅助生成SQL代码。同时也能够生成pathon代码,你还可以使用dateworksnotebook,实现大数据及ai一体化开发,例如使用pandaspo进行数据清洗与准备,使数据内容如何算法模型输入要求。接下来基于清洗数据进行算法模型的开发、训练与评估。以上就是dateworksnotebook的产品演示,谢谢观看。

可以看到我们的notebook对pathonsql之间的联动和交互的查询做了大量的优化SQL的结果,可以保持到对的datefrme里面对pathon进行遏制的处理,pathon的变量又可以在sql里面去引用。那么使用dateworksnotebook可以将大数据引擎的计算能力和pathon的本地的计算和分布式的计算,以及ai的训练结合起来,提供这种dATA+Ai的一式的开发体验。databooks也提供datebook分布能够模板在我们的data boss gary里面,大家可以到我们的控制台里面直接去体验datebooks的一些能力。


3. 更开放的DateWork dato studio

我们对新一代的dateworkstadio做了大量的技术重构,希望能够达到更加开放,更加于云延伸。关于开放性和原生的特性,以及背后的一些思考将会由阿里云的大数据ai的首席架构师林伟跟大家做深入的解读。我们新一代的datestudio即日起全面开放公测。大家可以在北京、上海、深圳、杭州市的region,通过新建我们的工作空间进行体验,也可以进入第六个控制台领取我们open lake解决方案的免费试用,去体验新的能力。未来我们将陆续开放存量的工作空间,切换到新一代的datestudio中。


4. 全新架构的dateworks数据平台

同样我们对数据集成也做了相应的架构的一些升级。我们进行flink cdc重的数据集成引擎,打造全场景的云原生的数据同步平台。通过这个cdc的能力,让我们具备了更加丰富的connect生态,具备更强的数据处理的能力。全新架构的datework数据集成支持丰富的数据同步场景,包含离线同步、实施同步引擎全量增量一体化的数据同步。数据的入库入湖入仓单表的同步,整库的同步和分布分表的同步。在实时入湖方面,我们全面支持了主流的四大数据表格式,包括paimon、ipad、 lake和hudi

 

三、云原生DateWorks Serverless 资源组

1.总体概括

前面我讲了关于开发平台的升级。开发平台的背后,其实需要调度资源,计算数据集成同步的资源,以及数据计算的资源。今年我们对dataworks的计算资源进行了云原生深化的升级,推出了serverless的资源DateWorks资源组相比之前的一些资源组有显著优势。首先serverless资源组是一个通用型资源组,不需要再去区分用途。以前的ecs元组需要区分,需要区分是用来做调度的,或者用来做数据同步的,还是用来做数据服务的,现在完全不需要区分。只要创建一个serverless资源股。甚至可以为不同的用途去分配不同的计算的配额。原有的ESL资源组分为共享资源组独享资源组。serverless资源组完全独享资源,而且提供了高隔离器。可以自己定义独享资源的迹象,自己定义网络的控制,我们支持辅导vbc网络,具备更高的安全性。


2. 降本增效

那么对于云原生dateworksservece来说,按量计费以及资源的弹性,可以说是两个最显著的特征dateworksseveless资源组,我们支持手动和自动定时自动进行资源的弹性。我们可以在任务运行的过程中进行括缩容,也不会影响任务的正常的运行。我们提供的容器化的资源管理,提供了更小力度的资源控制,这样可以有效的去减少资源的碎片的产生,提升资源的利用率。在某些场景使用我们的新一代的serverless资源组相比以前的资源组,最高成本可以降低40%。对于datebooks我们将持续去释放原生的技术红利,去帮助企业去降低数据生产的成本。在这里我也推荐大家逐步加EC资源组切换到serverless资源组。

 

四、DateWorks Copilot

接下来大家分享在智能化上面的一个定档。如果说我们前面提到的基于open leg架构、开放仓架构,可以帮助我们的开发者更好地度过dATA+Ai的开发其实是DateWorks Copilot环节。datawworks本身也在积极去拥抱ai。我们希望通过ai for date 通过ai的能力,帮助大数据平台提供智能化的产品体


1. 持续进化中的DateWorks Copilot

我们在去年的10月16号推出DateWorks Copilot不到一年的时间,我们持续进化。最初只是持自然语言生成SQL只支持mascombit这一种SQL。后面我们推出了对于COPAI的使用更加高频的代码补全能力。然后去适配是主流的车口的方言。比如SUBASSQLHOLO的SQL,HAS的SQL,现在我们通通都可以支持,甚至也扩展到了像pathon这样的非SQL的语言。在agengt方面我们持续的分布,尤其是在数据开发流程上面,我们提供各式各样的aggend。我们希望通过agen的能力,通过大模型的语义理解和内容生成的能力,在找表表以及在代码的,比如说变更的描述的生成函数描述的生成等的方面,通过agend能帮大家去提升我们的研发的效率。


2. Copilot时代的产品交互变革

生成的AI已经深刻的影响了软件的交互形态。软件交互命令函到图形界面。如今正在走向自然语言的交互界面。DateWorks Copilot除了提供对话式的窗口以及现在IIDE里面的这种代码不全的能力。未来我们将在将更多的IgEl里,在适当的位置,适当的工程,在生产AI这些上的领域陷入更多的copilot产品交互,让开发者可以通过自然语言的交互去完成原来需要通过复杂界面才能完成的操作。


3.DateWorks Copilot最新产品演示

DateWorks Copilot最新的产品演示,它支持自然语言生成SQL,让数据查询变得轻而易举,也可以对你有的SQL进行改写和优化。你只需要选中SQL,然后在copilot的中描述你的想法即可。有时候你想实现一个功能,但不知道怎么写sql这个时候你只需要对的copilot进行直白的描述你要实现的需求,copilot的也可以提供最后语法和函数的问答。copilot可以成为你学习最后的好帮手,他会细心讲解思维语法和函数用法,并给出视力代码,帮助你理解生产注释,也是copilot才艺效能力,很适合卫健表语句生成自断描述,你基本上是需要稍微调整一下文字的就可以使用你如果遇到不太理解的复杂SQL,可以让公开的来帮你解释SQL的逻辑和用途。


SQL运行出错时,使用copilot可以实现一键自动纠错,并提供修改前后的代码比对,让你不用心逐行查找错误。SQL代码股权是DateWorks Copilot最常用的功能。copilot能够根据代码上下文和原数据智能补全接下来你想写的SQL代码能够显著提升数据开发与分析的效率。aiagencopilot的另一项重要能力。比如智能找表agen,copilot可以提供通过自然语言来快捷找表,copilot也可以互助你表,可以通过自然语言生成表语句,也可以帮助你推荐自和完善自断描述。在任务发布时,我们经常要写发布描述,copilot可以通过解读SQL代码帮你自动生成代码变更描述,创建UDS时候,拍的也可以根据UDS代码一键生成ubm函数功能描述还会给出要用视力代码copilot支持智能图表,生成可以自动推荐图表类型生成图表标题和数据见解DateWorks Copilot的能力远不止这些更多功能等你来探索。以上就是DateWorks Copilot的演示内容


大家一定很关心DateWorks Copilot落地的效果。DateWorks Copilot的发布一年多以,已经累计帮助我们的开发者生成和被采纳了超过3200万行的代码,数量每天还在不断地增长。已经有超过6万人在他的日常的当中使用了copilot。同时根据我们的调研和统计,我们copilot的可以平均帮助我们的数据开发和分析提升35%的效率。但更重要的是,在你写代码的过程当中,copilot能够连续的自动的推荐下一行的代码,或者次性就能够生产满足你需求的并且成功运行的代码。Copilot对于开发者创造极具价值,提供更好的开发者体验了。今天我们将正式开放全面的copilot公测。预计下周所有的用户都可以体验到DateWorks Copilot。

 

五、AI时代的数据资产治理

1.数据治理中心升级为数据资产治理

首先我们将DateWorks 的数据治理中心全新升级为数据资产治理。之前的数据治理中心更多的是面向研发技术视角的。我们倡导融入开发过程的数据治理,而不是先开发后治理。数据治理中心呢包含了丰富的这个事情的问题的识别跟拦截事后的问题识别跟自动化的处置。升级到数据资产治理之后,增加一种全新的业务视角的数据治理管理能力。通过新增业务标签,将数据资产按照你的数据产品或者数据业务进行分类,提供业务视角的数据资产治理的体系。同时我们增加了对ai资产的覆盖,包含ai的模型,ai的数据及ai的推理服务。希望通过数据资产的治理能力,去构建date+Ai的一体化的资产的全面的管理能力。如果技术视角是按照资源数据对象的类型,比如表同步任务计算任务去做分类治理。那么在数据资产治理当中我们相当于拥有了另外一个维度。通过标签,我们明确数据资产。对于数据产品和数据业务的支撑的链路,可以按照数据产品和业务的视角去管理和治理数据资产。这样就可以让你的数据治理活动能够更好地以业务区业务价值为驱动,也能够说清楚数据治理所产生的业务价值。


2.核心优势

第一个基于我们的标签体系,数据资产治理可以自动汇总和统计对应业务标签下的资产的健康程度,可以帮助你及时的了解和优化核心资产的健康度。第二个在成本的分析优化方面,可以自动去识别问题,资产自动去推荐,预估治理效益的产品化的治理计划,通过治理计划,可以帮助企业快速去落地数据治理的项目,周期性的跟踪数据治理的成效。第全新增强了数据质量的能力。提供的独立的数据质量检测节点。这样可以将数据质量检测和数据计算任务进行有效的、合理的、灵活的编排。让数据质量的检测和开发过程做到无缝的先进。第点,进一步增强了主动式的数据治理的能力,尤其是对业务安全、业务资产的安全保障方面,增强了风险事件的识别和拦截能力,可以保障高危风险能够及时的被发现、被阻断或者被处罚一个审批的流程从而保障我们业务资产的安全性。


3.升级数据血缘

推出了dATA+Ai全链路的数据血缘。包括从数据集到数据处理,到模型的训练和模型的推理端到端的覆盖。也就是说,通过的数据血缘,可以看到整个数据的从dATA+AI整个开发过程的数据流向,帮助大家去锻造端到端链路的追溯和跟踪,并且可视化的展示。数据血缘可以帮助的AI开发者更好地去记录,去回溯识别数据和模型之间的关系。从此让我们的ai模型的迭代效率大大的提升。

以上就是DateWorks 发布的所有产品内容。DateWorks 是致力于打造更加开放、更加智能,能够面向湖仓一体和DATE +AI场景的一站式的数据开发与治理平台,欢迎大家去官网去免费试用。

相关实践学习
AnalyticDB MySQL海量数据秒级分析体验
快速上手AnalyticDB MySQL,玩转SQL开发等功能!本教程介绍如何在AnalyticDB MySQL中,一键加载内置数据集,并基于自动生成的查询脚本,运行复杂查询语句,秒级生成查询结果。
阿里云云原生数据仓库AnalyticDB MySQL版 使用教程
云原生数据仓库AnalyticDB MySQL版是一种支持高并发低延时查询的新一代云原生数据仓库,高度兼容MySQL协议以及SQL:92、SQL:99、SQL:2003标准,可以对海量数据进行即时的多维分析透视和业务探索,快速构建企业云上数据仓库。 了解产品 https://www.aliyun.com/product/ApsaraDB/ads
相关文章
|
3天前
|
人工智能 Cloud Native 大数据
DataWorks深度技术解读:构建开放的云原生数据开发平台
Dateworks是一款阿里云推出的云原生数据处理产品,旨在解决数据治理和数仓管理中的挑战。它强调数据的准确性与一致性,确保商业决策的有效性。然而,严格的治理模式限制了开发者的灵活性,尤其是在面对多模态数据和AI应用时。为应对这些挑战,Dateworks进行了重大革新,包括云原生化、开放性增强及面向开发者的改进。通过Kubernetes作为资源底座,Dateworks实现了更灵活的任务调度和容器化支持,连接更多云产品,并提供开源Flowspec和Open API,提升用户体验。
|
15天前
|
SQL 分布式计算 DataWorks
DataWorks智能交互式数据开发与分析之旅
本次实验将带您进行DataWorks Notebook的快速入门,包含:Notebook新建、多引擎SQL开发与分析、Python开发、交互式分析等,同时,使用DataWorks Copilot体验智能数据开发,体验智能交互式数据探索之旅。
|
21天前
|
机器学习/深度学习 存储 数据采集
解锁DataWorks:一站式大数据治理神器
解锁DataWorks:一站式大数据治理神器
42 1
|
5天前
|
SQL DataWorks 大数据
DataWorks产品体验测评
一文带你了解DataWorks大数据开发治理平台的优与劣
76 10
|
12天前
|
数据采集 人工智能 DataWorks
DataWorks产品最佳实践测评
DataWorks产品最佳实践测评
|
1月前
|
SQL DataWorks 数据可视化
DataWorks产品体验与评测
在当今数字化时代,数据处理的重要性不言而喻。DataWorks作为一款数据开发治理平台,在数据处理领域占据着重要的地位。通过对DataWorks产品的体验使用,我们可以深入了解其功能、优势以及存在的问题,并且与其他数据处理工具进行对比,从而为企业、工作或学习中的数据处理提供有价值的参考。
50 6
DataWorks产品体验与评测
|
25天前
|
SQL DataWorks 搜索推荐
DataWorks产品评测与最佳实践体验报告
DataWorks是阿里巴巴云推出的一款高效数据处理平台,通过内置的数据集成工具和ETL功能,实现了多源数据的自动化处理与分析。本文介绍了DataWorks在用户画像分析中的应用实践,展示了其如何帮助企业高效管理数据资源,支持决策制定及营销优化。同时,文章还评测了DataWorks的产品体验,包括开通流程、功能满足度等方面,并与其它数据开发平台进行了比较,突出了DataWorks在易用性、性能和生态完整性上的优势。最后,对Data Studio新版本中的Notebook环境进行了初步探索,强调了其在提升开发效率方面的价值。
59 16
|
19天前
|
SQL 分布式计算 DataWorks
DataWorks产品测评|基于DataWorks和MaxCompute产品组合实现用户画像分析
本文介绍了如何使用DataWorks和MaxCompute产品组合实现用户画像分析。首先,通过阿里云官网开通DataWorks服务并创建资源组,接着创建MaxCompute项目和数据源。随后,利用DataWorks的数据集成和数据开发模块,将业务数据同步至MaxCompute,并通过ODPS SQL完成用户画像的数据加工,最终将结果写入`ads_user_info_1d`表。文章详细记录了每一步的操作过程,包括任务开发、运行、运维操作和资源释放,帮助读者顺利完成用户画像分析。此外,还指出了文档中的一些不一致之处,并提供了相应的解决方法。
|
28天前
|
机器学习/深度学习 数据采集 DataWorks
DataWorks产品评测:数据处理与分析的最佳实践
DataWorks是阿里巴巴推出的大数据开发治理平台,支持从数据采集、预处理、存储到分析的全流程操作。本文评测了其在用户画像分析中的应用,包括数据收集、清洗、特征工程、模型训练、结果评估及应用部署等步骤,展示了其在提高数据资产管理效率、支持多种编程语言和技术栈、集成丰富可视化工具等方面的优势。同时,文章也指出了DataWorks在使用过程中的一些不便与问题,并提出了改进建议。
61 17
|
20天前
|
DataWorks 数据可视化 大数据
DataWorks 产品综合评测报告
《DataWorks产品综合评测报告》全面评估了DataWorks这款知名的大数据开发治理平台。报告从用户画像分析实践、日常工作中的应用、产品体验、与其他工具的对比及Data Studio公测体验等多个角度进行了详细评测。DataWorks在数据集成、可视化操作、任务调度等方面表现出色,但也存在一些技术难题和使用门槛。总体而言,DataWorks功能完整、易用性强,适合企业高效处理和分析大数据,助力决策制定和业务优化。

相关产品

  • 大数据开发治理平台 DataWorks
  • 云原生大数据计算服务 MaxCompute