一、阿里云发展现况
1.背景
15年以来我们一直服务和支撑268集团内部的数据动态的建设,每个月均有超过5万名同学不断地在打磨我们的产品,我们也在不断地积累和沉淀大数据建设的方法论最佳实践,并将他们产品化,在云上输出,服务于云上千行百业的企业组织和各类的单位。在idc的中国数据资产中国数据治理份额的报告当中,阿里云已经连续三年获得市场份额第一,在itc中国大数据平台市场份额供有云服务市场。阿里云已经连续四年获得市场份第一。同时我们也是国内唯一入录forest的宇宙仓位卓越表现者和lachouse wave
竞争者以上下线的厂商。
2.现代企业数据架构的演进
近60年以来,我们企业的数据架构一直在不断地演变。从最初的数据库到数据仓库数据服到服仓一体不断地演进,也不断地遇到更大的挑战,与之对应的数据的需求变得更加复杂与多变。从去年开始,date加ai成为了热点。严格来说date加ai其实不算是一种数据架构,它更像一种需求场景。dATA+Ai时代要求企业数据架构能够更好的去满足大数据ai一体化的开发和治理的需求。这时湖仓一体的架构的优势就凸显出来了,仓的能力可以很好管理节目化的数据。而湖能力就可以很好的支持非整化数据的管理。基于这个背景,我们正式发布了阿里云openlake的解决方案。open lake是一个开放的平台架构,可以用于构建大数据搜索网和ai一体化的解决方案。databox为open leg架构提供了统一的数据管理平台,它可以让你自由地去选择各种各样的计算引擎。比如说p的流的olap,还有ai和搜索。可以去自由去访问狗蛋的数据,然后进行数据的处理和ai的计算。基于open lake价格呢databox今年全面升级为一站式的智能化湖仓一体的数据开发治理平台,希望为企业提供全生命周期的数据管理。
二、新一代的智能数据开发平台
Dateworks将在今天正式推出新一代的数据开发ide--Datestudio。为了更好的去适应我们湖仓一体的Date +ai的发展需求。我们对Datestudio进行了全新的架构升级和云烟分化的改造,希望能够达到一个更加开放的,更加符合开发者体验,更加符合开放的习惯的云原生的外来利益。
1.Datestudio全新升级湖仓一体化数据开发
在湖仓一体开发方向的新一代Datestudio,我们做了很多的升级,适配了更多的计算引擎。新增的flink计算引擎可以支持牛皮体化的数据开发。我们对locs也做了全面的适配,包括从数据集成开发、调度、运维到数据治理做的端到端的适配。同时也升级了工作流程系统。原有的业务流程更多的是一种业务流程,而新一代的工作系统是一个可以被编排被管理,可以被独立调动的对象。可以在工作者里面编排各种各样的计划节点,也可以将工作流视为一个节点进行整体的管理。第三点我们提供的湖仓一体化的数据目录管理。不管是用数据湖,还是数据仓库,不管多少种madosloop都可以在数据目录里面进行统一的管理。同时我们的数据目录也覆盖了更多的数据实体对象,包含内表、外表、物化视图以及ai市场,包括ai的数据及ai的模型。我们的数据目录可以跟我们的ide进行无缝的结合,可以帮助你在数据开发的过程中随时随地去查找所需要的元数据。
2. 全新推出个人开发环境模式
如果说前面这三点只能算是一个常规的升级,那么新一代的这些studio更大的升级其实是在开发模式上面,我们今天正式推出个人开发环境。传统的webide更加注重的是项目内部的协作。大家同在一个工作空间,共享一份项目空间,代码以及资源都是共享的,缺乏个人空间,经常导致每个人在工作空间里面需要建立各种各样的个人目录来管理自己的私人资产。而且传统的webide是以数据开发为主的,一般来说只能写一些SQL并且需要提交到远程的云上的计算引擎中进行执行,不具备在本地去执行任何的计算,任何的脚本。云远程的webide是在传统的webide基础和项目协同开发环境基础上,额外提供了个人开发环境。个人开发环境底下搭配的是云烟生化的资源实力。这个实力完全是容器化的管理,你可以自己去定义你的镜像,这样就可以允许你去执行各种各样的脚本。比如pathon或者需要的脚本,也可以进行代码的调试。而且我们将代码的管理的自由度全部开放给开发者,你可以用自己的git和nas来存储和管理你的代码版本做代码的导入导出在我们新一代的X96,我们的云烟生化的webide,你可以在个人开发环境和项目协同的环境中来回切换你在个人开发环境开发好的任务,可以发布到项目项目协同环境里面去做工作里的编排跟任务的调度。我们希望像打造一个随时随地用本地Ide一样去使用我们云上的flinm加ai的开发的IDE。
3.全新推出notebook接下来让我们来看一段新一代Datestudio的产品显示。
dateworks支持按照工作流的方式进行多引擎数据开发工作流,支持数据集成、xcomputer等数十种引擎类型的引擎编排。节点创建完成后,我们可以通过格式化拖拽的方式进行任务编排。我们还可以对工作流程所有节点的通用参数及属性进行统一配置,无需对单个节点进行逐一配置。Datestudio支持数据集成xcompeter数十种不同引擎类型节点的数据开发。它还支持复杂的调试配置及调度配置。我们还可以按照需要将数据开发任务发布至开发或生产环境。Datestudio具备湖仓一体的数据目录管理能力。我们可以在数据目录中新建并管理我们所需的原数据。切换至个人开发环境,我们可以将pathon代码文件存储至个人文件存储服务,我们还可以开发pathon代码,并对它进行运行及调试。
那么有了各的开发环境之后,studio就不仅仅可以提供像ide这样的服务。我们今天将正式推出dataox notebook。这几年来notebook广受我们ai开发者的欢迎,但是guptnotebook它对数据开发和数据分析的真实能力其实并不完善。dateworksnotebook是在guptnotebook的基础之上做了大量的优化和增强。比如我们提供了SQL的能力,可以支持多种计算引擎的circle的查询,开发circle,还与pathon进行非常深整合提供的交互式的查询,我们提供数据可视化的能力,集成了copai智能化的能力。我们的notebook可以编排到工作流里做调度。接下来观看关于Notebook的视频。
在dateworksnotebook中支持新增cpocail.。面向多种大数据引擎进行数据开发与分析,这是emS8cpo,支持holesciSQL。支持StarRocksSQL。也支持nescompeterSQL.。运行SQL我们还可以将查询结果制作成各种可视化图表。除此之外,data dateworksnotebook还支持交互式分析。通过pathon编写wisos组件能够在SQL中实现更加简单直观的交互式查询。SQL查询结果能够存储在paidnag frame数据对象中,以变量的形式进行传递。例如,在pathoncil中可以读取dateframe变量位置图表,实现pathon与SQL的联动,内置智能编程助手,能够通过dataworks copilot辅助生成SQL代码。同时也能够生成pathon代码,你还可以使用dateworksnotebook,实现大数据及ai一体化开发,例如使用pandaspo进行数据清洗与准备,使数据内容如何算法模型输入要求。接下来基于清洗数据进行算法模型的开发、训练与评估。以上就是dateworksnotebook的产品演示,谢谢观看。
可以看到我们的notebook对pathon和sql之间的联动和交互的查询做了大量的优化SQL的结果,可以保持到对的datefrme里面对pathon进行遏制的处理,pathon的变量又可以在sql里面去引用。那么使用dateworksnotebook可以将大数据引擎的计算能力和pathon的本地的计算和分布式的计算,以及ai的训练结合起来,提供这种dATA+Ai的一站式的开发体验。databooks也提供datebook分布能够模板在我们的data boss gary里面,大家可以到我们的控制台里面直接去体验datebooks的一些能力。
3. 更开放的DateWork dato studio
我们对新一代的dateworkstadio做了大量的技术重构,希望能够达到更加开放,更加于云延伸。关于开放性和原生的特性,以及背后的一些思考将会由阿里云的大数据ai的首席架构师林伟跟大家做深入的解读。我们新一代的datestudio即日起全面开放公测。大家可以在北京、上海、深圳、杭州市的region,通过新建我们的工作空间进行体验,也可以进入第六个控制台领取我们open lake解决方案的免费试用,去体验新的能力。未来我们将陆续开放存量的工作空间,切换到新一代的datestudio中。
4. 全新架构的dateworks数据平台
同样我们对数据集成也做了相应的架构的一些升级。我们进行了flink cdc重构的数据集成引擎,打造全场景的云原生的数据同步平台。通过这个cdc的能力,让我们具备了更加丰富的connect生态,具备更强的数据处理的能力。全新架构的datework数据集成支持丰富的数据同步场景,包含离线同步、实施同步引擎全量增量一体化的数据同步。数据的入库入湖入仓单表的同步,整库的同步和分布分表的同步。在实时入湖方面,我们全面支持了主流的四大数据湖表格式,包括paimon、ipad、 lake和hudi。
三、云原生DateWorks Serverless 资源组
1.总体概括
前面我讲了关于开发平台的升级。开发平台的背后,其实需要调度资源,计算数据集成同步的资源,以及数据计算的资源。今年我们对dataworks的计算资源进行了云原生深化的升级,推出了serverless的资源组。DateWorks资源组相比之前的一些资源组有显著优势。首先serverless资源组是一个通用型资源组,不需要再去区分用途。以前的ecs元组需要区分,需要区分是用来做调度的,或者用来做数据同步的,还是用来做数据服务的,现在完全不需要区分。只要创建一个serverless资源股。甚至可以为不同的用途去分配不同的计算的配额。原有的ESL资源组分为共享资源组和独享资源组。serverless资源组完全独享资源,而且提供了高隔离器。可以自己定义独享资源的迹象,自己定义网络的控制,我们支持辅导vbc网络,具备更高的安全性。
2. 降本增效
那么对于云原生dateworksservece来说,按量计费以及资源的弹性,可以说是两个最显著的特征。dateworksseveless资源组,我们支持手动和自动定时自动进行资源的弹性。我们可以在任务运行的过程中进行括缩容,也不会影响任务的正常的运行。我们提供的容器化的资源管理,提供了更小力度的资源控制,这样可以有效的去减少资源的碎片的产生,提升资源的利用率。在某些场景使用我们的新一代的serverless资源组相比以前的资源组,最高成本可以降低40%。对于datebooks我们将持续去释放云原生的技术红利,去帮助企业去降低数据生产的成本。在这里我也推荐大家逐步加EC资源组切换到serverless资源组。
四、DateWorks Copilot
接下来给大家分享在智能化上面的一个定档。如果说我们前面提到的是基于open leg架构、开放湖仓架构,可以帮助我们的开发者更好地度过dATA+Ai的开发这其实是DateWorks Copilot的环节。datawworks本身也在积极去拥抱ai。我们希望通过ai for date 通过ai的能力,帮助大数据平台提供智能化的产品体验。
1. 持续进化中的DateWorks Copilot
我们在去年的10月16号推出DateWorks Copilot。不到一年的时间,我们在持续进化。最初只是持自然语言生成SQL只支持mascombit这一种SQL。后面我们推出了对于COPAI的使用更加高频的代码补全能力。然后去适配是主流的车口的方言。比如SUBASSQL,HOLO的SQL,HAS的SQL,现在我们通通都可以支持,甚至也扩展到了像pathon这样的非SQL的语言。在agengt方面我们也持续的分布了,尤其是在数据开发流程上面,我们提供各式各样的aggend。我们希望通过agen的能力,通过大模型的语义理解和内容生成的能力,在找表建表以及在代码的,比如说变更的描述的生成函数描述的生成等的方面,通过agend能帮大家去提升我们的研发的效率。
2. Copilot时代的产品交互变革
生成的AI已经深刻的影响了软件的交互的形态。软件交互从命令函到图形界面。如今正在走向自然语言的交互界面。DateWorks Copilot除了提供对话式的窗口以及现在IIDE里面的这种代码不全的能力。未来我们将在将更多的IgEl里,在适当的位置,适当的工程,在生产AI这些上层的领域陷入更多的copilot产品交互,让开发者可以通过自然语言的交互去完成原来需要通过复杂界面才能完成的操作。
3.DateWorks Copilot最新产品演示
DateWorks Copilot最新的产品演示,它支持自然语言生成SQL,让数据查询变得轻而易举,也可以对你有的SQL进行改写和优化。你只需要选中SQL,然后在copilot的中描述你的想法即可。有时候你想实现一个功能,但不知道怎么写sql这个时候你只需要对的copilot进行直白的描述你要实现的需求,copilot的也可以提供最后语法和函数的问答。copilot可以成为你学习最后的好帮手,他会细心讲解思维语法和函数用法,并给出视力代码,帮助你理解生产注释,也是copilot才艺效能力,很适合卫健表语句生成自断描述,你基本上是需要稍微调整一下文字的就可以使用你如果遇到不太理解的复杂SQL,可以让公开的来帮你解释SQL的逻辑和用途。
当SQL运行出错时,使用copilot可以实现一键自动纠错,并提供修改前后的代码比对,让你不用费心逐行查找错误。SQL代码股权是DateWorks Copilot最常用的功能。copilot能够根据代码上下文和原数据智能补全接下来你想写的SQL代码能够显著提升数据开发与分析的效率。aiagen是copilot的另一项重要能力。比如智能找表agen,copilot可以提供通过自然语言来快捷找表,copilot也可以互助你建表,可以通过自然语言生成建表语句,也可以帮助你推荐自段和完善自断描述。在任务发布时,我们经常要写发布描述,copilot可以通过解读SQL代码帮你自动生成代码变更描述,创建UDS时候,拍的也可以根据UDS代码一键生成ubm函数功能描述还会给出要用视力代码。copilot支持智能图表,生成可以自动推荐图表类型生成图表标题和数据见解,DateWorks Copilot的能力远不止这些更多功能等你来探索。以上就是DateWorks Copilot的演示内容。
大家一定很关心DateWorks Copilot落地的效果。DateWorks Copilot的发布一年多以来,已经累计帮助我们的开发者生成和被采纳了超过3200万行的代码,数量每天还在不断地增长。已经有超过6万人在他的日常的当中使用了copilot。同时根据我们的调研和统计,我们copilot的可以平均帮助我们的数据开发和分析提升35%的效率。但更重要的是,在你写代码的过程当中,copilot能够连续的自动的推荐下一行的代码,或者一次性就能够生产满足你需求的并且成功运行的代码。Copilot对于开发者创造极具价值,提供更好的开发者体验了。今天我们将正式开放全面的copilot公测。预计下周所有的用户都可以体验到DateWorks Copilot。
五、AI时代的数据资产治理
1.数据治理中心升级为数据资产治理
首先我们将DateWorks 的数据治理中心全新升级为数据资产治理。之前的数据治理中心更多的是面向研发技术视角的。我们倡导融入开发过程的数据治理,而不是先开发后治理。数据治理中心呢包含了丰富的这个事情的问题的识别跟拦截事后的问题识别跟自动化的处置。升级到数据资产治理之后,增加一种全新的业务视角的数据治理管理能力。通过新增业务标签,将数据资产按照你的数据产品或者数据业务进行分类,提供业务视角的数据资产治理的体系。同时我们增加了对ai资产的覆盖,包含ai的模型,ai的数据及ai的推理服务。希望通过数据资产的治理能力,去构建date+Ai的一体化的资产的全面的管理能力。如果技术视角是按照资源数据对象的类型,比如表同步任务计算任务等去做分类治理。那么在数据资产治理当中我们相当于拥有了另外一个维度。通过标签,我们明确数据资产。对于数据产品和数据业务的支撑的链路,可以按照数据产品和业务的视角去管理和治理数据资产。这样就可以让你的数据治理活动能够更好地以业务区业务价值为驱动,也能够说清楚数据治理所产生的业务价值。
2.核心优势
第一个基于我们的标签体系,数据资产治理可以自动汇总和统计对应业务标签下的资产的健康程度,可以帮助你及时的了解和优化核心资产的健康度。第二个在成本的分析优化方面,可以自动去识别问题,资产自动去推荐,预估治理效益的产品化的治理计划,通过治理计划,可以帮助企业快速去落地数据治理的项目,周期性的跟踪数据治理的成效。第三全新增强了数据质量的能力。提供的独立的数据质量检测节点。这样可以将数据质量检测和数据计算任务进行有效的、合理的、灵活的编排。让数据质量的检测和开发过程做到无缝的先进。第四点,进一步增强了主动式的数据治理的能力,尤其是对业务安全、业务资产的安全保障方面,增强了风险事件的识别和拦截能力,可以保障高危风险能够及时的被发现、被阻断或者被处罚一个审批的流程从而保障我们业务资产的安全性。
3.升级数据血缘
推出了dATA+Ai全链路的数据血缘。包括从数据集到数据处理,到模型的训练和模型的推理端到端的覆盖。也就是说,通过的数据血缘,可以看到整个数据的从dATA+AI整个开发过程的数据流向,帮助大家去锻造端到端链路的追溯和跟踪,并且可视化的展示。数据血缘可以帮助的AI开发者更好地去记录,去回溯识别数据和模型之间的关系。从此让我们的ai模型的迭代效率大大的提升。
以上就是DateWorks 发布的所有产品内容。DateWorks 是致力于打造更加开放、更加智能,能够面向湖仓一体和DATE +AI场景的一站式的数据开发与治理平台,欢迎大家去官网去免费试用。