DataWorks V2.0 新一代智能大数据研发平台-阿里云开发者社区

DataWorks V2.0 新一代智能大数据研发平台

2018-07-05 5406

版权

本文内容由阿里云实名注册用户自发贡献，版权归原作者所有，阿里云开发者社区不拥有其著作权，亦不承担相应法律责任。具体规则请查看《阿里云开发者社区用户服务协议》和《阿里云开发者社区知识产权保护指引》。如果您发现本社区中有涉嫌抄袭的内容，填写侵权投诉表单进行举报，一经查实，本社区将立刻删除涉嫌侵权内容。

简介： 在2018年7月12日，DataWorks将会发布一个新版本，DataWorks V2.0。DataWorks V2.0在V1.0的基础上，推出了很多强大的功能，以提升大数据研发、运维的效率。下面给大家讲解一下本次发布新增的功能点。

DataWorks（数据工场）是阿里云推出的大数据领域PaaS平台，是一站式的DW能力平台，提供数据集成、数据开发、数据管理、数据质量、数据服务、数据保护伞等全方位的产品服务。

全新的数据开发界面 DataStudio

数据开发（DataStudio）是DataWorks上被使用最多的界面，本次升级我们给数据开发界面做了一系列的改造，并将数据开发改名为DataStudio。DataStudio上拥有强大的SQL编辑器，SQL解析器；不仅让你SQL写的爽，还让你SQL读的爽，极大的提升SQL代码编写及阅读效率。DataStudio还推出了组件功能，支持将通用的代码逻辑封装成为组件，封装后的组件可直接在SQL节点中调用，只需要简单的配置输入输出即可，提升了SQL代码的可复用性。DataStudio还推出了业务流程的概念，业务流程可以将完成同业务的节点封装在一起，并通过拖拽来设置任务间的依赖，提升任务配置和管理的效率。除此之外还发布了一系列的开发辅助功能，只为提升数据开发效率。

SQL编辑器

为了SQL写的更爽，我们升级了SQL编辑器的功能。优化了SQL关键词提示，可快速编辑代码；新增在编辑SQL时能实时获取操作表的元数据，在编写过程中会自动提示表的列名，且将鼠标放在表名上，会显示表的元数据信息；编辑器支持SQL语法检测，能快速定位代码中的语法错误，提升SQL的准确性。升级后的SQL编辑器极大的提升了数据开发效率。我们除了在编辑代码上做了优化外，针对长SQL还进行了结构拆分，解决了长SQL 阅读难的问题。
DataWorks支持功能自定义配置，用户可根据开发习惯，自行配置编辑器的代码字体大小，关键字大小写等信息。
7695f7d2_e995_453b_bb9d_5907fd3a7cdf

业务流程

除了编辑器上的优化以外，我们还推出了解决方案和业务流程的概念。业务流程是对业务的抽象实体，以赋能用户能够以业务的视角来组织数据代码开发。业务流程可以被多个解决方案复用，用户可自定义组合一些业务流程为一个解决方案。在业务流程中，我们支持了全局参数，增加了参数的可复用性，解决同一个参数在多个任务中复用的问题。业务流程有入下几个优点：

帮助用户从业务视角组织代码，更清晰。提供基于任务类型的代码组织方式。支持多级子目录（建议不超过四级）。
可从业务视角查看整体的工作流，并进行优化
提供业务流程看板，开发更高效
可按照业务流程组织发布、运维。

除此之外，DataWorks还推出了手动业务流程，支持灵活配置全局参数，可每次运行时灵活传参。未来将会提供手动业务流程的调度API，可通过API触发任务，与你的系统紧密结合。

组件

在实际业务实践中，有大量的SQL代码过程很类似，过程中输入的表和输出的表的结构是一样的或者是类型兼容的，仅仅是名字不同而已。这个时候组件的开发者就可以将这样的一个 SQL 过程抽象成为一个SQL组件节点，将里面可变的输入表抽象成输入参数，把里面可变的输出表抽象成输出参数，就可以实现 SQL 代码的复用。组件的使用者在使用 SQL 组件节点的时候，只要从组件列表中选择和自己业务处理过程类似的组件，为这些组件配置上自己业务中特定的输入表和输出表，不用再重复复制代码，就可以直接生成新的组件 SQL 节点从而极大提高了开发效率，避免了重复开发。SQL 组件节点生成后的发布，调度的操作方法都和普通的 SQL 节点的操作方式是一样的。

强大的辅助开发功能

DataWorks新增了代码搜索功能，再也不用担心任务过多的情况下，找不到操作某表的节点代码了。
DataWorks新增了运行日志功能，可保留近三天内，SQL节点在界面上运行的日志及结果。减少代码重复运行率，再也不怕随意关闭查询结果页了。
DataWorks新增了回收站功能，节点下线以后，会自动转移至回收站中，一键恢复代码不是梦。

智能监控

智能监控（Intelligent Monitor，内部代号Mosad）是在DataWorks原有运维中心基础上做的一次升级改进。

在智能监控中，引入了新的概念——基线。通过基线，技术专家可以不再理会错综复杂的数据处理中间过程，只需指定真正决定业务的最终步骤，并设定期望完成的时间，之后的一切都交由智能算法来搞定。

通过基线，技术专家可以足够宏观，对任务链路进行全局把握。根据设定的期望完成时间，算法会自动推断过程中每一步任务的预警时刻。一旦有任务逾越界限，随即触发告警，帮助用户将故障消灭在萌芽时刻。

通过基线，技术专家也可以足够微观，对每一个任务状态进行全方位分析。根据任务的历史运行状态，算法会自动确定获得结果的关键路径。关键路径上的任务节点，将被严密监视，任何的异动——包括出错，甚至是运行变慢，都将直接出发告警，帮助用户将故障消灭在细微之处。

除了全新的基线，原有的监控规则也得到了加强。新的超时规则，基于相对时间进行判定，使监控规则更加灵活。免打扰时段、最小报警间隔等体贴功能，将会最大程度的保护技术专家的心智资源。

双模式开发

本次版本升级，DataWorks还完善了之前推出的双项目开发模式。在DataWorks的新版本中，支持双模式开发，即创建项目时，要求选择项目模式是简单模式还是标准模式，标准模式是一个项目两个环境（开发+生产）。升级后的标准模式和原始的双项目开发模式相比，多了规则的约束，以保证规范的数据开发。以下给大家讲解一下标准模式的特点：

所有任务的编辑，只能在开发环境中进行。生产环境的的代码无法直接修改，减少了生产环境代码的修改入口，尽可能的保证了生产环境代码的稳定。
开发环境默认不开启任务调度，避免开发环境每日运行会和生产环境项目抢夺运行资源，更好的保障了生产环境任务运行的稳定性。
生产环境运行会有一个默认的生产账号，生产账号产出的所有表都属于主账号，开发过程中查询生产表都需要单独申请，更好的做到了表权限的控制。
任务开发完毕后，要发布上生产都必须经历一个打包发布的过程（开发角色只允许编辑代码，发布操作需要运维角色或项目管理员来操作，相当于增加了一个代码二次审核的过程），完善了数据开发的规范，更好的保证生产环境代码的准确性。

以上是本次三合一发布新版本的大部分内容，鉴于本次新版本功能改动较大，老用户需要等待数据迁移成功后，才可使用。在2018年07月13日后加入阿里云的用户，可直接使用新版。老用户可通过注册一个新的阿里云账号来试用DataWorks V2.0的新功能。
大家有任何问题可在本文下发留言，或加入钉钉群AT彭敏、向翠、李珍珍三位同学寻求帮助。

DataWorks V2.0 新一代智能大数据研发平台

全新的数据开发界面 DataStudio

SQL编辑器

业务流程

组件

强大的辅助开发功能

智能监控

双模式开发

热门文章

最新文章

相关课程

相关电子书

探索云世界

热门

云计算

大数据

云原生

人工智能

数据库

开发与运维

活动广场

任务中心

训练营

直播

乘风者计划

下载

镜像站

技术资料

DataWorks V2.0 新一代智能大数据研发平台

全新的数据开发界面 DataStudio

SQL编辑器

业务流程

组件

强大的辅助开发功能

智能监控

双模式开发

热门文章

最新文章

相关课程

相关电子书