DataWorks V2.0 新一代智能大数据研发平台

本文涉及的产品
云原生大数据计算服务MaxCompute,500CU*H 100GB 3个月
大数据开发治理平台DataWorks,Serverless资源组抵扣包300CU*H
云原生大数据计算服务 MaxCompute,5000CU*H 100GB 3个月
简介: 在2018年7月12日,DataWorks将会发布一个新版本,DataWorks V2.0。DataWorks V2.0在V1.0的基础上,推出了很多强大的功能,以提升大数据研发、运维的效率。下面给大家讲解一下本次发布新增的功能点。

DataWorks(数据工场)是阿里云推出的大数据领域PaaS平台,是一站式的DW能力平台,提供数据集成、数据开发、数据管理、数据质量、数据服务、数据保护伞等全方位的产品服务。

全新的数据开发界面 DataStudio

数据开发(DataStudio)是DataWorks上被使用最多的界面,本次升级我们给数据开发界面做了一系列的改造,并将数据开发改名为DataStudio。DataStudio上拥有强大的SQL编辑器,SQL解析器;不仅让你SQL写的爽,还让你SQL读的爽,极大的提升SQL代码编写及阅读效率。DataStudio还推出了组件功能,支持将通用的代码逻辑封装成为组件,封装后的组件可直接在SQL节点中调用,只需要简单的配置输入输出即可,提升了SQL代码的可复用性。DataStudio还推出了业务流程的概念,业务流程可以将完成同业务的节点封装在一起,并通过拖拽来设置任务间的依赖,提升任务配置和管理的效率。除此之外还发布了一系列的开发辅助功能,只为提升数据开发效率。

SQL编辑器

为了SQL写的更爽,我们升级了SQL编辑器的功能。优化了SQL关键词提示,可快速编辑代码;新增在编辑SQL时能实时获取操作表的元数据,在编写过程中会自动提示表的列名,且将鼠标放在表名上,会显示表的元数据信息;编辑器支持SQL语法检测,能快速定位代码中的语法错误,提升SQL的准确性。升级后的SQL编辑器极大的提升了数据开发效率。我们除了在编辑代码上做了优化外,针对长SQL还进行了结构拆分,解决了长SQL 阅读难的问题。
DataWorks支持功能自定义配置,用户可根据开发习惯,自行配置编辑器的代码字体大小,关键字大小写等信息。
7695f7d2_e995_453b_bb9d_5907fd3a7cdf

业务流程

除了编辑器上的优化以外,我们还推出了解决方案和业务流程的概念。业务流程是对业务的抽象实体,以赋能用户能够以业务的视角来组织数据代码开发。业务流程可以被多个解决方案复用,用户可自定义组合一些业务流程为一个解决方案。 在业务流程中,我们支持了全局参数,增加了参数的可复用性,解决同一个参数在多个任务中复用的问题。业务流程有入下几个优点:

  • 帮助用户从业务视角组织代码,更清晰。提供基于任务类型的代码组织方式。支持多级子目录(建议不超过四级)。
  • 可从业务视角查看整体的工作流,并进行优化
  • 提供业务流程看板,开发更高效
  • 可按照业务流程组织发布、运维。

image

除此之外,DataWorks还推出了手动业务流程,支持灵活配置全局参数,可每次运行时灵活传参。未来将会提供手动业务流程的调度API,可通过API触发任务,与你的系统紧密结合。

组件

在实际业务实践中,有大量的SQL代码过程很类似,过程中输入的表和输出的表的结构是一样的或者是类型兼容的,仅仅是名字不同而已。这个时候组件的开发者就可以将这样的一个 SQL 过程抽象成为一个SQL组件节点,将里面可变的输入表抽象成输入参数,把里面可变的输出表抽象成输出参数,就可以实现 SQL 代码的复用。组件的使用者在使用 SQL 组件节点的时候,只要从组件列表中选择和自己业务处理过程类似的组件,为这些组件配置上自己业务中特定的 输入表和输出表,不用再重复复制代码,就可以直接生成新的组件 SQL 节点 从而极大提高了开发效率,避免了重复开发。SQL 组件节点生成后的发布,调度的操作方法都和普通的 SQL 节点的操作方式是一样的。

强大的辅助开发功能

DataWorks新增了代码搜索功能,再也不用担心任务过多的情况下,找不到操作某表的节点代码了。
DataWorks新增了运行日志功能,可保留近三天内,SQL节点在界面上运行的日志及结果。减少代码重复运行率,再也不怕随意关闭查询结果页了。
DataWorks新增了回收站功能,节点下线以后,会自动转移至回收站中,一键恢复代码不是梦。

智能监控

智能监控(Intelligent Monitor,内部代号Mosad)是在DataWorks原有运维中心基础上做的一次升级改进。

在智能监控中,引入了新的概念——基线。通过基线,技术专家可以不再理会错综复杂的数据处理中间过程,只需指定真正决定业务的最终步骤,并设定期望完成的时间,之后的一切都交由智能算法来搞定。

通过基线,技术专家可以足够宏观,对任务链路进行全局把握。根据设定的期望完成时间,算法会自动推断过程中每一步任务的预警时刻。一旦有任务逾越界限,随即触发告警,帮助用户将故障消灭在萌芽时刻。

通过基线,技术专家也可以足够微观,对每一个任务状态进行全方位分析。根据任务的历史运行状态,算法会自动确定获得结果的关键路径。关键路径上的任务节点,将被严密监视,任何的异动——包括出错,甚至是运行变慢,都将直接出发告警,帮助用户将故障消灭在细微之处。

除了全新的基线,原有的监控规则也得到了加强。新的超时规则,基于相对时间进行判定,使监控规则更加灵活。免打扰时段、最小报警间隔等体贴功能,将会最大程度的保护技术专家的心智资源。

双模式开发

本次版本升级,DataWorks还完善了之前推出的双项目开发模式。在DataWorks的新版本中,支持双模式开发,即创建项目时,要求选择项目模式是简单模式还是标准模式,标准模式是一个项目两个环境(开发+生产)。升级后的标准模式和原始的双项目开发模式相比,多了规则的约束,以保证规范的数据开发。以下给大家讲解一下标准模式的特点:

  1. 所有任务的编辑,只能在开发环境中进行。生产环境的的代码无法直接修改,减少了生产环境代码的修改入口,尽可能的保证了生产环境代码的稳定。
  2. 开发环境默认不开启任务调度,避免开发环境每日运行会和生产环境项目抢夺运行资源,更好的保障了生产环境任务运行的稳定性。
  3. 生产环境运行会有一个默认的生产账号,生产账号产出的所有表都属于主账号,开发过程中查询生产表都需要单独申请,更好的做到了表权限的控制。
  4. 任务开发完毕后,要发布上生产都必须经历一个打包发布的过程(开发角色只允许编辑代码,发布操作需要运维角色或项目管理员来操作,相当于增加了一个代码二次审核的过程),完善了数据开发的规范,更好的保证生产环境代码的准确性。

image

以上是本次三合一发布新版本的大部分内容,鉴于本次新版本功能改动较大,老用户需要等待数据迁移成功后,才可使用。在2018年07月13日后加入阿里云的用户,可直接使用新版。老用户可通过注册一个新的阿里云账号来试用DataWorks V2.0的新功能。
大家有任何问题可在本文下发留言,或加入钉钉群AT彭敏、向翠、李珍珍三位同学寻求帮助。
image

相关实践学习
基于MaxCompute的热门话题分析
本实验围绕社交用户发布的文章做了详尽的分析,通过分析能得到用户群体年龄分布,性别分布,地理位置分布,以及热门话题的热度。
一站式大数据开发治理平台DataWorks初级课程
DataWorks 从 2009 年开始,十ー年里一直支持阿里巴巴集团内部数据中台的建设,2019 年双 11 稳定支撑每日千万级的任务调度。每天阿里巴巴内部有数万名数据和算法工程师正在使用DataWorks,承了阿里巴巴 99%的据业务构建。本课程主要介绍了阿里巴巴大数据技术发展历程与 DataWorks 几大模块的基本能力。 课程目标  通过讲师的详细讲解与实际演示,学员可以一边学习一边进行实际操作,可以深入了解DataWorks各大模块的使用方式和具体功能,让学员对DataWorks数据集成、开发、分析、运维、安全、治理等方面有深刻的了解,加深对阿里云大数据产品体系的理解与认识。 适合人群  企业数据仓库开发人员  大数据平台开发人员  数据分析师  大数据运维人员  对于大数据平台、数据中台产品感兴趣的开发者
目录
相关文章
|
1月前
|
SQL 存储 分布式计算
ODPS技术架构深度剖析与实战指南——从零开始掌握阿里巴巴大数据处理平台的核心要义与应用技巧
【10月更文挑战第9天】ODPS是阿里巴巴推出的大数据处理平台,支持海量数据的存储与计算,适用于数据仓库、数据挖掘等场景。其核心组件涵盖数据存储、计算引擎、任务调度、资源管理和用户界面,确保数据处理的稳定、安全与高效。通过创建项目、上传数据、编写SQL或MapReduce程序,用户可轻松完成复杂的数据处理任务。示例展示了如何使用ODPS SQL查询每个用户的最早登录时间。
91 1
|
9天前
|
SQL 数据采集 分布式计算
【赵渝强老师】基于大数据组件的平台架构
本文介绍了大数据平台的总体架构及各层的功能。大数据平台架构分为五层:数据源层、数据采集层、大数据平台层、数据仓库层和应用层。其中,大数据平台层为核心,负责数据的存储和计算,支持离线和实时数据处理。数据仓库层则基于大数据平台构建数据模型,应用层则利用这些模型实现具体的应用场景。文中还提供了Lambda和Kappa架构的视频讲解。
【赵渝强老师】基于大数据组件的平台架构
|
3月前
|
DataWorks Kubernetes 大数据
飞天大数据平台产品问题之DataWorks提供的商业化服务如何解决
飞天大数据平台产品问题之DataWorks提供的商业化服务如何解决
|
22天前
|
SQL 人工智能 DataWorks
DataWorks:新一代 Data+AI 数据开发与数据治理平台演进
本文介绍了阿里云 DataWorks 在 DA 数智大会 2024 上的最新进展,包括新一代智能数据开发平台 DataWorks Data Studio、全新升级的 DataWorks Copilot 智能助手、数据资产治理、全面云原生转型以及更开放的开发者体验。这些更新旨在提升数据开发和治理的效率,助力企业实现数据价值最大化和智能化转型。
178 5
|
1月前
|
机器学习/深度学习 监控 搜索推荐
电商平台如何精准抓住你的心?揭秘大数据背后的神秘推荐系统!
【10月更文挑战第12天】在信息爆炸时代,数据驱动决策成为企业优化决策的关键方法。本文以某大型电商平台的商品推荐系统为例,介绍其通过收集用户行为数据,经过预处理、特征工程、模型选择与训练、评估优化及部署监控等步骤,实现个性化商品推荐,提升用户体验和销售额的过程。
76 1
|
1月前
|
数据采集 DataWorks 数据管理
DataWorks不是Excel,它是一个数据集成和数据管理平台
【10月更文挑战第10天】随着大数据技术的发展,企业对数据处理的需求日益增长。阿里云推出的DataWorks是一款强大的数据集成和管理平台,提供从数据采集、清洗、加工到应用的一站式解决方案。本文通过电商平台案例,详细介绍了DataWorks的核心功能和优势,展示了如何高效处理大规模数据,帮助企业挖掘数据价值。
86 1
|
1月前
|
数据采集 SQL DataWorks
DataWorks不是Excel,它是一个数据集成和数据管理平台
【10月更文挑战第5天】本文通过一家电商平台的案例,详细介绍了阿里云DataWorks在数据处理全流程中的应用。从多源数据采集、清洗加工到分析可视化,DataWorks提供了强大的一站式解决方案,显著提升了数据分析效率和质量。通过具体SQL示例,展示了如何构建高效的数据处理流程,突显了DataWorks相较于传统工具如Excel的优势,为企业决策提供了有力支持。
89 3
|
3月前
|
数据采集 存储 分布式计算
构建智能数据湖:DataWorks助力企业实现数据驱动转型
【8月更文第25天】本文将详细介绍如何利用阿里巴巴云的DataWorks平台构建一个智能、灵活、可扩展的数据湖存储体系,以帮助企业实现数据驱动的业务转型。我们将通过具体的案例和技术实践来展示DataWorks如何集成各种数据源,并通过数据湖进行高级分析和挖掘,最终基于数据洞察驱动业务增长和创新。
243 53
|
27天前
|
Oracle 大数据 数据挖掘
企业内训|大数据产品运营实战培训-某电信运营商大数据产品研发中心
本课程是TsingtaoAI专为某电信运营商的大数据产品研发中心的产品支撑组设计,旨在深入探讨大数据在电信运营商领域的应用与运营策略。通过密集的培训,从数据的本质与价值出发,系统解析大数据工具和技术的最新进展,深入剖析行业内外的实践案例。课程涵盖如何理解和评估数据、如何有效运用大数据技术、以及如何在不同业务场景中实现数据的价值转化。
37 0
|
2月前
|
SQL 人工智能 DataWorks
【云栖实录】DataWorks:新一代智能湖仓一体数据开发与治理平台
在9月21日的云栖大会上,DataWorks发布了新一代智能湖仓一体数据开发与治理平台。DataWorks历经Kubernetes改造与云原生调度系统的优化,实现了资源组全面Serverless化,降低了使用成本,最高可节省40%。新推出的DataWorks Data Studio,支持多种计算引擎,提供更开放的云原生WebIDE,提升开发效率。DataWorks Copilot智能助手也得到升级,支持多种SQL方言和Python代码生成,平均提升数据开发效率35%。此外,DataWorks还推出了全方位的数据资产治理体系,涵盖业务和技术视角,助力企业实现数据智能化管理和转型。
335 0
【云栖实录】DataWorks:新一代智能湖仓一体数据开发与治理平台

热门文章

最新文章

  • 1
    DataWorks操作报错合集之DataWorks任务异常 报错: GET_GROUP_SLOT_EXCEPTION 该怎么处理
    103
  • 2
    DataWorks操作报错合集之DataWorksUDF 报错:evaluate for user defined function xxx cannot be loaded from any resources,该怎么处理
    104
  • 3
    DataWorks操作报错合集之在DataWorks中,任务流在调度时间到达时停止运行,是什么原因导致的
    106
  • 4
    DataWorks操作报错合集之DataWorks ODPS数据同步后,timesramp遇到时区问题,解决方法是什么
    90
  • 5
    DataWorks操作报错合集之DataWorks配置参数在开发环境进行调度,参数解析不出来,收到了 "Table does not exist" 的错误,该怎么处理
    86
  • 6
    DataWorks操作报错合集之DataWorks中udf开发完后,本地和在MaxCompute的工作区可以执行函数查询,但是在datawork里报错FAILED: ODPS-0130071:[2,5],是什么原因
    100
  • 7
    DataWorks操作报错合集之DataWorks提交失败: 提交节点的源码内容到TSP(代码库)失败:"skynet_packageid is null,该怎么解决
    110
  • 8
    DataWorks操作报错合集之DataWorks在同步mysql时报错Code:[Framework-02],mysql里面有个json类型字段,是什么原因导致的
    150
  • 9
    DataWorks操作报错合集之DataWorks集成实例绑定到同一个vpc下面,也添加了RDS的IP白名单报错:数据源配置有误,请检查,该怎么处理
    84
  • 10
    DataWorks操作报错合集之在 DataWorks 中运行了一个 Hologres 表的任务并完成了执行,但是在 Hologres 表中没有看到数据,该怎么解决
    120