DataWorks产品体验测评

本文涉及的产品
大数据开发治理平台DataWorks,Serverless资源组抵扣包300CU*H
简介: 一文带你了解DataWorks大数据开发治理平台的优与劣

初识DataWorks

image.png

DataWorks是阿里云推出的一款端到端的大数据开发与治理平台。自2009年起,DataWorks在阿里巴巴集团内部开始孵化,并在2015年正式迁移到云上,为各类企业、政府及组织机构提供大数据平台建设的服务。它不仅是一个数据治理平台,还包含了丰富的一站式大数据研发工具,因此也被阿里云称为数据中台的一部分。广泛应用于政务、金融、零售、互联网、汽车、制造等行业,助力企业实现数字化升级和价值创造。

产品体验

本次体验涉及到两个板块,一个是基于DataWorks和MaxCompute实现对用户画像的分析,一个则是新版Data Studio数据开发平台以及智能助手 Copilot的体验。

开通试用

  • 针对老用户可以参照如下方式进行购买:

进入DataWorks服务开通页,地域选择华东1(杭州)、基础版、按量付费,其他默认。

image.png

image.png

image.png

勾选服务协议,点击确认订单并支付。

image.png

校验通过后,点击下一步。

image.png

价格清单确认无误后,点击下一步创建订单。

image.png

在支付页面,点击支付即可。

image.png

当出现下图这个页面时,就表示DataWorks服务已成功创建。

image.png

  • 如果你是新用户,则可以直接通过活动首页的产品试用链接开通:

image.png

在产品开通页面填入资源组名称,因为试用默认只有一个可用区,所以这里保持默认。

image.png

如果是首次试用DataWorks产品,这里需要先关联角色,点击创建关联角色即可。

image.png

确认如上信息无误后,点击立即试用。

image.png

点击页面的管理试用,可以在费用与成本中看到试用详情。

image.png

由于用户画像分析需要用到MaxCompute,这里也需要一并开通试用。进入产品控制台,点击立即开通。

image.png

这里唯一需要注意的一点就是,产品的可用区要保持和DataWorks一致,比如这里的华东2(上海)。

image.png

提交后,进入下一步

image.png

继续下一步

image.png

在支付页面点击立即支付即可。

image.png

出现下图就表明开通成功。

image.png

实践体验

首先进入DataWorks管理控制台,如果你是刚完成产品试用的提交,此刻可以看到服务正在启动中。

image.png

待状态变成运行中后,就可以开始为资源组配置公网访问了,因为默认创建的通用型Serverless资源组是不具备公网访问能力的,需要通过公网NAT网关添加EIP的方式,为资源组绑定的VPC,使该资源组获得公网访问能力。

这里我们先来到专有网络的控制台,创建一个公网NAT网关。(这里尤其要注意的是可用区不要选错了)

image.png

在公网NAT网关配置中,选择DataWorks资源组绑定的VPC和交换机,这个信息可以在DataWorks资源组列表的详情页中看到,参照如下:

image.png

image.png

访问模式选择VPC全通模式(SNAT),并选择新购弹性公网IP。

image.png

创建完关联角色后,在下一页完成信息确认,点击立即开通。

image.png

提交后,资源开始创建,这里需要稍等片刻。

image.png

服务创建完成后如下

image.png

接下来我们需要创建一个默认的工作空间,进入DataWorks控制台,点击创建工作空间,参照下图配置即可。(如果你是新用户,在领取试用时就已经开通了默认的工作空间,此步骤可忽略)

  • 这里要注意的一点是默认开通的工作空间是简单模式,也就是只有生产环境,没有进行生产和开发环境的隔离,但完成用户画像分析的步骤里使用的是生产和开发隔离的,所以这里要将简单模式进行升级为标准环境

image.png

接着,进入MaxCompute控制台,新建两个项目,参照下图进行配置即可。(这里两个的作用不用,一个用于生产,一个用于开发)

image.png

紧接着进行MaxCompute数据源的绑定,官网提供了两种绑定的方式,下面将挨个展示。

  • 第一种方式就是在DataWorks的工作空间进行绑定,如下:

image.png

新建计算资源,选择MaxCompute。

image.png

填入数据源名称,并勾选MaxCompute项目名称。

image.png

点击“新建计算资源并绑定数据开发”后,就可以看到绑定的数据源信息了。

image.png

  • 另一种方式则是通过工作空间的快速进入——数据开发,后面的步骤则是相同的,就是入口不一样而已。

image.png

完成上述步骤后,接下来就可以开始用户画像的任务开发了,这里可以参考下官网提供的流程设计图,先了解下时如何实现的。

img

进入ETL工作流模板页面,找到网站用户行为分析模板,单击查看详情

image.png

在详情页,单击载入模板。

image.png

参照下图进行配置,完成后点击确认。

image.png

此刻可以看到任务已经开始,数据开始导入。

image.png

大约5分钟后,载入成功,如下:

image.png

点击前往查看,可以看到整个的业务流程。

image.png

双击业务流程画布的任意节点,可查看该节点的内容详情。

image.png

由于通过模板导入的已经时完整的业务流程,所以这里我们直接运行,开始用户画像的分析。

image.png

待所有节点运行成功后,单独运行最后一个节点,即可查看分析结果。

image.png

image.png

运行正式开始前会有一个费用的预估显示,这里直接点击运行即可。

image.png

运行完成后,查询结果如下。

image.png

到这,一个完整的用户画像分析的实践就完成了。以上实践可以简称为一键体验版,比如数据集的导入是直接通过模板载入的。这里官网文档还提供了折腾版的教程,也可以简称为手动版教程,感兴趣的伙伴可以自行点击链接前往了解学习。

新版体验

  • 新版Data Studio

新版Data Studio和旧版的Data Studio相比,最直观的差异在于界面上,比如新版拥有欢迎页,新版有手动切换主题色功能、新版侧边导航功能名称采用了悬浮可见等,实际功能使用上差异并不大。对比截图如下:

image.png
image.png

作为用户来讲,新版给人的感受最大的一点就是更切合实际需求了,将数据开发全流程纳入了平台管理。

体验新版可以直接在创建DataWorks工作空间时,打开下图的按钮。

image.png

  • DataWorks Copilot

参加DataWorks Copilot公测,需要在Copilot公测确认弹窗中进行确认,如下:

image.png

在确认如上协议后,就可以免费体验DataWorks Copilot的功能了,如下版本或者区域就无需额外申请了。

  • DataWorks版本为:基础版、标准版、专业版或企业版。
  • DataWorks项目空间所在地域为:华东1(杭州)、华东2(上海)、华北2(北京)、华北3(张家口)、华南1(深圳)或西南1(成都)。

当前DataWorks Copilot入口已覆盖:数据开发(DataStudio)、数据分析、数据服务。下面我们就拿上述的用户画像分析来体验一番。

在平台右上角直接点击Copilot图标即可开始体验,如下图右侧展示的。

image.png

除了上述方式唤醒外,还可以直接在编辑窗口右键选择,如下:

image.png

还有一种最快捷方便的方式,就是直接按下Ctrl+I键,如下提示

image.png

如果你是第一次使用,不晓得如何下手,不用焦虑,官网友好地提供了演示视频和使用文档,如下:

image.png

image.png

从Copilot首页来看,它能辅助开发者完成代码生成、代码解释、代码问答和快捷找表。下面就按照这个功能项逐个快速体验。

  • 代码生成

针对ads_user_info_1d用户信息表,新增两个字段,右键选择Copilot——SQL生成,如下:

image.png

点击生成后,可以非常快速地写成,还是不错的。但你会发现一个问题,就是将生肖理解成了星座,使用了同样的列名zodiac

  • 代码解释

右键选择Copilot——SQL注释,如下:

image.png

image.png

  • 代码问答

右键选择Copilot——SQL Chat,也就是智能问答,比如下面的这段SQL我看不太明白,让Copilot解释下。如下:

image.png

  • 快捷找表

这个功能就非常直观了,看字面意思就是找表,实际也是这个,通过关键字来找到关联的数据表。如下:

image.png

除了上述主要的四个功能外,实际上还提供了其他多种功能,在DataWorks Copilot窗口点击点击“/”即可,如下:

image.png

通过以上体验,可以非常直观感受到DataWorks Copilot作为阿里云DataWorks平台推出的一款基于大模型的智能SQL编程助手,在提升数据开发工程师和数据分析师在SQL开发和分析方面的效率和体验非常不错。可以简要总结为如下几点:

  • 提高SQL开发效率:DataWorks Copilot通过自然语言生成SQL(NL2SQL),将用户输入的自然语言描述来查询或分析数据,自动生成对应的SQL语句,大大减少了手动编写SQL代码的时间。还能提供智能代码提示建议,帮助用户更快地编写和修改SQL代码。
  • 增强SQL代码质量:DataWorks Copilot可一键为SQL代码生成注释,提高代码的可读性和可维护性。当SQL运行报错时,Copilot还提供一键纠错服务,帮助用户快速定位并修复错误。
  • 简化繁琐复杂操作:DataWorks Copilot可以提供通过自然语言快捷找表的功能,解决了业务人员在实际工作中找表难的问题。
  • 无需部署方便快捷:有了DataWorks Copilot后,遇到SQL代码有关的疑难均可以一键唤醒得到智能答复,以前可能需要借助第三方工具或者网络搜索实现。

然而,从当前体验来看,还存在如下几个不足之处:

  • 由于Copilot生成的代码依赖于其训练的机器学习模型,可能存在准确性不足的问题。比如上面操作上对于生肖和星座的理解就不是非常好。
  • Copilot的使用对于开发者们有一定的技术要求,如果用户对SQL不够了解,可能无法正确理解Copilot生成的代码或充分利用其功能。

资源清理

进入DataWorks管理控制台,单击左侧导航栏的\数据开发与治理\ > *运维中心**,在下拉框中选择对应工作空间后单击进入运维中心*

\周期任务运维\ > *周期任务**中,勾选所有之前创建的周期任务,如果你只是暂时不使用,可在底部单击暂停(冻结);如果你不再使用,可以单击*操作* > *下线节点**。如下:

image.png

  • 删除DataWorks资源组

登录DataWorks控制台,单击左侧导航栏的资源组,在对应资源更多中点击退订。

image.png

  • 删除DataWorks数据源

登录DataWorks控制台,单击左侧导航栏的数据集成,在下拉框中选择对应工作空间后单击进入数据集成

image.png

数据源页面,勾选对应数据源,然后单击批量删除,按照界面提示删除。

image.png

  • 解绑并释放弹性公网IP

登录NAT网关管理控制台,选择\公网访问\ > *弹性公网IP**。在弹性公网IP页面,单击目标弹性公网IP实例操作列中选择强制释放*,并按照界面提示进行解绑。

image.png

公网NAT网关页面,单击目标NAT网关实例操作列中的删除,并按照界面提示进行删除NAT网关。

image.png

体验总结

1、在体验过程中,可以非常直观感受到DataWorks的开通和购买流程非常简单,只需在阿里云控制台中选择相应的产品和配置即可。然而,在使用过程中,我们遇到了一些不便之处。例如,在配置数据源时,部分参数的设置不够直观,需要参考官方文档才能正确配置。还有实践文档某些部分需要进行更新,以匹配当前实际的操作。

  • 开通试用默认创建的工作空间是简单模式,而实践用到的是标准模式,也即是开发和生产环境隔离。这段内容放在这里显得不妥当,应该放在创建工作空间板块,让用户及时发现差异并新建工作空间。

image.png

  • 简化版的教程中只提到了新建MaxCompute项目,并没有针对接下来的实践说明需要新建两个项目以匹配生产和开发环境。(而这块内容在完整版的教程中又是写明的)

image.png

此外,虽然DataWorks提供了丰富的组件库和图形化开发界面,但对于一些没有技术背景的业务人员来说,仍然存在一定的学习曲线。建议官方提供更多面向业务人员的培训课程和案例教程,帮助他们更好地掌握产品的使用方法。

最后,就是针对新版Data Studio和旧版具有那些差异需要专门的文档来阐述,虽然主要功能和实现差异不大,但仅通过少数的用户体验来探索差异是显然是不够的。

2.、作为一家为传统能源企业打造智能化运管平台的服务公司,DataWorks作为大数据开发治理平台,发挥了至关重要的作用。首先帮助我们快速搭建了数据中台和数据仓库,提供了数据建模和数据服务功能,使我们能够深入挖掘企业数据的价值。其次,提供了可视化的全生命周期管理。同时,它的智能监控和数据质量模块也为我们提供了全面的数据保障,确保了数据的准确性和及时性。

3. 数据处理场景的改进建议

针对数据处理场景,我们认为DataWorks可以在以下几个方面进行改进或增加更多功能:

  • 实时数据处理:虽然DataWorks已经提供了实时数据同步和流处理功能,但在实际应用中,我们发现实时数据处理的延迟和吞吐量仍有待提升。
  • 数据治理:在数据治理方面,DataWorks已经提供了数据质量监控和数据血缘追踪等功能,但可以进一步增加数据分类、分级和权限控制等高级功能。
  • 可视化与交互:在数据可视化和交互方面,DataWorks可以与更多的前端应用进行无缝集成,提供更丰富的可视化组件和交互方式。

以上就是本次体验评测的全部内容了,时间有限没有完整体验产品的全部功能点,希望更多的开发者踊跃体验并分享。如果你意犹未尽,还可以通过以下官网途径进行深入了解和学习,资源整理如下,欢迎点击前往。

  • 视频教程

一站式大数据开发治理平台DataWorks初级课程

DataWorks一站式大数据开发治理平台精品课程

智能数据建模训课程

电商离线数仓训练营

  • 训练营

大数据开发治理平台 DataWorks训练营

DataWorks数据建模训练营

全链路数据治理-全域数据集成训练营

全链路数据治理-智能数据建模训练营

电商离线数仓训练营

相关实践学习
基于MaxCompute的热门话题分析
本实验围绕社交用户发布的文章做了详尽的分析,通过分析能得到用户群体年龄分布,性别分布,地理位置分布,以及热门话题的热度。
一站式大数据开发治理平台DataWorks初级课程
DataWorks 从 2009 年开始,十ー年里一直支持阿里巴巴集团内部数据中台的建设,2019 年双 11 稳定支撑每日千万级的任务调度。每天阿里巴巴内部有数万名数据和算法工程师正在使用DataWorks,承了阿里巴巴 99%的据业务构建。本课程主要介绍了阿里巴巴大数据技术发展历程与 DataWorks 几大模块的基本能力。 课程目标  通过讲师的详细讲解与实际演示,学员可以一边学习一边进行实际操作,可以深入了解DataWorks各大模块的使用方式和具体功能,让学员对DataWorks数据集成、开发、分析、运维、安全、治理等方面有深刻的了解,加深对阿里云大数据产品体系的理解与认识。 适合人群  企业数据仓库开发人员  大数据平台开发人员  数据分析师  大数据运维人员  对于大数据平台、数据中台产品感兴趣的开发者
目录
相关文章
|
7天前
|
数据采集 人工智能 DataWorks
DataWorks产品最佳实践测评
DataWorks产品最佳实践测评
|
25天前
|
SQL DataWorks 数据可视化
DataWorks产品体验与评测
在当今数字化时代,数据处理的重要性不言而喻。DataWorks作为一款数据开发治理平台,在数据处理领域占据着重要的地位。通过对DataWorks产品的体验使用,我们可以深入了解其功能、优势以及存在的问题,并且与其他数据处理工具进行对比,从而为企业、工作或学习中的数据处理提供有价值的参考。
48 6
DataWorks产品体验与评测
|
19天前
|
SQL DataWorks 搜索推荐
DataWorks产品评测与最佳实践体验报告
DataWorks是阿里巴巴云推出的一款高效数据处理平台,通过内置的数据集成工具和ETL功能,实现了多源数据的自动化处理与分析。本文介绍了DataWorks在用户画像分析中的应用实践,展示了其如何帮助企业高效管理数据资源,支持决策制定及营销优化。同时,文章还评测了DataWorks的产品体验,包括开通流程、功能满足度等方面,并与其它数据开发平台进行了比较,突出了DataWorks在易用性、性能和生态完整性上的优势。最后,对Data Studio新版本中的Notebook环境进行了初步探索,强调了其在提升开发效率方面的价值。
57 16
|
10天前
|
DataWorks 搜索推荐 数据挖掘
开发者评测|DataWorks
开发者评测|DataWorks
36 7
|
19天前
|
分布式计算 DataWorks 大数据
DataWorks产品体验评测报告
DataWorks产品体验评测报告
43 8
|
22天前
|
SQL DataWorks 搜索推荐
DataWorks 产品评测:数据处理的最佳实践与体验
DataWorks是阿里巴巴云推出的一款综合型大数据开发治理平台,通过此次用户画像分析实践,展现了其在数据整合、分析及可视化方面的强大能力。该平台支持自动化ETL流程,优化了数据资产管理与决策支持,提升了跨部门协作效率,促进了业务创新。相比其他工具,DataWorks具备全面的服务生态、高性能计算能力和高智能化水平,尤其适用于处理大规模数据集。新版Data Studio进一步增强了用户体验,集成了Notebook环境与智能助手Copilot,大幅提高了开发效率。尽管存在一些小问题,但整体上,DataWorks是企业实现数字化转型的理想选择。
50 8
|
25天前
|
SQL 数据采集 DataWorks
DataWorks产品最佳实践测评:用户画像分析实践
DataWorks作为阿里云提供的一款大数据开发治理平台,以其强大的数据处理能力和便捷的操作界面,在数据处理领域扮演着重要角色。本文将基于个人体验,对DataWorks产品进行最佳实践测评,重点探讨用户画像分析实践,并提出优化建议。
56 11
|
25天前
|
数据采集 DataWorks 搜索推荐
DataWorks产品评测:数据处理最佳实践与平台体验
DataWorks产品评测:数据处理最佳实践与平台体验
51 8
|
3天前
|
分布式计算 DataWorks 监控
DataWorks产品体验评测、
DataWorks产品体验评测、
20 0
|
25天前
|
DataWorks 数据可视化 搜索推荐
DataWorks产品体验与评测报告
DataWorks是一款全面的大数据开发治理平台,通过最佳实践测评,展示了其在用户画像分析、数据管理和开发效率提升等方面的强大功能。体验过程中,虽遇到开通流程繁琐、文档不足等问题,但整体功能满足预期。建议增强实时数据处理能力和数据可视化功能,以进一步提升用户体验。与同类工具相比,DataWorks在功能全面性、性能和开放性上表现突出,但也需优化界面设计和价格策略。新版Data Studio中的Notebook和智能助手Copilot提供了优秀的交互式编程和智能辅助,但仍需改善稳定性和集成度。

热门文章

最新文章