DataWorks 百问百答【持续更新中】

本文涉及的产品
RDS MySQL Serverless 基础系列,0.5-2RCU 50GB
云数据库 RDS MySQL,集群系列 2核4GB
推荐场景:
搭建个人博客
云数据库 RDS MySQL,高可用系列 2核4GB
简介: 本文章汇集 DataWorks 用户在使用过程中的常见问题,如您也有相似问题,可通过“Ctrl+F”搜索关键词进行检索,本文章持续更新,欢迎收藏。
  1. dataworks 有没有什么批量导出 定时时间的方式
  2. 我换一种 同步任务的调度信息 存放在哪个库下哪个表中
  3. 请问下我在datawork上写了一个任务链,我想跑历史数据。怎么弄啊
  4. 我这边加了一个触发器节点  上下游依赖都配好了,现在想用外部系统测试一下,是直接用外部系统调用触发吗
  5. 想问下有什么配置可以让传到ftp上的过大文件不分割呢
  6. 请问一下,截取时间年月日用什么函数呢
  7. 我运行动态写分区的时候,任务一直在队列等待。资源的话运行其他的语句也没问题
  8. 从生产环境加载表 再提交到生产环境 但是只是加载的结构不是数据是么?怎么把数据也加载到开发环境
  9. 使用key通过 python下载数据列--请问具体是使用的哪个功能?
  10. 数据同步的时候用阿里的服务器自建的cdh大数据集群,是否能用这个选项,进行数据同步到dataworks上
  11. 数据集成如何和ecs自建的数据库打通
  12. 我这边弄了一个触发器节点,昨天发布到生产了,现在情况 : 外部系统 http 调度url 返回成功,但dw控制台里面触发器节点还是显示等待触发 ,这个可以咋排查下"
  13. DataWorks怎么看服务端的ip
  14. 请问不同工作空间的表是相互隔离的吗
  15. 手动业务流程为啥会出现调度?
  16. 我现在在同一个工作空间下,想把之前A账号做的业务流程迁移到B账号下,可以怎么操作?业务流程比较多,可以批量操作吗
  17. Authorization Failed [4019], You have NO privilege 'odps:Select' on 新加的角色 没有权限 这个怎么设置下
  18. 参数报错 但设置看着是没问题的
  19. dataworks--数据地图--数据发现--MySQL元数据采集  采集的数据在数据地图中可以找到,在dataworks中如何查询该表
  20. cdh这种方式是否也要走外网
  21. "这个文档里说到的连接串模式,是不是可以连接非阿里云的数据源呀https://help.aliyun.com/document_detail/137690.html"
  22. 我们想从非阿里云的mysql接入数据,和把数据写出到非阿里云的数据库,有没有操作文档呀
  23. dataworks可以根据关键字搜索sql吗?
  24. 不绑定vpc,公共资源组如何知道我的内网的starcoks在哪里,我用dms相同方式是可以进行连接的
  25. 请问我今天从hive做一个数据离线集成,数据量是三千多万条,并发16分布式处理,跑了几乎6,7个小时,最后报错了 ERROR RetryUtil - Exception when calling callable. Exception Msg: javax.net.ssl.SSLException: Connection resetjava.util.concurrent.ExecutionException: javax.net.ssl.SSLException: Connection reset;有没有什么好的解决方式呀?"
  26. dataworks 可以把调度时区改成东七区吗
  27. dataworks  里面可以开发 shell吗 ,目前没看到哪块可以创建 shell节点的 ? "
  28. dataworks 独享集成资源组 扩容跟升级的区别:举例 我一个 8c 16g 的资源组 再扩容一个 同配置的 跟 变更升级为一个 16c 32g 的资源组 有啥区别
  29. 请问下dataworks 离线同步,odps同步至oracle,图形界面话没有数据替换选项,在离线同步脚本模式下,是否支持merger into参数呢?
  30. API服务,高级脚本模式,这个分页你们内部是取全部数据回来之后再分页的,还是在执行的时候就只取分页内的数据,我看你们执行的API输出的SQL是全部,对这边有些疑问
  31. 我想咨询一下,我们退订阿里云的专业版的Dataworks的话,里边的数据会保留吗?
  32. 时间自动分区字段 可以自定义的吗?每次都是默认ds  没注意就同步了
  33. dataworks现在开发环境是不支持实时数据同步了吗?之前是有很多开发任务在的,现在没了
  34. py3脚本缺少的依赖是在哪里安装的
  35. 请教一下这里的数据源配置问题,这个配置的数据库在数据集成时,只能用到这个配置库的数据,有什么方法可以抽取到这个rds对应的所有库的数据呢?只能每个数据库配置一个数据源吗?
  36. 业务系统元数据采集需要系统表的权限开放么?
  37. 想问一下配置好脱敏规则后为什么数据分析脱敏没有成功,只有展示脱敏成功了
  38. 默认不就是开发环境执行吗 必须要加才能脱敏吗
  39. 请教一下能否将查询结果导出,大概一万多条记录
  40. 现在有一个业务场景,上游节点 A 是每天调度 3 次(9/11/15 点),下游节点 B 是每天调度 4 次(2/9/11/15 点),我要怎么做才能让这个 2 点的实例 B 不依赖 A,而 9/11/15 点的实例依赖 A
  41. Dataworks的数据地图可以查看CDH集群 hive的表以及血缘信息嘛
  42. "请问一下, 我有一个按日调度的任务,依赖一个按小时调度的任务那每次这个按日调度的任务执行的时候,是回去检查 业务日这一天,按小时调度任务的每一个状态吗?"
  43. 运维中心中,实例前面的数字是什么意思呀?
  44. 我想试一下 自定义udtf ,在function studio界面里,我我直接提交到dataworks开发环境,构建失败呢
  45. datax解析以及要同步的表都是65个字段,但是他去读hdfs元数据信息的时候只读64个字段,最后导致数据集成的都是脏数据,这是啥情况呀?
  46. Dataworks可以存储图片吗
  47. 补数据的并行会影响先后顺序吗?
  48. dataworks支持clickhouse引擎么?
  49. 我在dataworks 中运行同一段代码,运行两遍出来不同的结果,是为什么?"
  50. 我这里的资源组一直刷新不出来。clickhouse白名单什么的都配置了。
  51. 问一下,修改资源组发布后,是立即生效,还是第二天生效啊
  52. 实时同步业务数据库到Kafka怎么开发环境的数据源不同步了?只有生产环境同步了
  53. dataworks 支持 sql convert 函数吗
  54. 我运维中心已经存在已提交的任务(我没有下线任务),我在datastudio中修改了调度时间之后,我发布到生产环境,调度时间有的变了有的没变,这是怎么回事呢?
  55. dataworks 啥时候支持mysql到clickhouse的实时同步?
  56. LogHub 数据源 有新增几个字段在DataWorks   数据集成的时候 怎么更新出新增的字段进行映射 目前新增的字段无法显示
  57. 这种经常会被卡住是什么原因啊
  58. 想在python脚本里面查询odps里的表数据 推送钉钉 有案例么
  59. 任务设置暂停调度,还能使用补数据的方式回刷么?希望实现手工调度批量回刷的功能,需要怎么操作
  60. 被冻结的任务 补数据生成的也是冻结的实例 可以先解冻 执行补数据 再冻结
  61. 帮忙看下这个报错是因为啥 我这些节点都存在呀
  62. ${bdp.system.gmtdate}。取不到值是为什么
  63. 问一个dataworks的odps -> mongo的同步任务的问题,能否通过这个同步任务实现部分字段的更新?
  64. 通过脚本配置connection,最多能配多少个?
  65. ABC为三个集成数据节点,生产环境中,因为某些原因,AB空跑,C正常跑,M节点的上游依赖 A、B、C 都挂上了,此时M节点会被空跑传递吗?
  66. DataWorks里python程序需要导入的库没有怎么安装?
  67. 如果上游是小时表,下游是日调度,那需要等上游所有小时表跑完,下游才开始执行么
  68. dataworks能不能批量修改责任人呀
  69. 这个数据集成节点的脏数据为什么会比全部数据量多
  70. dataworks 不同的查询引擎 能跨引擎查询吗
  71. 我想查生产临时表的数据,是不让查嘛,我可以查生产分区表
  72. 添加 数据源 这边的下来看 看不到 实例的选项为什么?
  73. hbasereader模式支持这样   hbasewriter模式支持这种写入吗
  74. string类型的大小超过8mb了, 怎么操作可以扩大这个长度到几百兆呢
  75. dataworks的 reader,writer支持自己写插件吗
  76. do while节点内可以结合holo节点用吗?
  77. 这个在开源datax上同样支持吗?
  78. 获取当前时间的 小时这个参数怎么写呢,比如 10点 就是10,9点就是09
  79. 能导出调度任务的信息吗,有开始时间,结束时间等
  80. dataworks写入到holo ,支持preSql 和 postSql 吗
  81. 在运维中心,我有把节点冻结,但是实际好些还在正常调度,请问这是怎么一回事?
  82. 同一地区 不同工作空间可以共同使用独享集成资源和独享调度资源吗
  83. 这里说的vpc是指独享集成资源所在的网络吗
  84. 我离线同步数据拉不过来是为什么
  85. 数据同步这里如何设置开始时间为昨天,形式为’20220913000000‘?
  86. 数据集成任务能同步oracle中的序列吗
  87. 数据质量这块,分区日期采用这样的格式。传递的参数还是没变,是不是不支持这种自定义的日期格式
  88. 把表设置为Hash Clustering表后,再通过dataworks同步数据,提示这样,这个大概是哪里出问题了再通过dataworks同步数据,提示这样,这个大概是哪里出问题了
  89. dataworks有没有其它解决办法来支持数据同步
  90. dataworks能不能把Mysql 的blob数据类型转成base64
  91. 数据集成资源使用率是 75%,还有一个任务在排队,可以调哪里把数据集成资源使用率调成100%呢
  92. 有什么办法可以批量获得线上这些文件信息嘛?用python可以吗?
  93. DW连接的ADBMySql是不是有什么特殊要求啊,我一直连不上,测试连通性那里就过不去
  94. dataworks 同步es 数据,如果数据源中的date类型的数据,如何转换超过maxcompute datetime
  95. 我工作空间根节点是日调度,下面有一个业务流程是分钟调度,这样的可以运行吗?
  96. 资源那边的python  是不区分python版本的,是吗
  97. dataworks里面的工作空间和项目空间的区别与联系是什么?
  98. 我看应用层的表不能关联业务分类,公共层的表可以,为啥呀
  99. 请问发布一个周调度的任务(比如周二)他的依赖下游是日调度,是不是要先补数让他这个星期的周二实现跑一次,然后那个日调度的任务才能从发布开始正常运行呀

100.请问下现有账号下的dataworks购买的版本及资源,我这边想迁移到新账号有什么方法吗?

101.咱们dataworks数据集成有个限速,我设置的10m,为什么我看日志有时候会现在30多m或者是20多m,我的并发是2,然后同步了500个表,在同一任务中

102.智能建模和datablau啥区别呀

103.数据集成实时同步方式,怎么试运行呢,还是一定要先打包发布

104. 问下这种字段不一致的问题 咋解决 我这边表管理和desc出来的字段不一致

105.这个是不是可以看出来我dataworks是哪个版的?

106.默认配额组不支持修改吗?

107.父节点5,7,14,21点跑,子节点5,14,21点跑,子节点是对应父节点5,14,21吗?

108.这个工作流程已经删除了  之前发布的节点已下线 但是无法取消发布  我看周期实例中他还在运行 这个要怎么取消发布呀?

109.请问Dataworks能否将OSS2的tar.gz作为资源上传,并在pyodps中import使用呀?

110.归并节点的上游节点报错,但是也会在运维大屏显示,就不能不显示吗

111.…………

本文章持续更新,欢迎收藏

相关实践学习
基于MaxCompute的热门话题分析
本实验围绕社交用户发布的文章做了详尽的分析,通过分析能得到用户群体年龄分布,性别分布,地理位置分布,以及热门话题的热度。
一站式大数据开发治理平台DataWorks初级课程
DataWorks 从 2009 年开始,十ー年里一直支持阿里巴巴集团内部数据中台的建设,2019 年双 11 稳定支撑每日千万级的任务调度。每天阿里巴巴内部有数万名数据和算法工程师正在使用DataWorks,承了阿里巴巴 99%的据业务构建。本课程主要介绍了阿里巴巴大数据技术发展历程与 DataWorks 几大模块的基本能力。 课程目标  通过讲师的详细讲解与实际演示,学员可以一边学习一边进行实际操作,可以深入了解DataWorks各大模块的使用方式和具体功能,让学员对DataWorks数据集成、开发、分析、运维、安全、治理等方面有深刻的了解,加深对阿里云大数据产品体系的理解与认识。 适合人群  企业数据仓库开发人员  大数据平台开发人员  数据分析师  大数据运维人员  对于大数据平台、数据中台产品感兴趣的开发者
相关文章
|
分布式计算 监控 DataWorks
MaxCompute/DataWorks账号权限及依赖整理-持续更新
经常有人问在MaxCompute和Dataworks中,主子账号的权限分别对应哪些操作,是否可以用子账号创建Project?是否用子账号购买资源?子账号是否可以做数据同步? 今天抽时间整理了一些用户经常遇到的MaxCompute/DataWorks权限问题,后续还会逐步更新。
3097 0
|
1天前
|
数据采集 机器学习/深度学习 DataWorks
DataWorks产品评测:大数据开发治理的深度体验
DataWorks产品评测:大数据开发治理的深度体验
15 1
|
12天前
|
SQL DataWorks 大数据
DataWorks产品体验测评
一文带你了解DataWorks大数据开发治理平台的优与劣
115 10
|
19天前
|
数据采集 人工智能 DataWorks
DataWorks产品最佳实践测评
DataWorks产品最佳实践测评
|
1月前
|
SQL DataWorks 数据可视化
DataWorks产品体验与评测
在当今数字化时代,数据处理的重要性不言而喻。DataWorks作为一款数据开发治理平台,在数据处理领域占据着重要的地位。通过对DataWorks产品的体验使用,我们可以深入了解其功能、优势以及存在的问题,并且与其他数据处理工具进行对比,从而为企业、工作或学习中的数据处理提供有价值的参考。
57 6
DataWorks产品体验与评测
|
1月前
|
SQL DataWorks 搜索推荐
DataWorks产品评测与最佳实践体验报告
DataWorks是阿里巴巴云推出的一款高效数据处理平台,通过内置的数据集成工具和ETL功能,实现了多源数据的自动化处理与分析。本文介绍了DataWorks在用户画像分析中的应用实践,展示了其如何帮助企业高效管理数据资源,支持决策制定及营销优化。同时,文章还评测了DataWorks的产品体验,包括开通流程、功能满足度等方面,并与其它数据开发平台进行了比较,突出了DataWorks在易用性、性能和生态完整性上的优势。最后,对Data Studio新版本中的Notebook环境进行了初步探索,强调了其在提升开发效率方面的价值。
68 16
|
26天前
|
SQL 分布式计算 DataWorks
DataWorks产品测评|基于DataWorks和MaxCompute产品组合实现用户画像分析
本文介绍了如何使用DataWorks和MaxCompute产品组合实现用户画像分析。首先,通过阿里云官网开通DataWorks服务并创建资源组,接着创建MaxCompute项目和数据源。随后,利用DataWorks的数据集成和数据开发模块,将业务数据同步至MaxCompute,并通过ODPS SQL完成用户画像的数据加工,最终将结果写入`ads_user_info_1d`表。文章详细记录了每一步的操作过程,包括任务开发、运行、运维操作和资源释放,帮助读者顺利完成用户画像分析。此外,还指出了文档中的一些不一致之处,并提供了相应的解决方法。
|
1月前
|
机器学习/深度学习 数据采集 DataWorks
DataWorks产品评测:数据处理与分析的最佳实践
DataWorks是阿里巴巴推出的大数据开发治理平台,支持从数据采集、预处理、存储到分析的全流程操作。本文评测了其在用户画像分析中的应用,包括数据收集、清洗、特征工程、模型训练、结果评估及应用部署等步骤,展示了其在提高数据资产管理效率、支持多种编程语言和技术栈、集成丰富可视化工具等方面的优势。同时,文章也指出了DataWorks在使用过程中的一些不便与问题,并提出了改进建议。
67 17
|
27天前
|
DataWorks 数据可视化 大数据
DataWorks 产品综合评测报告
《DataWorks产品综合评测报告》全面评估了DataWorks这款知名的大数据开发治理平台。报告从用户画像分析实践、日常工作中的应用、产品体验、与其他工具的对比及Data Studio公测体验等多个角度进行了详细评测。DataWorks在数据集成、可视化操作、任务调度等方面表现出色,但也存在一些技术难题和使用门槛。总体而言,DataWorks功能完整、易用性强,适合企业高效处理和分析大数据,助力决策制定和业务优化。
|
1月前
|
分布式计算 DataWorks 大数据
DataWorks产品体验评测报告
DataWorks产品体验评测报告
55 8

热门文章

最新文章

  • 1
    DataWorks操作报错合集之DataWorks任务异常 报错: GET_GROUP_SLOT_EXCEPTION 该怎么处理
    131
  • 2
    DataWorks操作报错合集之DataWorksUDF 报错:evaluate for user defined function xxx cannot be loaded from any resources,该怎么处理
    133
  • 3
    DataWorks操作报错合集之在DataWorks中,任务流在调度时间到达时停止运行,是什么原因导致的
    120
  • 4
    DataWorks操作报错合集之DataWorks ODPS数据同步后,timesramp遇到时区问题,解决方法是什么
    110
  • 5
    DataWorks操作报错合集之DataWorks配置参数在开发环境进行调度,参数解析不出来,收到了 "Table does not exist" 的错误,该怎么处理
    111
  • 6
    DataWorks操作报错合集之DataWorks中udf开发完后,本地和在MaxCompute的工作区可以执行函数查询,但是在datawork里报错FAILED: ODPS-0130071:[2,5],是什么原因
    131
  • 7
    DataWorks操作报错合集之DataWorks提交失败: 提交节点的源码内容到TSP(代码库)失败:"skynet_packageid is null,该怎么解决
    139
  • 8
    DataWorks操作报错合集之DataWorks在同步mysql时报错Code:[Framework-02],mysql里面有个json类型字段,是什么原因导致的
    177
  • 9
    DataWorks操作报错合集之DataWorks集成实例绑定到同一个vpc下面,也添加了RDS的IP白名单报错:数据源配置有误,请检查,该怎么处理
    95
  • 10
    DataWorks操作报错合集之在 DataWorks 中运行了一个 Hologres 表的任务并完成了执行,但是在 Hologres 表中没有看到数据,该怎么解决
    141