问题一:DataWorks如果数据量太大,id又比较分散,我觉得这个按照时间切分功能是可以做的?
DataWorks如果数据量太大,id又比较分散,我同步昨天一天的数据不能按照修改时间自动切分,我还得根据修改时间手动建24个任务?
我觉得这个按照时间切分功能是可以做的?
参考回答:
或者可以配置成小时任务 每4小时同步一次这样
关于本问题的更多回答可点击原文查看:https://developer.aliyun.com/ask/567766
问题二:DataWorks这样算提交发布了么?
DataWorks中list resources 和 show functions都可以查到,这样算提交发布了么?
在odpscmd上直接运行sql的
参考回答:
在这里执行去发布页面 再执行发布
右上角 小扳手 工作空间管理 引擎可以确认绑定的maxcompute空间 是不是您odpscmd访问的那个空间
关于本问题的更多回答可点击原文查看:https://developer.aliyun.com/ask/567765
问题三:DataWorks附值节点配置是什么?
DataWorks附值节点配置是什么?
参考回答:
DataWorks中的赋值节点是一种特殊的功能节点,它可以将数据流中的某一列作为全局变量,用于配置或者共享。使用赋值节点可实现如下功能:
- 改变数据流的流向;
- 实现数据流之间的交互;
- 数据拆分和合并;
- 跨流配置共享变量。
关于本问题的更多回答可点击原文查看:https://developer.aliyun.com/ask/567764
问题四:DataWorks数据与mysql实时保持一致的方式么?
DataWorks现在datastudio里面实时同步数据是同步变更记录,还要自己定时任务加工,只能准实时。有那种实时同步mysql,数据与mysql实时保持一致的方式么?就直接可以基于目标表计算了?
参考回答:
目前DataWorks DataStudio并不直接支持实时同步MySQL数据库的数据,因此您只能通过定期任务来完成同步工作。
您还可以考虑使用DataWorks的实时同步功能,将MySQL数据库的数据与MaxCompute表进行双向同步,以实现类似实时的效果。但是要注意的是,实时同步并不能达到实时的目的,延迟可能会有一些。
关于本问题的更多回答可点击原文查看:https://developer.aliyun.com/ask/567762
问题五:DataWorks在mvn打包的时候是要把依赖的jar加进去么?
DataWorks在mvn打包的时候是要把依赖的jar加进去么?
参考回答:
在使用DataWorks创建项目的阶段,只需要将项目代码和依赖项提交即可,不需要打包整个项目及其依赖项。 DataWorks会自动解析项目的依赖项,并在执行时加载它们。
如果要使用依赖项,可以在pom.xml文件中定义,DataWorks会自动下载并加载它们。您也可以单独上传依赖项到DataWorks的元数据存储服务(MRS),然后使用upload命令上传到工作空间中。
关于本问题的更多回答可点击原文查看:https://developer.aliyun.com/ask/567761
问题六:DataWorks如何增加maxcompute的自定义资源?
DataWorks如何增加maxcompute的自定义资源?
参考回答:
添加资源下载用于IP地转换的自定义函数Java包getaddr.jar以及地址库ip.dat。关于IP地址转换的自定义函数,详情请参见MaxCompute中实现IP地址归属地转换。右键单击WorkShop业务流程下的MaxCompute,选择新建 > 资源。需要分别新建File和JAR类型的资源。
File类型上传地址库ip.dat。输入资源名称,选中大文件(内容超过500KB)及上传为ODPS资源,然后单击点击上传。
单击提交。
JAR类型对应Java包getaddr.jar。您需要勾选上传为ODPS资源,然后单击点击上传。上传完成后,单击
提交。说明 提交时,请忽略血缘不一致信息。注册函数在业务流程下右键单击MaxCompute,选择新建 > 函数,将函数命名为getregion。在注册函数页面,依次填写类名为odps.test.GetAddr,资源列表为getaddr.jar,ip.dat,命令格式为getregion(ip string),保存后单击提交函数注册。
https://help.aliyun.com/document_detail/122859.html
关于本问题的更多回答可点击原文查看:https://developer.aliyun.com/ask/567757