DataWorks数据集成常见问题排查与解决方案合集-开发者社区-阿里云

DataWorks数据源问题之脏数据如何解决

2024-02-24 435

版权

本文内容由阿里云实名注册用户自发贡献，版权归原作者所有，阿里云开发者社区不拥有其著作权，亦不承担相应法律责任。具体规则请查看《阿里云开发者社区用户服务协议》和《阿里云开发者社区知识产权保护指引》。如果您发现本社区中有涉嫌抄袭的内容，填写侵权投诉表单进行举报，一经查实，本社区将立刻删除涉嫌侵权内容。

简介： DataWorks数据源是指DataWorks中配置的用于数据集成的外部数据源；本合集将讲解如何在DataWorks中配置和管理数据源，以及处理数据源连接和集成过程中的问题。

问题一：DataWorks数据集成 Redis数据源是什么？

DataWorks数据集成 Redis数据源是什么？

参考回答：

数据集成主要是用来做数据同步的，支持多种数据源，如 redis ,mysql,hbase 等。

选择数据集成>新建数据集成节点>数据同步时，数据源选择自己的数据源和埋点表，

阿里云DataWorks数据集成是DataX团队在阿里云上的商业化产品，致力于提供复杂网络环境下、丰富的异构数据源之间高速稳定的数据移动能力，以及繁杂业务背景下的数据同步解决方案。

目前已经支持云上近3000家客户，单日同步数据超过3万亿条。

DataWorks数据集成目前支持离线50+种数据源，可以进行整库迁移、批量上云、增量同步、分库分表等各类同步解决方案。2020年更新实时同步能力，支持10+种数据源的读写任意组合。提供MySQL，Oracle等多种数据源到阿里云MaxCompute，Hologres等大数据引擎的一键全增量同步解决方案。

数据集成在整个大数据数仓建设中的角色和地位简单概括为6个模块，第一个是数据源，里面包含了各种关系型数据库、文件存储、大数据存储、消息队列等。这些异构的数据源可以通过统一的数据集成平台来将异构网络的异构数据源统一抽取到数据仓库平台，在数据仓库平台中完成数据汇聚，进行统一的数据分析。分析后的结果数据仍可以通过数据集成回流到在线数据库，为在线业务、在线应用提供数据查询。除此之外，还可以利用一个承上启下的产品-数据服务，对接数据应用，制作相关报表、大屏、应用等。

关于本问题的更多回答可点击原文查看：https://developer.aliyun.com/ask/515779?spm=5176.8068049.0.0.77566d19PXNmxo

问题二：DataWorks数据集成报错：脏数据是什么？

DataWorks数据集成报错：脏数据是什么？

参考回答：

问题描述：脏数据: {"exception":"Code:[RedisWriter-04], Description:[Dirty data]. - source column number is in valid! 任务配置：

解决方案：源头的 column 配置多了，当value类型为hash时，数据源的每行记录都需遵循相应的规范。即每行记录除key外，只能有1对attribute和value，并且attribute必须在value前面，Redis Writer方可解析出column对应的是attribute或value。按照用户意图，应该是column只保留3列，移除不需要的列

关于本问题的更多回答可点击原文查看：https://developer.aliyun.com/ask/515720?spm=5176.8068049.0.0.77566d19PXNmxo

问题三：用dataworks数据集成怎么同时支持实时同步和T+1的同步方式？

问下，用dataworks数据集成怎么同时支持实时同步和T+1的同步方式？我看官方文档说delete的数据无法同步？这个怎么解决呀？云下sql server 到mc

参考回答：

从哪里同步到哪里 mysql到mc吗https://help.aliyun.com/document_detail/175676.html?spm=a2c4g.137670.0.i1

https://help.aliyun.com/document_detail/175676.html?spm=a2c4g.137670.0.i1

可以参考看下 sql server数据源的支持情况目前仅支持离线的方式写入mc不支持更新写入由于mc本身不支持update 如果有需要可以先同步到临时表然后通过join等方式merge到目标表

关于本问题的更多回答可点击原文查看：https://developer.aliyun.com/ask/515616?spm=5176.8068049.0.0.77566d19PXNmxo

问题四：DataWorks数据集成中，MySQL同步至Hologres的整库全增量方案创建的实时同步任务？

DataWorks数据集成中，MySQL同步至Hologres的整库全增量方案创建的实时同步任务，在运维中心里面找不到？这个是特性还是bug

参考回答：

现在方案的流程执行到哪一步啦方便截图看下吗流程里查看详情应该可以直接跳转任务

关于本问题的更多回答可点击原文查看：https://developer.aliyun.com/ask/513527?spm=5176.8068049.0.0.77566d19PXNmxo

问题五：dataworks数据集成离线同步odps表至mysql、odps表分区配置自定义参数怎么一直获取？

问题1:dataworks数据集成离线同步odps表至mysql、odps表分区配置自定义参数怎么一直获取不到？问题2:数据来源中配置分区信息是｛yesterday｝、调度参数中配的是yesterday=｛yesterday｝、调度参数中配的是yesterday=｛yesterday｝、调度参数中配的是yesterday=｛yyyy-mm-dd｝、提交运行显示illegal repetition near index 5 然后显示数据源配置的$这个符号位置