DataWorks发现DI离线节点不仅会去掉首尾空格，是不是他这些首尾特殊字符都会去掉呀？

DataWorks发现DI离线节点不仅会去掉首尾空格，还会去掉tab键，是不是他这些首尾特殊字符都会去掉呀？能否帮忙确认下底层？到底哪些字符写入OSS会被主动将首尾去掉

展开

收起

真的很搞笑 2023-12-10 19:18:02 210 版权

3 条回答

写回答

取消提交回答

Star时光

在 DataWorks 中，DI离线节点默认会对字段值进行前后空格的去除操作，这是为了消除数据中可能存在的不必要的空白字符。然而，目前 DataWorks DI离线节点并不会主动去除字符串中的制表符（Tab键）。

对于底层如何处理特殊字符的问题，DataWorks DI离线节点基本上会遵循常见的字符串处理规则。一般情况下，DataWorks DI离线节点不会主动去除其他特殊字符的首尾。

当数据通过DI离线节点写入到 OSS（Object Storage Service）时，DataWorks DI离线节点会将数据按原样写入，不会主动去除字符串中的任何特殊字符。

如果您在使用 DataWorks DI离线节点过程中遇到了特殊字符被去除的情况，请排查是否有其他环节或代码对数据进行了处理。同时，您也可以联系 DataWorks 的官方技术支持团队，提供更具体的场景和示例，以便进一步排查和解决该问题。

2023-12-11 21:10:55

赞同展开评论
小周sir

面对过去，不要迷离；面对未来，不必彷徨；活在今天，你只要把自己完全展示给别人看。

在DataWorks的离线同步任务中，默认情况下不会自动移除字段前导空格。如果有需要去除字段前导空格的需求，可以在自定义数据处理过程中使用脚本或其他工具来完成这个任务。该流程是通过进入数据开发界面，创建和配置离线同步节点，配置同步网络链接，配置数据来源与去向，配置字段映射关系等步骤完成的。

对于写入OSS的数据，DataWorks在处理时会遵循一定的规则。当需要将数据以开源格式写入OSS时，可以通过基于开源数据解析器创建的OSS外部表，及OSS的分片上传功能，执行INSERT操作将数据写入OSS。要注意的是，OSS对于Object的名称有以下限制：使用"object": "datax"，写入的Object以datax开头，后缀添加随机字符串；使用"object": "cdo/datax"，写入的Object以 /cdo/datax 开头，后缀随机添加字符串。

据此可知，DataWorks在处理数据时，对于某些特殊字符，例如首尾空格和tab键，并不会主动进行删除处理。而关于是否会删除其他特殊字符，可能需要根据实际的业务需求和数据处理方式来确定。

2023-12-11 11:15:46

赞同展开评论
芯在这

csv会trim字段，trim应该是去掉所有的空白字符 text不会，此回答整理自钉群“DataWorks交流群(答疑@机器人)”

2023-12-11 10:32:07

赞同展开评论

DataWorks发现DI离线节点不仅会去掉首尾空格，是不是他这些首尾特殊字符都会去掉呀？

大数据开发治理DataWorks

相关文章

热门讨论

热门文章