开发者社区 > 大数据与机器学习 > 大数据开发治理DataWorks > 正文

DataWorks发现DI离线节点不仅会去掉首尾空格,是不是他这些首尾特殊字符都会去掉呀?

DataWorks发现DI离线节点不仅会去掉首尾空格,还会去掉tab键,是不是他这些首尾特殊字符都会去掉呀?能否帮忙确认下底层?到底哪些字符写入OSS会被主动将首尾去掉

展开
收起
真的很搞笑 2023-12-10 19:18:02 48 0
3 条回答
写回答
取消 提交回答
  • 在 DataWorks 中,DI离线节点默认会对字段值进行前后空格的去除操作,这是为了消除数据中可能存在的不必要的空白字符。然而,目前 DataWorks DI离线节点并不会主动去除字符串中的制表符(Tab键)。

    对于底层如何处理特殊字符的问题,DataWorks DI离线节点基本上会遵循常见的字符串处理规则。一般情况下,DataWorks DI离线节点不会主动去除其他特殊字符的首尾。

    当数据通过DI离线节点写入到 OSS(Object Storage Service)时,DataWorks DI离线节点会将数据按原样写入,不会主动去除字符串中的任何特殊字符。

    如果您在使用 DataWorks DI离线节点过程中遇到了特殊字符被去除的情况,请排查是否有其他环节或代码对数据进行了处理。同时,您也可以联系 DataWorks 的官方技术支持团队,提供更具体的场景和示例,以便进一步排查和解决该问题。

    2023-12-11 21:10:55
    赞同 展开评论 打赏
  • 面对过去,不要迷离;面对未来,不必彷徨;活在今天,你只要把自己完全展示给别人看。

    在DataWorks的离线同步任务中,默认情况下不会自动移除字段前导空格。如果有需要去除字段前导空格的需求,可以在自定义数据处理过程中使用脚本或其他工具来完成这个任务。该流程是通过进入数据开发界面,创建和配置离线同步节点,配置同步网络链接,配置数据来源与去向,配置字段映射关系等步骤完成的。

    对于写入OSS的数据,DataWorks在处理时会遵循一定的规则。当需要将数据以开源格式写入OSS时,可以通过基于开源数据解析器创建的OSS外部表,及OSS的分片上传功能,执行INSERT操作将数据写入OSS。要注意的是,OSS对于Object的名称有以下限制:使用"object": "datax",写入的Object以datax开头,后缀添加随机字符串;使用"object": "cdo/datax",写入的Object以 /cdo/datax 开头,后缀随机添加字符串。

    据此可知,DataWorks在处理数据时,对于某些特殊字符,例如首尾空格和tab键,并不会主动进行删除处理。而关于是否会删除其他特殊字符,可能需要根据实际的业务需求和数据处理方式来确定。

    2023-12-11 11:15:46
    赞同 展开评论 打赏
  • csv会trim字段 ,trim应该是去掉所有的空白字符 text不会 ,此回答整理自钉群“DataWorks交流群(答疑@机器人)”

    2023-12-11 10:32:07
    赞同 展开评论 打赏

DataWorks基于MaxCompute/Hologres/EMR/CDP等大数据引擎,为数据仓库/数据湖/湖仓一体等解决方案提供统一的全链路大数据开发治理平台。

相关产品

  • 大数据开发治理平台 DataWorks
  • 相关电子书

    更多
    DataWorks调度任务迁移最佳实践-2020飞天大数据平台实战应用第一季 立即下载
    DataWorks商业化资源组省钱秘籍-2020飞天大数据平台实战应用第一季 立即下载
    基于DataWorks数据服务构建疫情大屏-2020飞天大数据平台实战应用第一季 立即下载

    相关实验场景

    更多