开发者社区 > 大数据与机器学习 > 大数据计算 MaxCompute > 正文

MaxCompute导数据过程中生僻字也会被识别成脏数据的问题,我应该去咨询哪里呢?

MaxCompute导数据过程中生僻字也会被识别成脏数据的问题,我应该去咨询哪里呢?今天试了把这个生僻字直接insert into到utf8m64编码的mysql表,是可以的,那么猜测问题应该还是在数据集成导数据这个环节。

展开
收起
三分钟热度的鱼 2023-07-04 21:01:05 70 0
3 条回答
写回答
取消 提交回答
  • 北京阿里云ACE会长

    如果在使用MaxCompute导入数据时出现生僻字被识别成脏数据的问题,您可以尝试联系阿里云客户服务,向他们咨询该问题的解决方法和建议。
    您也可以查看阿里云MaxCompute官方文档,了解关于数据导入和数据质量的相关内容,以便更好地理解和解决该问题。具体来说,您可以参考以下文档:
    MaxCompute数据质量:https://help.aliyun.com/document_detail/27835.html
    MaxCompute数据导入:https://help.aliyun.com/document_detail/27837.html
    MaxCompute数据管理:https://help.aliyun.com/document_detail/27840.html
    在处理生僻字被识别成脏数据的问

    2023-07-29 13:09:10
    赞同 展开评论 打赏
  • 如果在使用MaxCompute的数据集成功能导入数据时,遇到生僻字被识别为脏数据的问题,您可以咨询MaxCompute的技术支持团队来寻求帮助和解决方案。MaxCompute的技术支持团队将能够提供有关数据集成过程中字符编码、数据处理和导入的专业建议。

    您还可以考虑以下可能的解决方法或优化步骤:

    1. 字符编码转换:确认源数据的字符编码与目标表的字符编码一致,并进行必要的字符编码转换。确保在数据导入过程中,字符编码得到正确处理。

    2. 数据预处理:在导入数据之前,对源数据进行预处理,例如检测和替换生僻字,确保数据不包含非法字符或无法识别的字符。

    3. 数据集成工具配置:检查并确认所使用的数据集成工具(如DataWorks)的配置是否正确。可能需要调整配置文件或参数,以确保正确处理和保留生僻字。

    4. 导入选项和格式:尝试使用不同的导入选项和格式,例如使用更严格的校验规则或指定字符集、字符编码等。这可能有助于解决生僻字被误识别的问题。

    2023-07-28 22:20:44
    赞同 展开评论 打赏
  • 数据集成在DataWorks钉群问下。邀请入群地址:https://wx-in-i.dingtalk.com/invite-page/weixin.html?bizSource=source&corpId=dingd0cf799086f27cb135c2f4657eb6378f&inviteCode=yQy6pP8EVh46YrX 此回答整理自钉群“MaxCompute开发者社区2群”

    2023-07-04 21:46:06
    赞同 展开评论 打赏

MaxCompute(原ODPS)是一项面向分析的大数据计算服务,它以Serverless架构提供快速、全托管的在线数据仓库服务,消除传统数据平台在资源扩展性和弹性方面的限制,最小化用户运维投入,使您经济并高效的分析处理海量数据。

相关产品

  • 云原生大数据计算服务 MaxCompute
  • 相关电子书

    更多
    Data+AI时代大数据平台应该如何建设 立即下载
    大数据AI一体化的解读 立即下载
    极氪大数据 Serverless 应用实践 立即下载