开发者社区 > 大数据与机器学习 > 大数据开发治理DataWorks > 正文

数据集成往mysql抽取数据的时候表情符会被认为是脏数据?

数据集成往mysql抽取数据的时候表情符会被认为是脏数据?

展开
收起
十一0204 2023-04-05 09:10:36 278 0
5 条回答
写回答
取消 提交回答
  • 公众号:网络技术联盟站,InfoQ签约作者,阿里云社区签约作者,华为云 云享专家,BOSS直聘 创作王者,腾讯课堂创作领航员,博客+论坛:https://www.wljslmz.cn,工程师导航:https://www.wljslmz.com

    在使用阿里云DataWorks进行数据集成往 MySQL 抽取数据时,如果源数据中包含表情符号,可能会被认为是脏数据。这是因为MySQL数据库默认的字符集是latin1,而表情符号一般会使用Unicode编码进行表示,如果直接将Unicode编码的表情符号存储到latin1字符集的MySQL数据库中,就会出现乱码。

    可以通过如下两种方式来解决该问题:

    1. 修改MySQL数据库字符集:建议将MySQL数据库字符集修改为utf8mb4,utf8mb4是支持Unicode编码的字符集,可以正确存储表情符号。

    2. 在DataWorks中进行数据转换:在进行数据集成时,在MySQL数据源对象中添加如下代码,实现Unicode编码到utf8mb4编码的转换,比如:

    SELECT CONVERT(column_name USING utf8mb4) FROM table_name;
    
    2023-04-26 12:33:50
    赞同 展开评论 打赏
  • 坚持这件事孤独又漫长。
    • 在往Mysql中抽取数据时,通常情况下表情符会被认为是脏数据。
    • 这是因为,在Mysql中,字符集的编码方式为UTF-8,而一些表情符号并不是标准的UTF-8字符。为了避免这种情况,通常可以在数据集成的过程中进行数据清洗,将这些表情符替换成其他字符,或者直接把这些数据删除。
    • 如果需要在Mysql中存储表情符等非标准字符,可以考虑使用支持存储非标准字符的字符集,如UTF-16。
    2023-04-06 08:49:14
    赞同 展开评论 打赏
  • 十年摸盘键,代码未曾试。 今日码示君,谁有上云事。

    在设计数据库表的字符集时,注意一下,不仅表要设置,有时候语句里面也有特定设置,注意优先级,不然会被覆盖掉。

    如果全都显示设置了,那么优先级顺序是 SQL语句 > 列级别设置 > 表级别设置 > 库级别设置 > 服务器别设置。

    以上方法解决不了从阿里云Maxcompute-->mysql的表情符导入的问题,网上的结论是传输工具DataX会把表情符做为脏数据处理掉,所以解决办法是把表情符给替换掉。

    2023-04-05 17:25:55
    赞同 展开评论 打赏
  • 意中人就是我呀!

    " 源头的 column 配置多了,当value类型为hash时,数据源的每行记录都需遵循相应的规范。即每行记录除key外,只能有1对attribute和value, 并且attribute必须在value前面,Redis Writer方可解析出column对应的是attribute或value。 按照用户意图,应该是column只保留3列,移除不需要的列。此回答整理自钉群“DataWorks交流群(答疑@机器人)”"

    2023-04-05 11:29:04
    赞同 展开评论 打赏
  • 发表文章、提出问题、分享经验、结交志同道合的朋友

    是的,如果数据中包括表情符,在同步过程中可能会报错脏数据:[13350975-0-0-writer] ERROR StdoutPluginCollector - 脏数据 {"exception":"Incorrect string value: '\xF0\x9F\x98\x82\xE8\xA2...' for column 'introduction' at row 1","record":[{"byteSize":8,"index":0,"rawData":9642,"type":"LONG"},}],"type":"writer"} 。

    2023-04-05 10:59:14
    赞同 展开评论 打赏

DataWorks基于MaxCompute/Hologres/EMR/CDP等大数据引擎,为数据仓库/数据湖/湖仓一体等解决方案提供统一的全链路大数据开发治理平台。

热门讨论

热门文章

相关电子书

更多
集成智能接入网关APP:优化企业级移动办公网络 立即下载
《DataWorks 数据集成实时同步》 立即下载
云效助力企业集成安全到DevOps中 立即下载

相关镜像