开发者社区 > 大数据与机器学习 > 大数据计算 MaxCompute > 正文

大数据计算MaxCompute我读oss 数据 按分区。数据翻倍是什么情况啊?

大数据计算MaxCompute我读oss 数据 按分区。数据翻倍是什么情况啊?就是数据明显是重复了 一模一样的2条
有个问题 我的oss数据是5分钟更新一次 和这个有关系吗?

展开
收起
cuicuicuic 2023-12-03 19:11:12 39 0
3 条回答
写回答
取消 提交回答
  • 读取OSS数据时出现数据翻倍的情况可能与您的读取方式有关。当您直接使用OSS外部表来读取存储在OSS目录中的数据文件时,每次读取数据都会涉及OSS的I/O操作,可能会引发重复读同一条数据的问题。为了提升读取性能,推荐您在MaxCompute项目中创建一个与OSS外部表Schema相同的内部表,然后将OSS上的数据导入MaxCompute内部表,这样可以避免重复读取同样一条数据,从而提高数据处理效率。

    至于您的数据每5分钟更新一次是否与问题有关,这取决于您的具体读取和写入逻辑。如果在同一时间周期内,数据的读取和写入操作没有做好相应的控制,可能会出现重复读取和写入的情况,从而导致数据翻倍。所以,对于频繁更新的数据,需要设置合适的数据同步策略,避免因同步频率过高导致的数据重复问题。

    2023-12-04 16:58:16
    赞同 展开评论 打赏
  • 比如你说哪条数据多了,我看oss上也是csv文件,可以直接本地打开看下,这条数据是不是本身就是这样的。

    因为oss外表的数据本身不存储在MaxCompute上,MaxCompute只是做了映射读出来,我理解不应该出现多数据的情况
    有,源端数据是变化的,读出来的也不一样。 ,此回答整理自钉群“MaxCompute开发者社区2群”

    2023-12-04 08:04:58
    赞同 展开评论 打赏
  • 面对过去,不要迷离;面对未来,不必彷徨;活在今天,你只要把自己完全展示给别人看。

    您好,读取OSS数据出现重复的情况可能与您的MaxCompute配置有关。首先,您需要确认是否在导入数据前对MaxCompute进行了正确的授权。其次,检查您的数据导入方式是否正确,例如是否使用了正确的命令和参数。

    关于您提到的5分钟更新一次的数据,如果每次更新都会导致数据翻倍,那么可能是更新操作导致了数据的重复插入。您可以检查一下更新操作的代码,看看是否有可能导致重复写入。

    另外,网络连通性也可能影响MaxCompute访问OSS的数据的可达性。建议您检查一下MaxCompute与OSS之间的网络连接是否正常。

    2023-12-03 20:51:12
    赞同 展开评论 打赏

MaxCompute(原ODPS)是一项面向分析的大数据计算服务,它以Serverless架构提供快速、全托管的在线数据仓库服务,消除传统数据平台在资源扩展性和弹性方面的限制,最小化用户运维投入,使您经济并高效的分析处理海量数据。

相关产品

  • 云原生大数据计算服务 MaxCompute
  • 相关电子书

    更多
    OSS运维进阶实战手册 立即下载
    《OSS运维基础实战手册》 立即下载
    OSS运维基础实战手册 立即下载