开发者社区 > 大数据与机器学习 > 大数据计算 MaxCompute > 正文

大数据计算MaxCompute数据集成时,如果正常运行直到结束,那么就可以查到数据。但是如果终止那?

问题1:大数据计算MaxCompute数据集成时,如果正常运行直到结束,那么就可以查到数据。但是如果终止那么数据就不现实。这是为什么呢?
问题2:那如果这个分区本来就有数据,我重新同步一遍,然后终止,那原来数据也会删除吗

展开
收起
cuicuicuic 2023-07-25 17:59:50 38 0
3 条回答
写回答
取消 提交回答
  • 北京阿里云ACE会长

    如果在进行 MaxCompute 数据集成过程中,数据集成任务被终止或者异常退出,可能会导致数据集成不完整,部分数据没有被完全导入。在这种情况下,如果需要查找已经导入的数据,可以尝试以下几种方法:

    查看数据导入进度:MaxCompute 在进行数据集成时,会生成相应的日志文件,可以通过查看日志文件来了解数据导入的进度和状态,从而确定已经导入的数据量和数据范围。

    查询数据表元信息:MaxCompute 中的数据表具有元信息,包括表结构、分区信息、数据格式等,可以通过查询表元信息来确定已经导入的数据范围和数据分布情况。

    重新导入数据:如果数据集成任务被中止或者异常退出,可以尝试重新执行数据集成任务,以确保所有数据都可以被完整导入。

    2023-07-29 09:03:54
    赞同 展开评论 打赏
  • 问题1:如果在大数据计算中,您终止了一个正在进行的数据集成任务,那么可能无法看到最后的结果是因为数据集成是一个批处理过程。当您终止任务时,可能只完成了部分数据的处理,而没有完成整个流程。因此,部分或全部的结果数据可能没有被正确写入到目标位置中。

    问题2:如果您重新同步一个已经存在数据的分区,并且在同步过程中终止任务,原来的数据一般不会被删除。在分布式计算系统中,通常会使用“幂等性”操作来保证数据的一致性。这意味着重复执行同一个操作不会产生其他副作用或改变数据状态。因此,在重新同步时,系统会检测到数据已经存在,避免重复写入或删除现有数据。

    但是需要注意,具体的行为可能根据数据集成工具或平台的实现而有所不同。某些情况下,如果配置了特定的选项,重新同步分区时可能会覆盖或删除现有数据。因此,在执行数据集成任务之前,请务必详细阅读相关文档和工具的说明,并确保了解各个操作的预期行为。

    2023-07-28 18:30:43
    赞同 展开评论 打赏
  • 回答1:数据集成同步到MaxCompute底层用的是tunnel,我理解是这样,tunnel sdk有一个提交的动作,等所有数据传输完成,提交动作执行之后数据才会真正到表里。再次之前数据在服务器的缓存里
    回答2:我理解不会,任务没真正提交应该就不会,此回答整理自钉群“MaxCompute开发者社区2群”

    2023-07-25 18:20:07
    赞同 展开评论 打赏

MaxCompute(原ODPS)是一项面向分析的大数据计算服务,它以Serverless架构提供快速、全托管的在线数据仓库服务,消除传统数据平台在资源扩展性和弹性方面的限制,最小化用户运维投入,使您经济并高效的分析处理海量数据。

相关产品

  • 云原生大数据计算服务 MaxCompute
  • 相关电子书

    更多
    大数据AI一体化的解读 立即下载
    极氪大数据 Serverless 应用实践 立即下载
    大数据&AI实战派 第2期 立即下载