开发者社区 > 大数据与机器学习 > 大数据计算 MaxCompute > 正文

DataWorks中Maxcompute的元数据视图查询时为什么会产生大量的计算费用?

DataWorks中Maxcompute的元数据视图查询时为什么会产生大量的计算费用?

展开
收起
真的很搞笑 2023-10-22 20:32:14 67 0
3 条回答
写回答
取消 提交回答
  • 在DataWorks中,当您使用MaxCompute的元数据视图进行查询时,可能会产生大量的计算费用。这主要有以下几个原因:

    1. 数据量过大:如果您的查询涉及到大量的数据,那么对底层数据表的元数据信息进行计算和处理的过程就会消耗更多的计算资源,从而产生更高的费用。

    2. 涉及多个数据表:如果查询的元数据视图涉及到多个数据表,那么计算和处理的过程就会更加复杂,因此产生的费用也会相应增加。

    3. 优化器基于代价的运算:MaxCompute的优化器是基于代价的优化器,需要基于数据的一些特征(即元数据),例如行数、字符串平均长度等,准确估算代价。

    4. 视图查询消耗资源:虽然information schema提供的是视图元数据,对用户免存储费用,但是查询会产生计算费用,视图的计算输入是按底层物理表数据输入,视图能查到的数据量不代表物理表的实际数据量。

    因此,为了避免产生过高的计算费用,您可以采取一些措施,如优化查询语句、减少查询的数据量、只查询需要的字段等。同时,理解并合理使用MaxCompute的元数据管理和优化器特性,也可以帮助降低计算费用。

    2023-10-23 11:51:41
    赞同 展开评论 打赏
  • 场景描述:
    1。使用maxc的元数据视图进行本项目下的作业费用计算,为啥每个项目下,收集元数据信息成本都是一样的?

    查询单个项目下的元数据信息,项目内任务数很少但是logview中的input-byte有数十G ?这正常吗?

    答:
    information schema提供的是视图元数据,对用户免存储费用,
    但是查询会产生计算费用,视图的计算输入是按底层物理表数据输入,视图能查到的数据量不代表物理表仅存有这个量的数据。由于tasks_history和tunnel_history物理表较大(maxc的对应地域下的全局表),因此产品侧针对这两个视图做了优化,每日6点对昨日数据做一次切分以减少输入量提升查下性能,其他视图未做此处理。
    建议用户侧在使用功能元数据视图进行任务分析/费用计算时,尽量在6点之后进行统计 ,可以减少大量数据输入从而减少扫描费用,此回答整理自钉群“DataWorks交流群(答疑@机器人)”

    2023-10-23 08:04:07
    赞同 展开评论 打赏
  • 面对过去,不要迷离;面对未来,不必彷徨;活在今天,你只要把自己完全展示给别人看。

    在DataWorks中,MaxCompute的元数据视图查询时可能会产生大量的计算费用,主要原因是查询语句的复杂度高,导致计算资源的使用量较大。具体来说,如果查询语句包含了大量的表、复杂的关联操作、大量的条件判断等,就可能会导致计算资源的使用量较大,从而产生大量的计算费用。
    此外,如果查询语句的执行时间较长,也可能会导致计算费用的增加。因为MaxCompute会对每个查询任务进行计费,如果查询任务的执行时间较长,就会产生更多的计算费用。
    为了减少MaxCompute元数据视图查询时的计算费用,可以采取以下几种方法:

    1. 优化查询语句:可以尽量减少查询语句的复杂度,例如减少查询的表数量、简化关联操作、减少条件判断等,以减少计算资源的使用量。
    2. 使用更高效的查询方式:可以考虑使用更高效的查询方式,例如使用预编译的查询语句、使用索引等,以提高查询的效率。
    3. 限制查询资源:可以考虑限制查询任务的资源使用量,例如限制查询任务的并发数、限制查询任务的CPU和内存资源等,以减少计算资源的使用量。
    2023-10-22 22:54:32
    赞同 展开评论 打赏

MaxCompute(原ODPS)是一项面向分析的大数据计算服务,它以Serverless架构提供快速、全托管的在线数据仓库服务,消除传统数据平台在资源扩展性和弹性方面的限制,最小化用户运维投入,使您经济并高效的分析处理海量数据。

相关产品

  • 云原生大数据计算服务 MaxCompute
  • 相关电子书

    更多
    Data+AI时代大数据平台应该如何建设 立即下载
    大数据AI一体化的解读 立即下载
    极氪大数据 Serverless 应用实践 立即下载