开发者社区 > 大数据与机器学习 > 大数据开发治理DataWorks > 正文

Maxcompute的元数据视图查询时为什么会产生大量的计算费用?

Maxcompute的元数据视图查询时为什么会产生大量的计算费用?

展开
收起
xin在这 2023-04-20 08:17:48 135 0
4 条回答
写回答
取消 提交回答
  • 值得去的地方都没有捷径

    MaxCompute的元数据视图是一种虚拟表,它是通过对底层数据表的元数据信息进行封装,来提供一种更方便的数据查询方式。在查询元数据视图时,MaxCompute需要对底层数据表的元数据信息进行计算和处理,这会产生一定的计算费用。

    此外,如果查询的元数据视图涉及到多个数据表或者多个分区,那么计算费用会更高。因为MaxCompute需要对多个数据表或分区的元数据信息进行处理和计算,这会增加计算的复杂度和计算费用。

    为了减少元数据视图查询时的计算费用,可以考虑以下几点:

    尽量避免使用元数据视图进行复杂的查询操作,可以直接查询底层数据表。

    如果必须使用元数据视图进行查询,可以尽量减少涉及的数据表和分区数量,以降低计算复杂度和计算费用。

    合理使用MaxCompute的分区管理功能,可以将数据按照分区进行管理,从而减少元数据视图查询时的计算量。

    2023-04-20 18:51:39
    赞同 展开评论 打赏
  • MaxCompute是以作业的执行情况作为计量指标,并在作业执行后收取费用

    2023-04-20 15:04:10
    赞同 展开评论 打赏
  • MaxCompute的元数据视图是通过对MaxCompute的表、分区等元数据信息进行统计和计算而得到的。在查询元数据视图时,如果查询的数据量较大或查询条件不合适,就可能会产生大量的计算费用。这主要有以下几个方面的原因:

    1. 查询条件不合适:MaxCompute的元数据视图查询通常需要使用到MaxCompute的系统表,如果查询条件不合适,可能会导致系统表中的数据量非常大,从而产生大量的计算费用。例如,如果查询条件中没有限制表名或分区等信息,就会查询所有表和分区的元数据信息,从而导致计算费用过高。

    2. 数据量较大:MaxCompute的元数据视图计算是基于MaxCompute的表、分区等元数据信息进行的,如果表的数量较多或者分区的数量较大,就会产生大量的计算费用。因此,在查询元数据视图时,应该尽可能地限制查询范围,以减少计算费用。

    3. 查询语句不合理:查询语句的编写也会影响计算费用。如果查询语句中包含复杂的运算或者聚合操作,就会导致计算费用增加。因此,在编写查询语句时,应该尽可能地简化查询操作,减少计算费用。

    建议在查询元数据视图时,尽可能地限制查询范围和查询条件,使用合理的查询语句,并采用分页的方式逐步查询元数据信息,以减少计算费用。此外,也可以考虑使用DataWorks等可视化工具来查询元数据信息,避免手动编写复杂的查询语句。

    2023-04-20 14:35:07
    赞同 展开评论 打赏
  • 场景描述: 1。使用maxc的元数据视图进行本项目下的作业费用计算,为啥每个项目下,收集元数据信息成本都是一样的?

    查询单个项目下的元数据信息,项目内任务数很少但是logview中的input-byte有数十G ?这正常吗?

    答: information schema提供的是视图元数据,对用户免存储费用, 但是查询会产生计算费用,视图的计算输入是按底层物理表数据输入,视图能查到的数据量不代表物理表仅存有这个量的数据。由于tasks_history和tunnel_history物理表较大(maxc的对应地域下的全局表),因此产品侧针对这两个视图做了优化,每日6点对昨日数据做一次切分以减少输入量提升查下性能,其他视图未做此处理。
    建议用户侧在使用功能元数据视图进行任务分析/费用计算时,尽量在6点之后进行统计 ,可以减少大量数据输入从而减少扫描费用,此回答整理自钉群“DataWorks交流群(答疑@机器人)”

    2023-04-20 11:29:09
    赞同 展开评论 打赏

DataWorks基于MaxCompute/Hologres/EMR/CDP等大数据引擎,为数据仓库/数据湖/湖仓一体等解决方案提供统一的全链路大数据开发治理平台。

相关电子书

更多
大数据AI一体化的解读 立即下载
极氪大数据 Serverless 应用实践 立即下载
大数据&AI实战派 第2期 立即下载