MaxCompute元数据使用实践--项目信息统计

本文涉及的产品
云原生大数据计算服务MaxCompute,500CU*H 100GB 3个月
简介: MaxCompute的租户级别Information Schema从租户角度提供项目元数据及使用历史数据等信息,您可以一次性拉取您同一个元数据中心下所有Project的某类元数据,从而进行各类元数据的统计分析。

MaxCompute的租户级别Information Schema从租户角度提供项目元数据及使用历史数据等信息,您可以一次性拉取您同一个元数据中心下所有Project的某类元数据,从而进行各类元数据的统计分析。我们在此推出系列元数据使用实践文章。

本文主要介绍通过元数据的“CATALOGS”视图进行项目的相关统计。在此之前,您如果没还使用过租户级别Information Schema,需要您先详细阅读下租户级别Information Schema文档的背景信息、功能介绍、费用介绍、使用限制和注意事项,避免您在使用过程中遇到不必要的问题

统计所有项目的备份恢复功能配置大于1天的项目

场景

由于近期发现备份恢复存储费用增长较快,通过MaxCompute控制台的“成本分析”发现有好几个项目都产生了这项费用且都超出预期,因此需要盘点下哪些项目配置了备份大于1天,以及需要拿到详细的项目列表进行核对评估。

解决方案

可以通过租户级别Information Schema的视图“SYSTEM_CATALOG.INFORMATION_SCHEMA.CATALOGS”查看并获取数据,查询语句如下。

SET odps.namespace.schema = true; --若您当前租户已经开启租户级别的schema语法开关,则无需执行这个flag。
SELECT  catalog_name
        ,create_time
        ,region
        ,get_json_object(json_parse(settings),'$."odps.timemachine.retention.days"') timemachine_retention_days
FROM    SYSTEM_CATALOG.INFORMATION_SCHEMA.CATALOGS
;

查看所有项目的IP白名单配置情况

场景

由于安全需求升级,要求只能通过指定的ip访问MaxCompute的数据,日常需要排查各个项目的ip白名单设置情况。

解决方案

可以通过租户级别Information Schema的视图“SYSTEM_CATALOG.INFORMATION_SCHEMA.CATALOGS”查看并获取数据,查询语句如下:

SET odps.namespace.schema = true; --若您当前租户已经开启租户级别的schema语法开关,则无需执行这个flag。
SELECT  catalog_name
        ,create_time
        ,region
        ,get_json_object(json_parse(settings),'$."odps.security.ip.whitelist"') ip_whitelist
        ,get_json_object(json_parse(settings),'$."odps.security.vpc.whitelist"') vpcip_whitelist
FROM    SYSTEM_CATALOG.INFORMATION_SCHEMA.CATALOGS;


查看所有项目是否都已经设置好消费限制

场景

近期有费用突增,通过MaxCompute控制台的“成本分析”发现是按量付费的某个项目的SQL费用项突增,经过检查发现是有些非必要的大sql执行产生,并得知可以通过对项目配置单sql消费上限来限制一些非必要的大作业,因此需要总体盘点下所有项目这个属性的设置情况。

解决方案

可以通过租户级别Information Schema的视图“SYSTEM_CATALOG.INFORMATION_SCHEMA.CATALOGS”查看并获取数据,查询语句如下:

SET odps.namespace.schema = true; --若您当前租户已经开启租户级别的schema语法开关,则无需执行这个flag。
SELECT  catalog_name
        ,create_time
        ,region
        ,get_json_object(json_parse(settings),'$."odps.sql.metering.value.max"') sql_metering_value_max
FROM    SYSTEM_CATALOG.INFORMATION_SCHEMA.CATALOGS;


小结

以上只是给出了常见的几个场景,实际上您还可以通过“SYSTEM_CATALOG.INFORMATION_SCHEMA.CATALOGS”这个视图数据统计查看更多信息以便解决您的业务场景。

相关实践学习
基于MaxCompute的热门话题分析
Apsara Clouder大数据专项技能认证配套课程:基于MaxCompute的热门话题分析
目录
相关文章
|
3月前
|
存储 数据采集 搜索推荐
Java 大视界 -- Java 大数据在智慧文旅旅游景区游客情感分析与服务改进中的应用实践(226)
本篇文章探讨了 Java 大数据在智慧文旅景区中的创新应用,重点分析了如何通过数据采集、情感分析与可视化等技术,挖掘游客情感需求,进而优化景区服务。文章结合实际案例,展示了 Java 在数据处理与智能推荐等方面的强大能力,为文旅行业的智慧化升级提供了可行路径。
Java 大视界 -- Java 大数据在智慧文旅旅游景区游客情感分析与服务改进中的应用实践(226)
|
3月前
|
数据采集 SQL 搜索推荐
大数据之路:阿里巴巴大数据实践——OneData数据中台体系
OneData是阿里巴巴内部实现数据整合与管理的方法体系与工具,旨在解决指标混乱、数据孤岛等问题。通过规范定义、模型设计与工具平台三层架构,实现数据标准化与高效开发,提升数据质量与应用效率。
大数据之路:阿里巴巴大数据实践——OneData数据中台体系
|
3月前
|
存储 SQL 分布式计算
大数据之路:阿里巴巴大数据实践——元数据与计算管理
本内容系统讲解了大数据体系中的元数据管理与计算优化。元数据部分涵盖技术、业务与管理元数据的分类及平台工具,并介绍血缘捕获、智能推荐与冷热分级等技术创新。元数据应用于数据标签、门户管理与建模分析。计算管理方面,深入探讨资源调度失衡、数据倾斜、小文件及长尾任务等问题,提出HBO与CBO优化策略及任务治理方案,全面提升资源利用率与任务执行效率。
|
1月前
|
人工智能 Cloud Native 算法
拔俗云原生 AI 临床大数据平台:赋能医学科研的开发者实践
AI临床大数据科研平台依托阿里云、腾讯云,打通医疗数据孤岛,提供从数据治理到模型落地的全链路支持。通过联邦学习、弹性算力与安全合规技术,实现跨机构协作与高效训练,助力开发者提升科研效率,推动医学AI创新落地。(238字)
|
3月前
|
存储 监控 大数据
大数据之路:阿里巴巴大数据实践——事实表设计
事实表是数据仓库核心,用于记录可度量的业务事件,支持高性能查询与低成本存储。主要包含事务事实表(记录原子事件)、周期快照表(捕获状态)和累积快照表(追踪流程)。设计需遵循粒度统一、事实可加性、一致性等原则,提升扩展性与分析效率。
|
4月前
|
存储 搜索推荐 算法
Java 大视界 -- Java 大数据在智慧文旅旅游线路规划与游客流量均衡调控中的应用实践(196)
本实践案例深入探讨了Java大数据技术在智慧文旅中的创新应用,聚焦旅游线路规划与游客流量调控难题。通过整合多源数据、构建用户画像、开发个性化推荐算法及流量预测模型,实现了旅游线路的精准推荐与流量的科学调控。在某旅游城市的落地实践中,游客满意度显著提升,景区流量分布更加均衡,充分展现了Java大数据技术在推动文旅产业智能化升级中的核心价值与广阔前景。
|
2月前
|
机器学习/深度学习 传感器 分布式计算
数据才是真救命的:聊聊如何用大数据提升灾难预警的精准度
数据才是真救命的:聊聊如何用大数据提升灾难预警的精准度
188 14
|
4月前
|
数据采集 分布式计算 DataWorks
ODPS在某公共数据项目上的实践
本项目基于公共数据定义及ODPS与DataWorks技术,构建一体化智能化数据平台,涵盖数据目录、归集、治理、共享与开放六大目标。通过十大子系统实现全流程管理,强化数据安全与流通,提升业务效率与决策能力,助力数字化改革。
165 4
|
3月前
|
机器学习/深度学习 运维 监控
运维不怕事多,就怕没数据——用大数据喂饱你的运维策略
运维不怕事多,就怕没数据——用大数据喂饱你的运维策略
151 0
|
2月前
|
传感器 人工智能 监控
数据下田,庄稼不“瞎种”——聊聊大数据如何帮农业提效
数据下田,庄稼不“瞎种”——聊聊大数据如何帮农业提效
140 14

热门文章

最新文章

相关产品

  • 云原生大数据计算服务 MaxCompute
  • 下一篇
    oss云网关配置