文档备案控制台

开发者社区问答正文

OSS元数据Cache的定义是什么？

OSS元数据Cache的定义是什么？

展开

收起

zxynnn 2022-05-10 12:09:53 635 版权

版权声明：本文内容由阿里云实名注册用户自发贡献，版权归原作者所有，阿里云开发者社区不拥有其著作权，亦不承担相应法律责任。具体规则请查看《阿里云开发者社区用户服务协议》和《阿里云开发者社区知识产权保护指引》。如果您发现本社区中有涉嫌抄袭的内容，填写侵权投诉表单进行举报，一经查实，本社区将立刻删除涉嫌侵权内容。

1 条回答

写回答

取消提交回答

游客6lve7fjcitvo6

Spark读取OSS的过程中，在ResolveRelation阶段，Spark会遍历OSS的目录，解析表结构和分区结构，以及解析Schema，该过程中同样会有大量元数据操作，并且同一个OSS 对象的元数据会被访问多次。针对该问题，我们实现了对OSS元数据的缓存，第一次访问到的OSS对象元数据就会被缓存到本地，后续如果访问该对象直接读取本地缓存。这种方式可以最大限度降低对OSS元数据的访问。Cache机制可以让ResolveRelation有1倍左右的性能提升，针对典型的Spark查询场景，该机制整体可以提升60%的性能。

2022-05-10 13:05:51

赞同展开评论

问答分类：

对象存储对象存储

问答标签：

对象存储元数据对象存储定义

问答地址：

开发者社区 > 云计算 > 问答

相关问答

OSS在表单里自定义元数据后并没有meta数据

181

1

0

如何使用OSS SDK获取视频的元数据，特别是视频的总时长？

378

1

0

CPFS 智算版在导出数据到 OSS 时会保存哪些元数据？

215

1

0

在云效中流水线中，构建结果上传OSS，可以做到同时修改指定文件元数据吗？

238

1

0

Flink的jar包方式同步数据，代码里面还需不需要定义存储oss位置？

153

1

0

OSS 推流的过程定义是什么？

892

1

0

ECS实例通过OSS内网地址访问OSS资源是如何定义的？

1645

1

0

OSS公共HTTP头定义？

1193

1

0

OSS文件 HTTP定义解释

1305

1

0

阿里云 OSS 样式的分隔符何以自己定义吗

4372

1

0

问答排行榜

最热

最新

【大咖问答】对话PostgreSQL 中国社区发起人之一，阿里云数据库高级专家德哥

据说在家办公的程序员是这样写代码的？

如何升级配置

【藏经阁一起读（27）】本周推荐《Apache Flink案例集（2022版）》，你有哪些心得？

【精品问答】python技术1000问(1)

Qoder的搜索/索引进程rg.exe占满CPU

QoderWork的Credit是如何计算的？固定Token量吗？如何查看我消耗了多少Token？

我用qoder 和 codex+deepseek 及claude + qwen 3.7同时解题目

阿里云服务器多少钱一年？支持40个连接的配置

阿里云服务器多少钱一年企业用？公司用什么配置？

相关文章

基于 YOLO11 的学生课堂行为检测：从数据集管理到云上训练实践

阿里云智能媒体管理（IMM）对接使用全攻略：从开通到生产级实践

能说会写的ai—阿里云技术

基于YOLO11的学生课堂行为检测：从数据准备到云上训练工程实践

相关解决方案

更多

ECS 数据备份与保护

声音克隆：定制你的专属声线

基于 Hologres 的广告创投一体化

文件下载加速及成本优化

一键生成PPT及讲解视频

还有其他疑问?