通过将访问频繁的热数据进行跨集群缓存,减少频繁读取产生的直读流量。我们通过数据分析发现,有些数据被很多 job 依赖,我们称之为热数据。热数据一般数据 量比较大,并且被读取次数很多。于是我们有了一个很自然的想法,将这些热数据在 remote cluster 进行缓存。由于存储是有代价的,因此这里的问题其实是一个trade-off,在最小化带宽消耗和最小化冗余存储之间做权衡。为了降低问题的复杂度以便于求解,我们通过数据分析发现,数据的访问有一个特点:数据的访问频率与大小和数据的产出时间相关,越新的数据被访问的频率越高、被读取的越大。因此,我们将问题转化为两个问题:对哪些表进行复制、这些表的复制生命周期。问题的目标是在一定冗余存储限制的前提下,最小化带宽消耗,包括复制带宽消耗和直读带宽消耗。
以上内容摘自《“伏羲”神算》电子书,点击https://developer.aliyun.com/topic/download?id=873
版权声明:本文内容由阿里云实名注册用户自发贡献,版权归原作者所有,阿里云开发者社区不拥有其著作权,亦不承担相应法律责任。具体规则请查看《阿里云开发者社区用户服务协议》和《阿里云开发者社区知识产权保护指引》。如果您发现本社区中有涉嫌抄袭的内容,填写侵权投诉表单进行举报,一经查实,本社区将立刻删除涉嫌侵权内容。
MaxCompute(原ODPS)是一项面向分析的大数据计算服务,它以Serverless架构提供快速、全托管的在线数据仓库服务,消除传统数据平台在资源扩展性和弹性方面的限制,最小化用户运维投入,使您经济并高效的分析处理海量数据。