开发者社区 > 大数据与机器学习 > 大数据计算 MaxCompute > 正文

热数据复制是什么?

已解决

热数据复制是什么?

展开
收起
游客lmkkns5ck6auu 2022-08-10 14:04:46 323 0
1 条回答
写回答
取消 提交回答
  • 推荐回答

    通过将访问频繁的热数据进行跨集群缓存,减少频繁读取产生的直读流量。我们通过数据分析发现,有些数据被很多 job 依赖,我们称之为热数据。热数据一般数据 量比较大,并且被读取次数很多。于是我们有了一个很自然的想法,将这些热数据在 remote cluster 进行缓存。由于存储是有代价的,因此这里的问题其实是一个trade-off,在最小化带宽消耗和最小化冗余存储之间做权衡。为了降低问题的复杂度以便于求解,我们通过数据分析发现,数据的访问有一个特点:数据的访问频率与大小和数据的产出时间相关,越新的数据被访问的频率越高、被读取的越大。因此,我们将问题转化为两个问题:对哪些表进行复制、这些表的复制生命周期。问题的目标是在一定冗余存储限制的前提下,最小化带宽消耗,包括复制带宽消耗和直读带宽消耗。

    以上内容摘自《“伏羲”神算》电子书,点击https://developer.aliyun.com/topic/download?id=873

    2022-08-11 10:33:21
    赞同 展开评论 打赏

MaxCompute(原ODPS)是一项面向分析的大数据计算服务,它以Serverless架构提供快速、全托管的在线数据仓库服务,消除传统数据平台在资源扩展性和弹性方面的限制,最小化用户运维投入,使您经济并高效的分析处理海量数据。

相关电子书

更多
HBase 数据备份与恢复 立即下载
数据库异地备份及不还原快速查询备份集最佳实践 立即下载
阿里云HBase主备双活 立即下载