把实时离线一体化架构优点拆分到整个数仓开发链路里面,对应到一些产品能力。 数仓的开发过程一般是从数据源->数据写入->数据清洗->业务级聚合->数据分析& 服务->AI&Reporting。在数据分析服务或者是一些在线应用场景里面,有第三方也 有自用的产品应用封装,以及一些 AI 场景的在线分析服务,这时可以对接到数据分 析服务的一个接口,也可以对接到 MaxCompute 数仓里面的数据,或者是 oss 的 数据,可以根据自身业务场景来决定。
在数据源,MaxCompute 支持第三方插件,如 Kafka Connector,Logstash Connector,Flink Connector。数据写入层,支持批量数据通道、流式数据通道:行 文件支持自动 merge、实时数据通道。很快会提供基于数据写入的独享资源,也就 是商业化资源,目前写入的计算资源是公共集群,免费提供,对于大业务量需求时, 可能会出现延迟。不久会发布 upsert 能力,可以把业务库如 rds 数据实时更新到 MaxCompute。
从数据清洗来看,数据在写入 MaxCompute 过程中,支持 update 和 delete 能力,在这个过程中也在业务聚合这一层做了物化视图和渐进计算,以及规划中的自动化 物化视图。在数据分析服务这一层,MaxCompute 提供了查询加速能力,在后付费 过程无感知查询加速,以及在邀测过程中的预付费独享资源 MCQA 的查询。之前发 布了针对预付费查询加速免费额度的一个能力,每天每个 Project 有 500 次单个 SQL10G 以下的查询额度。后续针对数据分析服务的一个对接,以及第三方应用的 对接,如果用户是预付费,基于已购资源切分出一个资源组,作为独立查询加速资 源,来满足包年包月用户。
如果对数据分析服务有更高的交互式详细要求,可以对 接 Hologres。 在 Hologres 这一侧,通过 MaxCompute 到 Hologres 的外表支持以及 Hologres 到 MaxCompute 存储直读,来实现数据的互通。后续的规划是做一个元数据打通,以及 MaxCompute 到 Hologres 的直读能力。在上层 BI 报表分析过程当中,做了生态的一些接入,如网易有数、观远 BI、自主分析、在线服务有 AI 的在线模型,在线训 练会直接对接到 MaxCompute 数仓数据。
以上内容摘自《阿里云云原生一体化数仓新能力解读》电子书,点击https://developer.aliyun.com/ebook/download/7725 可下载完整版
版权声明:本文内容由阿里云实名注册用户自发贡献,版权归原作者所有,阿里云开发者社区不拥有其著作权,亦不承担相应法律责任。具体规则请查看《阿里云开发者社区用户服务协议》和《阿里云开发者社区知识产权保护指引》。如果您发现本社区中有涉嫌抄袭的内容,填写侵权投诉表单进行举报,一经查实,本社区将立刻删除涉嫌侵权内容。
MaxCompute(原ODPS)是一项面向分析的大数据计算服务,它以Serverless架构提供快速、全托管的在线数据仓库服务,消除传统数据平台在资源扩展性和弹性方面的限制,最小化用户运维投入,使您经济并高效的分析处理海量数据。