MaxCompute 的存储包括数仓 schema on write 模式所需的库表,也包括 最近开放的 volume 非结构化存储。MaxCompute 采用了大数据存算分离 的架构,可以在大 规 模场景下进一步的 降 低 成本, 降 低 客 户 TCO。 MaxCompute 提供了沙箱运行环境,让用户的 UDF 和业务代码更安全也 更灵活的运行在多租环境中,免去了在数据外部由用户管理私有代码的麻 烦和限制。
MaxCompute 通过 Tunnel 服务,收敛了数据入仓的通道,对外只暴漏 Tunnel endpoint,让数据出入仓更安全,同时检查文件格式、收集元数据, 用于后续读写优化,以极小的代价获得相比 Hive 近一个数量级的性能领 先差异,这正是数仓模式的优势所在。MaxCompute 还提供了 web 控制 台、IDE studio、CMD、SDK 等多种连接方式, MMA 迁移工具帮助用户快 速迁移到 MaxCompute,Lemming 提供边缘端的采集、计算和云边协同 计算。
MaxCompute 对接 OSS 数据湖对象存储,通过 DLF 获取湖上元数据,可 以做到湖仓一体联邦,这时 MaxCompute 是仓,OSS 是湖。对接客户的 Hadoop 系统,通过自动获取 hms 中元数据,自动映射 Hive database 为 MaxCompute 项目的 external project,免去建外表即可直接将仓内数据 与 Hive、HDFS 数据关联计算,这时 MaxCompute 是仓,Hadoop 是湖。 MaxCompute 周边的二方生态和三方生态也构成了完整的数据链路和大 数据解决方案。MaxCompute 可以通过 DataWorks 数据集成获取批加载 的数据,还可以直接对接 Flink、Kafka、Datahub 等消息队列或流式数据, 实时入仓。Hologres 可与 MaxCompute 无缝集成,权限互认、Pangu 直 读 ,基于数仓模 型直接 获 得 交 互式分析的 高 并 发 、 低 延 时能力。
MaxCompute 的黄金搭档 DataWorks 是一套与 MaxCompute 一起发展起 来的开发治理工具,有了 DataWorks 可以更好的发挥 MaxCompute 的能 力和优势。
MaxCompute 还支持 PAI、ES、OS 以及 ADB、SLS 等二方引擎,实现机器 学习、检索、数据集市分析、日志处理等能力。并支持 QuickBI、DataV 等 报表、dashboard、大屏应用。数据中台治理工具 Dataphin、DataQ 都将 基于 MaxCompute 的多年阿里最佳实践,产品化赋能客户。更有 Tableau、 帆软等三方生态工具已经与 MaxCompute 互认,给用户更多选择。
以上内容摘自《阿里云云原生一体化数仓新能力解读》电子书,点击https://developer.aliyun.com/ebook/download/7725 可下载完整版
版权声明:本文内容由阿里云实名注册用户自发贡献,版权归原作者所有,阿里云开发者社区不拥有其著作权,亦不承担相应法律责任。具体规则请查看《阿里云开发者社区用户服务协议》和《阿里云开发者社区知识产权保护指引》。如果您发现本社区中有涉嫌抄袭的内容,填写侵权投诉表单进行举报,一经查实,本社区将立刻删除涉嫌侵权内容。
MaxCompute(原ODPS)是一项面向分析的大数据计算服务,它以Serverless架构提供快速、全托管的在线数据仓库服务,消除传统数据平台在资源扩展性和弹性方面的限制,最小化用户运维投入,使您经济并高效的分析处理海量数据。