MaxCompute 作为阿里云大数据平台的核心计算组件,拥有强大的计算能力,能够调度大量的节点做并行计算,同时对分布式计算中的 failover、重试等均有一套行之有效的处理管理机制。
MaxCompute SQL 作为分布式数据处理的主要入口,为快速方便处理/存储 EB级别的离线数据提供强有力的支持。随着大数据业务的不断扩展,新的数据使用场景在不断产生,在这样的背景下,MaxCompute计算框架也在不断的演化,原来主要面对内部特殊格式数据的强大计算能力,正一步步的开放给不同的外部数据。
现阶段 MaxCompute SQL 面对的主要是以 cfile 列格式,存储在内部 MaxCompute 表格中的结构化数据。而对于MaxCompute 表外的各种用户数据(包括文本以及各种非结构化的数据),需要首先通过各种工具导入 MaxCompute表,然后进行计算。数据导入的过程,具有较大的局限性。以 OSS 为例子,想要在 MaxCompute 中处理 OSS上的数据,通常有以下两种做法:
版权声明:本文内容由阿里云实名注册用户自发贡献,版权归原作者所有,阿里云开发者社区不拥有其著作权,亦不承担相应法律责任。具体规则请查看《阿里云开发者社区用户服务协议》和《阿里云开发者社区知识产权保护指引》。如果您发现本社区中有涉嫌抄袭的内容,填写侵权投诉表单进行举报,一经查实,本社区将立刻删除涉嫌侵权内容。