1.数据通道
批量/历史数据通道--tunnel 适合于全量数据或历史数据的导入、导出;
实时/增量数据通道--DataHub 该服务具有延迟低的特点,适合增量数据的导入,同时还支持多种数据传输的插件,如logstash、flume、fluentd、sqoop、logservice等。
2.数据存储
数据进入maxcompute后,默认会以结构化的方式存储,且有自己的数据类型,如Bigint, Boolean, Double, Datetime, String, Decimal; 数据上传后,以列压缩的方式存储到盘古上。这种压缩方式的好处就是对于文本类型的数据,一般都能取得较好的压缩比,一般是4:1。 3.多计算模型
1)SQL
MaxCompute SQL采用标准的SQL语法,兼容部分Hive语法。在语法上和HQL非常接近,熟悉SQL或HQL的编程人员都容易上手; MaxCompute提供更高效的计算框架支持SQL计算模型,执行效率比普通的MapReduce模型更高; 需要注意的是,MaxCompute SQL不支持事务、索引及Update/Delete等操作。 2)MapReduce
MaxCompute提供的Java MapReduce编程模型; 由于MaxCompute并没有开放文件接口,用户只能通过它所提供的Table读写数据; 更为重要的是,MaxCompute还提供了基于MapReduce的扩展计算模型, 即MR2。在该模型下,一个Map函数后,可以接入连续多个Reduce函数。 3)Graph
对于某些复杂的迭代计算场景,例如:K-Means,PageRank等,如果仍然使用MapReduce来完成这些计算任务将是非常耗时的。MaxCompute提供的Graph模型能够非常好的完成这一类计算任务。
版权声明:本文内容由阿里云实名注册用户自发贡献,版权归原作者所有,阿里云开发者社区不拥有其著作权,亦不承担相应法律责任。具体规则请查看《阿里云开发者社区用户服务协议》和《阿里云开发者社区知识产权保护指引》。如果您发现本社区中有涉嫌抄袭的内容,填写侵权投诉表单进行举报,一经查实,本社区将立刻删除涉嫌侵权内容。