MaxCompute Spark是MaxCompute提供的兼容开源Spark的计算服务。它在统一的计算资源和数据集权限体系之上,提供Spark计算框架,支持您以熟悉的开发使用方式提交运行Spark作业,满足更丰富的数据处理分析需求。
使用限制
MaxCompute Spark支持如下场景:
离线计算场景,例如GraphX、Mllib、RDD、Spark-SQL、PySpark等。
读写MaxCompute Table。
引用MaxCompute中的文件资源。
读写VPC环境下的服务。例如,RDS、Redis、HBase、ECS上部署的服务等。
读写OSS非结构化存储。
读OSS、Hologres以及HBase外部表。
MaxCompute Spark暂不支持如下场景:
交互式和流计算类需求,例如Spark-Shell、Spark-SQL-Shell、PySpark-Shell、Spark Streaming等。
不支持访问MaxCompute除OSS、Hologres以及HBase外部表之外的外部表、内建函数和自定义函数(MaxCompute UDF)。
不支持在使用按量计费开发者版资源的项目中执行Spark作业。按量计费开发者版仅支持MaxCompute SQL(支持使用UDF)、PyODPS作业。
不支持Checkpoint功能。