开发者社区大数据文章正文

阿里云E-MapReduce Spark SQL 作业配置

2017-09-01 1527

版权

本文内容由阿里云实名注册用户自发贡献，版权归原作者所有，阿里云开发者社区不拥有其著作权，亦不承担相应法律责任。具体规则请查看《阿里云开发者社区用户服务协议》和《阿里云开发者社区知识产权保护指引》。如果您发现本社区中有涉嫌抄袭的内容，填写侵权投诉表单进行举报，一经查实，本社区将立刻删除涉嫌侵权内容。

本文涉及的产品

EMR Serverless StarRocks，5000CU*H 48000GB*H

简介： .注意：Spark SQL提交作业的模式默认是yarn-client` 模式。 2.进入阿里云E-MapReduce控制台作业列表。 3.单击该页右上角的创建作业，进入创建作业页面。 4.填写作业名称。

.注意：Spark SQL 提交作业的模式默认是 yarn-client` 模式。

2.进入阿里云E-MapReduce控制台作业列表。

3.单击该页右上角的创建作业，进入创建作业页面。

4.填写作业名称。

5.选择 Spark SQL 作业类型，表示创建的作业是一个 Spark SQL 作业。Spark SQL 作业在 E-MapReduce 后台使用以下的方式提交：

spark-sql [options] [cli option]
6.在“应用参数”选项框中填入 Spark SQL 命令后续的参数。

-e 选项

-e 选项可以直接写运行的 SQL，在作业应用参数框中直接输入，如下所示：

-e "show databases;"
-f 选项

-f 选项可以指定 Spark SQL 的脚本文件。通过将编写好的 Spark SQL 脚本文件放在 OSS 上，可以更灵活，建议您使用这种运行方式。如下所示：

-f ossref://your-bucket/your-spark-sql-script.sql
7.选择执行失败后策略。

8.单击确定，Spark SQL 作业即定义完成。

文章标签：

开源大数据平台 E-MapReduce

SQL

分布式计算

Spark

对象存储

关键词：

apache spark SQL

阿里云apache spark

mapreduce sql

SQL配置

阿里云SQL

相关实践学习

基于EMR Serverless StarRocks一键玩转世界杯

基于StarRocks构建极速统一OLAP平台

快速掌握阿里云 E-MapReduce

E-MapReduce 是构建于阿里云 ECS 弹性虚拟机之上，利用开源大数据生态系统，包括 Hadoop、Spark、HBase，为用户提供集群、作业、数据等管理的一站式大数据处理分析服务。本课程主要介绍阿里云 E-MapReduce 的使用方法。

云栖技术

赵渝强老师

1月前

SQL JSON 分布式计算

【赵渝强老师】Spark SQL的数据模型：DataFrame

本文介绍了在Spark SQL中创建DataFrame的三种方法。首先，通过定义case class来创建表结构，然后将CSV文件读入RDD并关联Schema生成DataFrame。其次，使用StructType定义表结构，同样将CSV文件读入RDD并转换为Row对象后创建DataFrame。最后，直接加载带有格式的数据文件（如JSON），通过读取文件内容直接创建DataFrame。每种方法都包含详细的代码示例和解释。

赵渝强老师

47 0 0

武子康

2月前

SQL 分布式计算大数据

大数据-97 Spark 集群 SparkSQL 原理详细解析 Broadcast Shuffle SQL解析过程（一）

武子康

77 0 0

武子康

2月前

SQL 分布式计算算法

大数据-97 Spark 集群 SparkSQL 原理详细解析 Broadcast Shuffle SQL解析过程（二）

武子康

92 0 0

武子康

2月前

SQL 分布式计算 Java

大数据-96 Spark 集群 SparkSQL Scala编写SQL操作SparkSQL的数据源：JSON、CSV、JDBC、Hive

武子康

67 0 0

武子康

2月前

SQL 分布式计算大数据

大数据-94 Spark 集群 SQL DataFrame & DataSet & RDD 创建与相互转换 SparkSQL

武子康

82 0 0

武子康

2月前

SQL 存储分布式计算

大数据-93 Spark 集群 Spark SQL 概述基本概念 SparkSQL对比架构抽象

武子康

50 0 0

aliyun7689123603-22772

4月前

SQL 分布式计算监控

在hue上部署spark作业

8月更文挑战第10天

aliyun7689123603-22772

87 7 8

wljslmz

4月前

分布式计算并行计算数据处理

如何使用分区和合并来优化 Spark 作业？

【8月更文挑战第13天】

wljslmz

69 4 4

wljslmz

4月前

SQL 存储分布式计算

如何使用 Spark SQL 从 DataFrame 查询数据？

【8月更文挑战第13天】

wljslmz

147 4 4

wljslmz

4月前

分布式计算资源调度监控

MapReduce程序中的主要配置参数详解

【8月更文挑战第31天】

wljslmz

179 0 0

阿里云E-MapReduce Spark SQL 作业配置

热门文章

最新文章

相关课程

相关电子书

相关实验场景

热门

活动广场

任务中心

开发者评测

高校计划

乘风者计划

训练营

阿里云MVP

话题

直播

下载

镜像站

技术资料

插件

阿里云E-MapReduce Spark SQL 作业配置

热门文章

最新文章

相关课程

相关电子书

相关实验场景