开发者社区大数据文章正文

阿里云E-MapReduce Spark SQL 作业配置

2017-09-01 1606

版权

本文内容由阿里云实名注册用户自发贡献，版权归原作者所有，阿里云开发者社区不拥有其著作权，亦不承担相应法律责任。具体规则请查看《阿里云开发者社区用户服务协议》和《阿里云开发者社区知识产权保护指引》。如果您发现本社区中有涉嫌抄袭的内容，填写侵权投诉表单进行举报，一经查实，本社区将立刻删除涉嫌侵权内容。

简介： .注意：Spark SQL提交作业的模式默认是yarn-client` 模式。 2.进入阿里云E-MapReduce控制台作业列表。 3.单击该页右上角的创建作业，进入创建作业页面。 4.填写作业名称。

.注意：Spark SQL 提交作业的模式默认是 yarn-client` 模式。

2.进入阿里云E-MapReduce控制台作业列表。

3.单击该页右上角的创建作业，进入创建作业页面。

4.填写作业名称。

5.选择 Spark SQL 作业类型，表示创建的作业是一个 Spark SQL 作业。Spark SQL 作业在 E-MapReduce 后台使用以下的方式提交：

spark-sql [options] [cli option]
6.在“应用参数”选项框中填入 Spark SQL 命令后续的参数。

-e 选项

-e 选项可以直接写运行的 SQL，在作业应用参数框中直接输入，如下所示：

-e "show databases;"
-f 选项

-f 选项可以指定 Spark SQL 的脚本文件。通过将编写好的 Spark SQL 脚本文件放在 OSS 上，可以更灵活，建议您使用这种运行方式。如下所示：

-f ossref://your-bucket/your-spark-sql-script.sql
7.选择执行失败后策略。

8.单击确定，Spark SQL 作业即定义完成。

文章标签：

开源大数据平台 E-MapReduce

SQL

分布式计算

Spark

对象存储

关键词：

SQL配置

阿里云apache spark

apache spark SQL

apache spark作业

SQL spark

云栖技术

阿里云大数据

8月前

蝉妈妈旗下蝉选通过迁移到阿里云 Serverless Spark 及 Milvus，解决传统架构性能瓶颈与运维复杂性问题。新方案实现离线任务耗时减少40%、失败率降80%，Milvus 向量检索成本降低75%，支持更大规模数据处理，查询响应提速。

阿里云大数据

455 57 57

游客wkqymr43luqiu

5月前

SQL JSON 分布式计算

Spark SQL架构及高级用法

Spark SQL基于Catalyst优化器与Tungsten引擎，提供高效的数据处理能力。其架构涵盖SQL解析、逻辑计划优化、物理计划生成及分布式执行，支持复杂数据类型、窗口函数与多样化聚合操作，结合自适应查询与代码生成技术，实现高性能大数据分析。

游客wkqymr43luqiu

418 2 3

探索云世界

6月前

人工智能分布式计算 DataWorks

一体系数据平台的进化：基于阿里云 EMR Serverless Spark 的持续演进

本文介绍了一体系汽配供应链平台如何借助阿里云EMR Serverless Spark实现从传统Hadoop平台向云原生架构的迁移。通过融合高质量零部件供应与创新互联网科技，一体系利用EMR Serverless Spark和DataWorks构建高效数据分析体系，解决大规模数据处理瓶颈。方案涵盖实时数据集成、Lakehouse搭建、数仓分层设计及BI/ML应用支持，显著提升数据处理性能与业务响应速度，降低运维成本，为数字化转型奠定基础。最终实现研发效率提升、运维压力减轻，并推动AI技术深度整合，迈向智能化云原生数据平台。

探索云世界

234 4 4

探索云世界

6月前

分布式计算运维监控

Fusion 引擎赋能：流利说如何用阿里云 Serverless Spark 实现数仓计算加速

本文介绍了流利说与阿里云合作，利用EMR Serverless Spark优化数据处理的全过程。流利说是科技驱动的教育公司，通过AI技术提升用户英语水平。原有架构存在资源管理、成本和性能等痛点，采用EMR Serverless Spark后，实现弹性资源管理、按需计费及性能优化。方案涵盖数据采集、存储、计算到查询的完整能力，支持多种接入方式与高效调度。迁移后任务耗时减少40%，失败率降低80%，成本下降30%。未来将深化合作，探索更多行业解决方案。

探索云世界

383 1 1

瓴羊Dataphin

9月前

SQL 分布式计算资源调度

Dataphin功能Tips系列（48)-如何根据Hive SQL/Spark SQL的任务优先级指定YARN资源队列

如何根据Hive SQL/Spark SQL的任务优先级指定YARN资源队列

瓴羊Dataphin

370 4 4

游客j4mujezz7vm7y

关系型数据库 MySQL 网络安全

5-10Can't connect to MySQL server on 'sh-cynosl-grp-fcs50xoa.sql.tencentcdb.com' (110)")

游客j4mujezz7vm7y

263 1 1

sunrr

SQL 存储监控

SQL Server的并行实施如何优化？

【7月更文挑战第23天】SQL Server的并行实施如何优化？

sunrr

562 13 14

小王老师呀

SQL

解锁 SQL Server 2022的时间序列数据功能

【7月更文挑战第14天】要解锁SQL Server 2022的时间序列数据功能，可使用`generate_series`函数生成整数序列，例如：`SELECT value FROM generate_series(1, 10)。此外，`date_bucket`函数能按指定间隔（如周）对日期时间值分组，这些工具结合窗口函数和其他时间日期函数，能高效处理和分析时间序列数据。更多信息请参考官方文档和技术资料。

小王老师呀

377 9 9

以山向海

SQL 存储网络安全

关系数据库SQLserver 安装 SQL Server

【7月更文挑战第26天】

以山向海

272 6 6

阿里云E-MapReduce Spark SQL 作业配置

热门文章

最新文章

相关课程

相关电子书

探索云世界

热门

云计算

大数据

云原生

人工智能

数据库

开发与运维

活动广场

任务中心

训练营

直播

乘风者计划

下载

镜像站

技术资料

阿里云E-MapReduce Spark SQL 作业配置

热门文章

最新文章

相关课程

相关电子书