文档备案控制台

开发者社区大数据文章正文

使用Spark SQL构建批处理程序

2016-09-11 2681

版权

版权声明：

本文内容由阿里云实名注册用户自发贡献，版权归原作者所有，阿里云开发者社区不拥有其著作权，亦不承担相应法律责任。具体规则请查看《阿里云开发者社区用户服务协议》和《阿里云开发者社区知识产权保护指引》。如果您发现本社区中有涉嫌抄袭的内容，填写侵权投诉表单进行举报，一经查实，本社区将立刻删除涉嫌侵权内容。

简介： StreamingPro目前已经涵盖流式/批处理，以及交互查询三个领域，实现配置和SQL化

前言

今天介绍利用 StreamingPro 完成批处理的流程。

准备工作

下载StreamingPro

README中有下载地址

我们假设您将文件放在了/tmp目录下。

填写配置文件

实例一,我要把数据从ES导出到HDFS,并且形成csv格式。

gist

启动StreamingPro

Local模式：

cd  $SPARK_HOME

./bin/spark-submit   --class streaming.core.StreamingApp \
--master local[2] \
--name test \
/tmp/streamingpro-0.2.1-SNAPSHOT-dev-1.6.1.jar    \
-streaming.name test    \
-streaming.platform spark   \
-streaming.job.file.path file:///tmp/test.json

访问

http://127.0.0.1:4040

可进入Spark UI

集群模式：

cd  $SPARK_HOME

./bin/spark-submit   --class streaming.core.StreamingApp \
--master yarn-cluster \
--name test \
/tmp/streamingpro-0.2.1-SNAPSHOT-dev-1.6.1.jar    \
-streaming.name test    \
-streaming.platform spark   \
-streaming.job.file.path hdfs://cluster/tmp/test.json

这里需要注意的是，配置文件并蓄放到HDFS上，并且需要协商hdfs前缀。这是一个标准的Spark 批处理程序

文章标签：

分布式计算

Spark

SQL

关键词：

apache spark程序

apache spark SQL

apache spark构建

SQL spark

SQL构建

祝威廉

目录

相关文章

Aron_NeAr

|

9月前

|

SQL JSON 分布式计算

Spark SQL架构及高级用法

Spark SQL基于Catalyst优化器与Tungsten引擎，提供高效的数据处理能力。其架构涵盖SQL解析、逻辑计划优化、物理计划生成及分布式执行，支持复杂数据类型、窗口函数与多样化聚合操作，结合自适应查询与代码生成技术，实现高性能大数据分析。

Aron_NeAr

592 2 3

猿享天开

|

11月前

|

存储 SQL 数据库连接

C#程序调用Sql Server存储过程异常处理：调用存储过程后不返回、不抛异常的解决方案

本文分析了C#程序操作Sql Server数据库时偶发的不返回、不抛异常问题，并提出了解决思路。首先解析了一个执行存储过程的函数`ExecuteProcedure`，其功能是调用存储过程并返回影响行数。针对代码执行被阻塞但无异常的情况，文章总结了可能原因，如死锁、无限循环或网络问题等。随后提供了多种解决方案：1) 增加日志定位问题；2) 使用异步操作提升响应性；3) 设置超时机制避免阻塞；4) 利用线程池分离主线程；5) 通过信号量同步线程；6) 监控数据库连接状态确保可用性。这些方法可有效应对数据库操作中的潜在问题，保障程序稳定性。

猿享天开

783 11 11

阿里云大数据

|

12月前

|

分布式计算运维搜索推荐

立马耀：通过阿里云 Serverless Spark 和 Milvus 构建高效向量检索系统，驱动个性化推荐业务

蝉妈妈旗下蝉选通过迁移到阿里云 Serverless Spark 及 Milvus，解决传统架构性能瓶颈与运维复杂性问题。新方案实现离线任务耗时减少40%、失败率降80%，Milvus 向量检索成本降低75%，支持更大规模数据处理，查询响应提速。

阿里云大数据

609 57 57

瓴羊Dataphin

|

SQL 分布式计算资源调度

Dataphin功能Tips系列（48)-如何根据Hive SQL/Spark SQL的任务优先级指定YARN资源队列

如何根据Hive SQL/Spark SQL的任务优先级指定YARN资源队列

瓴羊Dataphin

459 4 4

阿里云大数据

|

存储分布式计算物联网

美的楼宇科技基于阿里云 EMR Serverless Spark 构建 LakeHouse 湖仓数据平台

美的楼宇科技基于阿里云 EMR Serverless Spark 建设 IoT 数据平台，实现了数据与 AI 技术的有效融合，解决了美的楼宇科技设备数据量庞大且持续增长、数据半结构化、数据价值缺乏深度挖掘的痛点问题。并结合 EMR Serverless StarRocks 搭建了 Lakehouse 平台，最终实现不同场景下整体性能提升50%以上，同时综合成本下降30%。

阿里云大数据

981 58 58

技术小达人

|

SQL 分布式计算 Java

Spark SQL向量化执行引擎框架Gluten-Velox在AArch64使能和优化

本文摘自 Arm China的工程师顾煜祺关于“在 Arm 平台上使用 Native 算子库加速 Spark”的分享，主要内容包括以下四个部分： 1.技术背景 2.算子库构成 3.算子操作优化 4.未来工作

技术小达人

1982 0 0

赵渝强老师

|

SQL JSON 分布式计算

【赵渝强老师】Spark SQL的数据模型：DataFrame

本文介绍了在Spark SQL中创建DataFrame的三种方法。首先，通过定义case class来创建表结构，然后将CSV文件读入RDD并关联Schema生成DataFrame。其次，使用StructType定义表结构，同样将CSV文件读入RDD并转换为Row对象后创建DataFrame。最后，直接加载带有格式的数据文件（如JSON），通过读取文件内容直接创建DataFrame。每种方法都包含详细的代码示例和解释。

赵渝强老师

410 0 0

1100237741946300

|

SQL 存储数据库

SQL在构建系统中的应用：关键要素与编写技巧

在构建基于数据库的系统时，SQL（Structured Query Language）扮演着至关重要的角色

1100237741946300

245 5 5

1100237741946300

|

SQL 安全网络安全

SQL安装程序规则错误解决方案

在安装SQL Server时，遇到安装程序规则错误是一个比较常见的问题

1100237741946300

1013 5 5

热门文章

最新文章

[MySQL]——SQL预编译、动态sql

sql server中分布式查询随笔

一道sql面试题的解答

云原生数据仓库AnalyticDB操作报错合集之执行sql的进程报错:"unknown connection id",是什么导致的

SQL Server-简单查询示例（十一）

[20130628]sql语句显示不全的问题.txt

获取SQL数据库中的数据库名、所有表名、所有字段名、列描述

SQL语句性能分析技巧与方法

[T-SQL]从变量与数据类型说起

SQL Server 2008新特性——SSMS增强

Linux环境下 java程序提交spark任务到Yarn报错

Kubeflow-Spark-Operator-架构学习指南

阿里云 EMR Serverless Spark：面向 Data+AI 的高性能 Lakehouse 产品

springboot项目集成dolphinscheduler调度器可拖拽spark任务管理

Spark SQL架构及高级用法

大数据≠大样本：基于Spark的特征降维实战（提升10倍训练效率）

一体系数据平台的进化：基于阿里云 EMR Serverless Spark 的持续演进

Fusion 引擎赋能：流利说如何用阿里云 Serverless Spark 实现数仓计算加速

3 秒音频也能克隆？拆解 Spark-TTS 架构的极致小样本学习

从InfluxDB到StarRocks：Grab实现Spark监控平台10倍性能提升

相关课程

更多

大数据实战项目：反爬虫系统（Lua+Spark+Redis+Hadoop框架搭建）第一阶段

大数据实战项目：反爬虫系统（Lua+Spark+Redis+Hadoop框架搭建）第二阶段

大数据实战项目：反爬虫系统（Lua+Spark+Redis+Hadoop框架搭建）第三阶段

大数据实战项目：反爬虫系统（Lua+Spark+Redis+Hadoop框架搭建）第四阶段

大数据实战项目：反爬虫系统（Lua+Spark+Redis+Hadoop框架搭建）第五阶段

大数据实战项目 - 反爬虫系统（Lua+Spark+Redis+Hadoop框架搭建）第六阶段

相关电子书

更多

云HBaseSQL及分析 ——Phoenix&Spark

R AND SPARK

Spark Autotuning

下一篇

PHP：将本地文件上传到阿里云OSS存储