备案控制台

开发者社区大数据文章正文

使用Spark SQL 构建流式处理程序

2016-09-11 2231

版权

版权声明：

本文内容由阿里云实名注册用户自发贡献，版权归原作者所有，阿里云开发者社区不拥有其著作权，亦不承担相应法律责任。具体规则请查看《阿里云开发者社区用户服务协议》和《阿里云开发者社区知识产权保护指引》。如果您发现本社区中有涉嫌抄袭的内容，填写侵权投诉表单进行举报，一经查实，本社区将立刻删除涉嫌侵权内容。

简介： StreamingPro目前已经涵盖流式/批处理，以及交互查询三个领域，实现配置和SQL化

前言

今天介绍利用 StreamingPro 构建流式(Spark Streaming)计算程序

准备工作

下载StreamingPro

README中有下载地址

我们假设您将文件放在了/tmp目录下。

填写配置文件

实例一，Nginx日志解析后存储到ES

gist

测试样例, 模拟数据，并且单机跑起来

gist

假设你使用的是第二个配置文件，名字叫做test.json，并且放在了/tmp目录下。

启动StreamingPro

Local模式：

cd  $SPARK_HOME

./bin/spark-submit   --class streaming.core.StreamingApp \
--master local[2] \
--name test \
/tmp/streamingpro-0.2.1-SNAPSHOT-dev-1.6.1.jar    \
-streaming.name test    \
-streaming.job.file.path file:///tmp/test.json

访问

http://127.0.0.1:4040

可进入Spark UI

集群模式：

cd $SPARK_HOME

./bin/spark-submit --class streaming.core.StreamingApp \

--master yarn-cluster \

--name test \

/tmp/streamingpro-0.2.1-SNAPSHOT-dev-1.6.1.jar \

-streaming.name test \

-streaming.job.file.path hdfs://cluster/tmp/test.json

这里需要注意的是，配置文件并蓄放到HDFS上，并且需要带上hdfs前缀。这是一个标准的Spark 批流式处理程序

文／祝威廉（简书作者）

原文链接：http://www.jianshu.com/p/d10edd6c7cf9

著作权归作者所有，转载请联系作者获得授权，并标注“简书作者”。

文章标签：

分布式计算

Spark

SQL

应用服务中间件

流计算

nginx

存储

关键词：

apache spark程序

apache spark SQL

apache spark构建

SQL spark

SQL构建

祝威廉

目录

相关文章

刘大猫.

|

3天前

|

消息中间件分布式计算 Java

Linux环境下 java程序提交spark任务到Yarn报错

Linux环境下 java程序提交spark任务到Yarn报错

刘大猫.

31 4 4

阿里云大数据

|

6月前

|

分布式计算运维搜索推荐

立马耀：通过阿里云 Serverless Spark 和 Milvus 构建高效向量检索系统，驱动个性化推荐业务

蝉妈妈旗下蝉选通过迁移到阿里云 Serverless Spark 及 Milvus，解决传统架构性能瓶颈与运维复杂性问题。新方案实现离线任务耗时减少40%、失败率降80%，Milvus 向量检索成本降低75%，支持更大规模数据处理，查询响应提速。

阿里云大数据

296 57 57

游客wkqymr43luqiu

|

3月前

|

SQL JSON 分布式计算

Spark SQL架构及高级用法

Spark SQL基于Catalyst优化器与Tungsten引擎，提供高效的数据处理能力。其架构涵盖SQL解析、逻辑计划优化、物理计划生成及分布式执行，支持复杂数据类型、窗口函数与多样化聚合操作，结合自适应查询与代码生成技术，实现高性能大数据分析。

游客wkqymr43luqiu

251 2 3

猿享天开

|

5月前

|

存储 SQL 数据库连接

C#程序调用Sql Server存储过程异常处理：调用存储过程后不返回、不抛异常的解决方案

本文分析了C#程序操作Sql Server数据库时偶发的不返回、不抛异常问题，并提出了解决思路。首先解析了一个执行存储过程的函数`ExecuteProcedure`，其功能是调用存储过程并返回影响行数。针对代码执行被阻塞但无异常的情况，文章总结了可能原因，如死锁、无限循环或网络问题等。随后提供了多种解决方案：1) 增加日志定位问题；2) 使用异步操作提升响应性；3) 设置超时机制避免阻塞；4) 利用线程池分离主线程；5) 通过信号量同步线程；6) 监控数据库连接状态确保可用性。这些方法可有效应对数据库操作中的潜在问题，保障程序稳定性。

猿享天开

413 11 11

阿里云大数据

|

8月前

|

存储分布式计算物联网

美的楼宇科技基于阿里云 EMR Serverless Spark 构建 LakeHouse 湖仓数据平台

美的楼宇科技基于阿里云 EMR Serverless Spark 建设 IoT 数据平台，实现了数据与 AI 技术的有效融合，解决了美的楼宇科技设备数据量庞大且持续增长、数据半结构化、数据价值缺乏深度挖掘的痛点问题。并结合 EMR Serverless StarRocks 搭建了 Lakehouse 平台，最终实现不同场景下整体性能提升50%以上，同时综合成本下降30%。

阿里云大数据

626 58 58

瓴羊Dataphin

|

7月前

|

SQL 分布式计算资源调度

Dataphin功能Tips系列（48)-如何根据Hive SQL/Spark SQL的任务优先级指定YARN资源队列

如何根据Hive SQL/Spark SQL的任务优先级指定YARN资源队列

瓴羊Dataphin

230 4 4

技术小达人

|

9月前

|

SQL 分布式计算 Java

Spark SQL向量化执行引擎框架Gluten-Velox在AArch64使能和优化

本文摘自 Arm China的工程师顾煜祺关于“在 Arm 平台上使用 Native 算子库加速 Spark”的分享，主要内容包括以下四个部分： 1.技术背景 2.算子库构成 3.算子操作优化 4.未来工作

技术小达人

1003 0 0

1100237741946300

|

12月前

|

SQL 安全网络安全

SQL安装程序规则错误解决方案

在安装SQL Server时，遇到安装程序规则错误是一个比较常见的问题

1100237741946300

692 5 5

赵渝强老师

|

11月前

|

SQL JSON 分布式计算

【赵渝强老师】Spark SQL的数据模型：DataFrame

本文介绍了在Spark SQL中创建DataFrame的三种方法。首先，通过定义case class来创建表结构，然后将CSV文件读入RDD并关联Schema生成DataFrame。其次，使用StructType定义表结构，同样将CSV文件读入RDD并转换为Row对象后创建DataFrame。最后，直接加载带有格式的数据文件（如JSON），通过读取文件内容直接创建DataFrame。每种方法都包含详细的代码示例和解释。

赵渝强老师

236 0 0

武子康

|

12月前

|

SQL 分布式计算大数据

大数据-97 Spark 集群 SparkSQL 原理详细解析 Broadcast Shuffle SQL解析过程（一）

大数据-97 Spark 集群 SparkSQL 原理详细解析 Broadcast Shuffle SQL解析过程（一）

武子康

251 0 0

热门文章

最新文章

阿里云数据库RDS费用价格：MySQL、SQL Server、PostgreSQL和MariaDB引擎收费标准

阿里云数据库收费价格：MySQL、PostgreSQL、SQL Server和MariaDB引擎费用整理

SQL Server 2025 RC1 发布 - 从本地到云端的 AI 就绪企业数据库

生成更智能，调试更轻松，SLS SQL Copilot 焕新登场！

通过 SQL 快速使用 OceanBase 向量检索学习笔记

MCP与PolarDB集成技术分析：降低SQL门槛与简化数据可视化流程的机制解析

生成更智能，调试更轻松，SLS SQL Copilot 焕新登场！

阿里云数据库RDS支持MySQL、SQL Server、PostgreSQL和MariaDB引擎

SQL日志优化策略：提升数据库日志记录效率

SQL Server 2022 RTM 累积更新 #21 发布

Linux环境下 java程序提交spark任务到Yarn报错

Kubeflow-Spark-Operator-架构学习指南

阿里云 EMR Serverless Spark：面向 Data+AI 的高性能 Lakehouse 产品

springboot项目集成dolphinscheduler调度器可拖拽spark任务管理

Spark SQL架构及高级用法

大数据≠大样本：基于Spark的特征降维实战（提升10倍训练效率）

一体系数据平台的进化：基于阿里云 EMR Serverless Spark 的持续演进

Fusion 引擎赋能：流利说如何用阿里云 Serverless Spark 实现数仓计算加速

3 秒音频也能克隆？拆解 Spark-TTS 架构的极致小样本学习

从InfluxDB到StarRocks：Grab实现Spark监控平台10倍性能提升

相关课程

更多

如何在 PolarDB-X 中优化慢 SQL

SQL完全自学手册

SQL Server on Linux入门教程

SQL入门与实践

数据库及SQL/MySQL基础

SQL进阶及查询

相关电子书

更多

SQL Server在电子商务中的应用与实践

GeoMesa on Spark SQL

原生SQL on Hadoop引擎- Apache HAWQ 2.x最新技术解密malili

下一篇

语音克隆 Index-TTS 详细介绍