StreamingPro使用教程

简介: StreamingPro使用教程

准备工作

我们假设你下载的StreamingPro包在/tmp目录下。
复制如下模板
{
  "esToCsv": {
    "desc": "测试",
    "strategy": "streaming.core.strategy.SparkStreamingStrategy",
    "algorithm": [],
    "ref": [],
    "compositor": [
      {
        "name": "streaming.core.compositor.spark.source.SQLSourceCompositor",
        "params": [
          {
            "format": "org.elasticsearch.spark.sql",
            "path": "索引名称",
            "es.nodes": "这里是填写集群地址哈",
            "es.mapping.date.rich": "false"
          }
        ]
      },
      {
        "name": "streaming.core.compositor.spark.transformation.JSONTableCompositor",
        "params": [
          {
            "tableName": "table1"
          }
        ]
      },
      {
        "name": "streaming.core.compositor.spark.transformation.SQLCompositor",
        "params": [
          {
            "sql": "select * from table1"
          }
        ]
      },
      {
        "name": "streaming.core.compositor.spark.output.SQLOutputCompositor",
        "params": [
          {
            "format": "com.databricks.spark.csv",
            "path": "file:///tmp/csv-table1",
            "header": "true",
            "inferSchema": "true"
          }
        ]
      }
    ],
    "configParams": {
    }
  }
}
假设该文件所在路径是  /tmp/esToCSV.json。

本机运行

cd  $SPARK_HOME

./bin/spark-submit   --class streaming.core.StreamingApp \
--master local[2] \
--name test \
/tmp/streamingpro-0.3.2-SNAPSHOT-online-1.6.1.jar    \
-streaming.name test    \
-streaming.platform spark   \
-streaming.job.file.path file:// /tmp/esToCSV.json

在集群运行

cd  $SPARK_HOME

./bin/spark-submit   --class streaming.core.StreamingApp \
--master yarn-cluster\
--name test \
/tmp/streamingpro-0.3.2-SNAPSHOT-online-1.6.1.jar    \
-streaming.name test    \
-streaming.platform spark   \
-streaming.job.file.path hdfs://clusternameAndPort/tmp/esToCSV.json
目录
相关文章
|
14天前
|
Java Linux DataX
DataX入门指南:快速部署和安装指南
DataX入门指南:快速部署和安装指南
76 2
DataX入门指南:快速部署和安装指南
|
3月前
|
分布式计算 Hadoop 关系型数据库
Sqoop入门指南:安装和配置
Sqoop入门指南:安装和配置
|
4月前
|
SQL 缓存 分布式计算
Apache Zeppelin系列教程第九篇——Zeppelin NoteBook数据缓存
Apache Zeppelin系列教程第九篇——Zeppelin NoteBook数据缓存
103 0
|
11月前
|
SQL 存储 分布式计算
工良出品:包教会,Hadoop、Hive 搭建部署简易教程
导读 Hadoop、Hive 是什么 运行环境 Java 环境 Mysql 下载 Hadoop、Hive 和 驱动 安装 Hadoop core-site.xml hdfs-site.xml mapred-site.xml yarn-site.xml hadoop-env.cmd 启动 Hadoop 安装 Hive 配置 Hive hive-env.sh hive-site.xml 运行 Hive 连接到 Hive
205 0
|
分布式计算 Java Hadoop
Spark3.2.1源码编译(傻瓜式图文教学)
Spark3.2.1源码编译(傻瓜式图文教学)
400 0
Spark3.2.1源码编译(傻瓜式图文教学)
|
数据采集 Oracle 关系型数据库
Kettle入门(一)
Kettle入门(一)
361 0
Kettle入门(一)
|
分布式计算 Java 数据安全/隐私保护
Zeppelin_安装_配置| 学习笔记
快速学习 Zeppelin_安装_配置
444 0
Zeppelin_安装_配置| 学习笔记
|
分布式计算 Spark 开发者
Zeppelin_使用笔记| 学习笔记
快速学习 Zeppelin_使用笔记
130 0
Zeppelin_使用笔记| 学习笔记
|
数据采集 Java Linux
kettle工具(一):简单介绍-入门
Kettle是一款国外开源的ETL工具,纯java编写,可以在Window、Linux、 Unix.上运行,绿色无需安装,数据抽取高效稳定。Kettle这个ETL工具集,它允许你管理来自不同数据库的数据,通过提供一个图形化的用户环境来描述你想做什么,而不是你想怎么做。
1322 0
kettle工具(一):简单介绍-入门