备案控制台

开发者社区

开发者社区开发与运维文章正文

九十一、Spark-SparkSQL(多数据源处理)

2022-05-30 166

版权

版权声明：

本文内容由阿里云实名注册用户自发贡献，版权归原作者所有，阿里云开发者社区不拥有其著作权，亦不承担相应法律责任。具体规则请查看《阿里云开发者社区用户服务协议》和《阿里云开发者社区知识产权保护指引》。如果您发现本社区中有涉嫌抄袭的内容，填写侵权投诉表单进行举报，一经查实，本社区将立刻删除涉嫌侵权内容。

简介： 九十一、Spark-SparkSQL(多数据源处理)

读取JSON文件，以JSON，CSV，jdbc格式写出

数据展示

代码

package org.example.SQL
import org.apache.log4j.{Level, Logger}
import org.apache.spark.sql.{DataFrame, SaveMode, SparkSession}
import java.util.Properties
object sql_DataSource { //支持外部数据源
  //支持的文件数据格式:text/json/csv/parquet/orc...
  def main(args: Array[String]): Unit = {
    //不打印日志
    Logger.getLogger("org").setLevel(Level.ERROR)
    val spark: SparkSession = SparkSession.builder().appName("test2")
      .master("local[*]").getOrCreate()
    val sc = spark.sparkContext
    val df1: DataFrame = spark.read.json("data/input/json")
    df1.printSchema()
    df1.show()
    df1.coalesce(1).write.mode(SaveMode.Overwrite).json("data/output/json")
    df1.coalesce(1).write.mode(SaveMode.Overwrite).csv("data/output/csv")
    val prop = new Properties()
    prop.setProperty("user", "root")
    prop.setProperty("password", "123456")
    df1.coalesce(1).write.mode(SaveMode.Overwrite).jdbc("jdbc:mysql://localhost:3306/bigdata?characterEncoding=UTF-8", "person", prop)
    //如果没有，表自动创建
    spark.stop()
  }
}

约束

root
 |-- age: long (nullable = true)
 |-- id: long (nullable = true)
 |-- name: string (nullable = true)

数据打印

+---+---+--------+
|age| id|    name|
+---+---+--------+
| 20|  1|zhangsan|
| 29|  2|    lisi|
| 25|  3|  wangwu|
| 30|  4| zhaoliu|
| 35|  5|  tianqi|
| 40|  6|    kobe|
+---+---+--------+

结果文件输出

json

csv

jdbc

文章标签：

Java

数据格式

JSON

数据库连接

托马斯-酷涛

目录

相关文章

是Yu欸

|

5月前

|

SQL 机器学习/深度学习分布式计算

Spark5：SparkSQL

Spark5：SparkSQL

是Yu欸

59 0 0

扬流

|

26天前

|

SQL 分布式计算大数据

Paimon 与 Spark 的集成（二）：查询优化

通过一系列优化，我们将 Paimon x Spark 在 TpcDS 上的性能提高了37+%，已基本和 Parquet x Spark 持平，本文对其中的关键优化点进行了详细介绍。

扬流

117434 26 28

扬流

|

5月前

|

SQL 分布式计算大数据

Paimon与Spark的集成（一）

Spark 已经成为了大数据领域软件栈中必不可少的组成部分。作为数据湖领域新起的 Paimon，与Spark的深度、全面的集成也将为 Paimon 在准实时场景、离线湖仓场景提供了便利。本文主要介绍一些在 Paimon 新版本中基于 Spark 计算引擎支持的主要功能。

扬流

215 0 0

6hkip34i2a7n6

|

10月前

|

存储 SQL 分布式计算

Apache Hudi初探(二)(与spark的结合)

Apache Hudi初探(二)(与spark的结合)

6hkip34i2a7n6

127 0 0

6hkip34i2a7n6

|

10月前

|

分布式计算 Apache Spark

Apache Hudi初探(六)(与spark的结合)

Apache Hudi初探(六)(与spark的结合)

6hkip34i2a7n6

151 0 0

6hkip34i2a7n6

|

10月前

|

分布式计算 Apache Spark

Apache Hudi初探(与spark的结合)

Apache Hudi初探(与spark的结合)

6hkip34i2a7n6

94 0 0

6hkip34i2a7n6

|

10月前

|

SQL 分布式计算 Apache

Apache Hudi初探(七)(与spark的结合)

Apache Hudi初探(七)(与spark的结合)

6hkip34i2a7n6

79 0 0

6hkip34i2a7n6

|

10月前

|

分布式计算 Apache Spark

Apache Hudi初探(五)(与spark的结合)

Apache Hudi初探(五)(与spark的结合)

6hkip34i2a7n6

176 0 0

6hkip34i2a7n6

|

10月前

|

分布式计算 Java Apache

Apache Hudi初探(四)(与spark的结合)

Apache Hudi初探(四)(与spark的结合)

6hkip34i2a7n6

66 0 0

6hkip34i2a7n6

|

10月前

|

分布式计算 Apache Spark

Apache Hudi初探(三)(与spark的结合)

Apache Hudi初探(三)(与spark的结合)

6hkip34i2a7n6

52 0 0

热门文章

最新文章

Google Colab免费GPU大揭晓：超详细使用攻略

fdisk、parted无损调整普通分区大小

二十款漂亮的CSS字体样式

随机生成UserAgent的python库（fake-useragent库）

使用zxing识别一幅包含多个二维码的图片

leetCode 169. Majority Element 数组

图解揭秘Oracle Buffer Header数据结构

《CCNP ROUTE 300-101认证考试指南》——8.6节复习所有考试要点

iOS (ProjectName-info.plist) (ProjectName-Prefix.pch) 解析

经典排序之堆排序

R语言中使用RCPP并行计算指数加权波动率

R语言用Rshiny探索lme4广义线性混合模型（GLMM）和线性混合模型（LMM）

Python计算股票投资组合的风险价值（VaR）

用excel来构建柯布-道格拉斯Cobb-Douglas生产函数的可视化

R语言使用马尔可夫链Markov Chain, MC来模拟抵押违约

R语言使用Bass模型进行手机市场产品周期预测

R语言k-Shape时间序列聚类方法对股票价格时间序列聚类

R语言基于ARMA-GARCH-VaR模型拟合和预

R语言检验独立性：卡方检验(Chi-square test)

MATLAB中的马尔可夫区制转换(Markov regime switching)模型

相关课程

更多

Apache Flink 入门

相关电子书

更多

Spark介绍及Spark多数据源分析

Cassandra and SparkSQL

Apache Kudu & Apache Spark SQL

下一篇

阿里云oss简介和使用流程