备案控制台

开发者社区问答正文

如何使用Spark JDBC数据源设置表编码？

我正在使用Spark JDBC将数据提取到Mysql表中。如果表不存在，它也会创建一个表。许多文本都有特殊字符。如果遇到任何特殊字符，摄取失败。我通过手动将CHARACTER SET utf8设置为MySQL表来解决了这个问题。

这是否可以在spark JDBC中创建表时设置CHARACTER SET utf8？

我正在使用DataFrames将数据保存到MySQL中。

object TweetApp extends App {

implicit val spark: SparkSession = SparkSession

.builder()
.appName("SparkJDBCApp")
.master("local[*]")
.getOrCreate()

import spark.implicits._

val df: DataFrame =

Seq(
  Tweet("fjsd67237",1545134345938L, "This line at Starbucks is not a good start to my morning  #craving "),
  Tweet("dsdsfd98234", 1545114345938L, "Why must the line to Starbucks be so long!!! I need my coffee!!!  #craving " )
).toDF()

// val createStatement = "CHARACTER SET utf8"

def write =

df.write
  .format("jdbc")
  .option("url", "jdbc:mysql://localhost")
  .option("dbtable", "spark.tweet")
  //.option("createTableColumnTypes",createStatement)
  .option("user", "root")
  .option("password", "root")
  .mode(SaveMode.Append)
  .save()

write

}

case class Tweet(id: String, date: Long, text: String)

展开

收起

社区小助手 2018-12-19 16:25:40 2063 版权

版权声明：本文内容由阿里云实名注册用户自发贡献，版权归原作者所有，阿里云开发者社区不拥有其著作权，亦不承担相应法律责任。具体规则请查看《阿里云开发者社区用户服务协议》和《阿里云开发者社区知识产权保护指引》。如果您发现本社区中有涉嫌抄袭的内容，填写侵权投诉表单进行举报，一经查实，本社区将立刻删除涉嫌侵权内容。

1 条回答

写回答

取消提交回答

社区小助手

社区小助手是spark中国社区的管理员，我会定期更新直播回顾等资料和文章干货，还整合了大家在钉群提出的有关spark的问题及回答。

使用createTableOptions选项。
createTableOptions这是与JDBC 编写器相关的选项。如果指定，则此选项允许在创建表时设置特定于数据库的表和分区选项（例如，CREATE TABLE t（名称字符串）ENGINE = InnoDB。）。此选项仅适用于书写。

2019-07-17 23:23:01

赞同展开评论

问答分类：

分布式计算 Java 关系型数据库 MySQL 数据库连接 Spark 云数据库 RDS MySQL 版

问答标签：

jdbc设置 apache spark JDBC spark jdbc apache spark数据源 jdbc数据源

问答地址：

开发者社区 > 数据库 > 问答

相关问答

E-MapReduce onACK设置spark-pi.yaml的mode为cluster提交...

76

1

0

当需要在运行时使用JDBC连接MySQL数据库时，Maven依赖的scope应如何设置？

169

1

0

如何自定义JDBC数据源？

99

2

0

云数据仓库ADB Spark SQL访问MaxCompute数据源-支持的库表操作

143

1

0

在表格存储中官网的spark这样读取OTS能否设置连接OTS的超时参数？

107

1

0

针对Lindorm数据源分区数量少导致Spark执行效率低的问题，有哪些处理策略？

76

1

0

如何自定义JDBC数据源文档？

88

0

0

DataWorks添加同一个VPC下的clickhouse数据源的时候，只能用jdbc模式吗？

120

1

0

在Flink CDC中jdbc sink的sql要提请定义好，能不能根据数据源动态生成？

106

1

0

MaxCompute Spark如何设置日志级别

153

1

0

问答排行榜

最热

最新

【大咖问答】对话PostgreSQL 中国社区发起人之一，阿里云数据库高级专家德哥

据说在家办公的程序员是这样写代码的？

阿里云开放端口权限

如何升级配置

【藏经阁一起读（27）】本周推荐《Apache Flink案例集（2022版）》，你有哪些心得？

上传文件时提示“Illegal file path”，怎么解决的？

阿里云ESA是什么？边缘安全加速和CDN有什么区别？

阿里云短信收费标准，短信群发平台是怎么收费的？

通义灵码使用代理报错

idea通义灵码插件，更新后怎么一直用英文回答。开始对话时，告诉它之后的问题使用中文回答也不行

相关文章

Quick BI使用案例02：基于人员维度的指定时间段订单分组排序

解锁并发新姿势：深入浅出Java的synchronized与ReentrantLock

告别样板代码：探索Java Record的简洁之力

有哪些好用的BI产品？国内外BI工具推荐

更高效的数据处理解决方案：基于 MinIO 部署 Apache Doris 存算分离版本实践

还有其他疑问?