文档备案控制台

开发者社区问答正文

Spark:优化DataFrame，将其写入SQL 服务器

Spark:优化DataFrame，将其写入SQL 服务器

展开

收起

贺贺_ 2019-12-17 13:33:58 687 版权

版权声明：本文内容由阿里云实名注册用户自发贡献，版权归原作者所有，阿里云开发者社区不拥有其著作权，亦不承担相应法律责任。具体规则请查看《阿里云开发者社区用户服务协议》和《阿里云开发者社区知识产权保护指引》。如果您发现本社区中有涉嫌抄袭的内容，填写侵权投诉表单进行举报，一经查实，本社区将立刻删除涉嫌侵权内容。

1 条回答

写回答

取消提交回答

贺贺_

我们使用Azure-sqldb-spark库，而不是 Spark 的默认内置导出功能。此库为您提供了一个bulkCopyToSqlDB方法，它是一个真正的批处理插入，并且速度要快得多。与内置功能相比，使用起来不太实用，但根据我的经验，它仍然是值得的。我们或多或少地使用它像这样：

import com.microsoft.azure.sqldb.spark.config.Config
import com.microsoft.azure.sqldb.spark.connect._
import com.microsoft.azure.sqldb.spark.query._

val options = Map(
  "url"          -> "***",
  "databaseName" -> "***",
  "user"         -> "***",
  "password"     -> "***",
  "driver"       -> "com.microsoft.sqlserver.jdbc.SQLServerDriver"
)

// first make sure the table exists, with the correct column types
// and is properly cleaned up if necessary
val query = dropAndCreateQuery(df, "myTable")
val createConfig = Config(options ++ Map("QueryCustom" -> query))
spark.sqlContext.sqlDBQuery(createConfig)

val bulkConfig = Config(options ++ Map(
  "dbTable"           -> "myTable",
  "bulkCopyBatchSize" -> "20000",
  "bulkCopyTableLock" -> "true",
  "bulkCopyTimeout"   -> "600"
))

df.bulkCopyToSqlDB(bulkConfig)

如您所见，我们自行生成查询。您可以让库创建表，但它只是执行TABLEdataFrame.limit(0).write.sqlDB(config)，可能需要缓存 DataFrame，并且它不允许您选择SaveMode 可能还有可能很有趣：当将此库添加到 sbt 生成时，我们必须使用ExclusionRule ，否则assembly任务将失败。

libraryDependencies += "com.microsoft.azure" % "azure-sqldb-spark" % "1.0.2" excludeAll(
  ExclusionRule(organization = "org.apache.spark")
)

2019-12-17 13:41:34

赞同展开评论

问答分类：

SQL 分布式计算 Spark

问答标签：

云服务器 ECS优化 SQL优化 apache spark SQL 云服务器 ECS sql 优化SQL

问答地址：

开发者社区 > 大数据 > 问答

相关问答

ECS非I/O优化实例更换Windows操作系统

201

1

0

网上著名的C10K并发连接问题具体是怎么回事？常见的linux服务器参数优化有哪些？

301

2

0

阿里云轻量应用服务器CPU优化型是什么？为什么价格贵？

101

1

0

轻量服务器适合用于做网站SEO优化吗？

57

1

0

如何优化云服务器内存使用率？

159

1

0

如何优化云服务器内存使用率？

141

0

0

将执行SQL查询后的`Instance`对象直接转换为DataFrame对象时遇到这种是什么情况？

101

0

0

在ECS部署的airflow如何将spark作业提交到E-MapReduce集群上

140

1

0

DataWorks中spark作业时是集群环境嘛，该怎么做才能保证每台服务器都有相应的文件呢？

103

1

0

MySQL中关心过业务系统里面的sql耗时吗？统计过慢查询吗？对慢查询都怎么优化过？

1494

1

0

问答排行榜

最热

最新

【大咖问答】对话PostgreSQL 中国社区发起人之一，阿里云数据库高级专家德哥

据说在家办公的程序员是这样写代码的？

如何升级配置

【藏经阁一起读（27）】本周推荐《Apache Flink案例集（2022版）》，你有哪些心得？

【精品问答】python技术1000问(1)

内存被通义灵码吃光了。我电脑总共48G的内存，被通义灵码吃掉了30几G，你们搞什么飞机？

我下载的gguf文件，最新的LMSTUDIO仍然无法识别什么问题

CoPAW配置后，对话，出现 AGENT_UNKNOWN_ERROR 如何解决

copaw安装后，出现这个情况，在设置模型的过程中出现这个问题，如何解决

Qwen OpenAI-Responses 兼容模式有问题

相关文章

别再盲目上 Serverless 了：聊聊 Serverless 数据分析的真相、成本和适用场景

告别传统 Text-to-SQL：基于 Spring AI Alibaba 的数据分析智能体 DataAgent 深度解析

星型模型、雪花模型、星座模型：优缺点与选型

实战：用飞算JavaAI专业版写一个完整的博客系统

蓝易云：Mybatis的批处理工具：MybatisBatchUtils功能全解

相关解决方案

更多

文件下载加速及成本优化

一键部署幻兽帕鲁游戏服务器

网站静态资源加速与安全优化

原生 SQL 打造企业专属智能问答应用

原生 SQL 轻松实现多模态智能检索

还有其他疑问?