社区小助手_个人页

社区小助手

文章

问答

822

视频

个人介绍

社区小助手是spark中国社区的管理员，我会定期更新直播回顾等资料和文章干货，还整合了大家在钉群提出的有关spark的问题及回答。

擅长的技术

数据库

获得更多能力

通用技术能力：

暂时未有相关通用技术能力~

云产品技术能力：

暂时未有相关云产品技术能力~

阿里云技能认证

详细说明

高分内容

最新动态

文章
问答
视频

提交了问题 2018-12-21

通过`in-code variable inspection`调试scala中的过滤器操作[重复]
提交了问题 2018-12-21

如何使用转换高阶函数？
提交了问题 2018-12-21

如何在SQL中获得至少X评论的所有产品？
提交了问题 2018-12-21

在Spark Streaming Python中将RDD转换为Dataframe
提交了问题 2018-12-21

错误，spark-submit --master yarn --deploy-mode cluster
提交了问题 2018-12-21

使用来自时间戳和国家/地区的pyspark进行时区转换
提交了问题 2018-12-21

Spark检查数据帧数组中的任何单词是否包含在另一个列表中？
提交了问题 2018-12-21

将DataFrame写入json时排除列标题
提交了问题 2018-12-21

如何使用spark同时读取不同文件夹中的多个文件？
提交了问题 2018-12-21

Scala Spark中相同Spark Dataframe列上的顺序动态过滤器
提交了问题 2018-12-21

dataframe spark scala取每组的（MAX-MIN）
提交了问题 2018-12-21

如何通过索引重命名PySpark数据帧列？（处理重复的列名）
提交了问题 2018-12-21

如何使用scala将特定函数转换为apache spark中的udf函数？[重复]
提交了问题 2018-12-21

Spark，Scala：如何从Rdd或dataframe中删除空行？
提交了问题 2018-12-21

使用带引号的字符串读取spark数据
提交了问题 2018-12-21

Apache Spark 2.0：Expression-string到orderBy（）/ sort（）列的降序
提交了问题 2018-12-21

Scala，Spark-shell，Groupby失败
提交了问题 2018-12-21

scala如何参数化case类，并将case类变量传递给[T <：Product：TypeTag]
提交了问题 2018-12-21

使用Spark SQL中的窗口函数结束记录
提交了问题 2018-12-21

Airflow SparkSubmitOperator - 如何在另一台服务器中进行spark-submit
提交了问题 2018-12-21

从广播列表中删除元素
提交了问题 2018-12-21

Apache Spark使用Java从CSV读取数组float [duplicate]
提交了问题 2018-12-21

SparkR的spark.conf.set
提交了问题 2018-12-21

INNER JOIN和ANTI JOIN有什么区别？
提交了问题 2018-12-21

使用pyspark将csv文件转换为parquet文件：Py4JJavaError：调用o347.parquet时发生错误[duplicate]
提交了问题 2018-12-21

拆分文本并在Spark Dataframe中查找常用词
提交了问题 2018-12-21

withclomn in pyspark错误：TypeError：'Column'对象不可调用
提交了问题 2018-12-21

如何从Pyspark One-vs-Rest多类分类器中获取概率
提交了问题 2018-12-21

有没有办法优化使用pandas读取TSV文件，转换并使用spark写入表的代码？
提交了问题 2018-12-21

Spark Scala - ML - Kmeans聚类预测列
提交了问题 2018-12-21

有没有办法在java中的Spark 2.1中进行广播连接
提交了问题 2018-12-21

Scala Spark中两个稀疏向量的余弦相似性
提交了问题 2018-12-21

我们可以将Chronounit从星期六到星期五配置为每周一次
提交了问题 2018-12-21

最新记录的不同ID - SparkSQL [重复]
提交了问题 2018-12-21

如何从代码外部提供spark / scala中的模式
提交了问题 2018-12-21

指定列的Spark sql问题
发表了文章 2018-12-20

#Apache Spark系列技术直播# 第六讲【 What's New in Apache Spark 2.4? 】

Apache Spark系列技术直播第六讲【 What's New in Apache Spark 2.4? 】 Abstract(简介): This talk will provide an overview of the major features and enhancements in Spark 2.
提交了问题 2018-12-19

如何在UDF中传递Row？
提交了问题 2018-12-19

Spark在创建数据集时无法反序列化记录
提交了问题 2018-12-19

将大量数据从SQL Server传输和转换为Azure SQL Server的最佳方法。Azure数据工厂，HDInsight等
提交了问题 2018-12-19

如何使用DataFrame中的CountVectorizerModel.vocabulary将termIndices转换为术语？
提交了问题 2018-12-19

spark到pandas
提交了问题 2018-12-19

如何有效地将DataFrame转换为（列名称 - >列值列表）的Map
提交了问题 2018-12-19

SparkContext无法以master设置为“Yarn”开始
提交了问题 2018-12-19

Spark-sql可以在没有安装配置单元的情况下工作吗？
提交了问题 2018-12-19

spark scala用map和过滤器阅读文本文件
提交了问题 2018-12-19

PySpark - 计算公共元素的更有效方法
提交了问题 2018-12-19

如何在sparkcontext.parallelize（...）。map（）中执行Hive查询？
提交了问题 2018-12-19

如何在Scala中按值对RDD数据（键，值）进行排序？
提交了问题 2018-12-19

Spark - 使用OpenCSV解析文件的序列化问题

...

暂无更多信息

发表了文章 2019-01-08

# Apache Spark系列技术直播# 第八讲【微软Azure平台利用Intel Analytics Zoo构建AI客服支持实践】
发表了文章 2018-12-26

# Apache Spark系列技术直播# 第七讲【大数据列式存储之 Parquet/ORC 】
发表了文章 2018-12-21

#Apache spark系列技术直播# 第六讲【 What's New in Apache Spark 2.4? 】
发表了文章 2018-12-20

#Apache Spark系列技术直播# 第六讲【 What's New in Apache Spark 2.4? 】
发表了文章 2018-12-17

Apache Spark Meetup China 第1期最全资料下载
发表了文章 2018-12-14

# Apache spark系列技术直播# 第五讲【 Spark RDD编程入门】
发表了文章 2018-12-12

# Apache Spark系列技术直播# 第五讲【 Spark RDD编程入门】
发表了文章 2018-12-07

# Apache Spark系列技术直播# 第四讲【机器学习介绍与Spark MLlib实践】
发表了文章 2018-12-06

#Apache Spark系列技术直播# 第四讲【机器学习介绍与Spark MLlib实践】
发表了文章 2018-12-05

Apache Spark 系列技术直播 - 从 Spark Streaming 到 Structured Streaming
发表了文章 2018-12-05

Apache Spark中国社群有奖投稿通道启动啦！
发表了文章 2018-11-29

SparkSQL实践与优化

正在加载, 请稍后...

滑动查看更多

提交了问题 2019-06-03

请问relational cache 与apache ignite有什么区别？
回答了问题 2019-07-17

请问relational cache 与apache ignite有什么区别？

EMR Spark relational cache可以简单理解为基于Spark的物化视图，支持把视图数据放在内存中或是HDFS OSS上，用户可以通过relational cache加速查询，或是基于此构建MOLAP平台。ignite应该主要是基于内存的实时计算引擎。很不错的问题。我知道的就是 relational cache 是基于 Spark 来做的，Spark 上直接用，不需要另外一堆服务。Ignite 自己是一套跟 Spark 可以对等的服务。

赞0 踩0 评论0
提交了问题 2019-05-30

问一个问题哈，在spark中默认使用java serialization ,但同时也提供了 kryo 序列化借口，今天测试了一下两个不同的序列号借口，发现并没有性能提升，我用的sparksql跑的测试，设计多个join操作，input量为270G , 这个为什么对性能没有提升呢？有大佬做过这方面的研究吗
提交了问题 2019-05-30

说到事务，衍生了一个问题，请教一下，像hive/mlsql/deltalake或者说spark 支持某级别事务的意义在哪？是否会演变会支持大部分事务？
提交了问题 2019-05-30

spark Sql都是client模式，而有时driver需要较多的资源，多用户共享一台机器时，client物理机资源可能会成为瓶颈，这个你们有什么解决方案吗
提交了问题 2019-05-30

我有个问题想请教一下，对于spark处理小文件，有没有什么优化方法
回答了问题 2019-07-17

问一个问题哈，在spark中默认使用java serialization ,但同时也提供了 kryo 序列化借口，今天测试了一下两个不同的序列号借口，发现并没有性能提升，我用的sparksql跑的测试，设计多个join操作，input量为270G , 这个为什么对性能没有提升呢？有大佬做过这方面的研究吗

2.0开始，shuffle的时候已经默认为 kryo 序列化了

赞0 踩0 评论0
回答了问题 2019-07-17

说到事务，衍生了一个问题，请教一下，像hive/mlsql/deltalake或者说spark 支持某级别事务的意义在哪？是否会演变会支持大部分事务？

你说某级别是隔离级别吗？隔离级别越高，并发性能越弱。对于 hive spark sql 这种并发很小的情况，支持多种隔离级别意义不是很大。平台化，让我执行完sql以后，获取输出的表或分区，对碎片文件进行合并，合并完以后任务才算执行完。最开始我们是通过质量分数强制用户自己去合并，用户很麻烦，换了这样的就解决了用户合并文件的问题。平台化可以这么做。缺点就是用户量上来之后有并发可能问题。但是也没有什么更好的办法，都是 trade off 碎片文件比较多的时候比较花费时间。用户可以设置参数，关闭合并，避免影响下游任务运行。等表不被使用了某个时间点用户自己去合并。

赞0 踩0 评论0
回答了问题 2019-07-17

spark Sql都是client模式，而有时driver需要较多的资源，多用户共享一台机器时，client物理机资源可能会成为瓶颈，这个你们有什么解决方案吗

可以用livy来提交spark-cluster的application，然后客户提交给livy，这块我们也做了一些工作

赞0 踩0 评论0
回答了问题 2019-07-17

我有个问题想请教一下，对于spark处理小文件，有没有什么优化方法

可以异步合并，小文件想解决还是合并，落地前合并，处理后合并。在write后repartition一下就可以设置文件数量，在你预估一个分区或处理文件的大小时可以把数量做成参数，比上blockSize生成一个合理的数字。也可以在落地后合并，这样不影响落地的效率不过两种方法都行，落地后就比如shuffle默认200个，那么就有200个小文件，那么可以在不使用这份数据的时候进行离线的合并，合并的方法有很多，基本上就是读出来再写进去，有几个点要注意：把合并后的文件放进原目录中前要删除之前读出来的那些文件避免数据重复，但不能全部删除，合并生成大文件过程中是否有其他程序写入新文件，文件中是否有tmp、success，文件存储格式要统一。你是问关于 delta 的小文件，还是 spark sql 自己的一些小文件？还是什么？sparksql目前应该没有这个功能，我们这边可以看一下需求如果是 hive 的事务表，hive 有合并小文件的功能。spark 方面开源是没有的。spark sql 开启事务之后，delete update 都会产生小文件。处理思路是一样的，定期合并。备注：开源 spark 没有事务支持。emr spark 的事务支持目前还比较薄弱。如果大家有需求，欢迎提出。 sparksql生成的数据小文件真的多，咱们可以通过元数据库，获取每个表下面每个分区下面的数据大小和文件个数，看看是要合并小文件还是要拆分大文件，然后sparksql读出来，然后再写进去，设置一下partition number 你们是用 spark streaming 处理数据最后实时写为 parquet 文件，然后推荐系统会用这些实时处理的数据，是这样的吧？（是的，需求是这样）那推荐系统怎么用这些数据，具体是用什么工具知道吗？（实时读取hdfs文件，spark ML）了解了。看到你们这个主要还是 spark 的技术栈，应用场景是 data pipeline。databricks 前一段时间开源的 delta 正是解决这一类场景。

赞0 踩0 评论0
提交了问题 2019-05-29

打扰一下大家如果对key的字符串型的value 进行累加是用 reduceByKey(_+_)好还是用 agg.(concat_ws(""), collect_list(col)) 好啊现在GC时间特别长都占用三分之一的时间了第一种的累加是 buffer累加还是不停的创建新的定长字符串
提交了问题 2019-05-29

Spark 【问答合集】
提交了问题 2019-05-29

各位大佬有遇到过类似问题吗，求指导
回答了问题 2019-07-17

打扰一下大家如果对key的字符串型的value 进行累加是用 reduceByKey(_+_)好还是用 agg.(concat_ws(""), collect_list(col)) 好啊现在GC时间特别长都占用三分之一的时间了第一种的累加是 buffer累加还是不停的创建新的定长字符串

你的函数是 (string,string){string+string}, 它就执行string+string

赞0 踩0 评论0
回答了问题 2019-07-17

各位大佬有遇到过类似问题吗，求指导

jar 不匹配 hadoop core 吧，自己去搜搜，配置文件这个类的再哪个jar里

赞0 踩0 评论0
提交了问题 2019-05-23

大神10亿数据查询在小于10秒怎么办？有没有什么好的解决方案呢？
提交了问题 2019-05-23

kafka 的broker日志中出现Too many open files ，这个大家有谁碰到过吗
提交了问题 2019-05-23

大家好，请教个问题，在sparkStreaming，我实现了StreamingListener 的接口，用于监控数据堆积的情况，在 onBatchCompleted 判断后调用 stop 会抛出 Cannot stop StreamingContext within listener thread of SparkListenerBus 的异常，异常是在下面源码截图中抛出来的，说我当前实时监控的线程还存在不允许stop ，有些不解，哪位大佬给指点下，是我操作不当？还是再做stop 时需要满足什么条件？
提交了问题 2019-05-23

问一个问题，有大神帮忙解答一下？spark如果在单机local模式下物化一张表，这个表会被物化到哪里去了
提交了问题 2019-05-23

有木有大佬请教一下sparksql的join数据倾斜应该怎么处理呢，join的时候根据号码关联，但是某个号码出现次数特别多

正在加载, 请稍后...

滑动查看更多

正在加载, 请稍后...

暂无更多信息

探索云世界

热门

云计算

大数据

云原生

人工智能

数据库

开发与运维

活动广场

任务中心

训练营

直播

乘风者计划

下载

镜像站

技术资料

社区小助手_个人页

个人介绍

擅长的技术

通过`in-code variable inspection`调试scala中的过滤器操作[重复]

如何使用转换高阶函数？

如何在SQL中获得至少X评论的所有产品？

在Spark Streaming Python中将RDD转换为Dataframe

错误，spark-submit --master yarn --deploy-mode cluster

使用来自时间戳和国家/地区的pyspark进行时区转换

Spark检查数据帧数组中的任何单词是否包含在另一个列表中？

将DataFrame写入json时排除列标题

如何使用spark同时读取不同文件夹中的多个文件？

Scala Spark中相同Spark Dataframe列上的顺序动态过滤器

dataframe spark scala取每组的（MAX-MIN）

如何通过索引重命名PySpark数据帧列？（处理重复的列名）

如何使用scala将特定函数转换为apache spark中的udf函数？[重复]

Spark，Scala：如何从Rdd或dataframe中删除空行？

使用带引号的字符串读取spark数据

Apache Spark 2.0：Expression-string到orderBy（）/ sort（）列的降序

Scala，Spark-shell，Groupby失败

scala如何参数化case类，并将case类变量传递给[T <：Product：TypeTag]

使用Spark SQL中的窗口函数结束记录

Airflow SparkSubmitOperator - 如何在另一台服务器中进行spark-submit

从广播列表中删除元素

Apache Spark使用Java从CSV读取数组float [duplicate]

SparkR的spark.conf.set

INNER JOIN和ANTI JOIN有什么区别？

使用pyspark将csv文件转换为parquet文件：Py4JJavaError：调用o347.parquet时发生错误[duplicate]

拆分文本并在Spark Dataframe中查找常用词

withclomn in pyspark错误：TypeError：'Column'对象不可调用

如何从Pyspark One-vs-Rest多类分类器中获取概率

有没有办法优化使用pandas读取TSV文件，转换并使用spark写入表的代码？

Spark Scala - ML - Kmeans聚类预测列

有没有办法在java中的Spark 2.1中进行广播连接

Scala Spark中两个稀疏向量的余弦相似性

我们可以将Chronounit从星期六到星期五配置为每周一次

最新记录的不同ID - SparkSQL [重复]

如何从代码外部提供spark / scala中的模式

指定列的Spark sql问题

#Apache Spark系列技术直播# 第六讲【 What's New in Apache Spark 2.4? 】

如何在UDF中传递Row？

Spark在创建数据集时无法反序列化记录

将大量数据从SQL Server传输和转换为Azure SQL Server的最佳方法。Azure数据工厂，HDInsight等

如何使用DataFrame中的CountVectorizerModel.vocabulary将termIndices转换为术语？

spark到pandas

如何有效地将DataFrame转换为（列名称 - >列值列表）的Map

SparkContext无法以master设置为“Yarn”开始

Spark-sql可以在没有安装配置单元的情况下工作吗？

spark scala用map和过滤器阅读文本文件

PySpark - 计算公共元素的更有效方法

如何在sparkcontext.parallelize（...）。map（）中执行Hive查询？

如何在Scala中按值对RDD数据（键，值）进行排序？

Spark - 使用OpenCSV解析文件的序列化问题

# Apache Spark系列技术直播# 第八讲 【 微软Azure平台利用Intel Analytics Zoo构建AI客服支持实践 】

# Apache Spark系列技术直播# 第七讲 【 大数据列式存储之 Parquet/ORC 】

#Apache spark系列技术直播# 第六讲【 What's New in Apache Spark 2.4? 】

#Apache Spark系列技术直播# 第六讲【 What's New in Apache Spark 2.4? 】

Apache Spark Meetup China 第1期 最全资料下载

# Apache spark系列技术直播# 第五讲【 Spark RDD编程入门 】

# Apache Spark系列技术直播# 第五讲【 Spark RDD编程入门 】

# Apache Spark系列技术直播# 第四讲 【 机器学习介绍与Spark MLlib实践 】

#Apache Spark系列技术直播# 第四讲 【 机器学习介绍与Spark MLlib实践 】

Apache Spark 系列技术直播 - 从 Spark Streaming 到 Structured Streaming

Apache Spark中国社群 有奖投稿通道 启动啦！

# Apache Spark系列技术直播# 第八讲【微软Azure平台利用Intel Analytics Zoo构建AI客服支持实践】

# Apache Spark系列技术直播# 第七讲【大数据列式存储之 Parquet/ORC 】

Apache Spark Meetup China 第1期最全资料下载

# Apache spark系列技术直播# 第五讲【 Spark RDD编程入门】

# Apache Spark系列技术直播# 第五讲【 Spark RDD编程入门】

# Apache Spark系列技术直播# 第四讲【机器学习介绍与Spark MLlib实践】

#Apache Spark系列技术直播# 第四讲【机器学习介绍与Spark MLlib实践】

Apache Spark中国社群有奖投稿通道启动啦！

说到事务，衍生了一个问题，请教一下，像hive/mlsql/deltalake或者说spark 支持某级别事务的意义在哪？是否会演变会支持大部分事务？

我有个问题想请教一下，对于spark处理小文件，有没有什么优化方法

说到事务，衍生了一个问题，请教一下，像hive/mlsql/deltalake或者说spark 支持某级别事务的意义在哪？是否会演变会支持大部分事务？

我有个问题想请教一下，对于spark处理小文件，有没有什么优化方法

打扰一下大家如果对key的字符串型的value 进行累加是用 reduceByKey(_+_)好还是用 agg.(concat_ws(""), collect_list(col)) 好啊现在GC时间特别长都占用三分之一的时间了第一种的累加是 buffer累加还是不停的创建新的定长字符串

打扰一下大家如果对key的字符串型的value 进行累加是用 reduceByKey(_+_)好还是用 agg.(concat_ws(""), collect_list(col)) 好啊现在GC时间特别长都占用三分之一的时间了第一种的累加是 buffer累加还是不停的创建新的定长字符串