社区小助手_个人页

社区小助手

文章

问答

822

视频

个人介绍

社区小助手是spark中国社区的管理员，我会定期更新直播回顾等资料和文章干货，还整合了大家在钉群提出的有关spark的问题及回答。

擅长的技术

数据库

获得更多能力

通用技术能力：

暂时未有相关通用技术能力~

云产品技术能力：

暂时未有相关云产品技术能力~

阿里云技能认证

详细说明

高分内容

最新动态

文章
问答
视频

提交了问题 2018-12-05

创建一个Spark udf函数来迭代一个字节数组并将其转换为数字
提交了问题 2018-12-05

在确定排名时考虑具有相同值的项目
提交了问题 2018-12-05

Spark - 从Hive读取并创建没有案例类的强类型数据集
提交了问题 2018-12-05

如何减少Spark依赖模型导出的工作原理？
提交了问题 2018-12-05

Spark如何从一行中仅提取Json数据
提交了问题 2018-12-05

强制maven使用本地依赖
提交了问题 2018-12-05

Spark读取了--files提交的csv文件
提交了问题 2018-12-05

案例类映射到csv
提交了问题 2018-12-05

Spark数据帧Timestamp列从Mapr DB表中推断为InvalidType
提交了问题 2018-12-05

使用scala为ElasticSearch测试用例创建虚拟SearchResponse实例
提交了问题 2018-12-05

什么spark varargs函数countDistinct首先接收一个String / Column？
提交了问题 2018-12-05

如何使用Spark结构化流媒体为Kafka流实现自定义反序列化？
提交了问题 2018-12-05

spark sql是否区分大小写？
提交了问题 2018-12-05

加载本地文件时spark_session和sqlContext之间的区别
提交了问题 2018-12-05

spark任务（每个执行程序）共享缓存位置吗？
提交了问题 2018-12-05

MongoDB和Spark：无法将STRING转换为TimestampType
提交了问题 2018-12-05

在AWS Glue中附加负载
提交了问题 2018-12-05

比较dataframe列中存在的scala中的日期
提交了问题 2018-12-05

如何计算spark Scala中2行之间的时间差
提交了问题 2018-12-05

如何在spark中使用org.slf4j.Logger？
提交了问题 2018-12-05

如何将Object [转换为Row ]？
提交了问题 2018-12-05

以json / text格式的Apache Spark DAG可视化
提交了问题 2018-12-05

PySpark线性回归数据集中具有比数据点更多的特征
提交了问题 2018-12-05

sbt：找到资源目录下文件/文件夹的正确路径
提交了问题 2018-12-05

Spark结构化流媒体：等待终止，如何写流
提交了问题 2018-12-05

路径参考问题
提交了问题 2018-12-05

如何用整数替换Null条件Pyspark Dataframe
提交了问题 2018-12-05

pyspark将行转换为带有空值的json
提交了问题 2018-12-05

Spark Streaming Kafka Stream批处理执行
提交了问题 2018-12-05

Apache Spark JSON读取错误 - java.lang.IllegalArgumentException：非法模式组件：XXX
提交了问题 2018-12-05

在sparksql中以正确格式将字符串数据转换为十进制时出现问题
提交了问题 2018-12-05

Apache Spark JSON读取错误 - java.lang.IllegalArgumentException：非法模式组件：XXX
发表了文章 2018-12-05

Apache Spark中国社群有奖投稿通道启动啦！

感谢对 Apache Spark 中国社区的关注和支持！如果您有意为 Apache Spark 中国社区投稿请关注如下的内容。投稿内容要求：内容要求是 Apache Spark 相关的技术内容，可以是对 Apache Spark 的分析，也可以是 Apache Spark 的实践。
发表了文章 2018-11-29

SparkSQL实践与优化

SQL实践：1.多数据源支持 2.多数据类型支持 3.多组件对接

...

暂无更多信息

发表了文章 2019-01-08

# Apache Spark系列技术直播# 第八讲【微软Azure平台利用Intel Analytics Zoo构建AI客服支持实践】
发表了文章 2018-12-26

# Apache Spark系列技术直播# 第七讲【大数据列式存储之 Parquet/ORC 】
发表了文章 2018-12-21

#Apache spark系列技术直播# 第六讲【 What's New in Apache Spark 2.4? 】
发表了文章 2018-12-20

#Apache Spark系列技术直播# 第六讲【 What's New in Apache Spark 2.4? 】
发表了文章 2018-12-17

Apache Spark Meetup China 第1期最全资料下载
发表了文章 2018-12-14

# Apache spark系列技术直播# 第五讲【 Spark RDD编程入门】
发表了文章 2018-12-12

# Apache Spark系列技术直播# 第五讲【 Spark RDD编程入门】
发表了文章 2018-12-07

# Apache Spark系列技术直播# 第四讲【机器学习介绍与Spark MLlib实践】
发表了文章 2018-12-06

#Apache Spark系列技术直播# 第四讲【机器学习介绍与Spark MLlib实践】
发表了文章 2018-12-05

Apache Spark 系列技术直播 - 从 Spark Streaming 到 Structured Streaming
发表了文章 2018-12-05

Apache Spark中国社群有奖投稿通道启动啦！
发表了文章 2018-11-29

SparkSQL实践与优化

正在加载, 请稍后...

滑动查看更多

提交了问题 2019-06-03

请问relational cache 与apache ignite有什么区别？
回答了问题 2019-07-17

请问relational cache 与apache ignite有什么区别？

EMR Spark relational cache可以简单理解为基于Spark的物化视图，支持把视图数据放在内存中或是HDFS OSS上，用户可以通过relational cache加速查询，或是基于此构建MOLAP平台。ignite应该主要是基于内存的实时计算引擎。很不错的问题。我知道的就是 relational cache 是基于 Spark 来做的，Spark 上直接用，不需要另外一堆服务。Ignite 自己是一套跟 Spark 可以对等的服务。

赞0 踩0 评论0
提交了问题 2019-05-30

问一个问题哈，在spark中默认使用java serialization ,但同时也提供了 kryo 序列化借口，今天测试了一下两个不同的序列号借口，发现并没有性能提升，我用的sparksql跑的测试，设计多个join操作，input量为270G , 这个为什么对性能没有提升呢？有大佬做过这方面的研究吗
提交了问题 2019-05-30

说到事务，衍生了一个问题，请教一下，像hive/mlsql/deltalake或者说spark 支持某级别事务的意义在哪？是否会演变会支持大部分事务？
提交了问题 2019-05-30

spark Sql都是client模式，而有时driver需要较多的资源，多用户共享一台机器时，client物理机资源可能会成为瓶颈，这个你们有什么解决方案吗
提交了问题 2019-05-30

我有个问题想请教一下，对于spark处理小文件，有没有什么优化方法
回答了问题 2019-07-17

问一个问题哈，在spark中默认使用java serialization ,但同时也提供了 kryo 序列化借口，今天测试了一下两个不同的序列号借口，发现并没有性能提升，我用的sparksql跑的测试，设计多个join操作，input量为270G , 这个为什么对性能没有提升呢？有大佬做过这方面的研究吗

2.0开始，shuffle的时候已经默认为 kryo 序列化了

赞0 踩0 评论0
回答了问题 2019-07-17

说到事务，衍生了一个问题，请教一下，像hive/mlsql/deltalake或者说spark 支持某级别事务的意义在哪？是否会演变会支持大部分事务？

你说某级别是隔离级别吗？隔离级别越高，并发性能越弱。对于 hive spark sql 这种并发很小的情况，支持多种隔离级别意义不是很大。平台化，让我执行完sql以后，获取输出的表或分区，对碎片文件进行合并，合并完以后任务才算执行完。最开始我们是通过质量分数强制用户自己去合并，用户很麻烦，换了这样的就解决了用户合并文件的问题。平台化可以这么做。缺点就是用户量上来之后有并发可能问题。但是也没有什么更好的办法，都是 trade off 碎片文件比较多的时候比较花费时间。用户可以设置参数，关闭合并，避免影响下游任务运行。等表不被使用了某个时间点用户自己去合并。

赞0 踩0 评论0
回答了问题 2019-07-17

spark Sql都是client模式，而有时driver需要较多的资源，多用户共享一台机器时，client物理机资源可能会成为瓶颈，这个你们有什么解决方案吗

可以用livy来提交spark-cluster的application，然后客户提交给livy，这块我们也做了一些工作

赞0 踩0 评论0
回答了问题 2019-07-17

我有个问题想请教一下，对于spark处理小文件，有没有什么优化方法

可以异步合并，小文件想解决还是合并，落地前合并，处理后合并。在write后repartition一下就可以设置文件数量，在你预估一个分区或处理文件的大小时可以把数量做成参数，比上blockSize生成一个合理的数字。也可以在落地后合并，这样不影响落地的效率不过两种方法都行，落地后就比如shuffle默认200个，那么就有200个小文件，那么可以在不使用这份数据的时候进行离线的合并，合并的方法有很多，基本上就是读出来再写进去，有几个点要注意：把合并后的文件放进原目录中前要删除之前读出来的那些文件避免数据重复，但不能全部删除，合并生成大文件过程中是否有其他程序写入新文件，文件中是否有tmp、success，文件存储格式要统一。你是问关于 delta 的小文件，还是 spark sql 自己的一些小文件？还是什么？sparksql目前应该没有这个功能，我们这边可以看一下需求如果是 hive 的事务表，hive 有合并小文件的功能。spark 方面开源是没有的。spark sql 开启事务之后，delete update 都会产生小文件。处理思路是一样的，定期合并。备注：开源 spark 没有事务支持。emr spark 的事务支持目前还比较薄弱。如果大家有需求，欢迎提出。 sparksql生成的数据小文件真的多，咱们可以通过元数据库，获取每个表下面每个分区下面的数据大小和文件个数，看看是要合并小文件还是要拆分大文件，然后sparksql读出来，然后再写进去，设置一下partition number 你们是用 spark streaming 处理数据最后实时写为 parquet 文件，然后推荐系统会用这些实时处理的数据，是这样的吧？（是的，需求是这样）那推荐系统怎么用这些数据，具体是用什么工具知道吗？（实时读取hdfs文件，spark ML）了解了。看到你们这个主要还是 spark 的技术栈，应用场景是 data pipeline。databricks 前一段时间开源的 delta 正是解决这一类场景。

赞0 踩0 评论0
提交了问题 2019-05-29

打扰一下大家如果对key的字符串型的value 进行累加是用 reduceByKey(_+_)好还是用 agg.(concat_ws(""), collect_list(col)) 好啊现在GC时间特别长都占用三分之一的时间了第一种的累加是 buffer累加还是不停的创建新的定长字符串
提交了问题 2019-05-29

Spark 【问答合集】
提交了问题 2019-05-29

各位大佬有遇到过类似问题吗，求指导
回答了问题 2019-07-17

打扰一下大家如果对key的字符串型的value 进行累加是用 reduceByKey(_+_)好还是用 agg.(concat_ws(""), collect_list(col)) 好啊现在GC时间特别长都占用三分之一的时间了第一种的累加是 buffer累加还是不停的创建新的定长字符串

你的函数是 (string,string){string+string}, 它就执行string+string

赞0 踩0 评论0
回答了问题 2019-07-17

各位大佬有遇到过类似问题吗，求指导

jar 不匹配 hadoop core 吧，自己去搜搜，配置文件这个类的再哪个jar里

赞0 踩0 评论0
提交了问题 2019-05-23

大神10亿数据查询在小于10秒怎么办？有没有什么好的解决方案呢？
提交了问题 2019-05-23

kafka 的broker日志中出现Too many open files ，这个大家有谁碰到过吗
提交了问题 2019-05-23

大家好，请教个问题，在sparkStreaming，我实现了StreamingListener 的接口，用于监控数据堆积的情况，在 onBatchCompleted 判断后调用 stop 会抛出 Cannot stop StreamingContext within listener thread of SparkListenerBus 的异常，异常是在下面源码截图中抛出来的，说我当前实时监控的线程还存在不允许stop ，有些不解，哪位大佬给指点下，是我操作不当？还是再做stop 时需要满足什么条件？
提交了问题 2019-05-23

问一个问题，有大神帮忙解答一下？spark如果在单机local模式下物化一张表，这个表会被物化到哪里去了
提交了问题 2019-05-23

有木有大佬请教一下sparksql的join数据倾斜应该怎么处理呢，join的时候根据号码关联，但是某个号码出现次数特别多

正在加载, 请稍后...

滑动查看更多

正在加载, 请稍后...

暂无更多信息

探索云世界

热门

云计算

大数据

云原生

人工智能

数据库

开发与运维

活动广场

任务中心

训练营

直播

乘风者计划

下载

镜像站

技术资料

社区小助手_个人页

个人介绍

擅长的技术

创建一个Spark udf函数来迭代一个字节数组并将其转换为数字

在确定排名时考虑具有相同值的项目

Spark - 从Hive读取并创建没有案例类的强类型数据集

如何减少Spark依赖模型导出的工作原理？

Spark如何从一行中仅提取Json数据

强制maven使用本地依赖

Spark读取了--files提交的csv文件

案例类映射到csv

Spark数据帧Timestamp列从Mapr DB表中推断为InvalidType

使用scala为ElasticSearch测试用例创建虚拟SearchResponse实例

什么spark varargs函数countDistinct首先接收一个String / Column？

如何使用Spark结构化流媒体为Kafka流实现自定义反序列化？

spark sql是否区分大小写？

加载本地文件时spark_session和sqlContext之间的区别

spark任务（每个执行程序）共享缓存位置吗？

MongoDB和Spark：无法将STRING转换为TimestampType

在AWS Glue中附加负载

比较dataframe列中存在的scala中的日期

如何计算spark Scala中2行之间的时间差

如何在spark中使用org.slf4j.Logger？

如何将Object [转换为Row ]？

以json / text格式的Apache Spark DAG可视化

PySpark线性回归数据集中具有比数据点更多的特征

sbt：找到资源目录下文件/文件夹的正确路径

Spark结构化流媒体：等待终止，如何写流

路径参考问题

如何用整数替换Null条件Pyspark Dataframe

pyspark将行转换为带有空值的json

Spark Streaming Kafka Stream批处理执行

Apache Spark JSON读取错误 - java.lang.IllegalArgumentException：非法模式组件：XXX

在sparksql中以正确格式将字符串数据转换为十进制时出现问题

Apache Spark JSON读取错误 - java.lang.IllegalArgumentException：非法模式组件：XXX

Apache Spark中国社群 有奖投稿通道 启动啦！

SparkSQL实践与优化

# Apache Spark系列技术直播# 第八讲 【 微软Azure平台利用Intel Analytics Zoo构建AI客服支持实践 】

# Apache Spark系列技术直播# 第七讲 【 大数据列式存储之 Parquet/ORC 】

#Apache spark系列技术直播# 第六讲【 What's New in Apache Spark 2.4? 】

#Apache Spark系列技术直播# 第六讲【 What's New in Apache Spark 2.4? 】

Apache Spark Meetup China 第1期 最全资料下载

# Apache spark系列技术直播# 第五讲【 Spark RDD编程入门 】

# Apache Spark系列技术直播# 第五讲【 Spark RDD编程入门 】

# Apache Spark系列技术直播# 第四讲 【 机器学习介绍与Spark MLlib实践 】

#Apache Spark系列技术直播# 第四讲 【 机器学习介绍与Spark MLlib实践 】

Apache Spark 系列技术直播 - 从 Spark Streaming 到 Structured Streaming

Apache Spark中国社群 有奖投稿通道 启动啦！

SparkSQL实践与优化

请问relational cache 与apache ignite有什么区别？

请问relational cache 与apache ignite有什么区别？

说到事务，衍生了一个问题，请教一下，像hive/mlsql/deltalake或者说spark 支持某级别事务 的意义在哪？是否会演变会支持大部分事务？

spark Sql都是client模式，而有时driver需要较多的资源，多用户共享一台机器时，client物理机资源可能会成为瓶颈，这个你们有什么解决方案吗

我有个问题想请教一下， 对于spark处理小文件，有没有什么优化方法

说到事务，衍生了一个问题，请教一下，像hive/mlsql/deltalake或者说spark 支持某级别事务 的意义在哪？是否会演变会支持大部分事务？

spark Sql都是client模式，而有时driver需要较多的资源，多用户共享一台机器时，client物理机资源可能会成为瓶颈，这个你们有什么解决方案吗

我有个问题想请教一下， 对于spark处理小文件，有没有什么优化方法

打扰一下大家 如果对key的字符串型的value 进行累加是用 reduceByKey(_+_)好 还是用 agg.(concat_ws(""), collect_list(col)) 好啊 现在GC时间特别长 都占用三分之一的时间了 第一种的累加是 buffer累加 还是 不停的创建新的定长字符串

Spark 【问答合集】

各位大佬有遇到过类似问题吗，求指导

打扰一下大家 如果对key的字符串型的value 进行累加是用 reduceByKey(_+_)好 还是用 agg.(concat_ws(""), collect_list(col)) 好啊 现在GC时间特别长 都占用三分之一的时间了 第一种的累加是 buffer累加 还是 不停的创建新的定长字符串

各位大佬有遇到过类似问题吗，求指导

大神10亿数据查询在小于10秒怎么办？有没有什么好的解决方案呢？

kafka 的broker日志中出现Too many open files ，这个大家有谁碰到过吗

Apache Spark中国社群有奖投稿通道启动啦！

# Apache Spark系列技术直播# 第八讲【微软Azure平台利用Intel Analytics Zoo构建AI客服支持实践】

# Apache Spark系列技术直播# 第七讲【大数据列式存储之 Parquet/ORC 】

Apache Spark Meetup China 第1期最全资料下载

# Apache spark系列技术直播# 第五讲【 Spark RDD编程入门】

# Apache Spark系列技术直播# 第五讲【 Spark RDD编程入门】

# Apache Spark系列技术直播# 第四讲【机器学习介绍与Spark MLlib实践】

#Apache Spark系列技术直播# 第四讲【机器学习介绍与Spark MLlib实践】

Apache Spark中国社群有奖投稿通道启动啦！

说到事务，衍生了一个问题，请教一下，像hive/mlsql/deltalake或者说spark 支持某级别事务的意义在哪？是否会演变会支持大部分事务？

我有个问题想请教一下，对于spark处理小文件，有没有什么优化方法

说到事务，衍生了一个问题，请教一下，像hive/mlsql/deltalake或者说spark 支持某级别事务的意义在哪？是否会演变会支持大部分事务？

我有个问题想请教一下，对于spark处理小文件，有没有什么优化方法

打扰一下大家如果对key的字符串型的value 进行累加是用 reduceByKey(_+_)好还是用 agg.(concat_ws(""), collect_list(col)) 好啊现在GC时间特别长都占用三分之一的时间了第一种的累加是 buffer累加还是不停的创建新的定长字符串

打扰一下大家如果对key的字符串型的value 进行累加是用 reduceByKey(_+_)好还是用 agg.(concat_ws(""), collect_list(col)) 好啊现在GC时间特别长都占用三分之一的时间了第一种的累加是 buffer累加还是不停的创建新的定长字符串