社区小助手_个人页

社区小助手

文章

问答

822

视频

个人介绍

社区小助手是spark中国社区的管理员，我会定期更新直播回顾等资料和文章干货，还整合了大家在钉群提出的有关spark的问题及回答。

擅长的技术

数据库

获得更多能力

通用技术能力：

暂时未有相关通用技术能力~

云产品技术能力：

暂时未有相关云产品技术能力~

阿里云技能认证

详细说明

高分内容

最新动态

文章
问答
视频

提交了问题 2018-12-12

如何更新ORC流媒体接收器中的现有条目？
提交了问题 2018-12-12

Jupyter笔记本，pyspark，hadoop-aws问题
提交了问题 2018-12-12

使用DataFrame类型在scala中定义函数
提交了问题 2018-12-12

Spark结构化流媒体从Cassandra中丰富
提交了问题 2018-12-12

结构化流式传输到rdd不起作用
提交了问题 2018-12-12

在AWS EMR中运行spark时，请使用自定义Log4J appender
提交了问题 2018-12-12

spark-submit遇到PKIX路径构建失败
提交了问题 2018-12-12

PySpark在创建包含现有列名的新列时读取多个文件
提交了问题 2018-12-12

Spark批量加载文件集合，并从文件级别查找每个文件中的行以及其他信息
发表了文章 2018-12-12

# Apache Spark系列技术直播# 第五讲【 Spark RDD编程入门】

内容提要：本次讲座主要涵盖Spark RDD编程入门基础，包括：1. Spark、RDD简介 2. RDD API简介 3. 打包与spark-submit 4. 性能分析与调优基础主讲人：王道远(健身) 阿里巴巴计算平台EMR技术专家直播时间：2018.
提交了问题 2018-12-12

如何重命名scala数据框中的列标题
提交了问题 2018-12-12

计算`Spark Dataframe的连续行上的编辑距离
提交了问题 2018-12-12

Spark-shell Git Bash
提交了问题 2018-12-12

累积器未出现在Spark UI中
提交了问题 2018-12-12

Scala [type1，type2]
提交了问题 2018-12-12

Spark Scala - 检查嵌套案例类的字段
提交了问题 2018-12-12

Apache Spark：Kafka以自定义格式编写
提交了问题 2018-12-12

如何防止kafka的spark sql在数据帧中向JSON字符串添加反斜杠
提交了问题 2018-12-12

将数据集<行>导出为CSV
提交了问题 2018-12-12

Jupyter上的pyspark内核生成“未找到spark”错误
提交了问题 2018-12-12

在给出异常的RDD上执行combineByKey转换。Spark转换
提交了问题 2018-12-12

Spark在不同列上多次加入相同的数据集
提交了问题 2018-12-12

如何在pyspark中启用csv文件的多行读取
提交了问题 2018-12-12

如何将Spark Dataframe列的每个值作为字符串传递给python UDF？
提交了问题 2018-12-12

Hadoop Spark docker swarm其中pyspark给出BlockMissingException但文件很好
提交了问题 2018-12-12

Spark数据集<Row>向量列到数组类型转换
提交了问题 2018-12-12

如何计算数据框每行中缺失值的数量-spark scala？
提交了问题 2018-12-12

Pyspark - 打印来自Kafka的消息
提交了问题 2018-12-12

如果列表中存在，则从列中删除单词
提交了问题 2018-12-12

如何使用Apache Spark Dataframe编写IN和NOT IN
提交了问题 2018-12-12

是否合并（1）写入前的数据帧对性能有任何影响？
提交了问题 2018-12-12

我可以在做textFile时手动指定Spark的分区数吗？
提交了问题 2018-12-12

在Spark Stream中保存PairRdd时出错[重复]
提交了问题 2018-12-12

Apache Spark ML Pipeline：过滤数据集中的空行
提交了问题 2018-12-12

如何使用pyspark解析字段中包含换行符的CSV数据
提交了问题 2018-12-12

可以在飞行中构建spark代码并执行吗？
提交了问题 2018-12-12

SELECT语句中的Spark IN / EXISTS谓词
提交了问题 2018-12-12

如何从AWS glue中的动态数据框中删除错误记录？
提交了问题 2018-12-12

如果Spark中的数据帧是不可变的，为什么我们能够使用withColumn（）等操作来修改它？
提交了问题 2018-12-12

在rdd中分区数据并保存分区块
提交了问题 2018-12-12

为什么这个Scala代码显然没有在Spark工作器上运行，而只在Spark驱动程序节点上运行？
提交了问题 2018-12-12

spark-submit：403错误，客户端系统：匿名错误
提交了问题 2018-12-12

安装后无法执行pyspark
提交了问题 2018-12-12

Spark S3最终一致性问题
提交了问题 2018-12-12

检查spark数据帧中的空行？
提交了问题 2018-12-12

基于条件的多列总和
提交了问题 2018-12-12

每个用户的行之间的时间戳差异 - Pyspark Dataframe
提交了问题 2018-12-12

将spark feature转换管道导出到文件
提交了问题 2018-12-12

使用错误架构的Apache Spark上的读取流重试1830次
提交了问题 2018-12-12

spark在满足条件的列中获得最小值

...

暂无更多信息

发表了文章 2019-01-08

# Apache Spark系列技术直播# 第八讲【微软Azure平台利用Intel Analytics Zoo构建AI客服支持实践】
发表了文章 2018-12-26

# Apache Spark系列技术直播# 第七讲【大数据列式存储之 Parquet/ORC 】
发表了文章 2018-12-21

#Apache spark系列技术直播# 第六讲【 What's New in Apache Spark 2.4? 】
发表了文章 2018-12-20

#Apache Spark系列技术直播# 第六讲【 What's New in Apache Spark 2.4? 】
发表了文章 2018-12-17

Apache Spark Meetup China 第1期最全资料下载
发表了文章 2018-12-14

# Apache spark系列技术直播# 第五讲【 Spark RDD编程入门】
发表了文章 2018-12-12

# Apache Spark系列技术直播# 第五讲【 Spark RDD编程入门】
发表了文章 2018-12-07

# Apache Spark系列技术直播# 第四讲【机器学习介绍与Spark MLlib实践】
发表了文章 2018-12-06

#Apache Spark系列技术直播# 第四讲【机器学习介绍与Spark MLlib实践】
发表了文章 2018-12-05

Apache Spark 系列技术直播 - 从 Spark Streaming 到 Structured Streaming
发表了文章 2018-12-05

Apache Spark中国社群有奖投稿通道启动啦！
发表了文章 2018-11-29

SparkSQL实践与优化

正在加载, 请稍后...

滑动查看更多

提交了问题 2019-06-03

请问relational cache 与apache ignite有什么区别？
回答了问题 2019-07-17

请问relational cache 与apache ignite有什么区别？

EMR Spark relational cache可以简单理解为基于Spark的物化视图，支持把视图数据放在内存中或是HDFS OSS上，用户可以通过relational cache加速查询，或是基于此构建MOLAP平台。ignite应该主要是基于内存的实时计算引擎。很不错的问题。我知道的就是 relational cache 是基于 Spark 来做的，Spark 上直接用，不需要另外一堆服务。Ignite 自己是一套跟 Spark 可以对等的服务。

赞0 踩0 评论0
提交了问题 2019-05-30

问一个问题哈，在spark中默认使用java serialization ,但同时也提供了 kryo 序列化借口，今天测试了一下两个不同的序列号借口，发现并没有性能提升，我用的sparksql跑的测试，设计多个join操作，input量为270G , 这个为什么对性能没有提升呢？有大佬做过这方面的研究吗
提交了问题 2019-05-30

说到事务，衍生了一个问题，请教一下，像hive/mlsql/deltalake或者说spark 支持某级别事务的意义在哪？是否会演变会支持大部分事务？
提交了问题 2019-05-30

spark Sql都是client模式，而有时driver需要较多的资源，多用户共享一台机器时，client物理机资源可能会成为瓶颈，这个你们有什么解决方案吗
提交了问题 2019-05-30

我有个问题想请教一下，对于spark处理小文件，有没有什么优化方法
回答了问题 2019-07-17

问一个问题哈，在spark中默认使用java serialization ,但同时也提供了 kryo 序列化借口，今天测试了一下两个不同的序列号借口，发现并没有性能提升，我用的sparksql跑的测试，设计多个join操作，input量为270G , 这个为什么对性能没有提升呢？有大佬做过这方面的研究吗

2.0开始，shuffle的时候已经默认为 kryo 序列化了

赞0 踩0 评论0
回答了问题 2019-07-17

说到事务，衍生了一个问题，请教一下，像hive/mlsql/deltalake或者说spark 支持某级别事务的意义在哪？是否会演变会支持大部分事务？

你说某级别是隔离级别吗？隔离级别越高，并发性能越弱。对于 hive spark sql 这种并发很小的情况，支持多种隔离级别意义不是很大。平台化，让我执行完sql以后，获取输出的表或分区，对碎片文件进行合并，合并完以后任务才算执行完。最开始我们是通过质量分数强制用户自己去合并，用户很麻烦，换了这样的就解决了用户合并文件的问题。平台化可以这么做。缺点就是用户量上来之后有并发可能问题。但是也没有什么更好的办法，都是 trade off 碎片文件比较多的时候比较花费时间。用户可以设置参数，关闭合并，避免影响下游任务运行。等表不被使用了某个时间点用户自己去合并。

赞0 踩0 评论0
回答了问题 2019-07-17

spark Sql都是client模式，而有时driver需要较多的资源，多用户共享一台机器时，client物理机资源可能会成为瓶颈，这个你们有什么解决方案吗

可以用livy来提交spark-cluster的application，然后客户提交给livy，这块我们也做了一些工作

赞0 踩0 评论0
回答了问题 2019-07-17

我有个问题想请教一下，对于spark处理小文件，有没有什么优化方法

可以异步合并，小文件想解决还是合并，落地前合并，处理后合并。在write后repartition一下就可以设置文件数量，在你预估一个分区或处理文件的大小时可以把数量做成参数，比上blockSize生成一个合理的数字。也可以在落地后合并，这样不影响落地的效率不过两种方法都行，落地后就比如shuffle默认200个，那么就有200个小文件，那么可以在不使用这份数据的时候进行离线的合并，合并的方法有很多，基本上就是读出来再写进去，有几个点要注意：把合并后的文件放进原目录中前要删除之前读出来的那些文件避免数据重复，但不能全部删除，合并生成大文件过程中是否有其他程序写入新文件，文件中是否有tmp、success，文件存储格式要统一。你是问关于 delta 的小文件，还是 spark sql 自己的一些小文件？还是什么？sparksql目前应该没有这个功能，我们这边可以看一下需求如果是 hive 的事务表，hive 有合并小文件的功能。spark 方面开源是没有的。spark sql 开启事务之后，delete update 都会产生小文件。处理思路是一样的，定期合并。备注：开源 spark 没有事务支持。emr spark 的事务支持目前还比较薄弱。如果大家有需求，欢迎提出。 sparksql生成的数据小文件真的多，咱们可以通过元数据库，获取每个表下面每个分区下面的数据大小和文件个数，看看是要合并小文件还是要拆分大文件，然后sparksql读出来，然后再写进去，设置一下partition number 你们是用 spark streaming 处理数据最后实时写为 parquet 文件，然后推荐系统会用这些实时处理的数据，是这样的吧？（是的，需求是这样）那推荐系统怎么用这些数据，具体是用什么工具知道吗？（实时读取hdfs文件，spark ML）了解了。看到你们这个主要还是 spark 的技术栈，应用场景是 data pipeline。databricks 前一段时间开源的 delta 正是解决这一类场景。

赞0 踩0 评论0
提交了问题 2019-05-29

打扰一下大家如果对key的字符串型的value 进行累加是用 reduceByKey(_+_)好还是用 agg.(concat_ws(""), collect_list(col)) 好啊现在GC时间特别长都占用三分之一的时间了第一种的累加是 buffer累加还是不停的创建新的定长字符串
提交了问题 2019-05-29

Spark 【问答合集】
提交了问题 2019-05-29

各位大佬有遇到过类似问题吗，求指导
回答了问题 2019-07-17

打扰一下大家如果对key的字符串型的value 进行累加是用 reduceByKey(_+_)好还是用 agg.(concat_ws(""), collect_list(col)) 好啊现在GC时间特别长都占用三分之一的时间了第一种的累加是 buffer累加还是不停的创建新的定长字符串

你的函数是 (string,string){string+string}, 它就执行string+string

赞0 踩0 评论0
回答了问题 2019-07-17

各位大佬有遇到过类似问题吗，求指导

jar 不匹配 hadoop core 吧，自己去搜搜，配置文件这个类的再哪个jar里

赞0 踩0 评论0
提交了问题 2019-05-23

大神10亿数据查询在小于10秒怎么办？有没有什么好的解决方案呢？
提交了问题 2019-05-23

kafka 的broker日志中出现Too many open files ，这个大家有谁碰到过吗
提交了问题 2019-05-23

大家好，请教个问题，在sparkStreaming，我实现了StreamingListener 的接口，用于监控数据堆积的情况，在 onBatchCompleted 判断后调用 stop 会抛出 Cannot stop StreamingContext within listener thread of SparkListenerBus 的异常，异常是在下面源码截图中抛出来的，说我当前实时监控的线程还存在不允许stop ，有些不解，哪位大佬给指点下，是我操作不当？还是再做stop 时需要满足什么条件？
提交了问题 2019-05-23

问一个问题，有大神帮忙解答一下？spark如果在单机local模式下物化一张表，这个表会被物化到哪里去了
提交了问题 2019-05-23

有木有大佬请教一下sparksql的join数据倾斜应该怎么处理呢，join的时候根据号码关联，但是某个号码出现次数特别多

正在加载, 请稍后...

滑动查看更多

正在加载, 请稍后...

暂无更多信息

探索云世界

热门

云计算

大数据

云原生

人工智能

数据库

开发与运维

活动广场

任务中心

训练营

直播

乘风者计划

下载

镜像站

技术资料

社区小助手_个人页

个人介绍

擅长的技术

如何更新ORC流媒体接收器中的现有条目？

Jupyter笔记本，pyspark，hadoop-aws问题

使用DataFrame类型在scala中定义函数

Spark结构化流媒体从Cassandra中丰富

结构化流式传输到rdd不起作用

在AWS EMR中运行spark时，请使用自定义Log4J appender

spark-submit遇到PKIX路径构建失败

PySpark在创建包含现有列名的新列时读取多个文件

Spark批量加载文件集合，并从文件级别查找每个文件中的行以及其他信息

# Apache Spark系列技术直播# 第五讲【 Spark RDD编程入门 】

如何重命名scala数据框中的列标题

计算`Spark Dataframe的连续行上的编辑距离

Spark-shell Git Bash

累积器未出现在Spark UI中

Scala [type1，type2]

Spark Scala - 检查嵌套案例类的字段

Apache Spark：Kafka以自定义格式编写

如何防止kafka的spark sql在数据帧中向JSON字符串添加反斜杠

将数据集<行>导出为CSV

Jupyter上的pyspark内核生成“未找到spark”错误

在给出异常的RDD上执行combineByKey转换。Spark转换

Spark在不同列上多次加入相同的数据集

如何在pyspark中启用csv文件的多行读取

如何将Spark Dataframe列的每个值作为字符串传递给python UDF？

Hadoop Spark docker swarm其中pyspark给出BlockMissingException但文件很好

Spark数据集<Row>向量列到数组类型转换

如何计算数据框每行中缺失值的数量-spark scala？

Pyspark - 打印来自Kafka的消息

如果列表中存在，则从列中删除单词

如何使用Apache Spark Dataframe编写IN和NOT IN

是否合并（1）写入前的数据帧对性能有任何影响？

我可以在做textFile时手动指定Spark的分区数吗？

在Spark Stream中保存PairRdd时出错[重复]

Apache Spark ML Pipeline：过滤数据集中的空行

如何使用pyspark解析字段中包含换行符的CSV数据

可以在飞行中构建spark代码并执行吗？

SELECT语句中的Spark IN / EXISTS谓词

如何从AWS glue中的动态数据框中删除错误记录？

如果Spark中的数据帧是不可变的，为什么我们能够使用withColumn（）等操作来修改它？

在rdd中分区数据并保存分区块

为什么这个Scala代码显然没有在Spark工作器上运行，而只在Spark驱动程序节点上运行？

spark-submit：403错误，客户端系统：匿名错误

安装后无法执行pyspark

Spark S3最终一致性问题

检查spark数据帧中的空行？

基于条件的多列总和

每个用户的行之间的时间戳差异 - Pyspark Dataframe

将spark feature转换管道导出到文件

使用错误架构的Apache Spark上的读取流重试1830次

spark在满足条件的列中获得最小值

# Apache Spark系列技术直播# 第八讲 【 微软Azure平台利用Intel Analytics Zoo构建AI客服支持实践 】

# Apache Spark系列技术直播# 第七讲 【 大数据列式存储之 Parquet/ORC 】

#Apache spark系列技术直播# 第六讲【 What's New in Apache Spark 2.4? 】

#Apache Spark系列技术直播# 第六讲【 What's New in Apache Spark 2.4? 】

Apache Spark Meetup China 第1期 最全资料下载

# Apache spark系列技术直播# 第五讲【 Spark RDD编程入门 】

# Apache Spark系列技术直播# 第五讲【 Spark RDD编程入门 】

# Apache Spark系列技术直播# 第四讲 【 机器学习介绍与Spark MLlib实践 】

#Apache Spark系列技术直播# 第四讲 【 机器学习介绍与Spark MLlib实践 】

Apache Spark 系列技术直播 - 从 Spark Streaming 到 Structured Streaming

Apache Spark中国社群 有奖投稿通道 启动啦！

# Apache Spark系列技术直播# 第五讲【 Spark RDD编程入门】

# Apache Spark系列技术直播# 第八讲【微软Azure平台利用Intel Analytics Zoo构建AI客服支持实践】

# Apache Spark系列技术直播# 第七讲【大数据列式存储之 Parquet/ORC 】

Apache Spark Meetup China 第1期最全资料下载

# Apache spark系列技术直播# 第五讲【 Spark RDD编程入门】

# Apache Spark系列技术直播# 第五讲【 Spark RDD编程入门】

# Apache Spark系列技术直播# 第四讲【机器学习介绍与Spark MLlib实践】

#Apache Spark系列技术直播# 第四讲【机器学习介绍与Spark MLlib实践】

Apache Spark中国社群有奖投稿通道启动啦！

说到事务，衍生了一个问题，请教一下，像hive/mlsql/deltalake或者说spark 支持某级别事务的意义在哪？是否会演变会支持大部分事务？

我有个问题想请教一下，对于spark处理小文件，有没有什么优化方法

说到事务，衍生了一个问题，请教一下，像hive/mlsql/deltalake或者说spark 支持某级别事务的意义在哪？是否会演变会支持大部分事务？

我有个问题想请教一下，对于spark处理小文件，有没有什么优化方法

打扰一下大家如果对key的字符串型的value 进行累加是用 reduceByKey(_+_)好还是用 agg.(concat_ws(""), collect_list(col)) 好啊现在GC时间特别长都占用三分之一的时间了第一种的累加是 buffer累加还是不停的创建新的定长字符串

打扰一下大家如果对key的字符串型的value 进行累加是用 reduceByKey(_+_)好还是用 agg.(concat_ws(""), collect_list(col)) 好啊现在GC时间特别长都占用三分之一的时间了第一种的累加是 buffer累加还是不停的创建新的定长字符串