社区小助手_个人页

社区小助手

文章

问答

822

视频

个人介绍

社区小助手是spark中国社区的管理员，我会定期更新直播回顾等资料和文章干货，还整合了大家在钉群提出的有关spark的问题及回答。

擅长的技术

数据库

获得更多能力

通用技术能力：

暂时未有相关通用技术能力~

云产品技术能力：

暂时未有相关云产品技术能力~

阿里云技能认证

详细说明

高分内容

最新动态

文章
问答
视频

提交了问题 2019-01-15

请教大家一个问题，spark stream连kafka，在web页面的stream标签，显示好多batch处于queued状态，这些batch是已经把数据从kafka读取进rdd，等待处理，还是还没有从kafka读取数进rdd？
提交了问题 2019-01-15

在IntelliJ上运行的异常Spark sql代码，即java.lang.IllegalArgumentException：
提交了问题 2019-01-15

Caused by: java.lang.NoSuchMethodError: org.codehaus.commons.compiler.Location.<init>(Ljava/lang/String;II)V
提交了问题 2019-01-15

两个时间戳相隔天数
提交了问题 2019-01-15

请教一下，我hive中数据大小为16g，通过importtsv生成了hfile 文件，导入到hbase中了，数据变成130多g，还有什么更好的办法吗
提交了问题 2019-01-11

jdbc 连接spark thrift server 如何获取日志
提交了问题 2019-01-11

Spark如何从一行中仅提取Json数据
发表了文章 2019-01-08

# Apache Spark系列技术直播# 第八讲【微软Azure平台利用Intel Analytics Zoo构建AI客服支持实践】

**直播时间**： 2019.01.10（周四） 19:00 - 20:00 **主讲人：** 黄凯——Intel大数据技术团队软件工程师。卫雨青——Microsoft C+AI 团队软件工程师。
提交了问题 2019-01-02

pyspark - 在json流数据中找到max和min usign createDataFrame
提交了问题 2019-01-02

解析Apache Spark Scala中的数据org.apache.spark.SparkException：尝试使用textinputformat.record.delimiter时出现任务无序列化错误
提交了问题 2019-01-02

如何计算和获取Spark Dataframe中唯一ID的值总和？
提交了问题 2019-01-02

控制目标parquet文件的数量
提交了问题 2019-01-02

更改DataType时应用日期格式
提交了问题 2019-01-02

如何将csv目录加载到hdfs作为parquet
提交了问题 2019-01-02

PYSPARK：使用另一个表中的两列之一加入表列
提交了问题 2019-01-02

无法使用Spark在Datastax上初始化图形
提交了问题 2019-01-02

使用PySpark计算每个窗口的用户数
提交了问题 2019-01-02

Window.rowsBetween - 仅考虑满足特定条件的行（例如，不为null）
提交了问题 2019-01-02

（Linux AMI）EMR Cluster版本的`free`命令
提交了问题 2019-01-02

查询Yarn and Spark
提交了问题 2019-01-02

在初始化spark上下文后，在运行时更改pyspark的hadoop配置中的aws凭据
提交了问题 2019-01-02

从Redshift读入Spark Dataframe（Spark-Redshift模块）
提交了问题 2019-01-02

如何使用其他值之间的值连接数据集？
提交了问题 2019-01-02

Spark：从2.1.0升级到2.2.1时，Dataframe动作确实很慢
提交了问题 2019-01-02

当Spark在S3上读取大数据集时，在“停机时间”期间发生了什么？
提交了问题 2019-01-02

如何使用spark将kafka主题中的writeStream数据写入hdfs？
提交了问题 2018-12-29

更换Spark样品方法的原理是什么？
发表了文章 2018-12-26

# Apache Spark系列技术直播# 第七讲【大数据列式存储之 Parquet/ORC 】

主讲人：诚历（孙大鹏）阿里巴巴计算平台事业部EMR技术专家简介：Parquet 和 ORC 是大数据生态里最常用到的两个列式存储引擎，这两者在实现上有什异同，哪个效率更好，哪个性能更优，本次分享将和您一起探索两大列式存储。
发表了文章 2018-12-21

#Apache spark系列技术直播# 第六讲【 What's New in Apache Spark 2.4? 】

Abstract(简介): This talk will provide an overview of the major features and enhancements in Spark 2.4 release and the upcoming releases and will be followed by a Q&A session.
提交了问题 2018-12-21

通过Spark / Scala使用webHDFS
提交了问题 2018-12-21

如何使用两个日期过滤数据框？
提交了问题 2018-12-21

如何将csv数据集与不同的标题（名称和计数）结合起来？
提交了问题 2018-12-21

如何在Apache Beam中实现类似Spark的zipWithIndex？
提交了问题 2018-12-21

Spark - Python - 获取RDD上的年/月
提交了问题 2018-12-21

更改Spark中的Metastore URI
提交了问题 2018-12-21

有没有办法了解spark如何加载类路径以及以何种顺序加载？
提交了问题 2018-12-21

如何在Spark Scala中使用root元素读取多行json？
提交了问题 2018-12-21

获取数组中项目的索引，该数组是Spark数据帧中的列
提交了问题 2018-12-21

AttributeError：'NoneType'对象没有属性'_jvm - PySpark UDF
提交了问题 2018-12-21

如何在两个数组列中查找公共元素？
提交了问题 2018-12-21

如何监控AWS EMR集群中托管的spark中的hive thrift服务器运行状况？
提交了问题 2018-12-21

Databricks Delta和Hive Transactional Table
提交了问题 2018-12-21

如何为pyspark jupyter笔记本设置端口？
提交了问题 2018-12-21

如何将一个spark行（StructType）强制转换为scala案例类
提交了问题 2018-12-21

如何在Spark Scala中读取嵌套JSON？
提交了问题 2018-12-21

如何使用条件查询Spark MongoDB-Connector？
提交了问题 2018-12-21

JVM - 为什么YoungGen在gc之间使用堆减少？
提交了问题 2018-12-21

尝试将表上传到mongoDB时“缺少集合名称”
提交了问题 2018-12-21

时间戳转换使值为null
提交了问题 2018-12-21

如何在apache spark中处理执行程序失败

...

暂无更多信息

发表了文章 2019-01-08

# Apache Spark系列技术直播# 第八讲【微软Azure平台利用Intel Analytics Zoo构建AI客服支持实践】
发表了文章 2018-12-26

# Apache Spark系列技术直播# 第七讲【大数据列式存储之 Parquet/ORC 】
发表了文章 2018-12-21

#Apache spark系列技术直播# 第六讲【 What's New in Apache Spark 2.4? 】
发表了文章 2018-12-20

#Apache Spark系列技术直播# 第六讲【 What's New in Apache Spark 2.4? 】
发表了文章 2018-12-17

Apache Spark Meetup China 第1期最全资料下载
发表了文章 2018-12-14

# Apache spark系列技术直播# 第五讲【 Spark RDD编程入门】
发表了文章 2018-12-12

# Apache Spark系列技术直播# 第五讲【 Spark RDD编程入门】
发表了文章 2018-12-07

# Apache Spark系列技术直播# 第四讲【机器学习介绍与Spark MLlib实践】
发表了文章 2018-12-06

#Apache Spark系列技术直播# 第四讲【机器学习介绍与Spark MLlib实践】
发表了文章 2018-12-05

Apache Spark 系列技术直播 - 从 Spark Streaming 到 Structured Streaming
发表了文章 2018-12-05

Apache Spark中国社群有奖投稿通道启动啦！
发表了文章 2018-11-29

SparkSQL实践与优化

正在加载, 请稍后...

滑动查看更多

提交了问题 2019-06-03

请问relational cache 与apache ignite有什么区别？
回答了问题 2019-07-17

请问relational cache 与apache ignite有什么区别？

EMR Spark relational cache可以简单理解为基于Spark的物化视图，支持把视图数据放在内存中或是HDFS OSS上，用户可以通过relational cache加速查询，或是基于此构建MOLAP平台。ignite应该主要是基于内存的实时计算引擎。很不错的问题。我知道的就是 relational cache 是基于 Spark 来做的，Spark 上直接用，不需要另外一堆服务。Ignite 自己是一套跟 Spark 可以对等的服务。

赞0 踩0 评论0
提交了问题 2019-05-30

问一个问题哈，在spark中默认使用java serialization ,但同时也提供了 kryo 序列化借口，今天测试了一下两个不同的序列号借口，发现并没有性能提升，我用的sparksql跑的测试，设计多个join操作，input量为270G , 这个为什么对性能没有提升呢？有大佬做过这方面的研究吗
提交了问题 2019-05-30

说到事务，衍生了一个问题，请教一下，像hive/mlsql/deltalake或者说spark 支持某级别事务的意义在哪？是否会演变会支持大部分事务？
提交了问题 2019-05-30

spark Sql都是client模式，而有时driver需要较多的资源，多用户共享一台机器时，client物理机资源可能会成为瓶颈，这个你们有什么解决方案吗
提交了问题 2019-05-30

我有个问题想请教一下，对于spark处理小文件，有没有什么优化方法
回答了问题 2019-07-17

问一个问题哈，在spark中默认使用java serialization ,但同时也提供了 kryo 序列化借口，今天测试了一下两个不同的序列号借口，发现并没有性能提升，我用的sparksql跑的测试，设计多个join操作，input量为270G , 这个为什么对性能没有提升呢？有大佬做过这方面的研究吗

2.0开始，shuffle的时候已经默认为 kryo 序列化了

赞0 踩0 评论0
回答了问题 2019-07-17

说到事务，衍生了一个问题，请教一下，像hive/mlsql/deltalake或者说spark 支持某级别事务的意义在哪？是否会演变会支持大部分事务？

你说某级别是隔离级别吗？隔离级别越高，并发性能越弱。对于 hive spark sql 这种并发很小的情况，支持多种隔离级别意义不是很大。平台化，让我执行完sql以后，获取输出的表或分区，对碎片文件进行合并，合并完以后任务才算执行完。最开始我们是通过质量分数强制用户自己去合并，用户很麻烦，换了这样的就解决了用户合并文件的问题。平台化可以这么做。缺点就是用户量上来之后有并发可能问题。但是也没有什么更好的办法，都是 trade off 碎片文件比较多的时候比较花费时间。用户可以设置参数，关闭合并，避免影响下游任务运行。等表不被使用了某个时间点用户自己去合并。

赞0 踩0 评论0
回答了问题 2019-07-17

spark Sql都是client模式，而有时driver需要较多的资源，多用户共享一台机器时，client物理机资源可能会成为瓶颈，这个你们有什么解决方案吗

可以用livy来提交spark-cluster的application，然后客户提交给livy，这块我们也做了一些工作

赞0 踩0 评论0
回答了问题 2019-07-17

我有个问题想请教一下，对于spark处理小文件，有没有什么优化方法

可以异步合并，小文件想解决还是合并，落地前合并，处理后合并。在write后repartition一下就可以设置文件数量，在你预估一个分区或处理文件的大小时可以把数量做成参数，比上blockSize生成一个合理的数字。也可以在落地后合并，这样不影响落地的效率不过两种方法都行，落地后就比如shuffle默认200个，那么就有200个小文件，那么可以在不使用这份数据的时候进行离线的合并，合并的方法有很多，基本上就是读出来再写进去，有几个点要注意：把合并后的文件放进原目录中前要删除之前读出来的那些文件避免数据重复，但不能全部删除，合并生成大文件过程中是否有其他程序写入新文件，文件中是否有tmp、success，文件存储格式要统一。你是问关于 delta 的小文件，还是 spark sql 自己的一些小文件？还是什么？sparksql目前应该没有这个功能，我们这边可以看一下需求如果是 hive 的事务表，hive 有合并小文件的功能。spark 方面开源是没有的。spark sql 开启事务之后，delete update 都会产生小文件。处理思路是一样的，定期合并。备注：开源 spark 没有事务支持。emr spark 的事务支持目前还比较薄弱。如果大家有需求，欢迎提出。 sparksql生成的数据小文件真的多，咱们可以通过元数据库，获取每个表下面每个分区下面的数据大小和文件个数，看看是要合并小文件还是要拆分大文件，然后sparksql读出来，然后再写进去，设置一下partition number 你们是用 spark streaming 处理数据最后实时写为 parquet 文件，然后推荐系统会用这些实时处理的数据，是这样的吧？（是的，需求是这样）那推荐系统怎么用这些数据，具体是用什么工具知道吗？（实时读取hdfs文件，spark ML）了解了。看到你们这个主要还是 spark 的技术栈，应用场景是 data pipeline。databricks 前一段时间开源的 delta 正是解决这一类场景。

赞0 踩0 评论0
提交了问题 2019-05-29

打扰一下大家如果对key的字符串型的value 进行累加是用 reduceByKey(_+_)好还是用 agg.(concat_ws(""), collect_list(col)) 好啊现在GC时间特别长都占用三分之一的时间了第一种的累加是 buffer累加还是不停的创建新的定长字符串
提交了问题 2019-05-29

Spark 【问答合集】
提交了问题 2019-05-29

各位大佬有遇到过类似问题吗，求指导
回答了问题 2019-07-17

打扰一下大家如果对key的字符串型的value 进行累加是用 reduceByKey(_+_)好还是用 agg.(concat_ws(""), collect_list(col)) 好啊现在GC时间特别长都占用三分之一的时间了第一种的累加是 buffer累加还是不停的创建新的定长字符串

你的函数是 (string,string){string+string}, 它就执行string+string

赞0 踩0 评论0
回答了问题 2019-07-17

各位大佬有遇到过类似问题吗，求指导

jar 不匹配 hadoop core 吧，自己去搜搜，配置文件这个类的再哪个jar里

赞0 踩0 评论0
提交了问题 2019-05-23

大神10亿数据查询在小于10秒怎么办？有没有什么好的解决方案呢？
提交了问题 2019-05-23

kafka 的broker日志中出现Too many open files ，这个大家有谁碰到过吗
提交了问题 2019-05-23

大家好，请教个问题，在sparkStreaming，我实现了StreamingListener 的接口，用于监控数据堆积的情况，在 onBatchCompleted 判断后调用 stop 会抛出 Cannot stop StreamingContext within listener thread of SparkListenerBus 的异常，异常是在下面源码截图中抛出来的，说我当前实时监控的线程还存在不允许stop ，有些不解，哪位大佬给指点下，是我操作不当？还是再做stop 时需要满足什么条件？
提交了问题 2019-05-23

问一个问题，有大神帮忙解答一下？spark如果在单机local模式下物化一张表，这个表会被物化到哪里去了
提交了问题 2019-05-23

有木有大佬请教一下sparksql的join数据倾斜应该怎么处理呢，join的时候根据号码关联，但是某个号码出现次数特别多

正在加载, 请稍后...

滑动查看更多

正在加载, 请稍后...

暂无更多信息

探索云世界

热门

云计算

大数据

云原生

人工智能

数据库

开发与运维

活动广场

任务中心

训练营

直播

乘风者计划

下载

镜像站

技术资料

社区小助手_个人页

个人介绍

擅长的技术

请教大家一个问题，spark stream连kafka，在web页面的stream标签，显示好多batch处于queued状态，这些batch是已经把数据从kafka读取进rdd，等待处理，还是还没有从kafka读取数进rdd？

在IntelliJ上运行的异常Spark sql代码，即java.lang.IllegalArgumentException：

Caused by: java.lang.NoSuchMethodError: org.codehaus.commons.compiler.Location.<init>(Ljava/lang/String;II)V

两个时间戳相隔天数

请教一下，我hive中数据大小为16g，通过importtsv生成了hfile 文件，导入到hbase中了，数据变成130多g，还有什么更好的办法吗

jdbc 连接spark thrift server 如何获取日志

Spark如何从一行中仅提取Json数据

# Apache Spark系列技术直播# 第八讲 【 微软Azure平台利用Intel Analytics Zoo构建AI客服支持实践 】

pyspark - 在json流数据中找到max和min usign createDataFrame

解析Apache Spark Scala中的数据org.apache.spark.SparkException：尝试使用textinputformat.record.delimiter时出现任务无序列化错误

如何计算和获取Spark Dataframe中唯一ID的值总和？

控制目标parquet文件的数量

更改DataType时应用日期格式

如何将csv目录加载到hdfs作为parquet

PYSPARK：使用另一个表中的两列之一加入表列

无法使用Spark在Datastax上初始化图形

使用PySpark计算每个窗口的用户数

Window.rowsBetween - 仅考虑满足特定条件的行（例如，不为null）

（Linux AMI）EMR Cluster版本的`free`命令

查询Yarn and Spark

在初始化spark上下文后，在运行时更改pyspark的hadoop配置中的aws凭据

从Redshift读入Spark Dataframe（Spark-Redshift模块）

如何使用其他值之间的值连接数据集？

Spark：从2.1.0升级到2.2.1时，Dataframe动作确实很慢

当Spark在S3上读取大数据集时，在“停机时间”期间发生了什么？

如何使用spark将kafka主题中的writeStream数据写入hdfs？

更换Spark样品方法的原理是什么？

# Apache Spark系列技术直播# 第七讲 【 大数据列式存储之 Parquet/ORC 】

#Apache spark系列技术直播# 第六讲【 What's New in Apache Spark 2.4? 】

通过Spark / Scala使用webHDFS

如何使用两个日期过滤数据框？

如何将csv数据集与不同的标题（名称和计数）结合起来？

如何在Apache Beam中实现类似Spark的zipWithIndex？

Spark - Python - 获取RDD上的年/月

更改Spark中的Metastore URI

有没有办法了解spark如何加载类路径以及以何种顺序加载？

如何在Spark Scala中使用root元素读取多行json？

获取数组中项目的索引，该数组是Spark数据帧中的列

AttributeError：'NoneType'对象没有属性'_jvm - PySpark UDF

如何在两个数组列中查找公共元素？

如何监控AWS EMR集群中托管的spark中的hive thrift服务器运行状况？

Databricks Delta和Hive Transactional Table

如何为pyspark jupyter笔记本设置端口？

如何将一个spark行（StructType）强制转换为scala案例类

如何在Spark Scala中读取嵌套JSON？

如何使用条件查询Spark MongoDB-Connector？

JVM - 为什么YoungGen在gc之间使用堆减少？

尝试将表上传到mongoDB时“缺少集合名称”

时间戳转换使值为null

如何在apache spark中处理执行程序失败

# Apache Spark系列技术直播# 第八讲 【 微软Azure平台利用Intel Analytics Zoo构建AI客服支持实践 】

# Apache Spark系列技术直播# 第七讲 【 大数据列式存储之 Parquet/ORC 】

#Apache spark系列技术直播# 第六讲【 What's New in Apache Spark 2.4? 】

#Apache Spark系列技术直播# 第六讲【 What's New in Apache Spark 2.4? 】

Apache Spark Meetup China 第1期 最全资料下载

# Apache spark系列技术直播# 第五讲【 Spark RDD编程入门 】

# Apache Spark系列技术直播# 第五讲【 Spark RDD编程入门 】

# Apache Spark系列技术直播# 第四讲 【 机器学习介绍与Spark MLlib实践 】

#Apache Spark系列技术直播# 第四讲 【 机器学习介绍与Spark MLlib实践 】

Apache Spark 系列技术直播 - 从 Spark Streaming 到 Structured Streaming

Apache Spark中国社群 有奖投稿通道 启动啦！

# Apache Spark系列技术直播# 第八讲【微软Azure平台利用Intel Analytics Zoo构建AI客服支持实践】

# Apache Spark系列技术直播# 第七讲【大数据列式存储之 Parquet/ORC 】

# Apache Spark系列技术直播# 第八讲【微软Azure平台利用Intel Analytics Zoo构建AI客服支持实践】

# Apache Spark系列技术直播# 第七讲【大数据列式存储之 Parquet/ORC 】

Apache Spark Meetup China 第1期最全资料下载

# Apache spark系列技术直播# 第五讲【 Spark RDD编程入门】

# Apache Spark系列技术直播# 第五讲【 Spark RDD编程入门】

# Apache Spark系列技术直播# 第四讲【机器学习介绍与Spark MLlib实践】

#Apache Spark系列技术直播# 第四讲【机器学习介绍与Spark MLlib实践】

Apache Spark中国社群有奖投稿通道启动啦！

说到事务，衍生了一个问题，请教一下，像hive/mlsql/deltalake或者说spark 支持某级别事务的意义在哪？是否会演变会支持大部分事务？

我有个问题想请教一下，对于spark处理小文件，有没有什么优化方法

说到事务，衍生了一个问题，请教一下，像hive/mlsql/deltalake或者说spark 支持某级别事务的意义在哪？是否会演变会支持大部分事务？

我有个问题想请教一下，对于spark处理小文件，有没有什么优化方法

打扰一下大家如果对key的字符串型的value 进行累加是用 reduceByKey(_+_)好还是用 agg.(concat_ws(""), collect_list(col)) 好啊现在GC时间特别长都占用三分之一的时间了第一种的累加是 buffer累加还是不停的创建新的定长字符串

打扰一下大家如果对key的字符串型的value 进行累加是用 reduceByKey(_+_)好还是用 agg.(concat_ws(""), collect_list(col)) 好啊现在GC时间特别长都占用三分之一的时间了第一种的累加是 buffer累加还是不停的创建新的定长字符串