社区小助手_个人页

社区小助手

文章

问答

822

视频

个人介绍

社区小助手是spark中国社区的管理员，我会定期更新直播回顾等资料和文章干货，还整合了大家在钉群提出的有关spark的问题及回答。

擅长的技术

数据库

获得更多能力

通用技术能力：

暂时未有相关通用技术能力~

云产品技术能力：

暂时未有相关云产品技术能力~

阿里云技能认证

详细说明

高分内容

最新动态

文章
问答
视频

提交了问题 2018-12-11

如果有多个下游运算符，flink是否发送重复记录
提交了问题 2018-12-11

当水印小于窗口结束时，触发基于事件时间的Flink窗口操作
提交了问题 2018-12-11

如果缺少一些事件，如何使用apache flink稳健地计算连接？
提交了问题 2018-12-11

哪里可以在我使用Apache Flink仪表板提交的Apache Flink服务器上找到我的jar
提交了问题 2018-12-11

如何创建AvroDeserialzationSchema并在Flink Kafka Consumer中使用？
提交了问题 2018-12-11

Flink with Elasticsearch 6.0.0 Sink没有这种方法错误批量处理。
提交了问题 2018-12-11

如何在Kubernetes Flink集群中实现JobManager高可用性？
提交了问题 2018-12-11

生成“假”流数据。
提交了问题 2018-12-11

如何使用writeFileAsText（path）写入文件时传递动态路径？
提交了问题 2018-12-11

如何在一对多流的连接中立即发出输出
提交了问题 2018-12-11

在yarn上运行Flink 1.5
提交了问题 2018-12-11

滑动时间窗口的Flink性能问题
提交了问题 2018-12-11

Apache Flink的fat JAR的最大大小
提交了问题 2018-12-11

Flink窗口：聚合和输出到接收器
提交了问题 2018-12-11

Flink Shaded Hadoop S3文件系统仍然需要hdfs-default和hdfs-site配置路径
提交了问题 2018-12-11

Flink中一个作业中的多个作业或多个管道
提交了问题 2018-12-11

为什么工作在启动时应用尽可能多的TM作为默认并行性
提交了问题 2018-12-11

Flink滑动计数窗口行为
提交了问题 2018-12-11

具有多并行性的Flink Map功能，以及如何确保最终接收器的顺序
提交了问题 2018-12-11

如何使用状态作为缓存
提交了问题 2018-12-11

确定哪个对象在Apache-Flink中不可序列化
提交了问题 2018-12-11

Apache flink - 阅读后将文件移动到其他文件夹
提交了问题 2018-12-11

关于GroupCombine对部分结果的澄清
提交了问题 2018-12-11

Apache Flink - kafka生产者将消息传递给kafka主题，但在不同的分区上
提交了问题 2018-12-11

Kafka制作人使用默认分区
提交了问题 2018-12-11

Apache flink - 时间特征
提交了问题 2018-12-11

使用apache flink从google pub / sub流式传输
提交了问题 2018-12-11

Flink kafka - Flink作业不向不同分区发送消息
提交了问题 2018-12-11

Apache Flink - 事件时间窗口
提交了问题 2018-12-11

在Apache Flink中读取包含22个以上列的CSV
提交了问题 2018-12-11

Flink WindowFunction折叠
提交了问题 2018-12-11

为什么stop-cluster.sh会停止最新启动的Flink集群？
提交了问题 2018-12-11

根据Scala flink中的另一个DataSet过滤DataSet
提交了问题 2018-12-11

Apache Flink 1.6.0 - StateTtlConfig和ListState
提交了问题 2018-12-11

Apache flink on Kubernetes - 如果jobmanager崩溃，恢复工作
提交了问题 2018-12-11

配置Flink作业/任务管理器度量标准的端口
提交了问题 2018-12-11

如何在不同的节点上运行Flink作业管理器和任务管理器？
提交了问题 2018-12-11

Flink SQL：在GROUP BY查询结果中重复分组键
提交了问题 2018-12-11

在flink流sql中查询和更新流
提交了问题 2018-12-10

无法为shc-core导入sbt依赖项
提交了问题 2018-12-10

在Pyspark中转置数据框
提交了问题 2018-12-10

方法showString（[class java.lang.Integer，class java.lang.Integer，class java.lang.Boolean]）在PySpark中不存在
提交了问题 2018-12-10

使用pyspark进行条件聚合
提交了问题 2018-12-10

将整数转换为日期以计算天数
提交了问题 2018-12-10

将RDD JavaPairRDD <String，Double>转换为JavaPairRDD <Integer，Double>
提交了问题 2018-12-10

Spark Group By Key to（String，Iterable <String>）
提交了问题 2018-12-10

计算spark数据帧中真假条件的数量
提交了问题 2018-12-10

Spark Structured Streaming获取最后一个Kafka分区的消息
发表了文章 2018-12-07

# Apache Spark系列技术直播# 第四讲【机器学习介绍与Spark MLlib实践】

主讲人：江宇(燕回) 阿里巴巴计算平台EMR技术专家直播时间：2018.12.06 19:00 - 20:00 内容提要：本次讲座主要面对的是机器学习的入门者，以及想要使用Spark来进行机器学习的用户。
提交了问题 2018-12-06

Spark Structured Streaming error读取字段'topic_metadata'时出错

...

暂无更多信息

发表了文章 2019-01-08

# Apache Spark系列技术直播# 第八讲【微软Azure平台利用Intel Analytics Zoo构建AI客服支持实践】
发表了文章 2018-12-26

# Apache Spark系列技术直播# 第七讲【大数据列式存储之 Parquet/ORC 】
发表了文章 2018-12-21

#Apache spark系列技术直播# 第六讲【 What's New in Apache Spark 2.4? 】
发表了文章 2018-12-20

#Apache Spark系列技术直播# 第六讲【 What's New in Apache Spark 2.4? 】
发表了文章 2018-12-17

Apache Spark Meetup China 第1期最全资料下载
发表了文章 2018-12-14

# Apache spark系列技术直播# 第五讲【 Spark RDD编程入门】
发表了文章 2018-12-12

# Apache Spark系列技术直播# 第五讲【 Spark RDD编程入门】
发表了文章 2018-12-07

# Apache Spark系列技术直播# 第四讲【机器学习介绍与Spark MLlib实践】
发表了文章 2018-12-06

#Apache Spark系列技术直播# 第四讲【机器学习介绍与Spark MLlib实践】
发表了文章 2018-12-05

Apache Spark 系列技术直播 - 从 Spark Streaming 到 Structured Streaming
发表了文章 2018-12-05

Apache Spark中国社群有奖投稿通道启动啦！
发表了文章 2018-11-29

SparkSQL实践与优化

正在加载, 请稍后...

滑动查看更多

提交了问题 2019-06-03

请问relational cache 与apache ignite有什么区别？
回答了问题 2019-07-17

请问relational cache 与apache ignite有什么区别？

EMR Spark relational cache可以简单理解为基于Spark的物化视图，支持把视图数据放在内存中或是HDFS OSS上，用户可以通过relational cache加速查询，或是基于此构建MOLAP平台。ignite应该主要是基于内存的实时计算引擎。很不错的问题。我知道的就是 relational cache 是基于 Spark 来做的，Spark 上直接用，不需要另外一堆服务。Ignite 自己是一套跟 Spark 可以对等的服务。

赞0 踩0 评论0
提交了问题 2019-05-30

问一个问题哈，在spark中默认使用java serialization ,但同时也提供了 kryo 序列化借口，今天测试了一下两个不同的序列号借口，发现并没有性能提升，我用的sparksql跑的测试，设计多个join操作，input量为270G , 这个为什么对性能没有提升呢？有大佬做过这方面的研究吗
提交了问题 2019-05-30

说到事务，衍生了一个问题，请教一下，像hive/mlsql/deltalake或者说spark 支持某级别事务的意义在哪？是否会演变会支持大部分事务？
提交了问题 2019-05-30

spark Sql都是client模式，而有时driver需要较多的资源，多用户共享一台机器时，client物理机资源可能会成为瓶颈，这个你们有什么解决方案吗
提交了问题 2019-05-30

我有个问题想请教一下，对于spark处理小文件，有没有什么优化方法
回答了问题 2019-07-17

问一个问题哈，在spark中默认使用java serialization ,但同时也提供了 kryo 序列化借口，今天测试了一下两个不同的序列号借口，发现并没有性能提升，我用的sparksql跑的测试，设计多个join操作，input量为270G , 这个为什么对性能没有提升呢？有大佬做过这方面的研究吗

2.0开始，shuffle的时候已经默认为 kryo 序列化了

赞0 踩0 评论0
回答了问题 2019-07-17

说到事务，衍生了一个问题，请教一下，像hive/mlsql/deltalake或者说spark 支持某级别事务的意义在哪？是否会演变会支持大部分事务？

你说某级别是隔离级别吗？隔离级别越高，并发性能越弱。对于 hive spark sql 这种并发很小的情况，支持多种隔离级别意义不是很大。平台化，让我执行完sql以后，获取输出的表或分区，对碎片文件进行合并，合并完以后任务才算执行完。最开始我们是通过质量分数强制用户自己去合并，用户很麻烦，换了这样的就解决了用户合并文件的问题。平台化可以这么做。缺点就是用户量上来之后有并发可能问题。但是也没有什么更好的办法，都是 trade off 碎片文件比较多的时候比较花费时间。用户可以设置参数，关闭合并，避免影响下游任务运行。等表不被使用了某个时间点用户自己去合并。

赞0 踩0 评论0
回答了问题 2019-07-17

spark Sql都是client模式，而有时driver需要较多的资源，多用户共享一台机器时，client物理机资源可能会成为瓶颈，这个你们有什么解决方案吗

可以用livy来提交spark-cluster的application，然后客户提交给livy，这块我们也做了一些工作

赞0 踩0 评论0
回答了问题 2019-07-17

我有个问题想请教一下，对于spark处理小文件，有没有什么优化方法

可以异步合并，小文件想解决还是合并，落地前合并，处理后合并。在write后repartition一下就可以设置文件数量，在你预估一个分区或处理文件的大小时可以把数量做成参数，比上blockSize生成一个合理的数字。也可以在落地后合并，这样不影响落地的效率不过两种方法都行，落地后就比如shuffle默认200个，那么就有200个小文件，那么可以在不使用这份数据的时候进行离线的合并，合并的方法有很多，基本上就是读出来再写进去，有几个点要注意：把合并后的文件放进原目录中前要删除之前读出来的那些文件避免数据重复，但不能全部删除，合并生成大文件过程中是否有其他程序写入新文件，文件中是否有tmp、success，文件存储格式要统一。你是问关于 delta 的小文件，还是 spark sql 自己的一些小文件？还是什么？sparksql目前应该没有这个功能，我们这边可以看一下需求如果是 hive 的事务表，hive 有合并小文件的功能。spark 方面开源是没有的。spark sql 开启事务之后，delete update 都会产生小文件。处理思路是一样的，定期合并。备注：开源 spark 没有事务支持。emr spark 的事务支持目前还比较薄弱。如果大家有需求，欢迎提出。 sparksql生成的数据小文件真的多，咱们可以通过元数据库，获取每个表下面每个分区下面的数据大小和文件个数，看看是要合并小文件还是要拆分大文件，然后sparksql读出来，然后再写进去，设置一下partition number 你们是用 spark streaming 处理数据最后实时写为 parquet 文件，然后推荐系统会用这些实时处理的数据，是这样的吧？（是的，需求是这样）那推荐系统怎么用这些数据，具体是用什么工具知道吗？（实时读取hdfs文件，spark ML）了解了。看到你们这个主要还是 spark 的技术栈，应用场景是 data pipeline。databricks 前一段时间开源的 delta 正是解决这一类场景。

赞0 踩0 评论0
提交了问题 2019-05-29

打扰一下大家如果对key的字符串型的value 进行累加是用 reduceByKey(_+_)好还是用 agg.(concat_ws(""), collect_list(col)) 好啊现在GC时间特别长都占用三分之一的时间了第一种的累加是 buffer累加还是不停的创建新的定长字符串
提交了问题 2019-05-29

Spark 【问答合集】
提交了问题 2019-05-29

各位大佬有遇到过类似问题吗，求指导
回答了问题 2019-07-17

打扰一下大家如果对key的字符串型的value 进行累加是用 reduceByKey(_+_)好还是用 agg.(concat_ws(""), collect_list(col)) 好啊现在GC时间特别长都占用三分之一的时间了第一种的累加是 buffer累加还是不停的创建新的定长字符串

你的函数是 (string,string){string+string}, 它就执行string+string

赞0 踩0 评论0
回答了问题 2019-07-17

各位大佬有遇到过类似问题吗，求指导

jar 不匹配 hadoop core 吧，自己去搜搜，配置文件这个类的再哪个jar里

赞0 踩0 评论0
提交了问题 2019-05-23

大神10亿数据查询在小于10秒怎么办？有没有什么好的解决方案呢？
提交了问题 2019-05-23

kafka 的broker日志中出现Too many open files ，这个大家有谁碰到过吗
提交了问题 2019-05-23

大家好，请教个问题，在sparkStreaming，我实现了StreamingListener 的接口，用于监控数据堆积的情况，在 onBatchCompleted 判断后调用 stop 会抛出 Cannot stop StreamingContext within listener thread of SparkListenerBus 的异常，异常是在下面源码截图中抛出来的，说我当前实时监控的线程还存在不允许stop ，有些不解，哪位大佬给指点下，是我操作不当？还是再做stop 时需要满足什么条件？
提交了问题 2019-05-23

问一个问题，有大神帮忙解答一下？spark如果在单机local模式下物化一张表，这个表会被物化到哪里去了
提交了问题 2019-05-23

有木有大佬请教一下sparksql的join数据倾斜应该怎么处理呢，join的时候根据号码关联，但是某个号码出现次数特别多

正在加载, 请稍后...

滑动查看更多

正在加载, 请稍后...

暂无更多信息

探索云世界

热门

云计算

大数据

云原生

人工智能

数据库

开发与运维

活动广场

任务中心

训练营

直播

乘风者计划

下载

镜像站

技术资料

社区小助手_个人页

个人介绍

擅长的技术

如果有多个下游运算符，flink是否发送重复记录

当水印小于窗口结束时，触发基于事件时间的Flink窗口操作

如果缺少一些事件，如何使用apache flink稳健地计算连接？

哪里可以在我使用Apache Flink仪表板提交的Apache Flink服务器上找到我的jar

如何创建AvroDeserialzationSchema并在Flink Kafka Consumer中使用？

Flink with Elasticsearch 6.0.0 Sink没有这种方法错误批量处理。

如何在Kubernetes Flink集群中实现JobManager高可用性？

生成“假”流数据。

如何使用writeFileAsText（path）写入文件时传递动态路径？

如何在一对多流的连接中立即发出输出

在yarn上运行Flink 1.5

滑动时间窗口的Flink性能问题

Apache Flink的fat JAR的最大大小

Flink窗口：聚合和输出到接收器

Flink Shaded Hadoop S3文件系统仍然需要hdfs-default和hdfs-site配置路径

Flink中一个作业中的多个作业或多个管道

为什么工作在启动时应用尽可能多的TM作为默认并行性

Flink滑动计数窗口行为

具有多并行性的Flink Map功能，以及如何确保最终接收器的顺序

如何使用状态作为缓存

确定哪个对象在Apache-Flink中不可序列化

Apache flink - 阅读后将文件移动到其他文件夹

关于GroupCombine对部分结果的澄清

Apache Flink - kafka生产者将消息传递给kafka主题，但在不同的分区上

Kafka制作人使用默认分区

Apache flink - 时间特征

使用apache flink从google pub / sub流式传输

Flink kafka - Flink作业不向不同分区发送消息

Apache Flink - 事件时间窗口

在Apache Flink中读取包含22个以上列的CSV

Flink WindowFunction折叠

为什么stop-cluster.sh会停止最新启动的Flink集群？

根据Scala flink中的另一个DataSet过滤DataSet

Apache Flink 1.6.0 - StateTtlConfig和ListState

Apache flink on Kubernetes - 如果jobmanager崩溃，恢复工作

配置Flink作业/任务管理器度量标准的端口

如何在不同的节点上运行Flink作业管理器和任务管理器？

Flink SQL：在GROUP BY查询结果中重复分组键

在flink流sql中查询和更新流

无法为shc-core导入sbt依赖项

在Pyspark中转置数据框

方法showString（[class java.lang.Integer，class java.lang.Integer，class java.lang.Boolean]）在PySpark中不存在

使用pyspark进行条件聚合

将整数转换为日期以计算天数

将RDD JavaPairRDD <String，Double>转换为JavaPairRDD <Integer，Double>

Spark Group By Key to（String，Iterable <String>）

计算spark数据帧中真假条件的数量

Spark Structured Streaming获取最后一个Kafka分区的消息

# Apache Spark系列技术直播# 第四讲 【 机器学习介绍与Spark MLlib实践 】

Spark Structured Streaming error读取字段'topic_metadata'时出错

# Apache Spark系列技术直播# 第八讲 【 微软Azure平台利用Intel Analytics Zoo构建AI客服支持实践 】

# Apache Spark系列技术直播# 第七讲 【 大数据列式存储之 Parquet/ORC 】

#Apache spark系列技术直播# 第六讲【 What's New in Apache Spark 2.4? 】

#Apache Spark系列技术直播# 第六讲【 What's New in Apache Spark 2.4? 】

Apache Spark Meetup China 第1期 最全资料下载

# Apache spark系列技术直播# 第五讲【 Spark RDD编程入门 】

# Apache Spark系列技术直播# 第五讲【 Spark RDD编程入门 】

# Apache Spark系列技术直播# 第四讲 【 机器学习介绍与Spark MLlib实践 】

#Apache Spark系列技术直播# 第四讲 【 机器学习介绍与Spark MLlib实践 】

Apache Spark 系列技术直播 - 从 Spark Streaming 到 Structured Streaming

Apache Spark中国社群 有奖投稿通道 启动啦！

# Apache Spark系列技术直播# 第四讲【机器学习介绍与Spark MLlib实践】

# Apache Spark系列技术直播# 第八讲【微软Azure平台利用Intel Analytics Zoo构建AI客服支持实践】

# Apache Spark系列技术直播# 第七讲【大数据列式存储之 Parquet/ORC 】

Apache Spark Meetup China 第1期最全资料下载

# Apache spark系列技术直播# 第五讲【 Spark RDD编程入门】

# Apache Spark系列技术直播# 第五讲【 Spark RDD编程入门】

# Apache Spark系列技术直播# 第四讲【机器学习介绍与Spark MLlib实践】

#Apache Spark系列技术直播# 第四讲【机器学习介绍与Spark MLlib实践】

Apache Spark中国社群有奖投稿通道启动啦！

说到事务，衍生了一个问题，请教一下，像hive/mlsql/deltalake或者说spark 支持某级别事务的意义在哪？是否会演变会支持大部分事务？

我有个问题想请教一下，对于spark处理小文件，有没有什么优化方法

说到事务，衍生了一个问题，请教一下，像hive/mlsql/deltalake或者说spark 支持某级别事务的意义在哪？是否会演变会支持大部分事务？

我有个问题想请教一下，对于spark处理小文件，有没有什么优化方法

打扰一下大家如果对key的字符串型的value 进行累加是用 reduceByKey(_+_)好还是用 agg.(concat_ws(""), collect_list(col)) 好啊现在GC时间特别长都占用三分之一的时间了第一种的累加是 buffer累加还是不停的创建新的定长字符串

打扰一下大家如果对key的字符串型的value 进行累加是用 reduceByKey(_+_)好还是用 agg.(concat_ws(""), collect_list(col)) 好啊现在GC时间特别长都占用三分之一的时间了第一种的累加是 buffer累加还是不停的创建新的定长字符串