社区小助手_个人页

个人头像照片 社区小助手
12
824
0

个人介绍

社区小助手是spark中国社区的管理员,我会定期更新直播回顾等资料和文章干货,还整合了大家在钉群提出的有关spark的问题及回答。

擅长的技术

  • 数据库
获得更多能力
通用技术能力:

暂时未有相关通用技术能力~

云产品技术能力:

暂时未有相关云产品技术能力~

阿里云技能认证

详细说明
  • 提交了问题 2019-06-03

    请问relational cache 与apache ignite有什么区别?

  • 提交了问题 2019-05-30

    问一个问题哈,在spark中默认使用java serialization ,但同时也提供了 kryo 序列化借口,今天测试了一下 两个不同的序列号借口,发现并没有性能提升,我用的sparksql跑的测试,设计多个join操作,input量为270G , 这个为什么对性能没有提升呢? 有大佬做过这方面的研究吗

  • 提交了问题 2019-05-30

    说到事务,衍生了一个问题,请教一下,像hive/mlsql/deltalake或者说spark 支持某级别事务 的意义在哪?是否会演变会支持大部分事务?

  • 提交了问题 2019-05-30

    spark Sql都是client模式,而有时driver需要较多的资源,多用户共享一台机器时,client物理机资源可能会成为瓶颈,这个你们有什么解决方案吗

  • 提交了问题 2019-05-30

    我有个问题想请教一下, 对于spark处理小文件,有没有什么优化方法

  • 提交了问题 2019-05-29

    打扰一下大家 如果对key的字符串型的value 进行累加是用 reduceByKey(_+_)好 还是用 agg.(concat_ws(""), collect_list(col)) 好啊 现在GC时间特别长 都占用三分之一的时间了 第一种的累加是 buffer累加 还是 不停的创建新的定长字符串

  • 提交了问题 2019-05-29

    Spark 【问答合集】

  • 提交了问题 2019-05-29

    各位大佬有遇到过类似问题吗,求指导

  • 提交了问题 2019-05-23

    大神10亿数据查询在小于10秒怎么办?有没有什么好的解决方案呢?

  • 提交了问题 2019-05-23

    kafka 的broker日志中出现Too many open files ,这个大家有谁碰到过吗

  • 提交了问题 2019-05-23

    大家好,请教个问题,在sparkStreaming,我实现了StreamingListener 的接口,用于监控数据堆积的情况,在 onBatchCompleted 判断后调用 stop 会抛出 Cannot stop StreamingContext within listener thread of SparkListenerBus 的异常,异常是在下面源码截图中抛出来的,说我当前实时监控的线程还存在不允许stop ,有些不解,哪位大佬给指点下,是我操作不当?还是再做stop 时需要满足什么条件?

  • 提交了问题 2019-05-23

    问一个问题,有大神帮忙解答一下?spark如果在单机local模式下物化一张表,这个表会被物化到哪里去了

  • 提交了问题 2019-05-23

    有木有大佬请教一下sparksql的join数据倾斜应该怎么处理呢,join的时候根据号码关联,但是某个号码出现次数特别多

  • 提交了问题 2019-05-22

    大家有没有碰到过类似情况,spark初学者,sparksql on yarn,每一小时会批量跑一些SQL,跑了2天,大概就会出现这样的情况。求解。。

  • 提交了问题 2019-05-17

    请问一下,livy配置spark,操作hive的表,..我现在黑框pyspark中,可以操作hive的表, livy的livy.repl.enableHiveContext = true

  • 提交了问题 2019-05-16

    大佬们,hive添加自定义udf出现权限问题,有谁遇到过没?

  • 提交了问题 2019-05-16

    hi,有人配置过 spark.streaming.dynamicAllocation.enabled这个参数吗,这个参数对spark streaming会生效,但是没找到文档说spark structured streaming 是否会生效

  • 提交了问题 2019-05-16

    问个问题,java怎么使用广播变量广播dateframe 1.6版本

  • 提交了问题 2019-05-16

    请教大家一个问题: spark on yarn 内存溢出 除了增加driver内存以外还有什么好的解决方案吗?

  • 提交了问题 2019-05-16

    请教一下,spark sql 执行比如select * from table where day >='2018-05-04' 后面限定过滤后的具体partition访问 源码里是在哪个阶段哪个函数获取的

  • 提交了问题 2019-05-16

    请问standalone模式如何优化性能,容易内存不足,报空指针异常

  • 提交了问题 2019-05-16

    各位大佬, 运行200个task 最后总有一两个运行要卡很长时间 怎么优化下呢?

  • 提交了问题 2019-05-16

    使用pyspark将csv文件转换为parquet文件:Py4JJavaError:调用o347.parquet时发生错误[duplicate]

  • 提交了问题 2019-05-16

    下面这个报错 19/05/13 11:33:18 WARN MemoryStore: Not enough space to cache broadcast_7 in memory! (computed 272.0 MB so far) 19/05/13 11:33:18 WARN BlockManager: Persisting block broadcast_7 to disk instead. 除了增加driver memory方式解决,有别的办法吗?参数:20个partition,每个partit

  • 提交了问题 2019-04-18

    Elasticsearch-spark依赖读取es数据的时候需要配置es的哪些参数,有没有代码参考参考,es版本是5.4.3 elasticsearch-spark也是5.4.3的

  • 提交了问题 2019-04-17

    请教一下,报GC错误,这个怎么设置参数啊

  • 提交了问题 2019-04-17

    请问一个问题,sqoop可以把数据从MySQL抽到Kafka吗?

  • 提交了问题 2019-03-28

    大佬们咨询个问题,就是使用Spark On Hive时,动态的将数据插入到Hive中,但是在Hive的数据表下会有很多文件,这个可以怎么设置一下呢

  • 提交了问题 2019-03-28

    大佬们,请教下structed streaming 时 checkpoint 频繁在HDFS写小文件,这个一般是怎么处理的?

  • 提交了问题 2019-03-28

    为什么这个completed的stage还有running状态的task呢

  • 提交了问题 2019-03-18

    请问有人知道datax mongodbreader里面的query查询语句应该写成什么格式呢?

  • 提交了问题 2019-03-18

    我使用spark thrift jdbc 已经在spark配置文件设置了

  • 提交了问题 2019-03-18

    编译spark2.4.0 遇到这个问题

  • 提交了问题 2019-03-18

    在集群上为什么启动另一个spark任务会kill掉前一个spark任务

  • 提交了问题 2019-03-18

    咨询个问题,hive on tez,insert overwrite table select * from A union all select * from B。插入分区表是会自动创建子目录 1、2、3如何解决?

  • 提交了问题 2019-03-18

    请教各位一个问题,使用spark读写Kudu数据,如果使用spark_kudu 1.9.0的包可以读取Kudu表的数据,创建KuduContext会报错:java.lang.IllegalStateException。如果使用1.7.0或者1.8.0的jar包,无法读数据,会报错:java.lang.ClassNotFoundException: kudu.DefaultSource。这是为啥啊

  • 提交了问题 2019-03-18

    有哪位遇到过这个问题,没搞明白是哪里的数组越界了

  • 提交了问题 2019-03-18

    spark DataFrame写入HDFS怎么压缩

  • 提交了问题 2019-03-18

    Spark Streaming Kafka Stream批处理执行

  • 提交了问题 2019-03-18

    请问有人知道 pyspark 在cdh中运行需要配置什么环境吗

  • 提交了问题 2019-03-18

    在 mapPartitions 中连接redis都是怎么做的?我用 --jars 引用jedis包在mapPartitions外使用正常,放到mapPartitions内部就会抛出 「java.lang.NoClassDefFoundError: redis/clients/jedis/Jedis」的错误

  • 提交了问题 2019-01-30

    MetaBase怎么添加Spark2 DataType

  • 提交了问题 2019-01-30

    请问一下,json字符串中有重名但大小写不同的key,使用play.api.libs.json.Json.parse解析json没有报错,但是spark-sql使用org.openx.data.jsonserde.JsonSerDe时,会自动将key转为小写,然后putOnce函数报错Duplicate key,请问有谁遇到过这种情况吗,怎么解决比较好呢?目前只能在初始解析时删掉重名的一个key

  • 提交了问题 2019-01-30

    spark streaming 和 kafka ,打成jar包后((相关第三方依赖也在里面)),放到集群上总是报StringDecoder 找不到class,但我确定是存在的,就算换成另一种--jars提交了相关kafka的依赖包,spark-submit执行后不是TopicMetadataRequest类找不到就是StringDecoder找不到,kafka是0.8.2.1,spark'是1.6.0-cdh5.8.0的,大家遇到过这种问题吗

  • 提交了问题 2019-01-30

    sql语句不支持delete操作

  • 提交了问题 2019-01-30

    sparkstreaming跑的时候总会因为一两个task执行不结束而卡死!请问一下怎么排查或者解决啊

  • 提交了问题 2019-01-30

    spark的RDD内容直接用saveAsTextFile保存到hdfs时会出现中文乱码现象,但在控制台用foreach打印该RDD数据显示是正常的,该怎么解决呢?

  • 提交了问题 2019-01-30

    请问一下如何能查看spark struct streaming内存使用情况呢

  • 提交了问题 2019-01-30

    请教一下各位大佬一个基础性的东西这个代表读取系统默认配置么?

  • 提交了问题 2019-01-30

    使用spark 2.3 structed streaming 时 checkpoint 频繁在HDFS写小文件,块数到达百万级别 ,这个怎么优化下

暂无更多信息
  • 发表了文章 2019-01-08

    # Apache Spark系列技术直播# 第八讲 【 微软Azure平台利用Intel Analytics Zoo构建AI客服支持实践 】

  • 发表了文章 2018-12-26

    # Apache Spark系列技术直播# 第七讲 【 大数据列式存储之 Parquet/ORC 】

  • 发表了文章 2018-12-21

    #Apache spark系列技术直播# 第六讲【 What's New in Apache Spark 2.4? 】

  • 发表了文章 2018-12-20

    #Apache Spark系列技术直播# 第六讲【 What's New in Apache Spark 2.4? 】

  • 发表了文章 2018-12-17

    Apache Spark Meetup China 第1期 最全资料下载

  • 发表了文章 2018-12-14

    # Apache spark系列技术直播# 第五讲【 Spark RDD编程入门 】

  • 发表了文章 2018-12-12

    # Apache Spark系列技术直播# 第五讲【 Spark RDD编程入门 】

  • 发表了文章 2018-12-07

    # Apache Spark系列技术直播# 第四讲 【 机器学习介绍与Spark MLlib实践 】

  • 发表了文章 2018-12-06

    #Apache Spark系列技术直播# 第四讲 【 机器学习介绍与Spark MLlib实践 】

  • 发表了文章 2018-12-05

    Apache Spark 系列技术直播 - 从 Spark Streaming 到 Structured Streaming

  • 发表了文章 2018-12-05

    Apache Spark中国社群 有奖投稿通道 启动啦!

  • 发表了文章 2018-11-29

    SparkSQL实践与优化

正在加载, 请稍后...
滑动查看更多
  • 提交了问题 2019-06-03

    请问relational cache 与apache ignite有什么区别?

  • 回答了问题 2019-07-17

    请问relational cache 与apache ignite有什么区别?

    EMR Spark relational cache可以简单理解为基于Spark的物化视图,支持把视图数据放在内存中或是HDFS OSS上,用户可以通过relational cache加速查询,或是基于此构建MOLAP平台。ignite应该主要是基于内存的实时计算引擎。 很不错的问题。我知道的就是 relational cache 是基于 Spark 来做的,Spark 上直接用,不需要另外一堆服务。Ignite 自己是一套跟 Spark 可以对等的服务。
    踩0 评论0
  • 提交了问题 2019-05-30

    问一个问题哈,在spark中默认使用java serialization ,但同时也提供了 kryo 序列化借口,今天测试了一下 两个不同的序列号借口,发现并没有性能提升,我用的sparksql跑的测试,设计多个join操作,input量为270G , 这个为什么对性能没有提升呢? 有大佬做过这方面的研究吗

  • 提交了问题 2019-05-30

    说到事务,衍生了一个问题,请教一下,像hive/mlsql/deltalake或者说spark 支持某级别事务 的意义在哪?是否会演变会支持大部分事务?

  • 提交了问题 2019-05-30

    spark Sql都是client模式,而有时driver需要较多的资源,多用户共享一台机器时,client物理机资源可能会成为瓶颈,这个你们有什么解决方案吗

  • 提交了问题 2019-05-30

    我有个问题想请教一下, 对于spark处理小文件,有没有什么优化方法

  • 回答了问题 2019-07-17

    问一个问题哈,在spark中默认使用java serialization ,但同时也提供了 kryo 序列化借口,今天测试了一下 两个不同的序列号借口,发现并没有性能提升,我用的sparksql跑的测试,设计多个join操作,input量为270G , 这个为什么对性能没有提升呢? 有大佬做过这方面的研究吗

    2.0开始,shuffle的时候已经默认为 kryo 序列化了
    踩0 评论0
  • 回答了问题 2019-07-17

    说到事务,衍生了一个问题,请教一下,像hive/mlsql/deltalake或者说spark 支持某级别事务 的意义在哪?是否会演变会支持大部分事务?

    你说某级别是隔离级别吗?隔离级别越高,并发性能越弱。对于 hive spark sql 这种并发很小的情况,支持多种隔离级别意义不是很大。 平台化,让我执行完sql以后,获取输出的表或分区,对碎片文件进行合并,合并完以后任务才算执行完。最开始我们是通过质量分数强制用户自己去合并,用户很麻烦,换了这样的就解决了用户合并文件的问题。 平台化可以这么做。缺点就是用户量上来之后有并发可能问题。但是也没有什么更好的办法,都是 trade off 碎片文件比较多的时候比较花费时间。用户可以设置参数,关闭合并,避免影响下游任务运行。等表不被使用了某个时间点用户自己去合并。
    踩0 评论0
  • 回答了问题 2019-07-17

    spark Sql都是client模式,而有时driver需要较多的资源,多用户共享一台机器时,client物理机资源可能会成为瓶颈,这个你们有什么解决方案吗

    可以用livy来提交spark-cluster的application,然后客户提交给livy,这块我们也做了一些工作
    踩0 评论0
  • 回答了问题 2019-07-17

    我有个问题想请教一下, 对于spark处理小文件,有没有什么优化方法

    可以异步合并,小文件想解决还是合并,落地前合并,处理后合并。在write后repartition一下就可以设置文件数量,在你预估一个分区或处理文件的大小时可以把数量做成参数,比上blockSize生成一个合理的数字。也可以在落地后合并,这样不影响落地的效率不过两种方法都行,落地后就比如shuffle默认200个,那么就有200个小文件,那么可以在不使用这份数据的时候进行离线的合并,合并的方法有很多,基本上就是读出来再写进去,有几个点要注意:把合并后的文件放进原目录中前要删除之前读出来的那些文件避免数据重复,但不能全部删除,合并生成大文件过程中是否有其他程序写入新文件,文件中是否有tmp、success,文件存储格式要统一。 你是问关于 delta 的小文件,还是 spark sql 自己的一些小文件?还是什么?sparksql目前应该没有这个功能,我们这边可以看一下需求 如果是 hive 的事务表,hive 有合并小文件的功能。spark 方面开源是没有的。spark sql 开启事务之后,delete update 都会产生小文件。处理思路是一样的,定期合并。备注:开源 spark 没有事务支持。emr spark 的事务支持目前还比较薄弱。如果大家有需求,欢迎提出。 sparksql生成的数据小文件真的多,咱们可以通过元数据库,获取每个表下面每个分区下面的数据大小和文件个数,看看是要合并小文件还是要拆分大文件,然后sparksql读出来,然后再写进去,设置一下partition number 你们是用 spark streaming 处理数据最后实时写为 parquet 文件,然后推荐系统会用这些实时处理的数据,是这样的吧?(是的,需求是这样)那推荐系统怎么用这些数据,具体是用什么工具知道吗?(实时读取hdfs文件,spark ML)了解了。看到你们这个主要还是 spark 的技术栈,应用场景是 data pipeline。databricks 前一段时间开源的 delta 正是解决这一类场景。
    踩0 评论0
  • 提交了问题 2019-05-29

    打扰一下大家 如果对key的字符串型的value 进行累加是用 reduceByKey(_+_)好 还是用 agg.(concat_ws(""), collect_list(col)) 好啊 现在GC时间特别长 都占用三分之一的时间了 第一种的累加是 buffer累加 还是 不停的创建新的定长字符串

  • 提交了问题 2019-05-29

    Spark 【问答合集】

  • 提交了问题 2019-05-29

    各位大佬有遇到过类似问题吗,求指导

  • 回答了问题 2019-07-17

    打扰一下大家 如果对key的字符串型的value 进行累加是用 reduceByKey(_+_)好 还是用 agg.(concat_ws(""), collect_list(col)) 好啊 现在GC时间特别长 都占用三分之一的时间了 第一种的累加是 buffer累加 还是 不停的创建新的定长字符串

    你的函数是 (string,string){string+string}, 它就执行string+string
    踩0 评论0
  • 回答了问题 2019-07-17

    各位大佬有遇到过类似问题吗,求指导

    jar 不匹配 hadoop core 吧,自己去搜搜, 配置文件这个类的再哪个jar里
    踩0 评论0
  • 提交了问题 2019-05-23

    大神10亿数据查询在小于10秒怎么办?有没有什么好的解决方案呢?

  • 提交了问题 2019-05-23

    kafka 的broker日志中出现Too many open files ,这个大家有谁碰到过吗

  • 提交了问题 2019-05-23

    大家好,请教个问题,在sparkStreaming,我实现了StreamingListener 的接口,用于监控数据堆积的情况,在 onBatchCompleted 判断后调用 stop 会抛出 Cannot stop StreamingContext within listener thread of SparkListenerBus 的异常,异常是在下面源码截图中抛出来的,说我当前实时监控的线程还存在不允许stop ,有些不解,哪位大佬给指点下,是我操作不当?还是再做stop 时需要满足什么条件?

  • 提交了问题 2019-05-23

    问一个问题,有大神帮忙解答一下?spark如果在单机local模式下物化一张表,这个表会被物化到哪里去了

  • 提交了问题 2019-05-23

    有木有大佬请教一下sparksql的join数据倾斜应该怎么处理呢,join的时候根据号码关联,但是某个号码出现次数特别多

正在加载, 请稍后...
滑动查看更多
正在加载, 请稍后...
暂无更多信息