社区小助手_个人页

个人头像照片 社区小助手
12
824
0

个人介绍

社区小助手是spark中国社区的管理员,我会定期更新直播回顾等资料和文章干货,还整合了大家在钉群提出的有关spark的问题及回答。

擅长的技术

  • 数据库
获得更多能力
通用技术能力:

暂时未有相关通用技术能力~

云产品技术能力:

暂时未有相关云产品技术能力~

阿里云技能认证

详细说明
  • 提交了问题 2018-12-12

    spark在满足条件的列中获得最小值

  • 提交了问题 2018-12-12

    如何在Homebrew中找到Apache Spark包的安装目录?

  • 提交了问题 2018-12-12

    如何在AWS Glue中导入Spark包?

  • 提交了问题 2018-12-12

    Spark以独占方式按键分区

  • 提交了问题 2018-12-12

    映射JavaRDD时删除空值

  • 提交了问题 2018-12-12

    带参数的getItem是列名

  • 提交了问题 2018-12-12

    Spark SQL - createDataFrame错误的struct schema

  • 提交了问题 2018-12-12

    Apache Spark to_json选项参数

  • 提交了问题 2018-12-12

    使用Scala从Array(使用Scary改变大小的Array [String)创建元组

  • 提交了问题 2018-12-12

    在Spark中调用dataframe.collect时,会将不寻常的数据量提取到驱动程序中

  • 提交了问题 2018-12-12

    Spark DataFrame处理损坏的记录

  • 提交了问题 2018-12-12

    在一个文件中对spark RDD进行排序和排名

  • 提交了问题 2018-12-12

    如何在Cloudera中安排/触发spark工作?

  • 提交了问题 2018-12-12

    如何使用pyspark将sql语句的结果发送到for循环?

  • 提交了问题 2018-12-12

    如何在spark中解压缩并读取包含多个压缩文件的文件

  • 提交了问题 2018-12-12

    计算dataframe列中的剩余金额

  • 提交了问题 2018-12-12

    PySpark-如何使用Pyspark计算每个字段的最小值,最大值?

  • 提交了问题 2018-12-12

    kafka conect cassandra source -error为十进制数据类型

  • 提交了问题 2018-12-12

    PRDD(部分更新)是否包含在任何版本的Apache spark中?

  • 提交了问题 2018-12-12

    reduceByKey和mapValues如何同时工作?

  • 提交了问题 2018-12-12

    在spark上运行c ++

  • 提交了问题 2018-12-12

    ES:索引模板不会从UNIX时间戳转换为日期

  • 提交了问题 2018-12-12

    我想使用三列计算并生成单列,并显示所有三个值

  • 提交了问题 2018-12-12

    Spark从本地文件流式传输到hdfs。textFileStream

  • 提交了问题 2018-12-12

    如何使用JohnSnowLabs NLP拼写纠错模块NorvigSweetingModel?

  • 提交了问题 2018-12-12

    GroupByKey vs Spark中的Join性能

  • 提交了问题 2018-12-12

    PySpark Dataframe根据函数返回值创建新列

  • 提交了问题 2018-12-12

    spark - 持续存在两次RDD过程

  • 提交了问题 2018-12-12

    如何将数据集拆分为两个具有唯一和重复行的数据集?

  • 提交了问题 2018-12-12

    Pyspark:如何在计算pyspark sql函数时排除列的非空记录?

  • 提交了问题 2018-12-12

    Apache Spark:如何从Executor向Driver发送自定义消息

  • 提交了问题 2018-12-12

    如何读取CSV文件,然后将其另存为Spark Scala中的JSON?

  • 提交了问题 2018-12-12

    AWS Glue - 是否使用Crawlers

  • 提交了问题 2018-12-11

    如何根据条件为日期列的列中值的出现来过滤spark数据帧?

  • 提交了问题 2018-12-11

    从Cassandra查询的数据不能再次在同一列上过滤(InvalidQueryException)

  • 提交了问题 2018-12-11

    使用pyspark进行Spark RDD窗口化

  • 提交了问题 2018-12-11

    使用过滤器PySpark创建一个新列

  • 提交了问题 2018-12-11

    将List [Map <String,String>]转换为spark数据帧

  • 提交了问题 2018-12-11

    Spark - 组合所有执行程序的过滤结果

  • 提交了问题 2018-12-11

    Pyspark - UnicodeEncodeError:'ascii'编解码器无法编码字符

  • 提交了问题 2018-12-11

    没有规定在Scala中将Spark DataFrame转换为AWS Glue DynamicFrame

  • 提交了问题 2018-12-11

    Spark SQL查询Group By值后跟list

  • 提交了问题 2018-12-11

    如何在writeStream到Elasticsearch之前将JSON数组转换为行?

  • 提交了问题 2018-12-11

    在build.sbt中,父项目中的依赖项未反映在子模块中

  • 提交了问题 2018-12-11

    在不平衡数据集的情况下加入优化

  • 提交了问题 2018-12-11

    播放Cassandra Netty Server空指针异常

  • 提交了问题 2018-12-11

    Spark批处理从多列DataFrame写入Kafka主题

  • 提交了问题 2018-12-11

    在PySpark的文字列中检测到INNER连接的笛卡尔积

  • 提交了问题 2018-12-11

    Pyspark错误:使用交叉验证时“字段rawPrediction不存在”

  • 提交了问题 2018-12-11

    在追加模式下激活水印和窗口

暂无更多信息
  • 发表了文章 2019-01-08

    # Apache Spark系列技术直播# 第八讲 【 微软Azure平台利用Intel Analytics Zoo构建AI客服支持实践 】

  • 发表了文章 2018-12-26

    # Apache Spark系列技术直播# 第七讲 【 大数据列式存储之 Parquet/ORC 】

  • 发表了文章 2018-12-21

    #Apache spark系列技术直播# 第六讲【 What's New in Apache Spark 2.4? 】

  • 发表了文章 2018-12-20

    #Apache Spark系列技术直播# 第六讲【 What's New in Apache Spark 2.4? 】

  • 发表了文章 2018-12-17

    Apache Spark Meetup China 第1期 最全资料下载

  • 发表了文章 2018-12-14

    # Apache spark系列技术直播# 第五讲【 Spark RDD编程入门 】

  • 发表了文章 2018-12-12

    # Apache Spark系列技术直播# 第五讲【 Spark RDD编程入门 】

  • 发表了文章 2018-12-07

    # Apache Spark系列技术直播# 第四讲 【 机器学习介绍与Spark MLlib实践 】

  • 发表了文章 2018-12-06

    #Apache Spark系列技术直播# 第四讲 【 机器学习介绍与Spark MLlib实践 】

  • 发表了文章 2018-12-05

    Apache Spark 系列技术直播 - 从 Spark Streaming 到 Structured Streaming

  • 发表了文章 2018-12-05

    Apache Spark中国社群 有奖投稿通道 启动啦!

  • 发表了文章 2018-11-29

    SparkSQL实践与优化

正在加载, 请稍后...
滑动查看更多
  • 提交了问题 2019-06-03

    请问relational cache 与apache ignite有什么区别?

  • 回答了问题 2019-07-17

    请问relational cache 与apache ignite有什么区别?

    EMR Spark relational cache可以简单理解为基于Spark的物化视图,支持把视图数据放在内存中或是HDFS OSS上,用户可以通过relational cache加速查询,或是基于此构建MOLAP平台。ignite应该主要是基于内存的实时计算引擎。 很不错的问题。我知道的就是 relational cache 是基于 Spark 来做的,Spark 上直接用,不需要另外一堆服务。Ignite 自己是一套跟 Spark 可以对等的服务。
    踩0 评论0
  • 提交了问题 2019-05-30

    问一个问题哈,在spark中默认使用java serialization ,但同时也提供了 kryo 序列化借口,今天测试了一下 两个不同的序列号借口,发现并没有性能提升,我用的sparksql跑的测试,设计多个join操作,input量为270G , 这个为什么对性能没有提升呢? 有大佬做过这方面的研究吗

  • 提交了问题 2019-05-30

    说到事务,衍生了一个问题,请教一下,像hive/mlsql/deltalake或者说spark 支持某级别事务 的意义在哪?是否会演变会支持大部分事务?

  • 提交了问题 2019-05-30

    spark Sql都是client模式,而有时driver需要较多的资源,多用户共享一台机器时,client物理机资源可能会成为瓶颈,这个你们有什么解决方案吗

  • 提交了问题 2019-05-30

    我有个问题想请教一下, 对于spark处理小文件,有没有什么优化方法

  • 回答了问题 2019-07-17

    问一个问题哈,在spark中默认使用java serialization ,但同时也提供了 kryo 序列化借口,今天测试了一下 两个不同的序列号借口,发现并没有性能提升,我用的sparksql跑的测试,设计多个join操作,input量为270G , 这个为什么对性能没有提升呢? 有大佬做过这方面的研究吗

    2.0开始,shuffle的时候已经默认为 kryo 序列化了
    踩0 评论0
  • 回答了问题 2019-07-17

    说到事务,衍生了一个问题,请教一下,像hive/mlsql/deltalake或者说spark 支持某级别事务 的意义在哪?是否会演变会支持大部分事务?

    你说某级别是隔离级别吗?隔离级别越高,并发性能越弱。对于 hive spark sql 这种并发很小的情况,支持多种隔离级别意义不是很大。 平台化,让我执行完sql以后,获取输出的表或分区,对碎片文件进行合并,合并完以后任务才算执行完。最开始我们是通过质量分数强制用户自己去合并,用户很麻烦,换了这样的就解决了用户合并文件的问题。 平台化可以这么做。缺点就是用户量上来之后有并发可能问题。但是也没有什么更好的办法,都是 trade off 碎片文件比较多的时候比较花费时间。用户可以设置参数,关闭合并,避免影响下游任务运行。等表不被使用了某个时间点用户自己去合并。
    踩0 评论0
  • 回答了问题 2019-07-17

    spark Sql都是client模式,而有时driver需要较多的资源,多用户共享一台机器时,client物理机资源可能会成为瓶颈,这个你们有什么解决方案吗

    可以用livy来提交spark-cluster的application,然后客户提交给livy,这块我们也做了一些工作
    踩0 评论0
  • 回答了问题 2019-07-17

    我有个问题想请教一下, 对于spark处理小文件,有没有什么优化方法

    可以异步合并,小文件想解决还是合并,落地前合并,处理后合并。在write后repartition一下就可以设置文件数量,在你预估一个分区或处理文件的大小时可以把数量做成参数,比上blockSize生成一个合理的数字。也可以在落地后合并,这样不影响落地的效率不过两种方法都行,落地后就比如shuffle默认200个,那么就有200个小文件,那么可以在不使用这份数据的时候进行离线的合并,合并的方法有很多,基本上就是读出来再写进去,有几个点要注意:把合并后的文件放进原目录中前要删除之前读出来的那些文件避免数据重复,但不能全部删除,合并生成大文件过程中是否有其他程序写入新文件,文件中是否有tmp、success,文件存储格式要统一。 你是问关于 delta 的小文件,还是 spark sql 自己的一些小文件?还是什么?sparksql目前应该没有这个功能,我们这边可以看一下需求 如果是 hive 的事务表,hive 有合并小文件的功能。spark 方面开源是没有的。spark sql 开启事务之后,delete update 都会产生小文件。处理思路是一样的,定期合并。备注:开源 spark 没有事务支持。emr spark 的事务支持目前还比较薄弱。如果大家有需求,欢迎提出。 sparksql生成的数据小文件真的多,咱们可以通过元数据库,获取每个表下面每个分区下面的数据大小和文件个数,看看是要合并小文件还是要拆分大文件,然后sparksql读出来,然后再写进去,设置一下partition number 你们是用 spark streaming 处理数据最后实时写为 parquet 文件,然后推荐系统会用这些实时处理的数据,是这样的吧?(是的,需求是这样)那推荐系统怎么用这些数据,具体是用什么工具知道吗?(实时读取hdfs文件,spark ML)了解了。看到你们这个主要还是 spark 的技术栈,应用场景是 data pipeline。databricks 前一段时间开源的 delta 正是解决这一类场景。
    踩0 评论0
  • 提交了问题 2019-05-29

    打扰一下大家 如果对key的字符串型的value 进行累加是用 reduceByKey(_+_)好 还是用 agg.(concat_ws(""), collect_list(col)) 好啊 现在GC时间特别长 都占用三分之一的时间了 第一种的累加是 buffer累加 还是 不停的创建新的定长字符串

  • 提交了问题 2019-05-29

    Spark 【问答合集】

  • 提交了问题 2019-05-29

    各位大佬有遇到过类似问题吗,求指导

  • 回答了问题 2019-07-17

    打扰一下大家 如果对key的字符串型的value 进行累加是用 reduceByKey(_+_)好 还是用 agg.(concat_ws(""), collect_list(col)) 好啊 现在GC时间特别长 都占用三分之一的时间了 第一种的累加是 buffer累加 还是 不停的创建新的定长字符串

    你的函数是 (string,string){string+string}, 它就执行string+string
    踩0 评论0
  • 回答了问题 2019-07-17

    各位大佬有遇到过类似问题吗,求指导

    jar 不匹配 hadoop core 吧,自己去搜搜, 配置文件这个类的再哪个jar里
    踩0 评论0
  • 提交了问题 2019-05-23

    大神10亿数据查询在小于10秒怎么办?有没有什么好的解决方案呢?

  • 提交了问题 2019-05-23

    kafka 的broker日志中出现Too many open files ,这个大家有谁碰到过吗

  • 提交了问题 2019-05-23

    大家好,请教个问题,在sparkStreaming,我实现了StreamingListener 的接口,用于监控数据堆积的情况,在 onBatchCompleted 判断后调用 stop 会抛出 Cannot stop StreamingContext within listener thread of SparkListenerBus 的异常,异常是在下面源码截图中抛出来的,说我当前实时监控的线程还存在不允许stop ,有些不解,哪位大佬给指点下,是我操作不当?还是再做stop 时需要满足什么条件?

  • 提交了问题 2019-05-23

    问一个问题,有大神帮忙解答一下?spark如果在单机local模式下物化一张表,这个表会被物化到哪里去了

  • 提交了问题 2019-05-23

    有木有大佬请教一下sparksql的join数据倾斜应该怎么处理呢,join的时候根据号码关联,但是某个号码出现次数特别多

正在加载, 请稍后...
滑动查看更多
正在加载, 请稍后...
暂无更多信息