Spark 【问答合集】-问答-阿里云开发者社区-阿里云

开发者社区> 问答> 正文

Spark 【问答合集】

2019-05-29 14:13:40 129458 5

如何使用spark将kafka主题中的writeStream数据写入hdfs?
https://yq.aliyun.com/ask/493211
当Spark在S3上读取大数据集时,在“停机时间”期间发生了什么?
https://yq.aliyun.com/ask/493212
从Redshift读入Spark Dataframe(Spark-Redshift模块)
https://yq.aliyun.com/ask/493215
在初始化spark上下文后,在运行时更改pyspark的hadoop配置中的aws凭据
https://yq.aliyun.com/ask/493217
Window.rowsBetween - 仅考虑满足特定条件的行(例如,不为null)
https://yq.aliyun.com/ask/493220
spark的RDD内容直接用saveAsTextFile保存到hdfs时会出现中文乱码现象,但在控制台用foreach打印该RDD数据显示是正常的,该怎么解决呢?
https://yq.aliyun.com/ask/494418
请问一下如何能查看spark struct streaming内存使用情况呢?
https://yq.aliyun.com/ask/494417
使用spark 2.3 structed streaming 时 checkpoint 频繁在HDFS写小文件,块数到达百万级别 ,这个怎么优化下?
https://yq.aliyun.com/ask/494415
请教大家一个问题,spark stream连kafka,在web页面的stream标签,显示好多batch处于queued状态,这些batch是已经把数据从kafka读取进rdd,等待处理,还是还没有从kafka读取数进rdd?
https://yq.aliyun.com/ask/493702
为什么我使用 dropDuplicates()函数报错
Caused by: java.lang.NoSuchMethodError: org.codehaus.commons.compiler.Location.(Ljava/lang/String;II)V ?
https://yq.aliyun.com/ask/493700
请教一下,我hive中数据大小为16g,通过importtsv生成了hfile 文件,导入到hbase中了,数据变成130多g,还有什么更好的办法吗?
https://yq.aliyun.com/ask/493698
jdbc 连接spark thrift server 如何获取日志?
https://yq.aliyun.com/ask/493582
Spark如何从一行中仅提取Json数据?
https://yq.aliyun.com/ask/493581
pyspark - 在json流数据中找到max和min usign createDataFrame
https://yq.aliyun.com/ask/493234
如何计算和获取Spark Dataframe中唯一ID的值总和?
https://yq.aliyun.com/ask/493231
如何将csv目录加载到hdfs作为parquet?
https://yq.aliyun.com/ask/493224
无法使用Spark在Datastax上初始化图形
https://yq.aliyun.com/ask/493222
使用PySpark计算每个窗口的用户数
https://yq.aliyun.com/ask/493221
sql语句不支持delete操作,如果我想执行delete操作该怎么办?
https://yq.aliyun.com/ask/494420
spark streaming 和 kafka ,打成jar包后((相关第三方依赖也在里面)),放到集群上总是报StringDecoder 找不到class
https://yq.aliyun.com/ask/494421
json字符串中有重名但大小写不同的key,使用play.api.libs.json.Json.parse解析json没有报错,但是spark-sql使用org.openx.data.jsonserde.JsonSerDe时,会自动将key转为小写,然后putOnce函数报错Duplicate key
https://yq.aliyun.com/ask/494423
spark DataFrame写入HDFS怎么压缩?
https://yq.aliyun.com/ask/495552
使用Spark On Hive时,动态的将数据插入到Hive中,但是在Hive的数据表下会有很多文件,这个可以怎么设置一下呢?
https://yq.aliyun.com/ask/495927

技术交流群


Apache Spark中国技术交流群

spark
(钉钉扫码加入)

取消 提交回答
全部回答(5)
添加回答
相关问答

41

回答

[@徐雷frank][¥20]什么是JAVA的平台无关性

大河人家 2018-10-29 23:55:20 146592浏览量 回答数 41

170

回答

惊喜翻倍:免费ECS+免费环境配置~!(ECS免费体验6个月活动3月31日结束)

豆妹 2014-10-29 17:52:21 232012浏览量 回答数 170

8

回答

OceanBase 使用动画(持续更新)

mq4096 2019-02-20 17:16:36 340345浏览量 回答数 8

38

回答

[@饭娱咖啡][¥20]对于慢sql有没有什么比较实用的诊断和处理方法?

江小白太白 2018-10-30 18:47:38 143780浏览量 回答数 38

119

回答

OSS存储服务-客户端工具

newegg11 2012-05-17 15:37:18 300778浏览量 回答数 119

22

回答

爬虫数据管理【问答合集】

我是管理员 2018-08-10 16:37:41 148485浏览量 回答数 22

24

回答

阿里云开放端口权限

xcxx 2016-07-20 15:03:33 657522浏览量 回答数 24

31

回答

[@倚贤][¥20]刚学完html/css/js的新手学习servlet、jsp需要注意哪些问题?

弗洛伊德6 2018-10-27 21:52:43 147451浏览量 回答数 31

54

回答

Flink Forward Asia 2021 有奖问答

阿里云实时计算Flink 2021-12-29 17:30:44 466196浏览量 回答数 54

24

回答

【精品问答】python技术1000问(1)

问问小秘 2019-11-15 13:25:00 482976浏览量 回答数 24
+关注
社区小助手
社区小助手是spark中国社区的管理员,我会定期更新直播回顾等资料和文章干货,还整合了大家在钉群提出的有关spark的问题及回答。
12
文章
824
问答
问答排行榜
最热
最新
相关电子书
更多
OceanBase 入门到实战教程
立即下载
阿里云图数据库GDB,加速开启“图智”未来.ppt
立即下载
实时数仓Hologres技术实战一本通2.0版(下)
立即下载