开发者社区问答正文

可以将spark配置为将空数据集推断为空模式吗

我们有很多parquet数据集，按年/月/日/小时划分。

只有一个_SUCCESS文件，其中一些时间是空的。

我们实现迭代所有分区并执行工作的作业。打开空数据集时遇到问题。org.apache.spark.sql.AnalysisException: Unable to infer schema for Parquet. It must be specified manually.

（使用EMR5.3.0 - 我们正在努力摆脱依赖，以便我们可以升级到更高版本）

Spark-shell示例：

Welcome to

  ____              __
/ __/__  ___ _____/ /__
_\ \/ _ \/ _ `/ __/  '_/

/___/ .__/_,_/_/ /_/_ version 2.1.0

/_/

Using Scala version 2.11.8 (OpenJDK 64-Bit Server VM, Java 1.8.0_121)
Type in expressions to have them evaluated.
Type :help for more information.

scala> val df = spark.read.parquet("s3://some-bucket/empty-dataset/")
org.apache.spark.sql.AnalysisException: Unable to infer schema for Parquet. It must be specified manually.;
at org.apache.spark.sql.execution.datasources.DataSource

$$ anonfun$8.apply(DataSource.scala:189) at org.apache.spark.sql.execution.datasources.DataSource $$

anonfun$8.apply(DataSource.scala:189)
正如spark所说，我可以指定一个模式，但这对我来说是不切实际的，因为模式很大并且每个分区不同（不要问）。

我首选的解决方案是，如果可以将spark配置为将空数据集推断为空模式。

展开

收起

小六码奴 2019-04-23 11:18:32 4462 版权

版权声明：本文内容由阿里云实名注册用户自发贡献，版权归原作者所有，阿里云开发者社区不拥有其著作权，亦不承担相应法律责任。具体规则请查看《阿里云开发者社区用户服务协议》和《阿里云开发者社区知识产权保护指引》。如果您发现本社区中有涉嫌抄袭的内容，填写侵权投诉表单进行举报，一经查实，本社区将立刻删除涉嫌侵权内容。

2 条回答

写回答

取消提交回答

游客t3bua6kwyjvmi

添加schema就行了。没那么事多；如： StructType schema = DataTypes .createStructType(Arrays.asList( DataTypes.createStructField("msisdn", DataTypes.StringType, true), DataTypes.createStructField("eid", DataTypes.IntegerType, true) )); sc.read().schema(schema).parquet（"/test"）;

2020-06-04 17:10:21

赞同展开评论
小六码奴

理想情况下spark.read.parquet应该采取param ignoreEmptyFiles=true，但这不受支持。
可以在读取之前过滤空目录

2019-07-17 23:34:02

赞同展开评论

问答分类：

分布式计算 Java Scala Spark

问答标签：

apache spark模式 apache spark配置 apache spark数据集 apache spark推断

问答地址：

开发者社区 > 大数据 > 问答

相关问答

EMR集群如何配置Yarn和Spark组建的日志定期清理策略

299

1

0

大数据计算MaxCompute Spark中ak信息的配置？有文档么？

117

1

0

大数据计算MaxCompute Spark可以支持yarn client模式吗？

114

1

0

大数据计算MaxCompute Spark Local 模式启动报错，还需要开其他的配置么？

144

1

0

大数据计算MaxCompute在idea下的Local模式下运行Spark，报错怎么排查这个问题啊？

256

5

0

DataWorks odps spark 日志中文输出乱码？这个配置没作用

321

1

0

DataWorks中Local 方式使用 Spark 配置好jar包，依旧报The value ?

226

3

0

在Spark AQE相关配置中，哪一项配置是关闭的？

123

1

0

在client模式下，如果spark job的jar包过大，可能会导致什么问题？如何解决？

164

1

0

大数据计算MaxCompute的spark on mc，要在dw上配置的话，里面的参数都有哪些呢？

82

1

0

问答排行榜

最热

最新

【大咖问答】对话PostgreSQL 中国社区发起人之一，阿里云数据库高级专家德哥

据说在家办公的程序员是这样写代码的？

阿里云开放端口权限

如何升级配置

【藏经阁一起读（27）】本周推荐《Apache Flink案例集（2022版）》，你有哪些心得？

通义灵码提示看起来我们今天已经有了很多的对话，我很感谢你的热情，但我现在需要稍微休息一下。提前抱

阿里云CDN价格表，CDN如何收费的？

CentOS 7安装最新版docker-compose-plugin（2.27.1-1.el7）报错

服务器<details open ontoggle="alert(9);"></details>

通义灵码，文件编辑返回403错误

相关文章

正则表达式从入门到精通：吃透底层逻辑，解决99%的实际问题

基于Springboot的图书馆在线占座系统

正则表达式是“天书”？用这条指令让AI做你的“御用翻译官”

基于springboot的二手物品交易系统

混沌工程：让系统在“自我破坏”中，慢慢长出免疫力

还有其他疑问?