开发者社区> 问答> 正文

使用错误架构的Apache Spark上的读取流重试1830次

在Spark结构化流式传输中,当来自S3的传入记录与我强制执行的模式不匹配时.schema(..),如果记录的大小很大(我的是397KB),那么该记录将被重试1830次,多次测试。有没有人注意到这种奇怪的行为?

展开
收起
社区小助手 2018-12-12 13:05:43 1391 0
1 条回答
写回答
取消 提交回答
  • 社区小助手是spark中国社区的管理员,我会定期更新直播回顾等资料和文章干货,还整合了大家在钉群提出的有关spark的问题及回答。

    在我的例子中,s3对象是一个json数组,结果是spark-s3 json reader将数组的每个条目作为spark数据帧中的单个记录处理。所以s3对象有1830个项目,这就是为什么同样的s3对象被重复1830个有错误的项目。

    2019-07-17 23:20:06
    赞同 展开评论 打赏
问答排行榜
最热
最新

相关电子书

更多
Hybrid Cloud and Apache Spark 立即下载
Scalable Deep Learning on Spark 立即下载
Comparison of Spark SQL with Hive 立即下载

相关镜像