文档备案控制台

开发者社区问答正文

从csv计数Spark数据帧，返回错误的结果

我在Spark 2.2中打开了几个“csv”文件，但是当我执行“计数”时它会返回10000000条记录，而实际上它是6000000条记录，当我在python或Alteryx中使用Pandas检查它时，它会给出正确的数字。

scala> val df=spark.read.format("com.databricks.spark.csv").option("header", "true").option("inferSchema","true").option("encoding", "UTF-8").load("/detalle/*.csv")
df: org.apache.spark.sql.DataFrame = [KEY: string, UNIQ: string ... 101 more fields]

scala> df.count
res13: Long = 10093371

展开

收起

社区小助手 2018-12-06 11:58:41 3219 版权

版权声明：本文内容由阿里云实名注册用户自发贡献，版权归原作者所有，阿里云开发者社区不拥有其著作权，亦不承担相应法律责任。具体规则请查看《阿里云开发者社区用户服务协议》和《阿里云开发者社区知识产权保护指引》。如果您发现本社区中有涉嫌抄袭的内容，填写侵权投诉表单进行举报，一经查实，本社区将立刻删除涉嫌侵权内容。

1 条回答

写回答

取消提交回答

社区小助手

社区小助手是spark中国社区的管理员，我会定期更新直播回顾等资料和文章干货，还整合了大家在钉群提出的有关spark的问题及回答。

你的数据可能包含嵌入的换行符。
在版本2.3中引入了下半部分的代码，尽管它有大约1000个不同的记录，但在版本2.2中，这是不同的。 val df = spark.read.option("wholeFile", true).option("multiline",true).option("header", true).option("inferSchema", "true").option("delimiter", ",").option("mode", "DROPMALFORMED").csv("/detalle/*.csv"）

2019-07-17 23:18:30

赞同展开评论

问答分类：

分布式计算 Scala Spark Python

问答标签：

apache spark csv csv apache spark apache spark数据帧

问答地址：

开发者社区 > 大数据 > 问答

相关问答

在机器学习PAI，读写csv能否让其和spark读写csv类似？

148

1

0

请问下 spark怎么连oss，读取oss里的csv呢？

483

3

0

如何使spark默认支持解析csv文件？

458

1

0

spark怎么读取ftp远程地址上的csv并存入greenplum，表字段为csv头

818

0

0

获取数组中项目的索引，该数组是Spark数据帧中的列

2338

1

0

Spark检查数据帧数组中的任何单词是否包含在另一个列表中？

2402

1

0

Apache Spark使用Java从CSV读取数组float [duplicate]

3282

1

0

Spark 2.0+即使数据帧被缓存，如果其中一个源更改，它会重新计算？

3092

1

0

如何防止kafka的spark sql在数据帧中向JSON字符串添加反斜杠

3310

1

0

如果Spark中的数据帧是不可变的，为什么我们能够使用withColumn（）等操作来修改它？

2261

1

0

问答排行榜

最热

最新

【大咖问答】对话PostgreSQL 中国社区发起人之一，阿里云数据库高级专家德哥

据说在家办公的程序员是这样写代码的？

如何升级配置

【藏经阁一起读（27）】本周推荐《Apache Flink案例集（2022版）》，你有哪些心得？

【精品问答】python技术1000问(1)

CoPAW配置后，对话，出现 AGENT_UNKNOWN_ERROR 如何解决

copaw安装后，出现这个情况，在设置模型的过程中出现这个问题，如何解决

copaw安装后选择ollma为啥报错不能安装相关模型？

建议通义灵码参考字节的trae ，可以自主选择一些开源的模型

云端部署coclaw报错

相关文章

Pycharm 断点调试 Scrapy：两种实现方式总结

AI 会写稿了，人还要不要写？——聊聊生成式 AI 在数据增强与自动写稿里的伦理和质量问题

不想再被 API 账单吓一跳？教你用 Python 搭一个本地大模型推理 API

利用1688开放平台API获取商品券后价详情

MEaSUREs 南极冰盖接地带 V001

相关解决方案

更多

基于数据闪回，快速恢复数据

分析 Agent 实现一键 AI 数据洞察

多模态数据信息提取

数据守护：防勒索攻击数据保障

高效存储和处理多媒体数据

还有其他疑问?