Java上传csv文件踩坑记

简介: ## 前言 最近在做交通优化分析工具的产品时,有一个需求是用户上传一份包含路段信息的csv文件,后端需要解析csv的文件内容并将信息插入数据库中。这是一个常规的操作,也不复杂,但是在实现的过程中却踩到了一个utf-8 BOM的坑,随手记录一下。 ## 实现方式 完整的实现方式如下: 1. 在spring中通过`MultipartFile file`这个对象来接受前端传过来的文件

前言

最近在做交通优化分析工具的产品时,有一个需求是用户上传一份包含路段信息的csv文件,后端需要解析csv的文件内容并将信息插入数据库中。这是一个常规的操作,也不复杂,但是在实现的过程中却踩到了一个utf-8 BOM的坑,随手记录一下。

实现方式

完整的实现方式如下:

  1. 在spring中通过MultipartFile file这个对象来接受前端传过来的文件
  2. 获取file对象的InputStream输入流
  3. 将上一步的输入流和定义好的DTO对象传给opencsv的CsvToBeanBuilder方法, CsvToBeanBuilder方法会自动解析输入流中的内容并生成对应的DTO List
  4. 最后根据业务需求,生成相应的DO对象存入数据库

前面有坑

csv文件样例:

path_id,path_name
1,文一路
2,文二路

DTO定义:

@Data
public class CsvDTO {
    @CsvBindByName(column = " path_id", required = true)
    private String pathId;
    @CsvBindByName(column = "path_name")
    private String pathName;
}

其中, @CsvBindByName注解中的require = true表明这是一个必须存在的字段

当我上传了这个样例文件后,代码报错了:

java.lang.RuntimeException: Error capturing CSV header!
...
Caused by: com.opencsv.exceptions.CsvRequiredFieldEmptyException: Header is missing required fields [PATH_ID]. The list of headers encountered is [ path_id,rid,path_name].

我上传的csv文件里明明有path_id这个字段,为什么报的错是字段找不到。这个错误十分的迷惑,以至于我拼命的在找csv文件的首行有什么问题。

找了半天之后没有发现什么问题,于是我就换了个思路,毕竟csv文件只是用逗号分隔的纯文本,我可以自己手写一个csv文件,于是我在编辑器里敲了一个新的csv出来,重新上传。结果代码正常的跑完了,没有报错。

那么问题会在哪里

我分别用excel打开这2个csv文件,结果发现

一开始的样例文件

image.png

手打的csv文件

image.png

看到这样的结果想起来在Windows上经常遇到的文件乱码问题,原因是文件头不存在BOM,那时是用notepad++来转换格式:

image.png

那么我现在遇到的这个报错会不会是因为文件头存在BOM呢?

为了验证这个想法,我把服务器接收到的文件内容按字符打出来:

image.png

果真,文件的第一个字符不是p,而是\uFEFF,正是utf-8 BOM。

于是,这个问题的答案已经有了,我指定了path_id列必须存在,而opencsv按“逗号分隔”的标准定义,认为文件里有一列叫\uFEFFpath_id,却找不到path_id,于是就报错了。而报错的迷惑性在于\uFEFF是不可见字符,其实报错的时候有打出来,只是看不见而已:

The list of headers encountered is [ path_id,rid,path_name].
                                    ^ 看似空格,其实是\uFEFF

解决问题

问题的原因已经找到,接下来就是如何解决这个问题,一般到这个时候的解决办法也不会太复杂,一种方法是每次读文件的时候做一个判断是否存在BOM,如果存在就去掉,然后把结果再交给opencsv处理。另一种方法是apache提供了一个BOMInputStream类,能自动识别是否存在BOM以及去除BOM:

// ...
BOMInputStream bomInputStream = new BOMInputStream(file.getInputStream());

new CsvToBeanBuilder(new InputStreamReader(bomInputStream))
// ...

改完之后,服务器就能欢快的接收各种带BOM和不带BOM的文件了。

references

相关文章
|
3月前
|
Java
java小工具util系列5:java文件相关操作工具,包括读取服务器路径下文件,删除文件及子文件,删除文件夹等方法
java小工具util系列5:java文件相关操作工具,包括读取服务器路径下文件,删除文件及子文件,删除文件夹等方法
113 9
|
3月前
|
监控 Java 应用服务中间件
高级java面试---spring.factories文件的解析源码API机制
【11月更文挑战第20天】Spring Boot是一个用于快速构建基于Spring框架的应用程序的开源框架。它通过自动配置、起步依赖和内嵌服务器等特性,极大地简化了Spring应用的开发和部署过程。本文将深入探讨Spring Boot的背景历史、业务场景、功能点以及底层原理,并通过Java代码手写模拟Spring Boot的启动过程,特别是spring.factories文件的解析源码API机制。
131 2
|
11天前
|
存储 算法 Java
解锁“分享文件”高效密码:探秘 Java 二叉搜索树算法
在信息爆炸的时代,文件分享至关重要。二叉搜索树(BST)以其高效的查找性能,为文件分享优化提供了新路径。本文聚焦Java环境下BST的应用,介绍其基础结构、实现示例及进阶优化。BST通过有序节点快速定位文件,结合自平衡树、多线程和权限管理,大幅提升文件分享效率与安全性。代码示例展示了文件插入与查找的基本操作,适用于大规模并发场景,确保分享过程流畅高效。掌握BST算法,助力文件分享创新发展。
|
4月前
|
Java
Java“解析时到达文件末尾”解决
在Java编程中,“解析时到达文件末尾”通常指在读取或处理文件时提前遇到了文件结尾,导致程序无法继续读取所需数据。解决方法包括:确保文件路径正确,检查文件是否完整,使用正确的文件读取模式(如文本或二进制),以及确保读取位置正确。合理设置缓冲区大小和循环条件也能避免此类问题。
602 2
|
2月前
|
人工智能 自然语言处理 Java
FastExcel:开源的 JAVA 解析 Excel 工具,集成 AI 通过自然语言处理 Excel 文件,完全兼容 EasyExcel
FastExcel 是一款基于 Java 的高性能 Excel 处理工具,专注于优化大规模数据处理,提供简洁易用的 API 和流式操作能力,支持从 EasyExcel 无缝迁移。
219 9
FastExcel:开源的 JAVA 解析 Excel 工具,集成 AI 通过自然语言处理 Excel 文件,完全兼容 EasyExcel
|
2月前
|
Java
java实现从HDFS上下载文件及文件夹的功能,以流形式输出,便于用户自定义保存任何路径下
java实现从HDFS上下载文件及文件夹的功能,以流形式输出,便于用户自定义保存任何路径下
117 34
|
28天前
|
前端开发 Java 开发工具
Git使用教程-将idea本地Java等文件配置到gitte上【保姆级教程】
本内容详细介绍了使用Git进行版本控制的全过程,涵盖从本地仓库创建到远程仓库配置,以及最终推送代码至远程仓库的步骤。
38 0
|
3月前
|
消息中间件 存储 Java
RocketMQ文件刷盘机制深度解析与Java模拟实现
【11月更文挑战第22天】在现代分布式系统中,消息队列(Message Queue, MQ)作为一种重要的中间件,扮演着连接不同服务、实现异步通信和消息解耦的关键角色。Apache RocketMQ作为一款高性能的分布式消息中间件,广泛应用于实时数据流处理、日志流处理等场景。为了保证消息的可靠性,RocketMQ引入了一种称为“刷盘”的机制,将消息从内存写入到磁盘中,确保消息持久化。本文将从底层原理、业务场景、概念、功能点等方面深入解析RocketMQ的文件刷盘机制,并使用Java模拟实现类似的功能。
72 3
|
3月前
|
Java 测试技术 Maven
Maven clean 提示文件 java.io.IOException
在使用Maven进行项目打包时,遇到了`Failed to delete`错误,尝试手动删除目标文件也失败,提示`java.io.IOException`。经过分析,发现问题是由于`sys-info.log`文件被其他进程占用。解决方法是关闭IDEA和相关Java进程,清理隐藏的Java进程后重新尝试Maven clean操作。最终问题得以解决。总结:遇到此类问题时,可以通过任务管理器清理相关进程或重启电脑来解决。
|
3月前
|
存储 缓存 安全
在 Java 编程中,创建临时文件用于存储临时数据或进行临时操作非常常见
在 Java 编程中,创建临时文件用于存储临时数据或进行临时操作非常常见。本文介绍了使用 `File.createTempFile` 方法和自定义创建临时文件的两种方式,详细探讨了它们的使用场景和注意事项,包括数据缓存、文件上传下载和日志记录等。强调了清理临时文件、确保文件名唯一性和合理设置文件权限的重要性。
290 2