Java上传csv文件踩坑记

简介: ## 前言 最近在做交通优化分析工具的产品时,有一个需求是用户上传一份包含路段信息的csv文件,后端需要解析csv的文件内容并将信息插入数据库中。这是一个常规的操作,也不复杂,但是在实现的过程中却踩到了一个utf-8 BOM的坑,随手记录一下。 ## 实现方式 完整的实现方式如下: 1. 在spring中通过`MultipartFile file`这个对象来接受前端传过来的文件

前言

最近在做交通优化分析工具的产品时,有一个需求是用户上传一份包含路段信息的csv文件,后端需要解析csv的文件内容并将信息插入数据库中。这是一个常规的操作,也不复杂,但是在实现的过程中却踩到了一个utf-8 BOM的坑,随手记录一下。

实现方式

完整的实现方式如下:

  1. 在spring中通过MultipartFile file这个对象来接受前端传过来的文件
  2. 获取file对象的InputStream输入流
  3. 将上一步的输入流和定义好的DTO对象传给opencsv的CsvToBeanBuilder方法, CsvToBeanBuilder方法会自动解析输入流中的内容并生成对应的DTO List
  4. 最后根据业务需求,生成相应的DO对象存入数据库

前面有坑

csv文件样例:

path_id,path_name
1,文一路
2,文二路

DTO定义:

@Data
public class CsvDTO {
    @CsvBindByName(column = " path_id", required = true)
    private String pathId;
    @CsvBindByName(column = "path_name")
    private String pathName;
}

其中, @CsvBindByName注解中的require = true表明这是一个必须存在的字段

当我上传了这个样例文件后,代码报错了:

java.lang.RuntimeException: Error capturing CSV header!
...
Caused by: com.opencsv.exceptions.CsvRequiredFieldEmptyException: Header is missing required fields [PATH_ID]. The list of headers encountered is [ path_id,rid,path_name].

我上传的csv文件里明明有path_id这个字段,为什么报的错是字段找不到。这个错误十分的迷惑,以至于我拼命的在找csv文件的首行有什么问题。

找了半天之后没有发现什么问题,于是我就换了个思路,毕竟csv文件只是用逗号分隔的纯文本,我可以自己手写一个csv文件,于是我在编辑器里敲了一个新的csv出来,重新上传。结果代码正常的跑完了,没有报错。

那么问题会在哪里

我分别用excel打开这2个csv文件,结果发现

一开始的样例文件

image.png

手打的csv文件

image.png

看到这样的结果想起来在Windows上经常遇到的文件乱码问题,原因是文件头不存在BOM,那时是用notepad++来转换格式:

image.png

那么我现在遇到的这个报错会不会是因为文件头存在BOM呢?

为了验证这个想法,我把服务器接收到的文件内容按字符打出来:

image.png

果真,文件的第一个字符不是p,而是\uFEFF,正是utf-8 BOM。

于是,这个问题的答案已经有了,我指定了path_id列必须存在,而opencsv按“逗号分隔”的标准定义,认为文件里有一列叫\uFEFFpath_id,却找不到path_id,于是就报错了。而报错的迷惑性在于\uFEFF是不可见字符,其实报错的时候有打出来,只是看不见而已:

The list of headers encountered is [ path_id,rid,path_name].
                                    ^ 看似空格,其实是\uFEFF

解决问题

问题的原因已经找到,接下来就是如何解决这个问题,一般到这个时候的解决办法也不会太复杂,一种方法是每次读文件的时候做一个判断是否存在BOM,如果存在就去掉,然后把结果再交给opencsv处理。另一种方法是apache提供了一个BOMInputStream类,能自动识别是否存在BOM以及去除BOM:

// ...
BOMInputStream bomInputStream = new BOMInputStream(file.getInputStream());

new CsvToBeanBuilder(new InputStreamReader(bomInputStream))
// ...

改完之后,服务器就能欢快的接收各种带BOM和不带BOM的文件了。

references

相关文章
|
21天前
|
Java
Java“解析时到达文件末尾”解决
在Java编程中,“解析时到达文件末尾”通常指在读取或处理文件时提前遇到了文件结尾,导致程序无法继续读取所需数据。解决方法包括:确保文件路径正确,检查文件是否完整,使用正确的文件读取模式(如文本或二进制),以及确保读取位置正确。合理设置缓冲区大小和循环条件也能避免此类问题。
|
26天前
|
Java
利用GraalVM将java文件变成exe可执行文件
这篇文章简明地介绍了如何使用GraalVM将一个简单的Java程序编译成exe可执行文件,首先通过javac命令编译Java文件生成class文件,然后使用native-image命令将class文件转换成独立的exe文件,并展示了如何运行这个exe文件。
41 0
利用GraalVM将java文件变成exe可执行文件
|
3天前
|
Java 数据格式 索引
使用 Java 字节码工具检查类文件完整性的原理是什么
Java字节码工具通过解析和分析类文件的字节码,检查其结构和内容是否符合Java虚拟机规范,确保类文件的完整性和合法性,防止恶意代码或损坏的类文件影响程序运行。
|
3天前
|
Java API Maven
如何使用 Java 字节码工具检查类文件的完整性
本文介绍如何利用Java字节码工具来检测类文件的完整性和有效性,确保类文件未被篡改或损坏,适用于开发和维护阶段的代码质量控制。
|
18小时前
|
存储 Java API
Java实现导出多个excel表打包到zip文件中,供客户端另存为窗口下载
Java实现导出多个excel表打包到zip文件中,供客户端另存为窗口下载
12 4
|
26天前
|
Java
用java搞定时任务,将hashmap里面的值存到文件里面去
本文介绍了如何使用Java的`Timer`和`TimerTask`类创建一个定时任务,将HashMap中的键值对写入到文本文件中,并提供了完整的示例代码。
31 1
用java搞定时任务,将hashmap里面的值存到文件里面去
|
13天前
|
Java
Java开发如何实现文件的移动,但是在移动结束后才进行读取?
【10月更文挑战第13天】Java开发如何实现文件的移动,但是在移动结束后才进行读取?
36 2
|
13天前
|
Java Apache Maven
Java将word文档转换成pdf文件的方法?
【10月更文挑战第13天】Java将word文档转换成pdf文件的方法?
33 1
|
13天前
|
监控 Java
Java定时扫码一个文件夹下的文件,如何保证文件写入完成后才进行处理?
【10月更文挑战第13天】Java定时扫码一个文件夹下的文件,如何保证文件写入完成后才进行处理?
47 1
|
1月前
|
Java
java实现从HDFS上下载文件及文件夹的功能,以流形式输出,便于用户自定义保存任何路径下
java实现从HDFS上下载文件及文件夹的功能,以流形式输出,便于用户自定义保存任何路径下
52 2
java实现从HDFS上下载文件及文件夹的功能,以流形式输出,便于用户自定义保存任何路径下