一日一技:Python写的csv文件,如何让 Excel 双击打开不乱码?

简介: 一日一技:Python写的csv文件,如何让 Excel 双击打开不乱码?

摄影:产品经理厨师:Kingname

我们常常需要在 Python 中输出 CSV 文件,但你可能会发现,这些输出的 CSV文件,不能双击使用 Excel 打开,否则中文会变成乱码。例如下面这段代码:

import pandas as pd
datas = [
    {
        'name': '王小一',
        'age': 29,
        'address': '北京'
    },
    {
        'name': '张小二',
        'age': 18,
        'address': '四川'
    },
    {
        'name': '李小三',
        'age': 60,
        'address': '上海'
    }
]
df = pd.DataFrame(datas)
df.to_csv('person.csv', index=False)

如果双击使用 Excel 打开,你会发现中文变成了乱码,如下图所示:

这是因为,当你执行代码 df.to_csv('person.csv',index=False)时,它默认会以 UTF-8编码方式写 CSV 文件。但是当你双击 CSV 使用 Excel打开时,Excel 会以 GBK 编码来读这个文件,这就导致了乱码的发生。

所以,如果是简单的中文,你可以把编码方式人工指定为 GBK:

import pandas as pd
datas = [
    {
        'name': '王小一',
        'age': 29,
        'address': '北京'
    },
    {
        'name': '张小二',
        'age': 18,
        'address': '四川'
    },
    {
        'name': '李小三',
        'age': 60,
        'address': '上海'
    }
]
df = pd.DataFrame(datas)
df.to_csv('person.csv', index=False, encoding='gbk')

此时再双击使用 Excel 打开,中文就能正常显示了,如下图所示:


但 GBK 编码的字符集不够完善,所以如果文本中包含超出 GBK 字符集的内容,就会导致编码错误,如下图所示:

这个时候怎么办呢?

实际上当你双击打开 CSV 的时候,Excel会检查文件的第一个字符,如果这个字符是 BOM,那么他就知道应该使用 UTF-8编码方式来打开这个文件。所谓的 BOM指的是 byte-order mark

BOM对应的 Unicode 码为 \ufeff,所以当我们使用 UTF-8编码方式生成 CSV 以后,再增加一步,把 BOM 写入到文件的第一个字符:

with open('person.csv', encoding='utf-8') as f:
    content = f.read()
content_with_bom = '\ufeff' + content
with open('person.csv', 'w', encoding='utf-8') as f:
    f.write(content_with_bom)

完整代码如下图所示:


此时,新的 CSV 文件可以直接双击通过 Excel 打开,并且中文支持完全正常,如下图所示:

这样生成的 Excel 虽然在 Excel 上显示没有问题,但是如果你发给别人,别人使用 Python 自带的 csv 模块打开,就会发现 address这一列的列名不是 address而是 \ufeffaddress,如下图所示:

这个 BOM字符虽然肉眼看不到,但是程序能够看到,这就会导致别人在读这个 CSV 文件的时候非常不方便。如果直接使用 address去读,还会报错:

难道此时,需要先用普通方式读取 csv 文件,移除第一个 BOM 字符,然后再传给 CSV 模块吗?这未免太过麻烦。

好在 Python 只带了处理 BOM的编码方式 utf-8-sig,无论是写文件还是读文件,只要使用这个编码方式,Python 在写文件的时候会自动加上 BOM,在读文件的时候会自动删除 BOM。

所以生成 CSV 文件的代码如下:

import pandas as pd
datas = [
    {
        'name': '王小一',
        'age': 29,
        'address': '北京'
    },
    {
        'name': '张小二',
        'age': 18,
        'address': '四❤川'
    },
    {
        'name': '李小三',
        'age': 60,
        'address': '上海'
    }
]
df = pd.DataFrame(datas)
df.to_csv('person.csv', index=False, encoding='utf-8-sig')

此时生成的 CSV 文件,可以直接双击使用 Excel 打开,中文正常显示。

如果要使用 Python 的 CSV 模块读取文件,也非常简单,如下图所示:

读取出来的内容直接使用,BOM 已经被 Python 自动移除了。

目录
相关文章
|
1月前
|
数据采集 数据可视化 数据挖掘
利用Python自动化处理Excel数据:从基础到进阶####
本文旨在为读者提供一个全面的指南,通过Python编程语言实现Excel数据的自动化处理。无论你是初学者还是有经验的开发者,本文都将帮助你掌握Pandas和openpyxl这两个强大的库,从而提升数据处理的效率和准确性。我们将从环境设置开始,逐步深入到数据读取、清洗、分析和可视化等各个环节,最终实现一个实际的自动化项目案例。 ####
136 10
|
3月前
|
存储 数据挖掘 Java
csv和excel
【10月更文挑战第18天】csv和excel
133 5
|
7天前
|
存储 算法 Serverless
剖析文件共享工具背后的Python哈希表算法奥秘
在数字化时代,文件共享工具不可或缺。哈希表算法通过将文件名或哈希值映射到存储位置,实现快速检索与高效管理。Python中的哈希表可用于创建简易文件索引,支持快速插入和查找文件路径。哈希表不仅提升了文件定位速度,还优化了存储管理和多节点数据一致性,确保文件共享工具高效运行,满足多用户并发需求,推动文件共享领域向更高效、便捷的方向发展。
|
10天前
|
数据可视化 数据挖掘 大数据
1.1 学习Python操作Excel的必要性
学习Python操作Excel在当今数据驱动的商业环境中至关重要。Python能处理大规模数据集,突破Excel行数限制;提供丰富的库实现复杂数据分析和自动化任务,显著提高效率。掌握这项技能不仅能提升个人能力,还能为企业带来价值,减少人为错误,提高决策效率。推荐从基础语法、Excel操作库开始学习,逐步进阶到数据可视化和自动化报表系统。通过实际项目巩固知识,关注新技术,为职业发展奠定坚实基础。
|
28天前
|
计算机视觉 Python
如何使用Python将TS文件转换为MP4
本文介绍了如何使用Python和FFmpeg将TS文件转换为MP4文件。首先需要安装Python和FFmpeg,然后通过`subprocess`模块调用FFmpeg命令,实现文件格式的转换。代码示例展示了具体的操作步骤,包括检查文件存在性、构建FFmpeg命令和执行转换过程。
48 7
|
2月前
|
Java 测试技术 持续交付
【入门思路】基于Python+Unittest+Appium+Excel+BeautifulReport的App/移动端UI自动化测试框架搭建思路
本文重点讲解如何搭建App自动化测试框架的思路,而非完整源码。主要内容包括实现目的、框架设计、环境依赖和框架的主要组成部分。适用于初学者,旨在帮助其快速掌握App自动化测试的基本技能。文中详细介绍了从需求分析到技术栈选择,再到具体模块的封装与实现,包括登录、截图、日志、测试报告和邮件服务等。同时提供了运行效果的展示,便于理解和实践。
136 4
【入门思路】基于Python+Unittest+Appium+Excel+BeautifulReport的App/移动端UI自动化测试框架搭建思路
|
3月前
|
安全 Linux 数据安全/隐私保护
python知识点100篇系列(15)-加密python源代码为pyd文件
【10月更文挑战第5天】为了保护Python源码不被查看,可将其编译成二进制文件(Windows下为.pyd,Linux下为.so)。以Python3.8为例,通过Cython工具,先写好Python代码并加入`# cython: language_level=3`指令,安装easycython库后,使用`easycython *.py`命令编译源文件,最终生成.pyd文件供直接导入使用。
106 3
python知识点100篇系列(15)-加密python源代码为pyd文件
|
1月前
|
机器学习/深度学习 前端开发 数据处理
利用Python将Excel快速转换成HTML
本文介绍如何使用Python将Excel文件快速转换成HTML格式,以便在网页上展示或进行进一步的数据处理。通过pandas库,你可以轻松读取Excel文件并将其转换为HTML表格,最后保存为HTML文件。文中提供了详细的代码示例和注意事项,帮助你顺利完成这一任务。
45 0
|
2月前
|
开发者 Python
Python中__init__.py文件的作用
`__init__.py`文件在Python包管理中扮演着重要角色,通过标识目录为包、初始化包、控制导入行为、支持递归包结构以及定义包的命名空间,`__init__.py`文件为组织和管理Python代码提供了强大支持。理解并正确使用 `__init__.py`文件,可以帮助开发者更好地组织代码,提高代码的可维护性和可读性。
121 2
|
3月前
|
Linux 区块链 Python
Python实用记录(十三):python脚本打包exe文件并运行
这篇文章介绍了如何使用PyInstaller将Python脚本打包成可执行文件(exe),并提供了详细的步骤和注意事项。
134 1
Python实用记录(十三):python脚本打包exe文件并运行