有了它,Python编码再也不为字符集问题而发愁了!

简介: 不论是什么编程语言,都免不了涉及到字符集的问题,我们经常在读写本文、获取网页数据等等各类情景下,需要和字符集编码打交道。这几天在公司就遇到了这么一个问题,由于软件需要初始化许多参数信息,所以使用ConfigParser模块进行配置文件的读写操作。本来一切OK,但当把这些.ini配置文件提交到git仓库后,再次下载使用时,默认的utf-8字符集编码,被git默认修改成了gbk编码。导致读取配置文件时默认使用的utf-8编码,最终导致异常报错。那么该如何解决读取文件时的字符集问题呢?Python有专门的字符集检测模块chardet,今天就带大家一起学习下它。

恼人的字符集


不论是什么编程语言,都免不了涉及到字符集的问题,我们经常在读写本文、获取网页数据等等各类情景下,需要和字符集编码打交道。这几天在公司就遇到了这么一个问题,由于软件需要初始化许多参数信息,所以使用ConfigParser模块进行配置文件的读写操作。本来一切OK,但当把这些.ini配置文件提交到git仓库后,再次下载使用时,默认的utf-8字符集编码,被git默认修改成了gbk编码。导致读取配置文件时默认使用的utf-8编码,最终导致异常报错。那么该如何解决读取文件时的字符集问题呢?Python有专门的字符集检测模块chardet,今天就带大家一起学习下它。


chardet介绍

Chardet:通用字符编码检测器,Python版本:需要Python 2.6,2.7或3.3+。**

检测字符集范围:

  • ASCII,UTF-8,UTF-16(2种变体),UTF-32(4种变体)
  • Big5,GB2312,EUC-TW,HZ-GB-2312,ISO-2022-CN(繁体中文和简体中文)
  • EUC-JP,SHIFT_JIS,CP932,ISO-2022-JP(日文)
  • EUC-KR,ISO-2022-KR(韩文)
  • KOI8-R,MacCyrillic,IBM855,IBM866,ISO-8859-5,windows-1251(西里尔文)
  • ISO-8859-5,windows-1251(保加利亚语)
  • ISO-8859-1,windows-1252(西欧语言)
  • ISO-8859-7,windows-1253(希腊语)
  • ISO-8859-8,windows-1255(视觉和逻辑希伯来语)
  • TIS-620(泰国语)

安装

chardet在使用前,我们需要安装它:pip install chardet即可。


命令行工具

安装好chardet后,模块会附带一个命令行的检测工具:

% chardetect somefile someotherfile
somefile: windows-1252 with confidence 0.5
someotherfile: ascii with confidence 1.0

网络异常,图片无法展示
|

chardetect 命令行


文档地址

对于用户,现在可以通过https://chardet.readthedocs.io/获取文档。


入门例子

仿照官网的例子,我们针对脚本之家和百度两个网站进行内容的编码检测:

# -*- coding: utf-8 -*-
# @Author   : 王翔
# @JianShu  : 清风Python
# @Date     : 2019/8/14 2:09
# @Software : PyCharm
# @version  :Python 3.7.3
# @File     : str_coding.py
import requests
import chardet
urls = ['https://www.jb51.net', 'https://www.baidu.com/']
for url in urls:
    r = requests.get(url)
    print(url, chardet.detect(r.content))
output:
https://www.jb51.net {'encoding': 'GB2312', 'confidence': 0.99, 'language': 'Chinese'}
https://www.baidu.com/ {'encoding': 'utf-8', 'confidence': 0.99, 'language': ''}

可以看到结果脚本之家是gb2312而百度是utf-8.那么是否正确呢?我们只需要在对应的网页上右键点击查看网页源代码,通过检索html中<meta charset="xxx" />内容即可获取网站编码。

网络异常,图片无法展示
|

网站编码

可以看到统计结果正确...


判断文本编码

刚才看到的是获取网站返回值的编码,那么文本的编码如何获取呢?

import chardet
with open('strcoding.py','rb') as f:
    print(chardet.detect(f.read()))
# output:
{'encoding': 'utf-8', 'confidence': 0.9690625, 'language': ''}

这里需要注意,由于对于文本的编码的未知性,我们需要使用二进制的方式打开文本,之后再获取字符集。


逐步检测编码

对于简短的网页或者文本内容,我们可以按照上述的方式进行操作,但如果我的文本是以G为单位计算的,如何能快速的获取文本的字符集内容呢?我们可以使用chardet模块的逐步检测编码方式,下面我们来对比下两者的差距,我这里就不用G级的数据了,那伏天氏小说的11MB内容就已经很能说明问题了:

# 原始方法
import chardet
import time
t0 = time.process_time()
with open("伏天氏.txt",'rb') as f:
    print(chardet.detect(f.read()))
t1 = time.process_time()
print(t1-t0)
# output:
{'encoding': 'utf-8', 'confidence': 0.99, 'language': ''}
105.3786755
# 逐步检索方法:
import time
from chardet.universaldetector import UniversalDetector
detector = UniversalDetector()
t0 = time.process_time()
for line in open("伏天氏.txt", 'rb'):
    detector.feed(line)
    if detector.done:
        break
detector.close()
print(detector.result)
t1 = time.process_time()
print(t1 - t0)
# output:
{'encoding': 'utf-8', 'confidence': 0.99, 'language': ''}
45.1466894

我们可以看到,原始的方法,我们需要将所有的文本全部读取后,一行行的检测,最终获取结果,但使用UniversalDetector的方式,进行逐行判断,当系统读取进度觉得可以确定字符集编码时,就不再往下继续检测,从而返回结果。大大缩短了检测的时间

如果要检测多个文本的编码(例如单独的文件),则可以重复使用单个UniversalDetector对象。只需detector.reset()在每个文件的开头调用 ,根据需要调用detector.feed 多次,然后调用detector.close()并检查detector.result字典中的文件结果。


计时方法变更


之前版本大家在进行时间计时是,经常使用到的就是time.time()和time.clock()两个模块。两者的差异在于time.clock()计算的是cpu时间差,而time.time()计算的是电脑的系统时间差。

但当你在python3.7版本使用time.clock()时,系统会给出如下提示:

DeprecationWarning: time.clock has been deprecated in Python 3.3 and will be removed from Python 3.8: use time.perf_counter or time.process_time instead

意思比较简单,time.clock在python3.3以后不被推荐使用,该方法依赖操作系统,建议使用per_counter(返回系统运行时间)或process_time(返回进程运行时间)代替。


The End


相关文章
|
3月前
|
Python
python第三方库-字符串编码工具 chardet 的使用(python3经典编程案例)
这篇文章介绍了如何使用Python的第三方库chardet来检测字符串的编码类型,包括ASCII、GBK、UTF-8和日文编码的检测示例。
166 6
|
3月前
|
Python
Python 中如何指定 open 编码为ANSI
Python 中如何指定 open 编码为ANSI
68 1
|
4月前
|
数据采集 开发工具 Python
海康威视工业相机SDK+Python+PyQt开发数据采集系统(支持软件触发、编码器触发)
该系统基于海康威视工业相机SDK,使用Python与PyQt开发,支持Gige与USB相机设备的搜索及双相机同时显示。系统提供软件触发与编码器触发模式,并可在数据采集过程中实时保存图像。此外,用户可以调节曝光时间和增益,并进行信息输入,这些信息将被保存至配置文件以便下次自动加载。参数调节与实时预览等功能进一步增强了系统的实用性。
320 1
|
4月前
|
开发者 Python
Python编码风格
Python编码风格
33 1
|
5月前
|
Python
11个提升Python列表编码效率的高级技巧
Python中关于列表的一些很酷的技巧
60 1
|
4月前
|
JSON 数据库 开发者
FastAPI入门指南:Python开发者必看——从零基础到精通,掌握FastAPI的全栈式Web开发流程,解锁高效编码的秘密!
【8月更文挑战第31天】在当今的Web开发领域,FastAPI迅速成为开发者的热门选择。本指南带领Python开发者快速入门FastAPI,涵盖环境搭建、基础代码、路径参数、请求体处理、数据库操作及异常处理等内容,帮助你轻松掌握这一高效Web框架。通过实践操作,你将学会构建高性能的Web应用,并为后续复杂项目打下坚实基础。
150 0
|
5月前
|
存储 缓存 Python
python中小数据池和编码
python中小数据池和编码
60 3
|
5月前
|
缓存 Java Unix
python中内存管理等10个编码习惯
【7月更文挑战第3天】本文涵盖了Python编程中的变量管理、模块导入、命令行参数、内存管理和面向对象设计的10个关键概念。
51 0
python中内存管理等10个编码习惯
|
6月前
|
自然语言处理 Python
Python编码问题
Python编码问题是指在处理文本时,由于编码不一致导致程序不能正确处理文本的问题。在Python中,编码问题主要有两种情况:文件编码问题和字符串编码问题。
76 7
|
5月前
|
数据处理 开发者 Python
别再盲目编码!一文读懂Python线程与进程的使用场景与限制,助你成为并发编程高手!
【7月更文挑战第8天】Python并发编程提升效率,关键在于理解线程和进程的适用场景。I/O密集型任务如Web服务器适合用线程,示例展示了使用`threading`处理HTTP请求。CPU密集型任务则利用`multiprocessing`创建进程,绕过GIL限制,实现多核利用。注意线程的GIL限制和进程的开销,选择合适模型以优化并发性能。
51 0