【python系统学习16】编码基础知识

简介:

【python系统学习16】编码基础知识

编码
计算机是怎么传输和存储数据的?

就是把人类认识的中英文字、其他国家语言、数字甚至运算符等符号转成二进制的0、1,并进行存储和传输。

编码
人类语言:中英文字、其他国家语言、数字甚至运算符等符号

计算机语言:二进制的0、1【没错,计算机只认识0和1】

编码:将人类语言转换为计算机语言。

除了0、1这些阿拉伯数字,像a、b、c这样的52个字母(包括大小写),还有一些常用的符号(例如*、#、@等)在计算机中存储时也要使用二进制数来表示,而具体用哪些二进制数字表示哪个符号,理论上每个人都可以有自己的一套规则(这就叫编码规则,形成编码表)。

如果使用了不同的编码规则,就会有计算机识别不了的情况,出现乱码。

进制
二进制、八进制、十六进制。

八进制和十六进制分别是二进制的3次方和4次方。方便和二进制之间非常直接的相互转换

二进制
由0和1构成的

二进制 十进制
00 0
01 1
10 2
11 3
100 4
101 5
110 6
111 7
1000 8
二进制的00,代表十进制的0
二进制的01,代表十进制的1
二进制的10,代表十进制的2【笑话:世界上有10种人,懂二进制的和不懂二进制的】
二进制的11,代表十进制的3
二进制的100,代表十进制的4
以此类推...
当有两位数时,我们可以表示0到3,共4种状态,即2的平方
当有三位数时,我们可以表示0到7,共8种状态,即2的三次方
当有八位数时,我们可以表示0到255,共256种状态,即2的8次方
八进制
使用0、1、2、3、4、5、6、7组成的

十六进制
使用0、1、2、3、4、5、6、7、8、9、a、b、c、d、e、f组成的

ASCII编码表中的“K”
二进制 八进制 十进制 十六进制 字母
01001011 113 75 4B K
注意这里还是大写的字母K哦~

存储单位
计算机里的存储单位

位/比特(bit)
位:又叫比特(bit)是计算机里最小的存储单位。用来存放一位二进制书,即0或1。

字节(byte)
八个比特是一个字节,是计算机里最常用的单位。简写“B”

千字节(Kilobyte)
兆字节(Megabyte)
简称“兆”

吉字节(Gigabyte)
又叫千兆

单位换算
1B(byte 字节) = 8bit
1KB(Kilobyte 千字节) = 1024B
1MB(Megabyte 兆字节) = 1024KB
1GB(Gigabyte) = 1024MB
为什么办的100兆的宽带,撑死就只有10几兆的下载速度?

因为运营商的带宽是以比特每秒为单位的,比如100M就是100Mbit/s。

而我们常看到的下载速度KB却是以字节每秒为单位显示的,1byte = 8bit,所以运营商说的带宽得先除以8,你的百兆宽带下载速度,也就是十几兆了。

编码表
为了避免乱码,人类就约定了一套共同的编码规则。就像计算机世界的新华字典、牛津英语字典。

编码表历史
ASCII
ASCII编码(读音:/ˈæski/),美国首先出台。统一规定了常用符号用哪些二进制数来表示。 因为英文字母、数字再加上其他常用符号,也就100来个,因此使用7个比特位(最多表示128位)就够用了,所以一个字节中被剩下的那个比特位就被默认为0。
但欧洲不光有英语,还有法语字母上的注音符。于是欧洲用了美国剩下的那个比特位,普遍使用一个全字节(8个比特位)进行编码,最多可表示256位,至此,一个字节就用满了!
ASCII统一了前面0-127位,但从状态128到255这一段的解释就完全乱套了,比如135在法语,希伯来语,俄语编码中完全是不同的符号。

GB2312和GBK
中国10万汉字,256位也不够用。于是一张新编码表GB2312被中国科学家发明了。 用2个字节,也就是16个比特位,来表示绝大部分(65535个)常用汉字。后来,为了能显示更多的中文,又出台了GBK标准。
Unicode
因各个国家的编码表都不同。不同国家间通信又会乱码。

于是Unicode(万国码)来统一。 这套编码表将世界上所有的符号都纳入其中。每个符号都有一个独一无二的编码,现在Unicode可以容纳100多万个符号,所有语言都可以互通,一个网页上也可以显示多国语言。
万国码的缺点是让英文字符被迫占用两个字节,耗费计算机存储空间。(如A:用00010001就行,但是为了顺从统一,需要用两个字节:00000000 00010001)

UTF-8
UTF-8(8-bit Unicode Transformation Format)被提出。针对Unicode的可变长度字符编码。它可以使用1~4个字节表示一个符号,根据不同的符号而变化字节长度。而当字符在ASCII码的范围时,就用一个字节表示,所以UTF-8还可以兼容ASCII编码。
Unicode与UTF-8这种暧昧的关系一言以蔽之:Unicode是内存编码的规范,而UTF-8是如何保存和传输Unicode的手段。

编码表对比
编码表 适用性 特点
ASCII码 英文大小写,字符,不支持中文 美国人发明,占用空间小,用一个字节就行
GB2312码、GBK码 支持中文 中国人发明,GBK是GB2312的升级,增加了更多原来没有的文字字符
Unicode码 支持国际语言,万国码 适用性强但占用空间大。在ASCII码前面补8个bit位就是Unicode码
UTF-8码 支持国际语言 Unicode的升级,两者容易互相转化。占用空间小、适用性强。ASCII码被UTF-8码包含。
编码方案使用情况表
编码表 当前使用情况 备注
ASCII码 - -
GB2312码、GBK码 中文的文件和中文网站,使用GBK、GB2312 -
Unicode码 计算机内存中处理数据时使用的统一标准格式 Python3中,程序处理我们输入的字符串使用Unicode编码
UTF-8码 数据在硬盘上存储,或者网络上传输时,用的UTF-8 因为节省空间。程序来转换编码。
基于上表,有时候面对不同编码的数据,我们还需要手动操作实现编码转换。就要用到encode(编码)和decode(解码)。

编码操作和解码操作
编码:encode()
语法:

'你想编码的内容'.encode('你使用的编码表名称')
用法:

print('一天打鱼两个月晒网的小石头'.encode('utf-8'))

 b'xe4xb8x80xe5xa4xa9xe6x89x93xe9xb1xbcxe4xb8xa4xe4xb8xaaxe6x9cx88xe6x99x92xe7xbdx91xe7x9ax84xe5xb0x8fxe7x9fxb3xe5xa4xb4'

print('I Love U'.encode('gbk'))

 b'I Love U'

print('小石头'.encode('utf-8'))

 b'xe5xb0x8fxe7x9fxb3xe5xa4xb4'

将上述人类语言编码得到机器语言后的打印结果在注释里。

字母b
这里之所以有个字母b,代表他是bytes(字节)类型的数据。 可以用type()函数验证一下:

print(type(b'xe5xb0x8fxe7x9fxb3xe5xa4xb4')) # 
符号x
另外,几乎每个字母/数字前边都有的x,他的作用是分隔符,用来分隔一个字节和另一个字节。

这样的分隔符,我们还见过:


对比发现下边两段字符串,你有发现什么奥妙么!:

%e5%b0%8f%e7%9f%b3%e5%a4%b4
xe5xb0x8fxe7x9fxb3xe5xa4xb4
%和x一样,都是一种分隔符。只不过%是url中的、x是python中的

解码:decode()
语法:

'你想解码的内容'.encode('你使用的编码表名称')
用法:

print(b'xe5xb0x8fxe7x9fxb3xe5xa4xb4'.decode('UTF-8')) # 小石头
::: warning 注意 你要解码的内容得跟编码时用的编码表一致。不然会报错。 :::

也就是说,UTF-8编码的字节就一定要用UTF-8的规则解码,其他编码同理,否则就会出现乱码或者报错的情况,

print(b'xe5xb0x8fxe7x9fxb3xe5xa4xb4'.decode('GBK'))

 把utf-8编码的字符串用GBK来解码,就报错了。

 UnicodeDecodeError: 'gbk' codec can't decode byte 0xb4 in position 8: incomplete multibyte sequence

原文地址https://www.cnblogs.com/padding1015/p/12995673.html

相关文章
|
2天前
|
机器学习/深度学习 人工智能 算法
基于Python深度学习的眼疾识别系统实现~人工智能+卷积网络算法
眼疾识别系统,本系统使用Python作为主要开发语言,基于TensorFlow搭建卷积神经网络算法,并收集了4种常见的眼疾图像数据集(白内障、糖尿病性视网膜病变、青光眼和正常眼睛) 再使用通过搭建的算法模型对数据集进行训练得到一个识别精度较高的模型,然后保存为为本地h5格式文件。最后使用Django框架搭建了一个Web网页平台可视化操作界面,实现用户上传一张眼疾图片识别其名称。
17 4
基于Python深度学习的眼疾识别系统实现~人工智能+卷积网络算法
|
24天前
|
机器学习/深度学习 人工智能 算法
猫狗宠物识别系统Python+TensorFlow+人工智能+深度学习+卷积网络算法
宠物识别系统使用Python和TensorFlow搭建卷积神经网络,基于37种常见猫狗数据集训练高精度模型,并保存为h5格式。通过Django框架搭建Web平台,用户上传宠物图片即可识别其名称,提供便捷的宠物识别服务。
241 55
|
12天前
|
存储 缓存 监控
局域网屏幕监控系统中的Python数据结构与算法实现
局域网屏幕监控系统用于实时捕获和监控局域网内多台设备的屏幕内容。本文介绍了一种基于Python双端队列(Deque)实现的滑动窗口数据缓存机制,以处理连续的屏幕帧数据流。通过固定长度的窗口,高效增删数据,确保低延迟显示和存储。该算法适用于数据压缩、异常检测等场景,保证系统在高负载下稳定运行。 本文转载自:https://www.vipshare.com
104 66
|
23天前
|
Python 容器
Python学习的自我理解和想法(9)
这是我在B站跟随千锋教育学习Python的第9天,主要学习了赋值、浅拷贝和深拷贝的概念及其底层逻辑。由于开学时间紧张,内容较为简略,但希望能帮助理解这些重要概念。赋值是创建引用,浅拷贝创建新容器但元素仍引用原对象,深拷贝则创建完全独立的新对象。希望对大家有所帮助,欢迎讨论。
|
5天前
|
数据可视化 数据挖掘 大数据
1.1 学习Python操作Excel的必要性
学习Python操作Excel在当今数据驱动的商业环境中至关重要。Python能处理大规模数据集,突破Excel行数限制;提供丰富的库实现复杂数据分析和自动化任务,显著提高效率。掌握这项技能不仅能提升个人能力,还能为企业带来价值,减少人为错误,提高决策效率。推荐从基础语法、Excel操作库开始学习,逐步进阶到数据可视化和自动化报表系统。通过实际项目巩固知识,关注新技术,为职业发展奠定坚实基础。
|
14天前
|
Python
Python学习的自我理解和想法(10)
这是我在千锋教育B站课程学习Python的第10天笔记,主要学习了函数的相关知识。内容包括函数的定义、组成、命名、参数分类(必须参数、关键字参数、默认参数、不定长参数)及调用注意事项。由于开学时间有限,记录较为简略,望谅解。通过学习,我理解了函数可以封装常用功能,简化代码并便于维护。若有不当之处,欢迎指正。
|
2天前
|
Python
[oeasy]python057_如何删除print函数_dunder_builtins_系统内建模块
本文介绍了如何删除Python中的`print`函数,并探讨了系统内建模块`__builtins__`的作用。主要内容包括: 1. **回忆上次内容**:上次提到使用下划线避免命名冲突。 2. **双下划线变量**:解释了双下划线(如`__name__`、`__doc__`、`__builtins__`)是系统定义的标识符,具有特殊含义。
17 3
|
5天前
|
安全 前端开发 数据库
Python 语言结合 Flask 框架来实现一个基础的代购商品管理、用户下单等功能的简易系统
这是一个使用 Python 和 Flask 框架实现的简易代购系统示例,涵盖商品管理、用户注册登录、订单创建及查看等功能。通过 SQLAlchemy 进行数据库操作,支持添加商品、展示详情、库存管理等。用户可注册登录并下单,系统会检查库存并记录订单。此代码仅为参考,实际应用需进一步完善,如增强安全性、集成支付接口、优化界面等。
|
14天前
|
存储 算法 Python
文件管理系统中基于 Python 语言的二叉树查找算法探秘
在数字化时代,文件管理系统至关重要。本文探讨了二叉树查找算法在文件管理中的应用,并通过Python代码展示了其实现过程。二叉树是一种非线性数据结构,每个节点最多有两个子节点。通过文件名的字典序构建和查找二叉树,能高效地管理和检索文件。相较于顺序查找,二叉树查找每次比较可排除一半子树,极大提升了查找效率,尤其适用于海量文件管理。Python代码示例包括定义节点类、插入和查找函数,展示了如何快速定位目标文件。二叉树查找算法为文件管理系统的优化提供了有效途径。
46 5
|
25天前
|
存储 索引 Python
Python学习的自我理解和想法(6)
这是我在B站千锋教育学习Python的第6天笔记,主要学习了字典的使用方法,包括字典的基本概念、访问、修改、添加、删除元素,以及获取字典信息、遍历字典和合并字典等内容。开学后时间有限,内容较为简略,敬请谅解。