python进制和编码

简介: python进制和编码

一、进制

计算机中底层所有的数据都是以 010101的形式存在(图片、文本、视频等)。

二、进制转换

v1 = bin(25) # 十进制转换为二进制
print(v1) # "0b11001"
 
v2 = oct(23) # 十进制转换为八进制
print(v2) # "0o27"
 
v3 = hex(28) # 十进制转换为十六进制
print(v3) # "0x1c"
 
 
i1 = int("0b11001",base=2) # 25
 
i2 = int("0o27",base=8) # 23 
 
i3 = int("0x1c",base=16) # 28 

 

三、计算机中的单位

由于计算机中本质上所有的东西以为二进制存储和操作的,为了方便对于二进制值大小的表示,所以就搞了一些单位。

  • b(bit),位

1,1位

10,2位

111,3位

1001,4位

  • B(byte),字节

8位是一个字节。


10010110,1个字节

10010110 10010110,2个字节

  • KB(kilobyte),千字节

1024个字节就是1个千字节。


10010110 11010110  10010111 .. ,1KB

1KB = 1024B= 1024 * 8 b

  • M(Megabyte),兆

1024KB就是1M

1M= 1024KB = 1024 * 1024 B = 1024 * 1024 * 8 b

  • G(Gigabyte),千兆

1024M就是1G

1 G=  1024 M=  1024 *1024KB =  1024 * 1024 * 1024 B =  1024 * 1024 * 1024 * 8 b

  • T(Terabyte),万亿字节

1024个G就是1T

  • ...其他更大单位 PB/EB/ZB/YB/BB/NB/DB 不再赘述。

做个小练习:

  • 假设1个汉字需要2个字节(2B=16位来表示,如:1000101011001100),那么1G流量可以通过网络传输多少汉字呢?(计算机传输本质上也是二进制)

1G = 1024M = 1024 * 1024KB = 1024 * 1024 * 1024 B

每个汉字需要2个字节表示

1024 * 1024 * 1024/2 = ?

  • 假设1个汉字需要2个字节(2B=16位来表示,如:1000101011001100),那么500G硬盘可以存储多少个汉字?

500G = 500 * 1024M = 500 * 1024 * 1024KB = 500 * 1024 * 1024 * 1024 B

500 * 1024 * 1024 * 1024 / 2 = ?

四、编码

编码,文字和二进制之间的一个对照表。

1、ascii编码

ascii规定使用1个字节来表示字母与二进制的对应关系。

00000000

00000001    w

00000010    B

00000011    a

...

11111111


2**8 = 256

2、gb-2312编码

gb-2312编码,由国家信息标准委员会制作(1980年)。

gbk编码,对gb2312进行扩展,包含了中日韩等文字(1995年)。

在与二进制做对应关系时,由如下逻辑:

  • 单字节表示,用一个字节表示对应关系。2**8 = 256
  • 双字节表示,用两个字节表示对应关系。2**16 = 65536中可能性。

3、unicode

unicode也被称为万国码,为全球的每个文字都分配了一个码位(二进制表示)。

 

  • ucs2

用固定的2个字节去表示一个文字。


00000000 00000000     悟

...


2**16 = 65535

  • ucs4

用固定的4个字节去表示一个文字。

00000000 00000000 00000000 00000000  无

...

2**32 = 4294967296

文字     十六进制            二进制

ȧ        0227           1000100111

ȧ        0227         00000010 00100111                       ucs2

ȧ        0227         00000000 00000000 00000010 00100111     ucs4

 

乔       4E54           100111001010100

乔       4E54         01001110 01010100                       ucs2

乔       4E54         00000000 00000000 01001110 01010100     ucs4

 

😆      1F606        11111011000000110

😆      1F606        00000000 00000001 11110110 00000110      ucs4

无论是ucs2和ucs4都有缺点:浪费空间?

文字     十六进制     二进制

A        0041      01000001

A        0041      00000000 01000001

A        0041      00000000 00000000 00000000 01000001

unicode的应用:在文件存储和网络传输时,不会直接使用unicode,而在内存中会unicode。

 

4、utf-8编码

包含所有文字和二进制的对应关系,全球应用最为广泛的一种编码(站在巨人的肩膀上功成名就)。

本质上:utf-8是对unicode的压缩,用尽量少的二进制去与文字进行对应。

 unicode码位范围            utf-8      

  0000 ~ 007F              用1个字节表示

  0080 ~ 07FF              用2个字节表示

  0800 ~ FFFF              用3个字节表示

 10000 ~ 10FFFF            用4个字节表示

具体压缩的流程:

  • 第一步:选择转换模板

 码位范围(十六进制)                转换模板

  0000 ~ 007F              0XXXXXXX

  0080 ~ 07FF              110XXXXX 10XXXXXX

  0800 ~ FFFF              1110XXXX 10XXXXXX 10XXXXXX

 10000 ~ 10FFFF            11110XXX 10XXXXXX 10XXXXXX 10XXXXXX

 

 例如:

     "B"  对应的unicode码位为 0042,那么他应该选择的一个模板。

     "ǣ"  对应的unicode码位为 01E3,则应该选择第二个模板。

     "武" 对应的unicode码位为 6B66,则应该选择第三个模板。

     "沛" 对应的unicode码位为 6C9B,则应该选择第三个模板。

     "齐" 对应的unicode码位为 9F50,则应该选择第三个模板。

      😆  对应的unicode码位为 1F606,则应该选择第四个模板。            


注意:一般中文都使用第三个模板(3个字节),这也就是平时大家说中文在utf-8中会占3个字节的原因了。

  • 第二步:在模板中填入数据

- "武"  ->  6B66  ->  110 101101 100110

- 根据模板去套入数据

1110XXXX 10XXXXXX 10XXXXXX

1110XXXX 10XXXXXX 10100110

1110XXXX 10101101 10100110

11100110 10101101 10100110

在UTF-8编码中 ”武“  11100110 10101101 10100110


- 😆  ->  1F606  ->  11111 011000 000110

- 根据模板去套入数据

11110000 10011111 10011000 10000110

五、Python相关的编码

字符串(str)     "alex媳妇叫铁锤"             unicode处理               一般在内存

字节(byte)      b"alexfdsfdsdfskdfsd"      utf-8编码 or gbk编码       一般用于文件或网络处理

v1 = "武"


v2 = "武".encode("utf-8")

v2 = "武".encode("gbk")

将一个字符串写入到一个文件中。

name = "嫂子热的满身大汗"

data = name.encode("utf-8")


# 打开一个文件

file_object = open("log.txt",mode="wb")

# 在文件中写内容

file_object.write(data)

# 关闭文件

file_object.close()

六、总结

  1. 计算机上所有的东西最终都会转换成为二进制再去运行。
  2. ascii编码、unicode字符集、utf-8编码本质上都是字符与二进制的关系。
  • ascii,字符和二进制的对照表。
  • unicode,字符和二进制(码位)的对照表。
  • utf-8,对unicode字符集的码位进行压缩处理,间接也维护了字符和二进制的对照表。
  1. ucs2和ucs4指的是使用多少个字节来表示unicode字符集的码位。
  2. 目前最广泛的编码为:utf-8,他可以表示所有的字符且存储或网络传输也不会浪费资源(对码位进行压缩了)。
  3. 二进制、八进制、十进制、十六进制其实就是进位的时机不同。
  4. 基于Python实现二进制、八进制、十进制、十六进制之间的转换。
  5. 一个字节8位
  6. 计算机中常见单位b/B/KB/M/G的关系。
  7. 汉字,用gbk编码需要用2个字节;用utf-8编码需要用3个字节。
  8. 基于Python实现将字符串转换为字节(utf-8编码)

# 字符串类型

name = "武沛齐"


print(name) # 武沛齐

# 字符串转换为字节类型

data = name.encode("utf-8")

print(data) # b'\xe6\xad\xa6\xe6\xb2\x9b\xe9\xbd\x90'


# 把字节转换为字符串

old = data.decode("utf-8")

print(old)

  1. 基于Python实现将字符串转换为字节(gbk编码)

# 字符串类型

name = "武沛齐"

print(name) # 武沛齐

# 字符串转换为字节类型

data = name.encode("gbk")

# print(data) # b'\xe6\xad\xa6\xe6\xb2\x9b\xe9\xbd\x90'  utf8,中文3个字节

print(data) # b'\xce\xe4\xc5\xe6\xc6\xeb'              gbk,中文2个字节


# 把字节转换为字符串

old = data.decode("gbk")

print(old)


相关文章
|
6月前
|
存储 Python
Python文件编码概念详解
Python文件编码概念详解
60 1
|
2月前
|
Python
python第三方库-字符串编码工具 chardet 的使用(python3经典编程案例)
这篇文章介绍了如何使用Python的第三方库chardet来检测字符串的编码类型,包括ASCII、GBK、UTF-8和日文编码的检测示例。
130 6
|
2月前
|
Python
Python 中如何指定 open 编码为ANSI
Python 中如何指定 open 编码为ANSI
|
3月前
|
数据采集 开发工具 Python
海康威视工业相机SDK+Python+PyQt开发数据采集系统(支持软件触发、编码器触发)
该系统基于海康威视工业相机SDK,使用Python与PyQt开发,支持Gige与USB相机设备的搜索及双相机同时显示。系统提供软件触发与编码器触发模式,并可在数据采集过程中实时保存图像。此外,用户可以调节曝光时间和增益,并进行信息输入,这些信息将被保存至配置文件以便下次自动加载。参数调节与实时预览等功能进一步增强了系统的实用性。
200 1
|
3月前
|
开发者 Python
Python编码风格
Python编码风格
26 1
|
3月前
|
JSON 数据库 开发者
FastAPI入门指南:Python开发者必看——从零基础到精通,掌握FastAPI的全栈式Web开发流程,解锁高效编码的秘密!
【8月更文挑战第31天】在当今的Web开发领域,FastAPI迅速成为开发者的热门选择。本指南带领Python开发者快速入门FastAPI,涵盖环境搭建、基础代码、路径参数、请求体处理、数据库操作及异常处理等内容,帮助你轻松掌握这一高效Web框架。通过实践操作,你将学会构建高性能的Web应用,并为后续复杂项目打下坚实基础。
113 0
|
4月前
|
Python
11个提升Python列表编码效率的高级技巧
Python中关于列表的一些很酷的技巧
54 1
|
4月前
|
存储 缓存 Python
python中小数据池和编码
python中小数据池和编码
56 3
|
4月前
|
缓存 Java Unix
python中内存管理等10个编码习惯
【7月更文挑战第3天】本文涵盖了Python编程中的变量管理、模块导入、命令行参数、内存管理和面向对象设计的10个关键概念。
47 0
python中内存管理等10个编码习惯
|
5月前
|
自然语言处理 Python
Python编码问题
Python编码问题是指在处理文本时,由于编码不一致导致程序不能正确处理文本的问题。在Python中,编码问题主要有两种情况:文件编码问题和字符串编码问题。
66 7