[oeasy]python0133_[趣味拓展]好玩的unicode字符_另类字符_上下颠倒英文字符

简介: [oeasy]python0133_[趣味拓展]好玩的unicode字符_另类字符_上下颠倒英文字符

另类字符 回忆上次内容

  • 上次再次输出了大红心<span style="font-size:64px;color:red">♥</span>
  • 找到了红心对应的编码
  • 黑红梅方都对应有编码


  • 原来的编码叫做 ascii️
  • \u这种新的编码方式叫unicode
  • 包括了 中日韩字符集等 各书写系统的字符集


  • 除了这些常规字符之外
  • 还有什么好玩的东西呢?


颠倒字符

添加图片注释,不超过 140 字(可选)

尝试

添加图片注释,不超过 140 字(可选)

  • 序号还是比较靠前的
  • 应该是一些拉丁字符
  • 类似的还有带圈圈的英文字符

带圈字符

添加图片注释,不超过 140 字(可选)

  • 带上圈圈之后
  • 给人一种ꫛꫀꪝ的感觉


  • 这些都是谁规定的呢?

继续探索

  • unicode 其实有个委员会
  • 各种大厂都在里面指定标准
  • 我们也可以访问 unicode.org
  • 具体的编码字符都可以在里面找

添加图片注释,不超过 140 字(可选)

炼金术师的符号

添加图片注释,不超过 140 字(可选)

古代字符编码



添加图片注释,不超过 140 字(可选)

  • 回忆起拉丁字符走过的路

拉丁字符之路

添加图片注释,不超过 140 字(可选)

时间相关

  • 这个编码可以解决等宽的问题
  • 而且还有汉字
  • 目前大多数字体支持
  • ㋀㋁㋂㋃㋄㋅㋆㋇㋈㋉㋊㋋
  • ㏠㏡㏢㏣㏤㏥㏦㏧㏨㏩㏪㏫㏬㏭㏮㏯㏰㏱㏲㏳㏴㏵㏶㏷㏸㏹㏺㏻㏼㏽㏾
  • ㍘㍙㍚㍛㍜㍝㍞㍟㍠㍡㍢㍣㍤㍥㍦㍧㍨㍩㍪㍫㍬㍭㍮㍯㍰


货币相关

添加图片注释,不超过 140 字(可选)

音乐相关

添加图片注释,不超过 140 字(可选)

中文字符

添加图片注释,不超过 140 字(可选)

添加图片注释,不超过 140 字(可选)

  • 这些编码实在是偏门

亚文化

  • 不过很有趣
  • 目前大多数字库文件还不支持

添加图片注释,不超过 140 字(可选)

  • 不知道这些参与 unicode 编码规则制定的大公司在想些什么?

扑克编码

添加图片注释,不超过 140 字(可选)

  • 我们以前介绍过黑红梅方的编码
  • 配合数字可以做出扑克效果
  • 这个编码直接就是牌
  • C 是骑士牌(knight card)
  • 我们一般都是 54 张牌
  • 目前大多数字符库还不支持 unicode 这个编码段的部分
  • 支持了之后就可以直接字符打牌了

国际象棋

添加图片注释,不超过 140 字(可选)

添加图片注释,不超过 140 字(可选)

  • 目前大多数字体不支持

麻将

  • 中式麻将牌在这里
  • 红红火火
  • 梅兰竹菊 春夏秋冬 就连百搭都有


  • 以后用户名也许可以用麻将字符了
  • 🀀🀁🀂🀃🀆🀅🀄
  • 🀇🀈🀉🀊🀋🀌🀍🀎🀏
  • 🀐🀑🀒🀓🀔🀕🀖🀗🀘
  • 🀙🀚🀛🀜🀝🀞🀟🀠🀡
  • 九筒



  • 不过目前多数字库还不支持

添加图片注释,不超过 140 字(可选)

各种符号

添加图片注释,不超过 140 字(可选)

  • 符号还在不断添加中

新的符号

添加图片注释,不超过 140 字(可选)

添加图片注释,不超过 140 字(可选)

  • 各种杂项费用还是很多的甚至包含 emoji
  • 这些新增的字符除了好玩之外
  • 也会对于我们产生影响
  • 其实我们也有这种符号

五岳真形图

添加图片注释,不超过 140 字(可选)

  • 也许有一天unicode中会出现五岳的符号
  • 还有一些同型不同序号的字

易混淆文字

添加图片注释,不超过 140 字(可选)

  • 这两个文字非常相像但却是两个不同的字符
  • 第1个是常用的
  • 第2个是1999年更新中新加进去的康熙部首


添加图片注释,不超过 140 字(可选)

  • 这种长相类似的字符有什么用么?

阴阳话题

  • 作为计算机理解这就是两个词条

添加图片注释,不超过 140 字(可选)

  • 这是公关降热度的一个手法

部首

  • 还有什么类似的字符吗?

添加图片注释,不超过 140 字(可选)

  • 康熙部首
  • 2F00-2FD5


  • 扩展部首
  • 2E80-2EF3


  • 如果当前系统不认识这个字符
  • 怎么办呢?

不识别

  • 但是如果发送过来的字符
  • 在当前的系统中没有对应的字符
  • 应该怎么办呢?

添加图片注释,不超过 140 字(可选)

  • 发过来一个不认识的字符
  • 机器就傻了
  • 因为不知道如何表现
  • 于是他会用一个问号对应的字符进行替换
  • U+FFFD �

添加图片注释,不超过 140 字(可选)

  • 这个字符本应该是 unicode 中的字符
  • 但如果硬要用 gbk 解码会如何呢?

乱解码

  • � 对应 utf-16 编码 0xFFFD
  • 转化为 utf-8 对应 0xEF 0xBF 0xBD
  • 但是如果这个编码用 gbk 解码的话
  • 就会出现锟斤拷
  • 锟(0xEFBF)
  • 斤(0xBDEF)
  • 拷(0xBFBD)


添加图片注释,不超过 140 字(可选)

  • 锟斤拷会出现在各种地方
  • 甚至有个笑话
  • 手持两把锟斤拷
  • 口中疾呼烫烫烫


  • 烫烫烫又是怎么回事

烫烫烫和屯屯屯

  • 0xcc 正好是
  • x86指令集中 中断(int 3)指令
  • 起到保护作用


  • 在分配内存的时候
  • 栈内存默认初始数值为 0xcc
  • 0xcccc 用使用 bgk 的终端来表示刚好就是
  • 未初始化的栈空间用 0xcc 填充


添加图片注释,不超过 140 字(可选)

  • 而未初始化的堆空间用 0xcd 填充
  • 所以 0xcdcd 用 gbk 来解释的话,就是


添加图片注释,不超过 140 字(可选)

  • 动态分配的内存被回收之后
  • 就是 DDDD
  • 0xcdcd
  • 在gbk编码格式中
  • 对应汉字



  • 甚至有拼音标号

拼音标号

添加图片注释,不超过 140 字(可选)

  • 符号还在不断增加中

中文字符集进化

  • unicode 如果 2 个字节总共 16 位
  • 16 位最多 65536 各字符
  • 想要把全世界的字符都编码是不现实的
  • 光是中文就超了好几次


添加图片注释,不超过 140 字(可选)

  • 如果使用 3 字节编码就大大增加了存储和带宽的压力
  • 那到底应该怎么办呢?
  • 到底应该按照 1 字节、2 字节还是 3 字节进行读取呢?


总结

  • unicode 里面有各种字体
  • 扑克
  • 国际象棋
  • 麻将
  • 偏旁部首
  • 各种好玩的编码
  • 字符编码就是这样一步步发展过来的


  • 但是有个问题
  • 拜这个字
  • 在字节中应该是b"\x62\xdc"两个字节


添加图片注释,不超过 140 字(可选)

  • 该如何理解b"\x62\xdc"这两个字节呢?🤔
  • 究竟是"拜"
  • 还是"bÜ"呢?


添加图片注释,不超过 140 字(可选)


目录
相关文章
|
2月前
|
程序员 开发工具 Python
[oeasy]python017_万行代码之梦_vim环境_复制粘贴
在这个教程中,作者分享了如何在 Vim 编辑器中快速创建和操作大量代码行。首先,通过 `yy` 复制一行,然后使用 `p` 粘贴来增加代码行数。通过反复粘贴,可以迅速生成多行代码。为了加快操作,可以用 `9999p` 来一次性粘贴9999行。接着,介绍了撤销(`u`)和重做(`ctrl+r`)的操作,以及删除整篇文档的快捷方式。最后,作者提到虽然可以生成一万行代码,但并不建议这样做,因为可能会导致程序崩溃,并提醒大家适度编程。
82 2
|
2月前
|
JavaScript IDE 开发工具
python中的SyntaxError: invalid character in identifier(语法错误:标识符中有无效字符)
【5月更文挑战第14天】python中的SyntaxError: invalid character in identifier(语法错误:标识符中有无效字符)
112 8
|
7天前
|
缓存 Shell 开发工具
[oeasy]python024_vim读取文件_从头复制到尾_撤销_重做_reg_寄存器
[oeasy]python024_vim读取文件_从头复制到尾_撤销_重做_reg_寄存器
16 5
|
2天前
|
机器学习/深度学习 缓存 安全
Python标准库中的`str`类型有一个`translate()`方法,它用于替换字符串中的字符或字符子集。这通常与`str.maketrans()`方法一起使用,后者创建一个映射表,用于定义哪些字符应该被替换。
Python标准库中的`str`类型有一个`translate()`方法,它用于替换字符串中的字符或字符子集。这通常与`str.maketrans()`方法一起使用,后者创建一个映射表,用于定义哪些字符应该被替换。
4 0
|
2天前
|
存储 SQL Python
`urllib.parse`模块是Python标准库`urllib`中的一个子模块,它提供了处理URL(统一资源定位符)的实用功能。这些功能包括解析URL、组合URL、转义URL中的特殊字符等。
`urllib.parse`模块是Python标准库`urllib`中的一个子模块,它提供了处理URL(统一资源定位符)的实用功能。这些功能包括解析URL、组合URL、转义URL中的特殊字符等。
6 0
|
6天前
|
编解码 开发者 Python
【Python】已解决:SyntaxError: (unicode error) ‘unicodeescape’ codec can’t decode bytes in position 2-3: t
【Python】已解决:SyntaxError: (unicode error) ‘unicodeescape’ codec can’t decode bytes in position 2-3: t
6 0
Python----统计字符串中的英文字母、空格、数字和其它字符的个数。
Python----统计字符串中的英文字母、空格、数字和其它字符的个数。
|
28天前
|
开发工具 Python
[oeasy]python0021_宝剑镶宝石_爱之石中剑_批量替换_特殊字符_特殊颜色
在这个文本中,作者描述了一个逐步修改Python游戏`game.py`的过程,以将小丑的眼睛和石中剑的图形替换为爱心符号,并且将其颜色更改为红色。以下是内容的摘要: - 用户回顾了之前对`game.py`的分析和理解。 - 通过使用方向键和编辑模式,在代码中找到了小丑眼睛和石中剑的位置,用爱心符号(❤)替换了它们。 - 如果遇到问题,建议使用最新版的火狐浏览器进行粘贴操作。 - 使用Vim编辑器的命令模式批量替换了剑柄上的数字8为爱心,使整个剑柄充满了爱心。 - 通过插入特定代码,将爱心变为红色,从而得到红色的“爱之大剑”。
17 0
|
2月前
|
人工智能 Linux 开发工具
[oeasy]python018_ 如何下载github仓库_git_clone_下载仓库
在这个文档中,作者讨论了如何继续进行编程学习,特别是关于GitHub的使用。首先,回顾了从编写简单代码到管理大量代码的过程。然后,提到了通过“保存运行一条龙”操作来处理代码,以及GitHub作为全球最大的开源软件平台的重要性。在GitHub上,用户可以找到各种软件项目,包括Linux、Python和Blender等。 作者解释了GitHub的基本操作,如点赞(star)、 fork(复制项目)和watch(关注项目更新)。还介绍了如何下载项目到本地,通过`git clone`命令复制仓库的URL并将其粘贴到终端进行下载。如果遇到问题,可以尝试更换HTTP链接或等待一段时间重试。
202 2
|
1月前
|
自然语言处理 Python
Python 中的编码与解码字符集与 Unicode 的详解
【6月更文挑战第10天】Python编程中,理解字符编码(如ASCII、UTF-8)和Unicode至关重要,它们关乎文本数据的正确处理。编码是字符转字节,解码则相反。UTF-8能表示几乎所有字符,适合多语言。Unicode为全球字符提供唯一编码。处理不同源文本时,需注意编码一致性,否则可能产生乱码。Python支持Unicode,但错误的编码解码操作可能导致问题。要确保程序处理文本的正确性,需选合适编码方案并保持编码一致性。

相关实验场景

更多