[oeasy]python0123_中文字符_文字编码_gb2312_激光照排技术_王选

简介: [oeasy]python0123_中文字符_文字编码_gb2312_激光照排技术_王选

中文编码GB2312 回忆上次内容

  • 上次回顾了 日韩各有 编码格式
  • 日本
  • 有假名
  • 五十音
  • 一字节 可以勉强放下


  • 有日本汉字
  • 字符数量超过20000+



  • 韩国
  • 有谚文
  • 数量超过500
  • 一个字节 放不下


  • 有朝鲜汉字
  • 字符数量超过20000+




添加图片注释,不超过 140 字(可选)

  • 作为 汉字源头的中国
  • 究竟应该 如何对汉字 进行编码 呢?🤔


汉字

  • 汉字起源于甲骨文
  • 是世界上唯一还在使用的象形文字
  • 真的很不容易


添加图片注释,不超过 140 字(可选)

  • 写的本意 就是 画
  • 写意
  • 写生


  • 这就是最初的
  • 象形字


六书

  • 以象形为基础
  • 指事
  • 会意
  • 形声
  • 转注
  • 假借


添加图片注释,不超过 140 字(可选)

  • 字的结构是什么呢?

间架结构

  • 上下
  • 左右
  • 内外

添加图片注释,不超过 140 字(可选)

  • 字型相当复杂
  • 笔画也千姿百态

汉字笔画

  • 笔画也比较复杂

添加图片注释,不超过 140 字(可选)

  • 运笔藏锋都很有讲究

中国大陆地区

  • 中国大陆地区最早使用 GB/T 2312-1980
  • 当时参考了比我们先进的日本JIS 字符集
  • 1980 年 指定的国标 (GuoBiao)
  • 1981 年 5 月 1 日开始使用


添加图片注释,不超过 140 字(可选)

  • GB2312 编码共收录汉字 6763 个
  • 其中一级汉字 3755 个
  • 二级汉字 3008 个


  • 这么多字怎么排呢?

区位

  • 01-09 区为特殊符号
  • 先把ascii的128个字符让出去
  • 然后在留有一些制表的字符
  • 还留了相当多的空余


  • 16-55 区为一级汉字
  • 按拼音排序


  • 56-87 区为二级汉字
  • 按部首/笔画排序


添加图片注释,不超过 140 字(可选)

  • 出了汉字之外,还收录了
  • 拉丁字母
  • 希腊字母
  • 日文平假名及片假名字母
  • 俄语西里尔字母
  • 真的很全了


  • 可是这gb2312
  • 具体是如何编解码的呢?🤔


应用

添加图片注释,不超过 140 字(可选)

  • 如果是0-127以内的ascii字符
  • 标志位为0
  • 1个字节存储


添加图片注释,不超过 140 字(可选)

  • 如果是ascii以外的字符
  • 标志位为1
  • 2个字节存储


编解码

  • 编解码方法一致就可以
  • 解铃还须系铃人


添加图片注释,不超过 140 字(可选)

  • 同时用 gb2312 编解码是没有问题的
  • 这篇 制定标准的文档
  • 当时怎么打印出来的呢?
  • 制定内码标准的 时候 就有 字形 了吗?


铅字

  • 虽然 计算机 在当时 还 没有普及
  • 但是 出版行业 已经 工业化 了


添加图片注释,不超过 140 字(可选)

  • 印刷厂 使用 铅活字 进行排版
  • 铸字工
  • 拼版工
  • 还有拣字工


拣字工

  • 印刷家谱 从 一个大盒子 就够了

添加图片注释,不超过 140 字(可选)

  • 字 再多些
  • 要用 转轮排字盘


添加图片注释,不超过 140 字(可选)

  • 字 再多些呢?

捡字室

  • 大 印刷厂
  • 字模 特别多


添加图片注释,不超过 140 字(可选)

  • 甚至 要放
  • 好 几面墙
  • 好 几张桌子


开端

  • 这 也 曾被
  • 使用26个字母的 西方文明 嘲讽


添加图片注释,不超过 140 字(可选)

  • 出书确实不易
  • 捡好了 字
  • 排好了 版
  • 先 打个样
  • 再来 校对
  • 再 浇铅板
  • 最后 印刷


  • 最初的
  • 书籍
  • 杂志
  • 报纸
  • 试卷
  • 都是这样    印刷出来 的


  • 到了 印刷 gb2312-80标准的 1980年
  • 已经启用了新的技术


机械打字机

  • 从 轮转排字盘
  • 到 谢卫楼 发明的 中文打字机


添加图片注释,不超过 140 字(可选)

  • 再到 舒震东
  • 在前人的研究基础上经过创新
  • 得到的 舒式打字机


添加图片注释,不超过 140 字(可选)

  • 中文字符 的数量
  • 是 一个难关


  • 直到
  • 照相技术 的 发展


照片排版

  • 使用 照片底片 进行排版

添加图片注释,不超过 140 字(可选)

  • 也面临检字的工作

添加图片注释,不超过 140 字(可选)

  • 照片排版技术本身也在迭代

激光照排

  • 这次使用 激光 扫描照片

添加图片注释,不超过 140 字(可选)

  • 每一个小字型都是一个照片
  • 根据汉字内码找到汉字对应的激光照片
  • 然后再把激光照片像活字一样排版
  • 这就是激光照排技术


添加图片注释,不超过 140 字(可选)

  • 用照片排版的方式
  • 制作了这样一个汉字编码的文档


  • 标准定了立刻就能用起来么?

过程

  • 凡事都有个过程
  • 95年定的gbk
  • 98年才逐渐推行开来


  • 但还是有些生僻字没有相应的字型

添加图片注释,不超过 140 字(可选)

  • 内码从无到有
  • 字形码也从无到有


添加图片注释,不超过 140 字(可选)

感谢前辈

  • 感谢王选与陈堃銶前辈的技艺

添加图片注释,不超过 140 字(可选)

  • 激光照排技术 可以
  • 印刷中文书籍 和 报纸 了


总结

  • 简体和繁体的汉字
  • 字符数量都超级大
  • 感谢王选和陈堃銶等前辈发明了激光照排技术
  • 中文排版从此使用上了gb2312编码


添加图片注释,不超过 140 字(可选)

  • 纸张之外
  • 显示器是更先进的输出设备



目录
相关文章
|
2月前
|
存储 监控 API
Python实战:跨平台电商数据聚合系统的技术实现
本文介绍如何通过标准化API调用协议,实现淘宝、京东、拼多多等电商平台的商品数据自动化采集、清洗与存储。内容涵盖技术架构设计、Python代码示例及高阶应用(如价格监控系统),提供可直接落地的技术方案,帮助开发者解决多平台数据同步难题。
|
4月前
|
JSON API 开发者
天猫商品详情API接口技术解析与Python实现
天猫商品详情API(tmall.item_get)通过商品ID获取商品标题、价格、库存、图片、SKU及评价等详细信息,支持HTTP请求与JSON格式返回,适用于电商数据分析与运营。本文提供Python调用示例,实现快速接入与数据解析。
|
29天前
|
数据可视化 大数据 关系型数据库
基于python大数据技术的医疗数据分析与研究
在数字化时代,医疗数据呈爆炸式增长,涵盖患者信息、检查指标、生活方式等。大数据技术助力疾病预测、资源优化与智慧医疗发展,结合Python、MySQL与B/S架构,推动医疗系统高效实现。
|
2月前
|
数据采集 存储 XML
Python爬虫技术:从基础到实战的完整教程
最后强调: 父母法律法规限制下进行网络抓取活动; 不得侵犯他人版权隐私利益; 同时也要注意个人安全防止泄露敏感信息.
665 19
|
3月前
|
数据采集 机器学习/深度学习 数据可视化
Python量化交易:结合爬虫与TA-Lib技术指标分析
Python量化交易:结合爬虫与TA-Lib技术指标分析
|
5月前
|
监控 大数据 API
Python 技术员实践指南:从项目落地到技术优化
本内容涵盖Python开发的实战项目、技术攻关与工程化实践,包括自动化脚本(日志分析系统)和Web后端(轻量化API服务)两大项目类型。通过使用正则表达式、Flask框架等技术,解决日志分析效率低与API服务性能优化等问题。同时深入探讨内存泄漏排查、CPU瓶颈优化,并提供团队协作规范与代码审查流程。延伸至AI、大数据及DevOps领域,如商品推荐系统、PySpark数据处理和Airflow任务编排,助力开发者全面提升从编码到架构的能力,积累高并发与大数据场景下的实战经验。
Python 技术员实践指南:从项目落地到技术优化
|
4月前
|
机器学习/深度学习 数据安全/隐私保护 计算机视觉
过三色刷脸技术,过三色刷脸技术教程,插件过人脸python分享学习
三色刷脸技术是基于RGB三通道分离的人脸特征提取方法,通过分析人脸在不同颜色通道的特征差异
|
4月前
|
机器学习/深度学习 算法 API
淘宝图片搜索接口技术解析与Python实现
淘宝图片搜索接口(拍立淘)基于图像识别技术,允许用户上传商品图片查找相似或相同商品。自2014年上线以来,已服务数千万日活用户,显著提升购物体验。接口通过CNN、ANN等技术实现图像预处理、特征提取与相似度匹配,支持多种调用方式与参数设置。本文提供Python调用示例,便于开发者快速集成。
|
4月前
|
数据采集 自然语言处理 分布式计算
大数据岗位技能需求挖掘:Python爬虫与NLP技术结合
大数据岗位技能需求挖掘:Python爬虫与NLP技术结合
|
4月前
|
JavaScript Java Go
Go、Node.js、Python、PHP、Java五种语言的直播推流RTMP协议技术实施方案和思路-优雅草卓伊凡
Go、Node.js、Python、PHP、Java五种语言的直播推流RTMP协议技术实施方案和思路-优雅草卓伊凡
305 0

推荐镜像

更多