带你读《全景揭秘字符编码》之十:常见字符编码4:UNICODE(8)

简介: 带你读《全景揭秘字符编码》之十:常见字符编码4:UNICODE(8)

带你读《全景揭秘字符编码》之十:常见字符编码4:UNICODE(7) https://developer.aliyun.com/article/1240880?groupCode=tech_library


10.5、UTF-8


10.5.1概述


Unicode还是UCS最初都是采用多字节定长编码,由于没有兼容现有的 ASCII 标准的文件和软件,新标准很难被推广,于是兼容ASCII版本的UTF-8就诞生了。


UTF-8(8-bit Unicode Transformation Format)是一种针对Unicode的可变长度字符编码,是现代字符编码模型中的第三层 CEF 。它可以用一至四个字节对 Unicode 字符集中的所有有效编码点进行编码,属于Unicode标准的一部分,UTF-8 就是为了解决向后兼容 ASCII 码而设计,Unicode 中前 128 个字符(与 ASCII 码一一对应),使用与 ASCII 码相同的二进制值的单个字节进行编码,这使得原来处理 ASCII 字符的软件无须或只须做少部分修改,即可继续使用。因此,它逐渐成为电子邮件、网页及其他存储或发送文字优先采用的编码方式。

—— 维基百科


UTF-8需要兼容ASCII,所以也需要有前缀码来控制,前缀规则如下:

  • 1)如果首字节以 0 开头,则是单字节编码(即单个单字节码元);
  • 2)如果首字节以 110 开头,则是双字节编码(即由两个单字节码元所组成的双码元序列);
  • 3)如果首字节以 1110 开头,则是三字节编码(即由三个单字节码元所组成的三码元序列),以此类推。


理论上UTF-8变长可以超过4个字节,只是Unicode联盟规范上限是10FFFF,所以UTF-8规则设计上也限制了大小。



带你读《全景揭秘字符编码》之十:常见字符编码4:UNICODE(9) https://developer.aliyun.com/article/1240878?groupCode=tech_library

相关文章
|
移动开发 小程序 IDE
《钉钉应用开发者速成手册》之“开放平台介绍”
什么是钉钉开放平台? 钉钉开放平台是基于钉钉的基础产品和底座,为生态合作伙伴、企业客户及开发者提供所需要的开放能力的应用开发平台。通过钉钉开放平台可以帮助企业快速、低成本的实现高质量的移动微应用,实现生产、管理、协作、运营的业务在线化。
2658 1
《钉钉应用开发者速成手册》之“开放平台介绍”
|
3月前
|
人工智能 监控 安全
AI 软件的开发上线
2026年AI软件上线已远超技术发布,是涵盖算法备案、安全评估、标识义务、端云协同部署、灰度测试、LLMOps监控及RLHF 2.0自学习迭代的系统工程,合规与治理成本成为关键门槛。(239字)
|
5月前
|
存储 机器学习/深度学习 人工智能
GEO 优化必备:RAG 技术全解析(基于知识密集型 NLP 经典论文)
2020 年论文提出的 RAG(检索增强生成),专治大模型 “幻觉、知识过时” 等落地痛点。它将 “检索外部知识” 与 “生成回答” 深度绑定,先精准抓取相关知识片段,再让模型基于证据生成内容。通过端到端联合训练,检索与生成协同优化,事实准确率显著提升,幻觉率大降。无需重训模型即可更新知识,还能追溯答案来源。如今成企业客服、医疗法律等领域刚需,推动大模型从 “通用” 走向 “可信实用”。这让我们做GEO优化就有了基础理论和方法。
GEO 优化必备:RAG 技术全解析(基于知识密集型 NLP 经典论文)
|
10月前
|
数据安全/隐私保护 Python
手机绕过zip密码提取文件, 免密解压zip软件, zip万能密码
这段代码展示了如何合法创建和解密受密码保护的ZIP文件,使用了Python标准库zipfile模块。
|
11月前
|
机器学习/深度学习 人工智能 算法
基于YOLOv8的农业虫害检测102 类农业害虫识别项目|完整源码数据集+PyQt5界面+完整训练流程+开箱即用!
本项目基于YOLOv8打造农业虫害识别系统,支持102类常见农业虫害检测。提供2万张带标注数据集、预训练权重及PyQt5图形界面,实现图片、视频、摄像头等多种输入方式的开箱即用体验。附完整训练与部署教程,适合农业科研与智能监测场景。
基于YOLOv8的农业虫害检测102 类农业害虫识别项目|完整源码数据集+PyQt5界面+完整训练流程+开箱即用!
|
数据采集 自然语言处理 文字识别
淘宝视频内容标签的结构化分析和管理
淘宝视频是如何分类的?又是如何保持不同类别视频样本得到相对均衡?又是如何应用的?
淘宝视频内容标签的结构化分析和管理
|
安全 网络安全 网络虚拟化
Cisco-三层交换机实现VLAN间路由
Cisco-三层交换机实现VLAN间路由
535 0
|
存储 算法 安全
数据仓库与数据挖掘概述
数据仓库与数据挖掘概述
|
设计模式
二十三种设计模式全面解析-职责链模式(Chain of Responsibility Pattern):解放代码责任链,提升灵活性与可维护性
二十三种设计模式全面解析-职责链模式(Chain of Responsibility Pattern):解放代码责任链,提升灵活性与可维护性
452 0

热门文章

最新文章