字符编码知识以及相互之间的转换

简介: UTF-16(UCS-2)是Unicode的其中一个使用(实现)方式,大部分字符采用定长的字节存储,即字符属于宽字符,但UTF-16却无法兼容于ASCII编码。

UTF-16(UCS-2)是Unicode的其中一个使用(实现)方式,大部分字符采用定长的字节存储,即字符属于宽字符,但UTF-16却无法兼容于ASCII编码。

UTF-8是Unicode的一个使用(实现)方式,编码格式兼容ASCII编码,采用变长的字节存储字符,即字符属于多字节字符。

windows(C语言)在使用unicode的时候就是采用的UTF-16,即宽字符。

UTF-16比起UTF-8,好处在于大部分字符都以固定长度的字节 (2字节) 储存。

以下是以windows为例的几种字符转换:

1、UTF8转UNICODE

MultiByteToWideChar(CP_UTF8,0,utf8_code,strlen(utf8_code),unicode,strlen(utf8_code));

2、UNICODE转UTF8

WideCharToMultiByte(CP_UTF8,0,unicode,wcslen(unicode),utf8_code,wcslen(unicode),0,0);

3、UTF8与ASCII的相互转换

因为UTF8兼容ASCII所以在进行ASCII字符编码处理的时候,UTF8可以不用转换就可以正确的处理ASCII字符,而在用UTF8进行其他语言字符编码处理的时候就会因为编码问题而出现问题,因为操作系统包括windows在内部数据处理的时候都会统一一种编码方式,通常是ASCII编码形式,然后根据地区以及使用的语言和字符编码不同再进行相应的编码转换,从而正确完成字符编码和字符集(codepage)的匹配,达到正确处理数据的目的。

乱码是可以显示当前指定的字体和文字,但是因为字符的编码不对导致在显示的时候索引错误。

还有一种情况是出现口口口口,所有的都是口,这样的情况是因为缺少字库。

在内存中最小的单位是字节,而最小的文字单位是字符(包括汉字以及其他语言形式),在进行编码存储的时候两者不一定相互对应,即一个字符不一定只占一个字节,所以在进行数据处理的时候需要根据字符进行处理,一段char类型内存可以存储任何字符的编码,但是编解码方式都是按照ASCII单字节对应单个字符的形式,而这种编解码方式只适用于英文字符,对于其他语言字符则会出现问题,而出现乱码的根本原因是编码方式和解码方式不一致。

比如:编码方式采用的是UTF8,而解码的时候却是用的ASCII,或者编码采用的GBK,而解码却是UTF8,这些情况下都会出现乱码,解决办法也很简单,就是统一编解码方式。

不同的codepage对应不同语言字符,不同的语言字符编码方式可能不同,统一的编码方式是unicode。


一、UTF8转ASCII

先把UTF8转换为UNICODE,再从UNICODE转换为ASCII,变的是编码方式,这样在进行输出的时候就可以根据codepage和具体字符编码输出正确的结果,而不会出现乱码。

二、ASCII转UTF8

先把ASCII转换为UNICODE,再从UNICODE转换为UTF8。


目录
相关文章
|
人工智能 JSON 机器人
让龙虾成为你的“公众号分身” | 阿里云服务器玩Openclaw
本文带你零成本玩转OpenClaw:学生认证白嫖6个月阿里云服务器,手把手配置飞书机器人、接入免费/高性价比AI模型(NVIDIA/通义),并打造微信公众号“全自动分身”——实时抓热榜、AI选题拆解、一键发布草稿,5分钟完成热点→文章全流程!
46103 0
|
5月前
|
人工智能 自然语言处理 API
构建AI智能体:四十二、使用 Qwen-Agent Assistant 调用高德 API 实现天气查询
本文介绍了如何将Qwen-Agent智能助手与高德天气API集成,构建一个能响应自然语言查询的天气服务系统。主要内容包括:高德天气API的注册、参数配置及数据解析方法;Qwen-Agent框架中Assistant类的核心功能和使用方式;通过FunctionCall和Assistant两种实现方式的对比;完整示例展示了从工具定义、API集成到交互界面开发的实现过程。该系统支持终端和Web两种交互模式,可扩展为智能客服、物联网控制等场景,为开发者提供了大模型与实际API服务结合的典型范例。
884 7
|
9月前
|
存储 Java API
Java Stream API:现代数据处理之道
Java Stream API:现代数据处理之道
448 188
|
9月前
|
安全 Java API
Java中的Lambda表达式:简洁与功能的结合
Java中的Lambda表达式:简洁与功能的结合
541 211
|
9月前
|
安全 IDE Java
Java记录类型(Record):简化数据载体类
Java记录类型(Record):简化数据载体类
616 143
|
5月前
|
SQL 自然语言处理 数据可视化
构建AI智能体:四十三、智能数据分析机器人:基于Qwen-Agent与Text2SQL的门票分析方案
摘要:本文介绍了一个基于Qwen-Agent和Text2SQL技术的智能门票数据分析系统。该系统通过自然语言交互降低技术门槛,使业务人员可直接查询和分析数据。系统采用分层架构设计,包含用户交互层、智能代理层、工具执行层和数据服务层,核心功能包括自然语言理解、SQL生成、数据查询和可视化展示。文章详细阐述了系统流程、核心代码实现及优化策略,展示了如何通过大语言模型实现企业级数据分析应用的智能化转型,有效解决了传统数据分析流程中响应慢、沟通成本高等痛点。
485 7
|
12月前
|
人工智能 JavaScript API
开发者必备:阿里云百炼 API 调用图文教程
百炼是阿里云推出的大模型服务平台,集成了很多优质的 AI 模型,包括通义千问、DeepSeek 等。
开发者必备:阿里云百炼 API 调用图文教程
|
数据可视化 物联网 PyTorch
通义千问7B模型开源,魔搭最佳实践来了
通义千问开源!阿里云开源通义千问70亿参数模型,包括通用模型Qwen-7B-Base和对话模型Qwen-7B-Chat,两款模型均已上线ModelScope魔搭社区,开源、免费、可商用,欢迎大家来体验。