unicode/utf8包

简介: // 编码所需的基本数字const ( RuneError = '\uFFFD' // 错误的Rune或Unicode代理字符 RuneSelf = 0x80 // ASC...
// 编码所需的基本数字
const (
        RuneError  = '\uFFFD'        // 错误的Rune或Unicode代理字符
        RuneSelf  = 0x80               // ASCII字符范围
        MaxRune = '\U0010FFFF'  // Unicode 码点的最大值
        UTFMax = 4                        // 一个字符编码的最大长度
)

// 将r转换为UTF-编码写入p中(p必须足够长,通常为4个字节)
// 如果r是无效的Unicode字符,则写入RuneError
// 返回写入的字节数
func EncodeRune(p []byte, r rune) int

// 解码p中的第一个字符,返回解码后的字符和p中被解码的字节数
// 如果p为空,则返回(RuneError,0)
// 如果p中的编码无效,则返回(RuneError,1)
// 无效编码:UTF-8编码不正确(比如长度不够)、结果超出Unicode范围、编码不是最短的
func DecodeRune(p []byte) (r rune, size int)

// 功能同上,只是参数为字符串
func DecodeRuneInString(s string) (r rune, size int)

// 解码p的最后一个字符,返回解码后的字符,和p中被解码的字节数
// 如果p中的最后一个字符,返回解码后的字符,和p中被解码的字节数
// 如果p为空,则返回(RuneError, 0)
// 如果p中编码无效,则返回(EuneError, 1)
func DecodeLastRune(p []byte) (r rune, size int)

// 功能同上,参数为字符串
func DecodeLastRune(p []byte) (r rune, size int)

// FullRune检测p中第一个字符的UTF-8编码是否完整(完整并不代表有效)。
// 一个无效的编码也被认为是完整字符,因为它将被转换为一个RuneError字符。
// 只有“编码有效但长度不够”的字符才被认为是不完整字符。
// 也就是说,只有截去一个有效字符的一个或多个尾部字节,该字符才算是不完整字符。
// 举例:
//       ”好“      是完整字符(首字节无效,可转换为RuneError字符)
//       ”好“ [1:] 是完整字符(首字节无效,可转换为RuneError字符)
//        ”好“ [2:] 是完整字符(首字节无效,可转换为RuneError字符)
//        "好" [:2] 是不完整(编码有效但长度不够)
//        ”好“ [:1] 是不完整(编码有效但长度不够)
func FullRune(p []byte) bool

// 功能同上,参数为字符串
func FullRuneInString(s string) bool

// 返回p中的字符个数
// 错误的UTF8编码和长度不足的UTF8编码将被当作单字节的RuneError处理
func RuneCount(p []byte) int

// 功能同上
func RuneCountInString(s string) (n int)

// Rune返回需要多少字节来编码字符r,如果r是无效的字符,则返回-1
func RuneLen(r rune) int

// 判断b是否为UTF8字符的首字节编码,最高位(bit)是不是10的字节就是首字节
func RuneStart(b byte) bool

// Valid判断p是否位完整有效的 UTF8 编码序列
func Valid(p []byte) bool

// 功能同上,参数为字符串
func ValidString(s string) bool

// ValidRune 判断r能否被正确的转换为UTF8编码
// 超出Unicode范围的码带你或UTF-16代理区中的码点是不能转换的
func ValidRune(r rune) bool

参考:https://www.cnblogs.com/golove/p/3271597.html

目录
相关文章
|
8月前
|
存储 编解码 C语言
ASCII、GBK与UTF-8的联系
ASCII、GBK与UTF-8的联系
97 1
|
存储 自然语言处理 算法
UTF-8编码
通过阅读本篇文章,你可以了解到:UTF-8编码的规则。
369 0
UTF-8编码
|
存储 JavaScript 程序员
【字符编码详解】ASCII、GB2312、GBK、UTF-8、UTF-16编码与Unicode字符集
【字符编码详解】ASCII、GB2312、GBK、UTF-8、UTF-16编码与Unicode字符集
974 0
|
存储 自然语言处理
最基础的ASCII、Unicode、UTF-8一起来多了解点
最基础的ASCII、Unicode、UTF-8一起来多了解点
268 0
最基础的ASCII、Unicode、UTF-8一起来多了解点
|
存储 算法 Java
Java编码ASCII、GB2312、GBK、Unicode、UTF-8、UTF-16 编码方式详解
Java编码ASCII、GB2312、GBK、Unicode、UTF-8、UTF-16 编码方式详解
421 0
|
Web App开发 JavaScript Java
编码问题 UTF-8 & GBK
记一次奇怪的编码问题。 * Meta Element vs Response Header * Meta 的作用? * 一个细节 * 细节对编码的影响 ## Meta Element vs Response Header 一个 GBK 编码页面,使用 meta 指定页面编码和使用 response header 指定页面编码。哪个优先级比较高? ###
2413 0
|
关系型数据库 Oracle