语种名称代码

简介:

我们经常需要用缩写的代码来表示一种语言,比如用en表示英语,用de表示德语。ISO 369就是规定语种代码的国际标准。

最早的时候,ISO 639规定的代码是,用两个拉丁字母表示一种语言,这被称为ISO 639-1。但是,两个拉丁字母最多只有262=676种组合,而世界上已知的语言总数可能有六七千种,因此明显是不够的。所以,后来又规定了ISO 639-2,用三个拉丁字母的组合表示一种语言。

常见语言的ISO 代码如下表。

ISO639-1 Code ISO639-2 Code 中文名 英文名
ar ara 阿拉伯语 Arabic
ko kor 朝鲜语 Korean
de deu 德语 German
ru rus 俄语 Russian
fr fra 法语 French
zh zho 汉语 Chinese
la lat 拉丁语 Latin
pt por 葡萄牙语 Portuguese
ja jpn 日语 Japanese
es spa 西班牙语 Spainese
en eng 英语 English
it ita 意大利语 Italian
hi hin 印地语 Hindi
yi yid 意第绪语 Yiddish

但是只规定语种代码还不够,在同一种语言中,往往还包括许多种变体,比如中文分为简体中文和繁体中文两种,因此还必须规定子代码。

以往,人们常用zh-CN表示在中国大陆地区使用的中文,也就是简体中文,用zh-TW表示在台湾地区使用的中文,也就是繁体中文。但是,这种表示法很不完善,试问中国大陆地区出版的繁体中文书籍,应该如何用代码表示呢?

目前,语言的标签表示法的国际标准是RFC 4646,名称是《Tags for Identifying Languages》。

简单说,这个文件规定,一种语言的标签应该按照如下方式排列:

language-script-region-variant-extension-privateuse

1. language:这部分就是ISO 639规定的代码,比如中文是zh。

2. script:表示变体,比如简体汉字是zh-Hans,繁体汉字是zh-Hant。

3. region:表示语言使用的地理区域,比如zh-Hans-CN就是中国大陆使用的简体中文。

4. variant:表示方言。

5. extension-privateus:表示扩展用途和私有标识。

一般约定,language标签全部小写,region标签全部大写,script标签只有首字母大写。不同标签之间用连字号-链接。

下面列出一些与中文有关的语言标签。

zh-Hans 简体中文
zh-Hans-CN 大陆地区使用的简体中文
zh-Hans-HK 香港地区使用的简体中文
zh-Hans-MO 澳门使用的简体中文
zh-Hans-SG 新加坡使用的简体中文
zh-Hans-TW 台湾使用的简体中文
zh-Hant 繁体中文
zh-Hant-CN 大陆地区使用的繁体中文
zh-Hant-HK 香港地区使用的繁体中文
zh-Hant-MO 澳门使用的繁体中文
zh-Hant-SG 新加坡使用的繁体中文
zh-Hant-TW 台湾使用的繁体中文

此外,还有一些目前仍在使用,但因不符合规范,将被逐步替代(grandfathered)的标签。

zh-hakka 客家话
zh-cmn 普通话
zh-cmn-Hans 简体普通话
zh-cmn-Hant 繁体普通话
zh-gan 江西话
zh-guoyu 国语
zh-min 福建话
zh-min-nan 闽南话
zh-wuu 吴语(上海话)
zh-xiang 湖南话
zh-yue 粤语

有一点需要注意,任何合法的标签都必须经过IANA的认证,已通过认证的标签可以在这个网页查到。

[延伸阅读]

* W3C: Language tags in HTML and XML

(完)

目录
相关文章
|
9天前
|
机器学习/深度学习 人工智能 自然语言处理
解码语言:命名实体识别(NER)技术
解码语言:命名实体识别(NER)技术
58 4
解码语言:命名实体识别(NER)技术
|
25天前
|
自然语言处理
有关“RaNER命名实体识别-中文-新闻领域-base模型的命名实体识”的个人小建议
当新闻中出现不具体人名(如范某)时,建议模型能正确提取;对于含名词的非特殊名称(如“七块熹平石经”),建议不提取;此外,模型应解决去重问题,或给出词频。
|
6月前
|
文字识别
印刷文字识别产品使用合集之 识别营业执照时,如果企业名称中有中英文括号,请问是统一转换为英文括号返回还是按实际的括号类型返回
印刷文字识别产品,通常称为OCR(Optical Character Recognition)技术,是一种将图像中的印刷或手写文字转换为机器编码文本的过程。这项技术广泛应用于多个行业和场景中,显著提升文档处理、信息提取和数据录入的效率。以下是印刷文字识别产品的一些典型使用合集。
|
6月前
去除程序名称 去除程序属性详细信息中的程序名称 创建时间等信息
去除程序名称 去除程序属性详细信息中的程序名称 创建时间等信息
35 0
|
7月前
|
API Python
可以将文本按照每一批5000个字符进行分割,然后依次调用批量翻译接口进行翻译
可以将文本按照每一批5000个字符进行分割,然后依次调用批量翻译接口进行翻译
44 1
|
7月前
正则验证姓名否中文(包含生僻字)
正则验证姓名否中文(包含生僻字)
523 0
|
传感器 IDE 程序员
Python 代码智能感知 —— 类型标注与特殊的注释(所有人都需要知道)
Python 代码智能感知 —— 类型标注与特殊的注释(所有人都需要知道)
243 0
|
XML JSON 缓存
翻译文本 API说明示例
翻译文本 API说明示例
|
自然语言处理 Java API
阿里云自然语言处理--命名实体识别(中文高级版)Quick Start
自然语言处理(Natural Language Processing,简称NLP),是为各类企业及开发者提供的用于文本分析及挖掘的核心工具,旨在帮助用户高效的处理文本,已经广泛应用在电商、文娱、司法、公安、金融、医疗、电力等行业客户的多项业务中,取得了良好的效果。命名实体识别服务可以帮助您快速识别文本中的实体,针对电商领域,识别品牌、产品、型号等,同时也包括一些通用领域实体如人名、地名、机构名、时间日期等。进而挖掘各实体间的关系,是进行深度文本挖掘,知识库构建等常用自然语言处理领域里的必备工具。本文将使用Java Common SDK演示命名实体识别服务的快速调用以供参考。
821 0
阿里云自然语言处理--命名实体识别(中文高级版)Quick Start
|
自然语言处理 机器学习/深度学习 Windows
Hanlp-地名识别调试方法详解
HanLP收词特别是实体比较多,因此特别容易造成误识别。下边举几个地名误识别的例子,需要指出的是,后边的机构名识别也以地名识别为基础,因此,如果地名识别不准确,也会导致机构名识别不准确。
1164 0