HanLP极致简繁转换

简介:

谈起简繁转换,许多人以为是小意思,按字转换就行了。事实上,汉语历史悠久,地域复杂,发展至今在字符级别存在“一简对多繁”和“一繁对多简”,在词语级别上存在“简繁分歧词”,在港澳台等地则存在“字词习惯不同”的情况。为此,HanLP新增了“简体”“繁体”“臺灣正體”“香港繁體”间的相互转换功能,力图将简繁转换做到极致。

image

关于这些汉语语言上的详情,请参考郭家寶的OpenCC项目。HanLP整合了该项目的词库,用原生的AhoCorasickDoubleArrayTrie算法实现了各语言分支的转换。对于简繁转换模块来说,算法都是类似的,最宝贵的地方在于词库,在此向OpenCC表示敬意和感谢!

快速上手
一个Demo
System.out.println(HanLP.convertToTraditionalChinese("“以后等你当上皇后,就能买草莓庆祝了”。发现一根白头发"));
System.out.println(HanLP.convertToSimplifiedChinese("憑藉筆記簿型電腦寫程式HanLP"));
// 简体转台湾繁体
System.out.println(HanLP.s2tw("hankcs在台湾写代码"));
// 台湾繁体转简体
System.out.println(HanLP.tw2s("hankcs在臺灣寫程式碼"));
// 简体转香港繁体
System.out.println(HanLP.s2hk("hankcs在香港写代码"));
// 香港繁体转简体
System.out.println(HanLP.hk2s("hankcs在香港寫代碼"));
// 香港繁体转台湾繁体
System.out.println(HanLP.hk2tw("hankcs在臺灣寫代碼"));
// 台湾繁体转香港繁体
System.out.println(HanLP.tw2hk("hankcs在香港寫程式碼"));

// 香港/台湾繁体和HanLP标准繁体的互转
System.out.println(HanLP.t2tw("hankcs在臺灣寫代碼"));
System.out.println(HanLP.t2hk("hankcs在臺灣寫代碼"));

System.out.println(HanLP.tw2t("hankcs在臺灣寫程式碼"));
System.out.println(HanLP.hk2t("hankcs在台灣寫代碼"));
输出
「以後等你當上皇后,就能買草莓慶祝了」。發現一根白頭髮
凭借笔记本电脑写程序HanLP
hankcs在臺灣寫程式碼
hankcs在台湾写代码
hankcs在香港寫代碼
hankcs在香港写代码
hankcs在臺灣寫程式碼
hankcs在香港寫代碼
hankcs在臺灣寫程式碼
hankcs在台灣寫代碼
hankcs在臺灣寫代碼
hankcs在臺灣寫代碼
说明
注意在旧版HanLP中,简体“草莓”被转换为“士多啤梨”。后来有用户告诉我“士多啤梨”是香港的用法,不属于通俗意义上的“繁体”,所以在新版中去除了这一转换。而“臺灣”“程式碼”是台湾地区的用法,“台灣”“代碼”则是香港地区的用法,所以

System.out.println(HanLP.t2tw("hankcs在臺灣寫代碼"));
System.out.println(HanLP.t2hk("hankcs在臺灣寫代碼"));
分别输出了:

hankcs在臺灣寫程式碼
hankcs在台灣寫代碼
这里面存在微妙的不同。

基本定义
简体
HanLP中的简体特指大陆地区的简体字。

繁体
HanLP中的繁体是通俗意义上的繁体中文,即受众最广的繁体表示。如果说OpenCC定义了自己的“OpenCC繁体标准”的话,那么这也可以算得上“HanLP繁体标准”。

香港繁體
指的是香港地区使用的繁体中文,据OpenCC的wiki介绍,属于“香港小學學習字詞表標準”。

臺灣正體
指的是台湾地区使用的繁体中文,即“臺灣正體標準”。

接口一览
HanLP支持上述四种中文任意两种之间的转换:

/**

  • 简转繁,是{@link com.hankcs.hanlp.HanLP#convertToTraditionalChinese(java.lang.String)}的简称
  • @param s 简体中文
  • @return 繁体中文(大陆标准)
    */

public static String s2t(String s)
{

return HanLP.convertToTraditionalChinese(s);

}

/**

  • 繁转简,是{@link HanLP#convertToSimplifiedChinese(String)}的简称
  • @param t 繁体中文(大陆标准)
  • @return 简体中文
    */

public static String t2s(String t)
{

return HanLP.convertToSimplifiedChinese(t);

}

/**

  • 簡體到臺灣正體
  • @param s 簡體
  • @return 臺灣正體
    */

public static String s2tw(String s)
{

return SimplifiedToTaiwanChineseDictionary.convertToTraditionalTaiwanChinese(s);

}

/**

  • 臺灣正體到簡體
  • @param tw 臺灣正體
  • @return 簡體
    */

public static String tw2s(String tw)
{

return TaiwanToSimplifiedChineseDictionary.convertToSimplifiedChinese(tw);

}

/**

  • 簡體到香港繁體
  • @param s 簡體
  • @return 香港繁體
    */

public static String s2hk(String s)
{

return SimplifiedToHongKongChineseDictionary.convertToTraditionalHongKongChinese(s);

}

/**

  • 香港繁體到簡體
  • @param hk 香港繁體
  • @return 簡體
    */

public static String hk2s(String hk)
{

return HongKongToSimplifiedChineseDictionary.convertToSimplifiedChinese(hk);

}

/**

  • 繁體到臺灣正體
  • @param t 繁體
  • @return 臺灣正體
    */

public static String t2tw(String t)
{

return TraditionalToTaiwanChineseDictionary.convertToTaiwanChinese(t);

}

/**

  • 臺灣正體到繁體
  • @param tw 臺灣正體
  • @return 繁體
    */

public static String tw2t(String tw)
{

return TaiwanToTraditionalChineseDictionary.convertToTraditionalChinese(tw);

}

/**

  • 繁體到香港繁體
  • @param t 繁體
  • @return 香港繁體
    */

public static String t2hk(String t)
{

return TraditionalToHongKongChineseDictionary.convertToHongKongTraditionalChinese(t);

}

/**

  • 香港繁體到繁體
  • @param hk 香港繁體
  • @return 繁體
    */

public static String hk2t(String hk)
{

return HongKongToTraditionalChineseDictionary.convertToTraditionalChinese(hk);

}

/**

  • 香港繁體到臺灣正體
  • @param hk 香港繁體
  • @return 臺灣正體
    */

public static String hk2tw(String hk)
{

return HongKongToTaiwanChineseDictionary.convertToTraditionalTaiwanChinese(hk);

}

/**

  • 臺灣正體到香港繁體
  • @param tw 臺灣正體
  • @return 香港繁體
    */

public static String tw2hk(String tw)
{

return TaiwanToHongKongChineseDictionary.convertToTraditionalHongKongChinese(tw);

}
共计12种接口。命名规范按照X2Y的形式,X表示源语种,Y表示目标语种。

词库
由于我并没有OpenCC作者那样深厚的繁体中文语言知识,所以这些接口未必能完美地满足广大繁体中文用户的需求,希望大家多多包涵,提出宝贵意见。

所有的词库都是以文本方式维护,命名规则与接口保持一致。不过,词典的文本形式只有如下四种:

s2t.txt t2hk.txt t2s.txt t2tw.txt
类似tw2hk的词典并不存在,tw2hk只存在自动推导出的bin文件,其推导规则为

逆转t2tw得到tw2t
利用t2hk得到tw2hk
推导由HanLP程序控制,用户修改推导过程中用到的四个词典后需要删除推导结果的缓存文件才能生效。其他8种接口的推导过程类似于此,不再赘述。

文章来源于网络

相关文章
|
2月前
|
机器学习/深度学习 数据采集 人工智能
Llama 8B搜索100次超越GPT-4o!推理+搜索即可提升性能,新Scaling Law诞生?
【9月更文挑战第8天】在人工智能领域,理查德·萨顿提出了一项重要观点,即利用通用计算方法最终是最有效的途径,这一理念在诸如计算机象棋、围棋、语音识别及视觉等多个子领域中得到了验证。萨顿强调,计算能力的指数增长使得依赖大量计算的技术更加吸引人,并且从长远来看,计算能力将是唯一重要的因素。尽管他的观点强调了搜索和学习方法的力量,但也有人批评其忽略了领域知识和其他因素的重要性。
38 2
|
5月前
|
自然语言处理 搜索推荐 算法
ES之道:IK分词器的魔法般变身
ES之道:IK分词器的魔法般变身
74 0
|
6月前
|
自然语言处理 前端开发 Swift
社区供稿 | 中文llama3模型哪家强?llama3汉化版微调模型大比拼
随着llama3的发布,业界越来越多的针对其中文能力的微调版本也不断涌现出来,我们在ModelScope魔搭社区上,搜集到几款比较受欢迎的llama3中文版本模型,来从多个维度评测一下,其对齐后的中文能力到底如何? 微调后是否产生了灾难性遗忘问题。
|
6月前
|
JSON 自然语言处理 API
【LLM落地应用实战】LLM + TextIn文档解析技术实测
文档解析技术是从这些海量且复杂的数据中高效准确地提取有价值信息的关键。它从输入文档图像开始,经过图像处理、版面分析、内容识别和语义理解等流程,最终输出结构化电子文档或语义信息。通过文档解析技术,我们能够深入理解文档的结构、内容和主题,使得信息更易于检索、分析和利用。
|
自然语言处理 PyTorch 算法框架/工具
CLUE社区最新神器!PromptCLUE:大规模多任务Prompt预训练中文开源模型
CLUE社区最新神器!PromptCLUE:大规模多任务Prompt预训练中文开源模型
494 0
|
安全 自然语言处理
Modelscope 中文竞技场大模型体验
Modelscope 中文竞技场大模型体验
208 0
|
机器学习/深度学习 自然语言处理 搜索推荐
北大开源分词工具包: 准确率远超THULAC、jieba 分词
北大开源分词工具包: 准确率远超THULAC、jieba 分词
|
存储 机器学习/深度学习 并行计算
一行代码12倍加速Bert推理,OpenAI编程语言加持的引擎火了
一行代码12倍加速Bert推理,OpenAI编程语言加持的引擎火了
472 0
|
存储 人工智能 自然语言处理
中文分词模型体验
中文分词任务就是把连续的汉字分隔成具有语言语义学意义的词汇。中文的书写习惯不像英文等日耳曼语系语言词与词之前显式的用空格分隔。为了让计算机理解中文文本,通常来说中文信息处理的第一步就是进行文本分词。
1130 32
中文分词模型体验
|
机器学习/深度学习 消息中间件 缓存
weidl x DeepRec:热门微博推荐框架性能提升实战
主要介绍热门微博推荐的整体架构与DeepRec.框架性能上的提升,并详细剖析的weidl平台中使用的DeepRec