HanLP极致简繁转换详细讲解

简介: 谈起简繁转换,许多人以为是小意思,按字转换就行了。事实上,汉语历史悠久,地域复杂,发展至今在字符级别存在“一简对多繁”和“一繁对多简”,在词语级别上存在“简繁分歧词”,在港澳台等地则存在“字词习惯不同”的情况。

HanLP极致简繁转换详细讲解


谈起简繁转换,许多人以为是小意思,按字转换就行了。事实上,汉语历史悠久,地域复杂,发展至今在字符级别存在“一简对多繁”和“一繁对多简”,在词语级别上存在“简繁分歧词”,在港澳台等地则存在“字词习惯不同”的情况。为此,HanLP新增了“简体”“繁体”“臺灣正體”“香港繁體”间的相互转换功能,力图将简繁转换做到极致。

b7a8c62b25aaa693007a46c499a460dfc89da5f5 

关于这些汉语语言上的详情,请参考郭家寶的OpenCC项目。HanLP整合了该项目的词库,用原生的AhoCorasickDoubleArrayTrie算法实现了各语言分支的转换。对于简繁转换模块来说,算法都是类似的,最宝贵的地方在于词库,在此向OpenCC表示敬意和感谢!

 

快速上手

一个Demo

9be7355b82f5daaf29d4f0fe44b02aa557577b18 

输出

92d5e758686336bc6241d5c035079a8e7c4aa11f 

说明

注意在旧版HanLP中,简体“草莓”被转换为“士多啤梨”。后来有用户告诉我“士多啤梨”是香港的用法,不属于通俗意义上的“繁体”,所以在新版中去除了这一转换。而“臺灣”“程式碼”是台湾地区的用法,“台灣”“代碼”则是香港地区的用法,所以

 

1、System.out.println(HanLP.t2tw("hankcs在臺灣寫代碼"));

2、System.out.println(HanLP.t2hk("hankcs在臺灣寫代碼"));

 

分别输出了

 

1、hankcs在臺灣寫程式碼

2、hankcs在台灣寫代碼

 

这里面存在微妙的不同。

 

基本定义

 

简体

 

HanLP中的简体特指大陆地区的简体字。

 

繁体

 

HanLP中的繁体是通俗意义上的繁体中文,即受众最广的繁体表示。如果说OpenCC定义了自己的“OpenCC繁体标准”的话,那么这也可以算得上“HanLP繁体标准”。

 

香港繁體

 

指的是香港地区使用的繁体中文,据OpenCC的wiki介绍,属于“香港小學學習字詞表標準”。

 

臺灣正體

 

指的是台湾地区使用的繁体中文,即“臺灣正體標準”。

 

接口一览

 

HanLP支持上述四种中文任意两种之间的转换:

357f2c9ebe9c530f497fa39fa43744af804afd5e 

2f1e5fa35f527bfaa157542f8def446576fc9822

4240810d1b2fc8c538e9465f354f0bea8125baa8

fd802e0221f8922468ba75da53c5ca49fa9e3746

共计12种接口。命名规范按照X2Y的形式,X表示源语种,Y表示目标语种。

词库

 

由于我并没有OpenCC作者那样深厚的繁体中文语言知识,所以这些接口未必能完美地满足广大繁体中文用户的需求,希望大家多多包涵,提出宝贵意见。

 

所有的词库都是以文本方式维护,命名规则与接口保持一致。不过,词典的文本形式只有如下四种:

s2t.txt         t2hk.txt        t2s.txt         t2tw.txt

类似tw2hk的词典并不存在,tw2hk只存在自动推导出的bin文件,其推导规则为

 

1、逆转t2tw得到tw2t

2、利用t2hk得到tw2hk

 

推导由HanLP程序控制,用户修改推导过程中用到的四个词典后需要删除推导结果的缓存文件才能生效。其他8种接口的推导过程类似于此,不再赘述。

相关文章
|
2月前
|
算法 API C++
模型落地系列 | TensorRT应该如何添加自己的插件?
模型落地系列 | TensorRT应该如何添加自己的插件?
82 1
|
8月前
|
存储 缓存 人工智能
解码 LangChain | LangChain + GPTCache =兼具低成本与高性能的 LLM
GPTCache 是一个用于存储 LLM 响应的语义缓存层。它可以为 LLM 相关应用构建相似语义缓存,当相似的问题请求多次出现时,可以直接从缓存中获取,在减少请求响应时间的同时也降低了 LLM 的使用成本。
353 0
|
机器学习/深度学习 人工智能 自然语言处理
简单易用高性能!一文了解开源迁移学习框架EasyTransfer
近日,阿里云正式开源了深度迁移学习框架EasyTransfer,这是业界首个面向NLP场景的深度迁移学习框架。该框架由阿里云机器学习PAI团队研发,让自然语言处理场景的模型预训练和迁移学习开发与部署更加简单和高效。本文将对EasyTransfer进行深度解读。开源地址:https://github.com/alibaba/EasyTransfer
4403 0
简单易用高性能!一文了解开源迁移学习框架EasyTransfer
|
7月前
|
自然语言处理 搜索推荐 算法
中文分词利器-jieba
中文分词利器-jieba
|
8月前
|
数据采集 机器学习/深度学习 人工智能
达摩院开源多语言大模型PolyLM, 覆盖集团核心小语种,效果超LLAMA、BLOOM
本文作者:宝嵩,鹏程,呋喃主要贡献者:鹏程,呋喃,莉莱,重笙,筱苡,星峰,红罗,祝鸿,洛新,宝嵩,轻径,黄非摘要:大型语言模型 (LLM) 展示了出色的遵从自然语言指令理解、推理和生成的能力。然而,开发LLMs主要集中在高资源语言,例如英语,从而限制了它们在其他语言中的应用和研究。因此,我们开发了PolyLM,一个在6400亿个词的数据上从头训练的多语言语言模型,包括两种模型大小(1.7B和13B
1386 0
达摩院开源多语言大模型PolyLM, 覆盖集团核心小语种,效果超LLAMA、BLOOM
|
10月前
|
人工智能 开发框架 搜索推荐
大语言模型的开发利器langchain
最近随着chatgpt的兴起,人工智能和大语言模型又再次进入了人们的视野,不同的是这一次像是来真的,各大公司都在拼命投入,希望能在未来的AI赛道上占有一席之地。因为AI需要大规模的算力,尤其是对于大语言模型来说。大规模的算力就意味着需要大量金钱的投入。那么对于小公司或者个人来说是不是什么都做不了呢?
|
存储 人工智能 自然语言处理
中文分词模型体验
中文分词任务就是把连续的汉字分隔成具有语言语义学意义的词汇。中文的书写习惯不像英文等日耳曼语系语言词与词之前显式的用空格分隔。为了让计算机理解中文文本,通常来说中文信息处理的第一步就是进行文本分词。
999 32
中文分词模型体验
|
存储 自然语言处理 搜索推荐
快速上手搜索引擎的秘密武器——Lucene
这篇文章介绍下这个 Lucene,下篇写写 ElasticSearch , 然后再继续填 Spring 的坑 🕳 内容的话就很基础啦🐖,希望能帮你快速入门,了解下它
118 0
|
运维
Lucene solr 大规模应用实践一手经验
假期重新把之前在新浪博客里面的文字梳理了下,搬到这里。 本文sole lucene的一些实践小经验。 之前是截图保存的,这里保留图片模式。
64 0
Lucene solr 大规模应用实践一手经验
|
自然语言处理 算法 测试技术
分词工具Hanlp基于感知机的中文分词框架
结构化感知机标注框架是一套利用感知机做序列标注任务,并且应用到中文分词、词性标注与命名实体识别这三个问题的完整在线学习框架,该框架利用
2042 0