文档备案控制台

开发者社区人工智能文章正文

hanlp源码解读之字符正规化CharTable

2018-10-26 5266

版权

版权声明：

本文内容由阿里云实名注册用户自发贡献，版权归原作者所有，阿里云开发者社区不拥有其著作权，亦不承担相应法律责任。具体规则请查看《阿里云开发者社区用户服务协议》和《阿里云开发者社区知识产权保护指引》。如果您发现本社区中有涉嫌抄袭的内容，填写侵权投诉表单进行举报，一经查实，本社区将立刻删除涉嫌侵权内容。

简介：

概述：字符正规化是指在分词之前把繁体转成简体、大写转成小写等，在自然语言处理中这是必不可以的一个步骤！在hanlp中的实现方法是基于词典的，也就是正规则字符对照表。就是“data/dictionary/other/CharTable.txt” 这个词典，打开后是下面这个样子的！

在java程序中如何实现呢，相信大部分人会想用到用HashMap缓存起来不就可以了吗！当然，这个方法是可行的，但是HashMap在数据量比较大时，时间复杂度是接近O(n)的。这也是为什么加载词典用trie树，而不是直接用HashMap的原因了,当然内存也是一个方面，本篇文章不会讨论！下面我们来看下hanlp代码里的具体实现。

在hanlp中，是采用一维数据实现的，下面一步步来看源码的实现！源码位于com.hankcs.hanlp.HanLP包下的CharTable类中，这个类主是要加把 CharTable.txt加载到一维数组中。为了方便阅读，下面直接在代码中加入注释!

在分词之前会首化调用正规化接口（在启用正规化的情况下）

下面来看下CharTable.normalization(text);这个函数的实现：这个函数极其简单，就是对text中的每个字符查询一维数据COVERT,看到这里应该就能明白，正规化最重要的就是加载txt文件到CONVERT数组中

下面看具本的代码，敝人在代码中都加入了注释，此处不再另行讲解

文章来源于亚当-adam的博客

文章标签：

自然语言处理

Java

缓存

蓝天白芸朵

目录

相关文章

猫头虎

|

算法搜索推荐 Java

Java8 到 Java17 升级指南(Bug大全)

Java8 到 Java17 升级指南(Bug大全)

猫头虎

893 0 0

时间不会赖着不走

|

前端开发

CSS中的&代表的什么意思

CSS中的&代表的什么意思

时间不会赖着不走

361 0 0

LucianaiB

|

5天前

|

人工智能数据可视化安全

王炸组合！阿里云 OpenClaw X 飞书 CLI，开启 Agent 基建狂潮！(附带免费使用6个月服务器)

本文详解如何用阿里云Lighthouse一键部署OpenClaw，结合飞书CLI等工具，让AI真正“动手”——自动群发、生成科研日报、整理知识库。核心理念：未来软件应为AI而生，CLI即AI的“手脚”，实现高效、安全、可控的智能自动化。

LucianaiB

13142 10 31

王炸组合！阿里云 OpenClaw X 飞书 CLI，开启 Agent 基建狂潮！(附带免费使用6个月服务器)

LucianaiB

|

17天前

|

人工智能 JSON 机器人

让龙虾成为你的“公众号分身” | 阿里云服务器玩Openclaw

本文带你零成本玩转OpenClaw：学生认证白嫖6个月阿里云服务器，手把手配置飞书机器人、接入免费/高性价比AI模型（NVIDIA/通义），并打造微信公众号“全自动分身”——实时抓热榜、AI选题拆解、一键发布草稿，5分钟完成热点→文章全流程！

LucianaiB

24777 140 518

让龙虾成为你的“公众号分身” | 阿里云服务器玩Openclaw

$雪地伤孤$

|

7天前

|

人工智能 JSON 监控

Claude Code 源码泄露：一份价值亿元的 AI 工程公开课

我以为顶级 AI 产品的护城河是模型。读完这 51.2 万行泄露的源码，我发现自己错了。

$雪地伤孤$

4532 20 67

热门文章

最新文章

对比MySQL，一文看透HBase的能力及使用场景

[UML]UML系列——用例图中的各种关系（include、extend）

七款值得推荐的开源密码管理工具

阿里云 Aliplayer高级功能介绍(九)：自动播放体验

FRP内网穿透

NSSCTF之Web篇刷题记录(12)

研究院‘产品会议’操作实践

C#编程模式之扩展命令

批量建立用户和设置密码，批量删除用户脚本

Android CardView设置成普通的Framelayout

Debian/Ubuntu 环境 PolarDB-X 单机版 DEB 包安装综合指南

阿里云Qwen3.6-Plus收费价格：输入、输出、显式缓存收费标准，2026最新

Docker镜像拉了一下午还没完？我受够了，花了一周找替代方案

别再把AI当搜索引擎用了！3个提示词技巧，让你的工作效率翻倍

别再乱问AI了！掌握这3个“指令性提示词”，效率提升300%

相关电子书

更多

低代码开发师（初级）实战教程

冬季实战营第三期：MySQL数据库进阶实战

阿里巴巴DevOps 最佳实践手册

下一篇

PHP：将本地文件上传到阿里云OSS存储