汉语言处理包 HanLP v1.3.5,新功能、优化与维护

简介:

HanLP v1.3.5 更新内容:

大幅优化CRF分词和二阶HMM分词,重构CharacterBasedGenerativeModelSegment

自定义词典支持热更新:#563 ,ngram模型支持热加载:#580

新增一个提高用户词典优先级的开关:#633

支持98年人民日报的复合词语料格式,如"[中央/n 人民/n 广播/vn 电台/n]nt"

开放TextRank关键词提取中的最大迭代次数参数:#577

为Term添加equal方法

TextRankKeyword 提取窗口相近词的强化

文本摘要方法支持自定义句子分隔符

提高AC自动机健壮性,添加hasKeyword接口

修复BinTrie.remove不存在的key时导致的问题:#540

解决mini模型下同时打开所有命名实体识别和数词识别时触发的问题:#542

CharTable.txt 添加上下标字符的对应关系

将“t”等不可打印的字符视作分隔符:#584

中文数词与阿拉伯数词切分开

修正全角年份识别中字符串长度错误,修正数字识别工具的错误,增加测试代码。支持读取包含BOM的文本文件。

校对CoreNatureDictionary.txt,删除以分号开头的错误词语:#221 (comment)

修复CoNLLWord中toString方法的bug

微调人名识别模型:#562 删除人名识别模型中的高频动词D标签,降低误命中率,音译人名识别取消外国地名触发

修复Nature.fromString和IOUtil.loadDictionary:#626

修正“还款”的拼音:#565 修正简繁一多对应校验表/梁→梁樑(樑為梁的異體字,由簡體轉為繁體時僅需採用梁即可):#606

数据包依然兼容data-for-1.3.3.zip: 国内网盘 或 海外連結 md5=71f6fbbcde4ad70b5b97d4a01ca03c3c
获取最新版的数据包,请fork一份并git clone https://github.com/YourName/HanLP.git

Portable版同步升级到v1.3.5

    <dependency>
        <groupId>com.hankcs</groupId>
        <artifactId>hanlp</artifactId>
        <version>portable-1.3.5</version>
    </dependency>

HanLP是由一系列模型与算法组成的Java工具包,目标是普及自然语言处理在生产环境中的应用。HanLP具备功能完善、性能高效、架构清晰、语料时新、可自定义的特点。

在提供丰富功能的同时,HanLP内部模块坚持低耦合、模型坚持惰性加载、服务坚持静态提供、词典坚持明文发布,使用非常方便,同时自带一些语料处理工具,帮助用户训练自己的模型。

文章来源于网络

相关文章
|
监控 API C++
一个更好的文件监控类,基于 DotNet 官方提供的 FileSystemWatcher
一个更好的文件监控类,基于 DotNet 官方提供的 FileSystemWatcher
|
5月前
|
运维 JavaScript Serverless
函数计算产品使用问题之构建自己的流水线时,已经有一个基础第三方包的层,想在这个基础上进行额外的第三方包安装,该如何实现
函数计算产品作为一种事件驱动的全托管计算服务,让用户能够专注于业务逻辑的编写,而无需关心底层服务器的管理与运维。你可以有效地利用函数计算产品来支撑各类应用场景,从简单的数据处理到复杂的业务逻辑,实现快速、高效、低成本的云上部署与运维。以下是一些关于使用函数计算产品的合集和要点,帮助你更好地理解和应用这一服务。
|
6月前
|
Python
在Python中快捷引入缺失包的技巧和实践
在Python中快捷引入缺失包的技巧和实践
46 0
jira学习案例124-代码分割优化性能
jira学习案例124-代码分割优化性能
80 0
jira学习案例124-代码分割优化性能
|
API 开发工具 Android开发
Gradle 系列(5)一键检索未适配 64 位架构的 so 文件
Gradle 系列(5)一键检索未适配 64 位架构的 so 文件
428 0
Gradle 系列(5)一键检索未适配 64 位架构的 so 文件
|
存储 JSON 数据格式
Python配置文件模块埋个坑,险些影响了版本上线!
configparser是python推荐使用的配置文件管理模块,但坦白说它真的不怎么好用,使用yaml、json等格式的存储,在多层级数据存储上,效率要比它高很多。但存在即合理,不是所有人都会使用yaml的格式,至于json的格式,很容易导致确实括号等问题,最终json.loads时报错....
306 0
|
网络协议 测试技术 C语言
高效开源的网络扫描框架 —— NINJA-PingU
这个扫描框架有着一个很萌的名字(企鹅忍者),同时它还有其他优秀的特性,开源,支持插件,高效。 NINJA-PingU作为一个扫描框架,可不仅仅只有ping这样简单的功能,他是一个专门为大型网络扫描所设计的框架,兼顾效率的同时,支持插件的开发。
452 0
高效开源的网络扫描框架 —— NINJA-PingU
|
IDE 算法 程序员
Python 开发工具集:关于文档、测试、调试、程序的优化和分析
Python已经演化出了一个广泛的生态系统,该生态系统能够让Python程序员的生活变得更加简单,减少他们重复造轮的工作。同样的理念也适用于工具开发者的工作,即便他们开发出的工具并没有出现在最终的程序中。本文将介绍Python程序员必知必会的开发者工具。
208 0
|
Serverless
Fun 3.0 发布——资源部署、依赖下载、代码编译等功能又又又增强啦!
Fun: Fun 是一个用于支持 Serverless 应用部署的工具,能帮助您便捷地管理函数计算、API 网关、日志服务等资源。它通过一个模板文件(template.yml),协助您进行开发、构建、部署操作。
3178 0
下一篇
无影云桌面