Hanlp1.7版本的新增功能一览

简介: Hanlp1.7版本在去年下半年的时候就随大快的DKH1.6版本同时发布了,截至目前1.7大版本也更新到了1.7.1了。本篇分别就1.7.0和1.7.1中新增的功能做一个简单的汇总介绍。

Hanlp1.7版本在去年下半年的时候就随大快的DKH1.6版本同时发布了,截至目前1.7大版本也更新到了1.7.1了。本篇分别就1.7.0和1.7.1中新增的功能做一个简单的汇总介绍。

8aaa1f0a4929a837be544809dabdb286ca42530e

HanLP 是由一系列模型与算法组成的 Java 工具包,目标是普及自然语言处理在生产环境中的应用。HanLP 具备功能完善、性能高效、架构清晰、语料时新、可自定义的特点。 在提供丰富功能的同时,HanLP 内部模块坚持低耦合、模型坚持惰性加载、服务坚持静态提供、词典坚持明文发布,使用非常方便,同时自带一些语料处理工具,帮助用户训练自己的模型。

1.7.0更新如下:

新增文本聚类模块(k-means和repeated bisection)

词法分析器新增流水线模式

词法分析器加入规则 enableRuleBasedSegment #991

支持通过 JVM 的启动参数指定 data 路径:java -DHANLP_ROOT=/opt/hanlp 则加载/opt/hanlp/data #983

分词断句支持指定断句颗粒 #1018

CustomDictionary.insert("新词语", "词性标签") 支持省略频次

NeuralNetworkDependencyParser 构造函数接受 Segment

TextRankKeyword 支持构造自任意分词器

优化双数组 trie 树,构建后自动 shrink 到最低内存 #984

修订简繁词典

微调 ngram 和 nr 模型

新数据包 data-for-1.7.0.zip MD5 = 4c396f3039230ddfcef20865264512b1

Portable 版同步升级到 v1.7.0

HanLP v1.7.1 更新内容:

新增可自定义用户词典的维特比分词器 @AnyListen

利用 BufferedOutputStream 加速缓存生成,快37倍

自定义词典兼容含有空格的路径,fix #1025

增加 isCustomNature 方法

使热更新产生的缓存文件包含用户词性,fix #1028

修复可变 DAT 的 entrySet 方法,fix #1038

微调 ngram,简繁等

新数据包 data-for-1.7.1.zip MD5 = 9b8faa7fc7fddb24e27da27bd404126d

Portable 版同步升级到 v1.7.1

相关文章
|
自然语言处理 前端开发 物联网
社区供稿 |【中文Llama-3】Chinese-LLaMA-Alpaca-3开源大模型项目正式发布
Chinese-LLaMA-Alpaca-3开源大模型项目正式发布,开源Llama-3-Chinese-8B(基座模型)和Llama-3-Chinese-8B-Instruct(指令/chat模型)
|
6月前
|
存储 人工智能
Ollama 本地运行 Qwen 3
本指南介绍如何安装和配置Ollama。首先,从官网下载Ollama并选择适合的安装方式:傻瓜式安装或指定路径安装。安装完成后,可通过系统环境变量配置模型下载路径(可选)。最后,运行对应模型命令进行测试使用,包括选择参数量、复制命令并在命令行工具中执行,验证安装是否成功。
2998 19
|
10月前
|
存储 SQL 缓存
PolarDB-X 在 ClickBench 数据集的优化实践
本文介绍了 PolarDB-X 在 ClickBench 数据集上的优化实践,PolarDB-X 通过增加优化器规则、优化执行器层面的 DISTINCT 和自适应两阶段 AGG、MPP 压缩等手段,显著提升了在 ClickBench 上的性能表现,达到了业内领先水平。
|
10月前
|
人工智能 达摩院 计算机视觉
SHMT:体验 AI 虚拟化妆!阿里巴巴达摩院推出自监督化妆转移技术
SHMT 是阿里达摩院与武汉理工等机构联合研发的自监督化妆转移技术,支持高效妆容迁移与动态对齐,适用于图像处理、虚拟试妆等多个领域。
446 9
SHMT:体验 AI 虚拟化妆!阿里巴巴达摩院推出自监督化妆转移技术
|
10月前
|
机器学习/深度学习 人工智能 测试技术
ParGo:字节与中山大学联合推出的多模态大模型连接器,高效对齐视觉与语言模态
ParGo 是字节与中山大学联合推出的多模态大模型连接器,通过全局与局部视角联合,提升视觉与语言模态的对齐效果,支持高效连接、细节感知与自监督学习。
246 6
ParGo:字节与中山大学联合推出的多模态大模型连接器,高效对齐视觉与语言模态
|
10月前
|
人工智能 自然语言处理 数据处理
FlexRAG:不再局限于文本的 RAG!中科院开源多模态 RAG 助手,支持多数据类型、上下文压缩和多种检索器类型
FlexRAG 是中科院推出的高性能多模态 RAG 框架,支持多数据类型、上下文压缩和多模态数据处理,显著提升生成模型的表现。
1121 17
FlexRAG:不再局限于文本的 RAG!中科院开源多模态 RAG 助手,支持多数据类型、上下文压缩和多种检索器类型
|
10月前
|
人工智能 自然语言处理 架构师
字节面试: es怎么提升性能和精准度?(尼恩独家,史上最全)
本文由40岁老架构师尼恩撰写,针对ES(Elasticsearch)提升搜索性能和精准度的面试题进行详细解析。文章首先指出,提升ES速度和精准度是两个独立的问题,分别涉及性能优化和精准度优化。这些内容不仅有助于应对面试中的难题,还能帮助开发者在实际项目中构建更高效的搜索系统。尼恩强调,掌握这些知识后可以在面试中“吊打”面试官,轻松获得理想Offer。同时,他还提供了《尼恩Java面试宝典PDF》等资源供读者学习参考。
|
关系型数据库 MySQL Linux
windows系统中docker部署mysql后,使用navicate链接
windows系统中docker部署mysql后,使用navicate链接
521 0
|
存储 消息中间件 缓存
基于 MaxCompute 的实时数据处理实践
MaxCompute 通过流式数据高性能写入和秒级别查询能力(查询加速),提供EB级云原生数仓近实时分析能力;高效的实现对变化中的数据进行快速分析及决策辅助。当前Demo基于近实时交互式BI分析/决策辅助场景,实现指标卡近实时BI分析、近实时市场监测、近实时趋势分析、近实时销量拆分功能。
2122 1
基于 MaxCompute 的实时数据处理实践