hanlp和jieba等六大中文分工具的测试对比

简介: 本篇文章测试的哈工大LTP、中科院计算所NLPIR、清华大学THULAC和jieba、FoolNLTK、HanLP这六大中文分词工具是由 水...琥珀 完成的。相关测试的文章之前也看到过一些,但本篇阐述的可以说是比较详细的了。这里就分享一下给各位朋友!

 

本篇文章测试的哈工大LTP、中科院计算所NLPIR、清华大学THULACjiebaFoolNLTKHanLP这六大中文分词工具是由  ...琥珀 完成的。相关测试的文章之前也看到过一些,但本篇阐述的可以说是比较详细的了。这里就分享一下给各位朋友!

安装调用

jieba“结巴”中文分词:做最好的 Python 中文分词组件

THULAC清华大学:一个高效的中文词法分析工具包

FoolNLTK可能不是最快的开源中文分词,但很可能是最准的开源中文分词

教程:FoolNLTK HanLP使用

HanLP最高分词速度2,000万字/

**中科院 Ictclas 分词系统 - NLPIR汉语分词系统

哈工大 LTP

LTP安装教程[python 哈工大NTP分词 安装pyltp 及配置模型(新)]

如下是测试代码及结果

 

f2a674d96dbb32683f0a1f8bdb4645b86986e5f3

下面测试的文本上是极易分词错误的文本,分词的效果在很大程度上就可以提现分词器的分词情况。接下来验证一下,分词器的宣传语是否得当吧。

 


6830a493ecff3b47c69783ab943ca22be51885e9

jieba 中文分词


c20fdde81a39f5b0ee4045a3530f6703c38873cc

 

thulac 中文分词


d96a376af0e79738f779362548344661146e48cf

fool 中文分词

c8e87f55a6a3b8519c37307742861d8a7554d6c2


HanLP 中文分词

 

6fc42eada4f85182fa94d9eb24e96f2527739e49

中科院分词 nlpir

 

ff00cfeab465d2e838c5a043824982169d79a522

哈工大ltp 分词

 

fb9b7863696b004dc7abb1c9abfd23d0271e6049

以上可以看出分词的时间,为了方便比较进行如下操作:

 

分词效果对比

c026dd8234a1b195792271bf6cb8cbcad1b8bef3 aae553ebe9c3ca8c4df54efca0187d29d6f7866a1fa56db2c60bd71d84182504b9f49d95d231d6d7

 

 

 


 

结果为:

8005fa184b2db00bd86c185bf1e61ac47913d7e08e0931bc2557e2c107ea3c8e56181ea9f2d93eba48d19583b46ed9fc5aae75c049d07483a279acc521d0698b0f2c8a8f5e55da9278c583312a1ba9d9 

 

 

 


总结:

1.时间上(不包括加载包的时间),对于相同的文本测试两次,四个分词器时间分别为:

jieba:    0.01699233055114746 1.8318662643432617

thulac 10.118737936019897 8.155954599380493

fool 2.227612018585205 2.892209053039551

HanLP3.6987085342407227 1.443108320236206

中科院nlpir0.002994060516357422

哈工大ltp_ 0.09294390678405762

可以看出平均耗时最短的是中科院nlpir分词,最长的是thulac,时间的差异还是比较大的。

2.分词准确率上,通过分词效果操作可以看出

第一句:结婚的和尚未结婚的确实在干扰分词啊

四个分词器都表现良好,唯一不同的是fool将“干扰分词”合为一个词

第二句:汽水不如果汁好喝,重点在“不如果”,“”不如“” 和“”如果“” 在中文中都可以成词,但是在这个句子里是不如 与果汁 正确分词

jieba  thulac fool HanLP

jiebafool HanLP正确  thulac错误

第三句: 小白痴痴地在门前等小黑回来,体现在人名的合理分词上

正确是:

小白/ 痴痴地/ / 门前/ / 小黑/ 回来

jiebafool HanLP正确,thulac在两处分词错误: 小白_np 痴痴_a _u _p 门前_s _u _a 黑回_n _f

第四句:是有关司法领域文本分词

发现HanLP的分词粒度比较大,fool分词粒度较小,导致fool分词在上有较大的误差。在人名识别上没有太大的差异,在组织机构名上分词,分词的颗粒度有一些差异,Hanlp在机构名的分词上略胜一筹。

六种分词器使用建议:

对命名实体识别要求较高的可以选择HanLP,根据说明其训练的语料比较多,载入了很多实体库,通过测试在实体边界的识别上有一定的优势。

中科院的分词,是学术界比较权威的,对比来看哈工大的分词器也具有比较高的优势。同时这两款分词器的安装虽然不难,但比较jieba的安装显得繁琐一点,代码迁移性会相对弱一点。哈工大分词器pyltp安装配置模型教程

结巴因为其安装简单,有三种模式和其他功能,支持语言广泛,流行度比较高,且在操作文件上有比较好的方法好用python -m jieba news.txt > cut_result.txt

对于分词器的其他功能就可以在文章开头的链接查看,比如说哈工大的pyltp在命名实体识别方面,可以输出标注的词向量,是非常方便基础研究的命名实体的标注工作。

 

e677469e70d2d62dc36e4ff6b5df7bf8759884bd

精简文本 效果对比

 

c911a243046570d44c0b570fdff9450869e83994ea92a0d4753dd6edfe354c8d0c826b20ed0ccf62

 


 

 

 


 

相关文章
|
3月前
|
前端开发 测试技术 Python
【Selenium全攻略】掌握这一工具,实现自动化测试的所有梦想
本文分享了使用Selenium进行UI自动化测试的全过程,包括开发环境部署、代码实现、思路分析和难点解析。作者通过一个实际案例,讲述了如何利用Selenium处理前端生成报告失败的问题,以及在UI自动化中定位元素和处理元素不唯一的情况。同时,文章强调了解决问题思路的重要性,鼓励读者开拓思维,寻找不同的解决方案。
133 4
【Selenium全攻略】掌握这一工具,实现自动化测试的所有梦想
|
3月前
|
前端开发 jenkins 测试技术
自动化测试介绍,为何 Apifox 是进行自动化测试的最佳工具
自动化测试利用专用软件执行测试用例,比手动测试更高效准确。Apifox是一款集API文档、调试与自动化测试于一体的工具,提供一体化解决方案,简化API变更管理。其强大的测试功能支持丰富的断言及测试场景组合,便于模拟真实业务流程。Apifox还提供详尽的测试报告与分析功能,有助于快速定位问题。此外,它能轻松集成到CI/CD流程中,并支持定时任务及多分支管理,极大提升了测试效率和团队协作。相较于其他工具,Apifox以其全面的功能和友好的界面脱颖而出。
|
3天前
|
Web App开发 定位技术 iOS开发
Playwright 是一个强大的工具,用于在各种浏览器上测试应用,并模拟真实设备如手机和平板。通过配置 `playwright.devices`,可以轻松模拟不同设备的用户代理、屏幕尺寸、视口等特性。此外,Playwright 还支持模拟地理位置、区域设置、时区、权限(如通知)和配色方案,使测试更加全面和真实。例如,可以在配置文件中设置全局的区域设置和时区,然后在特定测试中进行覆盖。同时,还可以动态更改地理位置和媒体类型,以适应不同的测试需求。
Playwright 是一个强大的工具,用于在各种浏览器上测试应用,并模拟真实设备如手机和平板。通过配置 `playwright.devices`,可以轻松模拟不同设备的用户代理、屏幕尺寸、视口等特性。此外,Playwright 还支持模拟地理位置、区域设置、时区、权限(如通知)和配色方案,使测试更加全面和真实。例如,可以在配置文件中设置全局的区域设置和时区,然后在特定测试中进行覆盖。同时,还可以动态更改地理位置和媒体类型,以适应不同的测试需求。
7 1
|
27天前
|
Java 流计算
Flink-03 Flink Java 3分钟上手 Stream 给 Flink-02 DataStreamSource Socket写一个测试的工具!
Flink-03 Flink Java 3分钟上手 Stream 给 Flink-02 DataStreamSource Socket写一个测试的工具!
34 1
Flink-03 Flink Java 3分钟上手 Stream 给 Flink-02 DataStreamSource Socket写一个测试的工具!
|
17天前
|
jenkins 测试技术 持续交付
提升软件测试效率的实用技巧与工具
【10月更文挑战第12天】 本文将深入探讨如何通过优化测试流程、引入自动化工具和持续集成等策略,来显著提高软件测试的效率。我们将分享一些实用的技巧和工具,帮助测试人员更高效地发现和定位问题,确保软件质量。
33 2
|
25天前
|
测试技术
黑盒功能测试工具UFT的使用
黑盒功能测试工具UFT的使用
26 0
黑盒功能测试工具UFT的使用
|
29天前
|
XML 网络安全 数据格式
Kali渗透测试:Windows事件管理工具wevtutil的使用方法(一)
Kali渗透测试:Windows事件管理工具wevtutil的使用方法(一)
63 2
|
2月前
|
测试技术
基于LangChain手工测试用例转App自动化测试生成工具
在传统App自动化测试中,测试工程师需手动将功能测试用例转化为自动化用例。市面上多数产品通过录制操作生成测试用例,但可维护性差。本文探讨了利用大模型直接生成自动化测试用例的可能性,介绍了如何使用LangChain将功能测试用例转换为App自动化测试用例,大幅节省人力与资源。通过封装App底层工具并与大模型结合,记录执行步骤并生成自动化测试代码,最终实现高效自动化的测试流程。
66 4
|
29天前
|
XML 网络安全 数据格式
Kali渗透测试:Windows事件管理工具wevtutil的使用方法(二)
Kali渗透测试:Windows事件管理工具wevtutil的使用方法(二)
31 0
|
30天前
|
安全 网络安全 数据库
Kali渗透测试:使用工具Metasploit攻击操作系统(一)
Kali渗透测试:使用工具Metasploit攻击操作系统(一)
100 0