NLPIR 分词准确率接近98.23%-阿里云开发者社区

开发者社区> 人工智能> 正文
登录阅读全文

NLPIR 分词准确率接近98.23%

简介:
http://www.nlpir.org/

几个例子:
为人民办公益
为/p
人民/n
办/v
公益/n


独立自主和平等互利的原则
独立自主/vl
和/cc
平等互利/vl
的/ude1
原则/n


结婚的和尚未结婚的
结婚/vi
的/ude1
和/cc
尚未/d
结婚/vi
的/ude1


北京大学生前来应聘
北京/ns
大学生/n
前来/vi
应聘/vi


然并卵
然/rz
并/cc
卵/n


他说的确实在理
他/rr
说/v
的/ude1
确实/ad
在理/a



scws的测试结果:
postgres=#  SELECT to_tsvector('testzhcfg','独立自主和平等互利的原则');
                   to_tsvector                    
--------------------------------------------------
 '原则':5 '和':2 '平等互利':3 '独立自主':1 '的':4
(1 row)
postgres=#  SELECT to_tsvector('testzhcfg','结婚的和尚未结婚的');
             to_tsvector             
-------------------------------------
 '和':3 '尚未':4 '的':2,6 '结婚':1,5
(1 row)
postgres=#  SELECT to_tsvector('testzhcfg','北京大学生前来应聘');
              to_tsvector              
---------------------------------------
 '前来':3 '北京':1 '大学生':2 '应聘':4
(1 row)
postgres=#  SELECT to_tsvector('testzhcfg','为人民办公益');
           to_tsvector           
---------------------------------
 '为人':1 '办公':3 '民':2 '益':4
(1 row)
postgres=#  SELECT to_tsvector('testzhcfg','然并卵');
     to_tsvector      
----------------------
 '卵':3 '并':2 '然':1
(1 row)
postgres=#  SELECT to_tsvector('testzhcfg','他说的确实在理');
              to_tsvector               
----------------------------------------
 '他':1 '在理':5 '的':3 '确实':4 '说':2
(1 row)

NLPIR/ICTCLAS中英文一体化分词可视化效果图
NLPIR 分词准确率接近98.23 - 德哥@Digoal - PostgreSQL research
  NLPIR/ICTCLAS分词系统可以支持中英文分词与词性标注,可视化系统可根据词性对不同的分词结果进行区分显示,一般虚词都是浅色,而名词、动词、形容词等实词为显著的颜色。在分词的同时,还会发现新词。本系统还支持在线用户词典的输入,用户可以在右下方添加用户词及词性,如“中东呼吸综合征 bing”。NLPIR/ICTCLAS分词系统,采用层叠隐马模型
(算法细节请参照:张华平,高凯,黄河燕,赵燕平,《大数据搜索与挖掘》科学出版社。2014.5 ISBN:978-7-03-040318-6),分词准确率接近98.23%,具备准确率高、速度快、可适应性强等优势。它能够真正理解中文,利用机器学习的方式解决歧义切分与词性标注歧义问题。

相关产品

[参考]

版权声明:本文内容由阿里云实名注册用户自发贡献,版权归原作者所有,阿里云开发者社区不拥有其著作权,亦不承担相应法律责任。具体规则请查看《阿里云开发者社区用户服务协议》和《阿里云开发者社区知识产权保护指引》。如果您发现本社区中有涉嫌抄袭的内容,填写侵权投诉表单进行举报,一经查实,本社区将立刻删除涉嫌侵权内容。

分享:
人工智能
使用钉钉扫一扫加入圈子
+ 订阅

了解行业+人工智能最先进的技术和实践,参与行业+人工智能实践项目

其他文章