ICTCLAS是 张华平博士的杰作,在多版演进后,于2014年释出的新版本,当然新版改名叫做NLPIR了, 支持中英文分词,词性标注,关键语义提取,微博分词, 修缮了部分bug,非商用永久免费。其中,对C/C++/C#/JAVA语言的支持 都已非常完善,但我用的是Pytho n,之前选择的是 SCWS组件,但在实际使用过程中感觉 SCWS分词和词性标注 质量并不如 NLPIR好,因此打算换用NLPIR。
第一个问题是如何安装NLPIR。由于NLPIR需要首先安装swig,我首先试了“easy_install swig”和“pip install swig”都失败了。然后登陆swig官网,下载win32的包。
sourceforege上的地址如下:
http://sourceforge.net/projects/swig/files/swigwin/swigwin-3.0.0/swigwin-3.0.0.zip/download?use_mirror=ncu
下载后解压到C:\Program Files\swigwin,并在系统path中添加这一路径。
快捷键win+r, cmd命令后 打开命令行窗口,输入swig,出现“Must specify an input file. Use -help for available options.”,说明swig已安装成功。如下图所示:
接下来,就需要下载安装我们的主角NLPIR了。
虽然可以简单地从微盘下载,如这里:
但运气不佳,我现在访问微盘时,正好赶上“扫黄打非”,而看不到他人的共享文件:
打开浏览器,进入 https://github.com/killuahzl/python-nlpir 。
在下图所示位置,下载zip包。
未完待续。。。