Ubuntu20.04.2使用CoreNLP
JDK安装
Ubuntu20.04.2系统本身不含有JDK,而CoreNLP需要依赖JDK进行运行,所以需要先安装好JDK,可以输入java,然后系统会自动提示没有安装JDK,并会推荐安装的版本,如下图所示:
按照你的系统版本来选择合适的JDK版本,我这里选择的是JDK11。使用命令apt install openjdk-11-jre-headless进行安装,安装之后再次输入java会提示以下信息,则表示成功安装完成。
CoreNLP
CoreNLP可以在Java中进行自然语言处理的工具,CoreNLP使用户能够导出文本的语言注释,包括标记和句子边界、词性、命名实体、数值和时间值、依赖关系和选区解析、共指、情感、引用归因和关系。CoreNLP目前支持8种语言:阿拉伯语、中文、英语、法语、德语、匈牙利语、意大利语和西班牙语。其功能十分强大!!!
首先跳到CoreNLP官网,我们可以看到其一些简要的介绍。首页也介绍了一些相关的安装信息,大致如下:
1、下载并解压CoreNLP工具,并将对应下载的语言包放入到解压后的文件夹内:
2、设置环境路径export CLASSPATH=$CLASSPATH:/path/to/stanford-corenlp-4.5.4/*:,其中/path/to/表示你CoreNLP的路径所在路径,需要根据自身情况进行替换。
3、这时就到了启动CoreNLP本地server的时候,可以发现输入java -mx4g -cp "*" edu.stanford.nlp.pipeline.StanfordCoreNLPServer -port 9000 -timeout 15000还是会出现错误: 找不到或无法加载主类 edu.stanford.nlp.pipeline.StanfordCoreNLPServer 原因: java.lang.ClassNotFoundException: edu.stanford.nlp.pipeline.StanfordCoreNLPServer这种错误,这是因为你需要先切换到你的CoreNLP目录,然后再启动CoreNLP,也就是在输入命令进行执行。这样CoreNLP就启动成功。
启动后效果如下所示,只要别关闭终端,该服务器就不会停止运行:
具体实验可以参考stog的分词过程。