中文分词工具(LAC) 试用笔记-阿里云开发者社区

中文分词工具(LAC) 试用笔记

2022-04-27 972

版权

本文内容由阿里云实名注册用户自发贡献，版权归原作者所有，阿里云开发者社区不拥有其著作权，亦不承担相应法律责任。具体规则请查看《阿里云开发者社区用户服务协议》和《阿里云开发者社区知识产权保护指引》。如果您发现本社区中有涉嫌抄袭的内容，填写侵权投诉表单进行举报，一经查实，本社区将立刻删除涉嫌侵权内容。

简介： 中文词法分析LAC 支持Python、C++、JAVA、Android 用接口调用，其他语言的话就需要开发者自己自行封装了，笔者这次决定使用Python进行实验，在文中也会把相关代码给贴出来，给大家作为一个参考

一、背景

笔者2年前写过一篇《PHP使用elasticsearch搜索安装及分词方法》的文章，记录了使用ES的分词的实现步骤，最近又需要用到分词，在网上发现一个百度的中文分词项目，中文词法分析（LAC），决定使用一番，并把这次试用通过文章记录下来，给有需要的朋友一个参考吧

中文词法分析LAC 支持Python、C++、JAVA、Android 用接口调用，其他语言的话就需要开发者自己自行封装了，笔者这次决定使用Python进行实验，在文中也会把相关代码给贴出来，给大家作为一个参考

二、安装LAC

LAC2.0 的安装方式非常简单，直接使用pip安装即可，但是国内访问pip软件源可能比较慢，因此我们可以用上加速地址，参考命令如下所示

pip3 install lac  -i https://mirror.baidu.com/pypi/simple

命令执行完成之后，返回的信息如下所示

安装注意事项

LAC有1.0 和2.0 ，在码云中显示的是1.0，但是并没有特意标明，1.0 的版本安装过程非常比较麻烦，安装过程也容易出错，建议大家可以去github查看LAC 2.0的安装方式

如果你是windows系统想用wsl去安装，不要使用WSL1.0，因为他不支持LAC的依赖组件paddle，也就没办法正确安装LAC了

LAC 安装需要注意你的Python版本，不能大于3.7,笔者做实验的时候使用的Python3.8版本，结果报了如下错误

三、运行DEMO

为了验证是否已经将LAC安装成功，这里笔者运行了一下DEMO示例代码，首先新建了一个代码文件lac.py，然后将demo代码复制进去，代码如下所示

# -*- coding: utf-8 -*-
from LAC import LAC
# 装载分词模型
lac = LAC(mode='seg')
# 单个样本输入，输入为Unicode编码的字符串
text = u"大王叫我来巡山"
seg_result = lac.run(text)
print(seg_result)
# 批量样本输入, 输入为多个句子组成的list，平均速率会更快
texts = [u"山里有个庙", u"庙里有个老和尚跟一个小和尚"]
seg_result = lac.run(texts)
print(seg_result)

接着使用Python运行这个文件，执行命令如下

python lac.py

命令执行之后，返回的分词词汇标注信息如下所示

从上面图片可以看到，LAC已经将一段文本进行了分词，说明我们安装LAC成功，

LAC 除了可以进行分词之外，还可以用来做词性标注与实体识别,我们接着继续运行demo代码，笔者首先新建了一个代码文件lac2.py，然后将用来做词性标注和实体识别的demo代码复制进去，代码如下所示

from LAC import LAC
# 装载LAC模型
lac = LAC(mode='lac')
# 单个样本输入，输入为Unicode编码的字符串
text = u"我想涨工资"
lac_result = lac.run(text)
print(lac_result)
# 批量样本输入, 输入为多个句子组成的list，平均速率更快
texts = [u"汤青松长得好帅", u"我喜欢做安全开发工程师"]
lac_result = lac.run(texts)
print(lac_result)

接着使用Python运行这个文件，执行命令如下

python lac2.py

命令执行之后，返回的分词词汇标注信息如下所示

在上图中我们可以看到，这次LAC不仅返回了分词结果，还返回另外一个词汇类型的list，笔者粗略的核对了一下，基本都能对应上，比如笔者的名字标识为PER 人名类型，好帅标示为 a 形容词类型

下面是词性和专名类别标签集合，其中我们将最常用的4个专名类别标记为大写的形式：

标签	含义	标签	含义	标签	含义	标签	含义
n	普通名词	f	方位名词	s	处所名词	nw	作品名
nz	其他专名	v	普通动词	vd	动副词	vn	名动词
a	形容词	ad	副形词	an	名形词	d	副词
m	数量词	q	量词	r	代词	p	介词
c	连词	u	助词	xc	其他虚词	w	标点符号
PER	人名	LOC	地名	ORG	机构名	TIME	时间

四、试用感想

LAC是一个非常不错的分词工具，并不是用来直接为业务提供搜索支持，而是作为一个搜索引擎的基础工具；

比如当你想将网站的文章标题用于站内搜索，使用LAC进行了分词，分词之后这些数据你还需要额外的存储，用来作为搜索使用，因为LAC只提供分词功能，所以感觉LAC适合作为分词搜索引擎的一部分，如果你想用来分词搜索站内信息，倒不如ES的那么方便。

笔者也好奇LAC项目的适用场景是什么？从LAC项目的产品口中得知回答如下：

LAC适用场景更多是与实体识别相关的，比如知识图谱，知识问答，信息抽取等，也可以作为其他模型算法的基础工具，因为其分词粒度是以实体作为粒度的，同时兼具实体识别的效果，而在搜索引擎中一般使用的分词粒度会更小一些，或者同时提供多种粒度，如果要面向搜索的分词，还需要用户自行进行微调模型

中文分词工具(LAC) 试用笔记

一、背景

二、安装LAC

安装注意事项

三、运行DEMO

四、试用感想

热门文章

最新文章

相关电子书

探索云世界

热门

云计算

大数据

云原生

人工智能

数据库

开发与运维

活动广场

任务中心

训练营

直播

乘风者计划

下载

镜像站

技术资料

中文分词工具(LAC) 试用笔记

一、背景

二 、安装LAC

安装注意事项

三、 运行DEMO

四、试用感想

热门文章

最新文章

相关电子书

二、安装LAC

三、运行DEMO