LTP 4来了!

简介: LTP 4来了!

还在嫌弃pyltp安装失败吗


https://github.com/HIT-SCIR/ltp


快速上手


快速安装


安装LTP是非常简单的,使用Pip安装只需要:

.. code-block:: sh

pip install ltp


载入模型


默认支持下载,只需要输入名字即可

from ltp import LTP
    ltp = LTP() # 默认加载 Small 模型
    # ltp = LTP(path = "base|small|tiny")
    # ltp = LTP(path = "tiny.tgz|tiny-tgz-extracted") # 其中 tiny-tgz-extracted 是 tiny.tgz 解压出来的文件夹


分句


使用LTP分句只需要调用ltp.sent_split函数

from ltp import LTP
    ltp = LTP()
    sents = ltp.sent_split(["他叫汤姆去拿外衣。", "汤姆生病了。他去了医院。"])
    # [
    #   "他叫汤姆去拿外衣。",
    #   "汤姆生病了。",
    #   "他去了医院。"
    # ]


用户自定义词典

# user_dict.txt
    负重前行
    长江大桥
.. code-block:: python
    from ltp import LTP
    ltp = LTP()
    # user_dict.txt 是词典文件, max_window是最大前向分词窗口
    ltp.init_dict(path="user_dict.txt", max_window=4)
    # 也可以在代码中添加自定义的词语
    ltp.add_words(words=["负重前行", "长江大桥"], max_window=4)


分词


使用LTP分词非常简单,下面是一个简短的例子:

from ltp import LTP
    ltp = LTP()
    segment, _ = ltp.seg(["他叫汤姆去拿外衣。"])
    # [['他', '叫', '汤姆', '去', '拿', '外衣', '。']]
    # 对于已经分词的数据
    segment, hidden = ltp.seg(["他/叫/汤姆/去/拿/外衣/。".split('/')])


词性标注

from ltp import LTP
    ltp = LTP()
    seg, hidden = ltp.seg(["他叫汤姆去拿外衣。"])
    pos = ltp.pos(hidden)
    # [['他', '叫', '汤姆', '去', '拿', '外衣', '。']]
    # [['r', 'v', 'nh', 'v', 'v', 'n', 'wp']]


命名实体识别

from ltp import LTP
    ltp = LTP()
    seg, hidden = ltp.seg(["他叫汤姆去拿外衣。"])
    ner = ltp.ner(hidden)
    # [['他', '叫', '汤姆', '去', '拿', '外衣', '。']]
    # [[('Nh', 2, 2)]]
    tag, start, end = ner[0][0]
    print(tag,":", "".join(seg[0][start:end + 1]))]
    # Nh : 汤姆


语义角色标注

from ltp import LTP
    ltp = LTP()
    seg, hidden = ltp.seg(["他叫汤姆去拿外衣。"])
    srl = ltp.srl(hidden)
    # [['他', '叫', '汤姆', '去', '拿', '外衣', '。']]
    # [
    #     [
    #         [],                                                # 他
    #         [('ARG0', 0, 0), ('ARG1', 2, 2), ('ARG2', 3, 5)],  # 叫 -> [ARG0: 他, ARG1: 汤姆, ARG2: 拿外衣]
    #         [],                                                # 汤姆
    #         [],                                                # 去
    #         [('ARG0', 2, 2), ('ARG1', 5, 5)],                  # 拿 -> [ARG0: 汤姆, ARG1: 外衣]
    #         [],                                                # 外衣
    #         []                                                 # 。
    #     ]
    # ]
    srl = ltp.srl(hidden, keep_empty=False)
    # [
    #     [
    #         (1, [('ARG0', 0, 0), ('ARG1', 2, 2), ('ARG2', 3, 5)]), # 叫 -> [ARG0: 他, ARG1: 汤姆, ARG2: 拿外衣]
    #         (4, [('ARG0', 2, 2), ('ARG1', 5, 5)])                  # 拿 -> [ARG0: 汤姆, ARG1: 外衣]
    #     ]
    # ]


依存句法分析


需要注意的是,在依存句法当中,虚节点ROOT占据了0位置,因此节点的下标从1开始。

from ltp import LTP
    ltp = LTP()
    seg, hidden = ltp.seg(["他叫汤姆去拿外衣。"])
    dep = ltp.dep(hidden)
    # [['他', '叫', '汤姆', '去', '拿', '外衣', '。']]
    # [
    #     [
    #         (1, 2, 'SBV'),
    #         (2, 0, 'HED'),    # 叫 --|HED|--> ROOT
    #         (3, 2, 'DBL'),
    #         (4, 2, 'VOB'),
    #         (5, 4, 'COO'),
    #         (6, 5, 'VOB'),
    #         (7, 2, 'WP')
    #     ]
    # ]


语义依存分析(树)


与依存句法类似的,这里的下标也是从1开始。

from ltp import LTP
    ltp = LTP()
    seg, hidden = ltp.seg(["他叫汤姆去拿外衣。"])
    sdp = ltp.sdp(hidden, graph=False)
    # [['他', '叫', '汤姆', '去', '拿', '外衣', '。']]
    # [
    #     [
    #         (1, 2, 'Agt'),
    #         (2, 0, 'Root'),   # 叫 --|Root|--> ROOT
    #         (3, 2, 'Datv'),
    #         (4, 2, 'eEfft'),
    #         (5, 4, 'eEfft'),
    #         (6, 5, 'Pat'),
    #         (7, 2, 'mPunc')
    #     ]
    # ]


语义依存分析(图)


与依存句法类似的,这里的下标也是从1开始。

from ltp import LTP
    ltp = LTP()
    seg, hidden = ltp.seg(["他叫汤姆去拿外衣。"])
    sdp = ltp.sdp(hidden, graph=True)
    # [['他', '叫', '汤姆', '去', '拿', '外衣', '。']]
    # [
    #     [
    #         (1, 2, 'Agt'),
    #         (2, 0, 'Root'),   # 叫 --|Root|--> ROOT
    #         (3, 2, 'Datv'),
    #         (3, 4, 'Agt'),
    #         (3, 5, 'Agt'),
    #         (4, 2, 'eEfft'),
    #         (5, 4, 'eEfft'),
    #         (6, 5, 'Pat'),
    #         (7, 2, 'mPunc')
    #     ]
    # ]


LTP Server


LTP Server 是对 LTP 的一个简单包装,依赖于 tornado,使用方式如下:

pip install ltp, tornado
    python utils/server.py serve


相关文章
|
6月前
|
Python
dataframe循环更新某列的值
你可以使用Python的循环结构(如for循环)结合Pandas DataFrame的iterrows()方法来更新DataFrame中某一列的值。以下是一个简单的例子:
154 0
|
机器学习/深度学习 编解码 自然语言处理
modelscope模型库列表
modelscope模型库列表
4458 0
|
机器学习/深度学习 算法
【机器学习系列】- 准确率、召回率、F1值的思考
关于如何评估算法,我们常通过准确率、召回率和F1值进行评估。
1763 0
【机器学习系列】- 准确率、召回率、F1值的思考
|
机器学习/深度学习 缓存 并行计算
NVIDIA Tesla GPU系列P4、T4、P40以及V100参数性能对比
NVIDIA Tesla系列GPU适用于高性能计算(HPC)、深度学习等超大规模数据计算,Tesla系列GPU能够处理解析PB级的数据,速度比使用传统CPU快几个数量级,NVIDIA Tesla GPU系列P4、T4、P40以及V100是Tesla GPU系列的明星产品,云服务器吧分享NVIDIA.
65066 1
|
自然语言处理 算法 大数据
Python大数据:jieba分词,词频统计
实验目的 学习如何读取一个文件 学习如何使用DataFrame 学习jieba中文分词组件及停用词处理原理 了解Jupyter Notebook 概念 中文分词 在自然语言处理过程中,为了能更好地处理句子,往往需要把句子拆开分成一个一个的词语,这样能更好的分析句子的特性,这个过程叫就叫做分词。
8920 0
|
5月前
|
数据可视化 算法 Python
Python如何使用Networkx实现复杂的人物关系图?
Python如何使用Networkx实现复杂的人物关系图?
113 0
|
前端开发
如何修改 Typora 「高亮」的颜色
Typora 有一个「高亮」的格式,类似于荧光笔,但是感觉默认的颜色偏亮,看久了不舒服,所以利用修改主题文件的方式来自定义颜色。
686 1
如何修改 Typora 「高亮」的颜色
|
7月前
|
Java Python Windows
Python pip 源设置成国内源,阿里云源,清华大学源,最方便的方式,都在这里了
Python pip 源设置成国内源,阿里云源,清华大学源,最方便的方式,都在这里了
|
机器学习/深度学习 自然语言处理 达摩院
长文本口语语义理解技术系列①:段落分割实践
数智化浪潮下,越来越多的企业开始将现代信息网络作为数据资源的主要载体,并通过网络通信技术进行数据传输;网络作为主要的信息交流和分享的方式,海量不同源的网络信息,使得企业与个人消化信息的成本越来越高。音视频数据作为其中重要的信息来源之一,也随着远程视频会议、在线课堂、直播教学、电话销售等领域有了爆炸性的增长。
2380 0
长文本口语语义理解技术系列①:段落分割实践