分词 概述

简介: 现有的分词算法可分为三大类:基于字符串匹配的分词方法、基于理解的分词方法和基于统计的分词方法。基于字符串匹配的分词方法 按照扫描方向的不同,串匹配分词方法可以分为正向匹配和逆向匹配;按照不同长度优先匹配的情况,可以分为最大(最长)匹配和最小(最短)匹配理解法 在分词的同时进行句法、语义分析,利用句法信息和语义信息来处理歧义现象。它通常包括三个部分:分词子系统、句法语义子系统、总控部分。
现有的分词算法可分为三大类:基于字符串匹配的分词方法、基于理解的分词方法和基于统计的分词方法。

基于字符串匹配的分词方法

按照扫描方向的不同,串匹配分词方法可以分为正向匹配和逆向匹配;按照不同长度优先匹配的情况,可以分为最大(最长)匹配和最小(最短)匹配

理解法

在分词的同时进行句法、语义分析,利用句法信息和语义信息来处理歧义现象。它通常包括三个部分:分词子系统、句法语义子系统、总控部分。在总控部分的协调下,分词子系统可以获得有关词、句子等的句法和语义信息来对分词歧义进行判断,即它模拟了人对句子的理解过程。这种分词方法需要使用大量的语言知识和信息。由于汉语语言知识的笼统、复杂性,难以将各种语言信息组织成机器可直接读取的形式,因此目前基于理解的分词系统还处在试验阶段。

统计法

从形式上看,词是稳定的字的组合,因此在上下文中,相邻的字同时出现的次数越多,就越有可能构成一个词。因此字与字相邻共现的频率或概率能够较好的反映成词的可信度。

机器学习

首先给出大量已经分词的文本,利用统计机器学习模型学习词语切分的规律(称为训练),从而实现对未知文本的切分。我们知道,汉语中各个字单独作词语的能力是不同的,此外有的字常常作为前缀出现,有的字却常常作为后缀(“者”“性”),结合两个字相临时是否成词的信息,这样就得到了许多与分词有关的知识。这种方法就是充分利用汉语组词的规律来分词。这种方法的最大缺点是需要有大量预先分好词的语料作支撑,而且训练过程中时空开销极大。

歧义

歧义是指同样的一句话,可能有两种或者更多的切分方法。主要的歧义有两种:交集型歧义和组合型歧义。
交集型歧义——辛勤/劳动;辛/勤劳/动.
组合型歧义——在句子“这个门把手坏了”中,“把手”是个词,但在句子“请把手拿开”中,“把手”就不是一个词。
目录
相关文章
|
自然语言处理 搜索推荐 Python
jieba分词器(应用及字典的补充)及文档高频词提取实战
jieba分词器(应用及字典的补充)及文档高频词提取实战
|
自然语言处理
Elasticsearch自定义分析器analyzer分词实践
Elasticsearch自定义分析器analyzer分词实践
166 0
Elasticsearch自定义分析器analyzer分词实践
|
自然语言处理 开发者
中文分词概述|学习笔记
快速学习中文分词概述。
58 0
|
自然语言处理 开发者
中文分词概述 | 学习笔记
快速学习中文分词概述
68 0
|
自然语言处理 Java API
阿里云自然语言处理--多语言分词之中文分词(高级版)Quick Start
自然语言处理(Natural Language Processing,简称NLP),是为各类企业及开发者提供的用于文本分析及挖掘的核心工具,旨在帮助用户高效的处理文本,已经广泛应用在电商、文娱、司法、公安、金融、医疗、电力等行业客户的多项业务中,取得了良好的效果。多语言分词提供智能分词服务,由专业的团队研发,保证对数据、模型的不断迭代更新。用户只需简单的调用相关API接口即可将连续的自然语言文本,切分成具有语义合理性和完整性的词汇序列,并获取到所需结果。目前支持简体中文、英文及泰文。本文将使用Java Common SDK演示多语言分词之中文分词(高级版)服务的快速调用以供参考。
918 0
阿里云自然语言处理--多语言分词之中文分词(高级版)Quick Start
|
机器学习/深度学习 自然语言处理 算法
NLP(2) | 中文分词分词的概念分词方法分类CRFHMM分词
NLP(2) | 中文分词分词的概念分词方法分类CRFHMM分词
150 0
NLP(2) | 中文分词分词的概念分词方法分类CRFHMM分词
|
存储 自然语言处理 算法
Elasticsearch自定义分词,从一个问题说开去
来自星友的一个真实业务场景问题: 我现在的业务需求是这样的。有一个作者字段,比如是这样的Li,LeiLei;Han,MeiMei;还有一些是LeiLei Li...。 现在要精确匹配。 我的想法是:用自定义分词通过分号分词。但是这样我检索Li,LeiLei那么LeiLei Li就不能搜索到,我希望的结果是LeiLei Li也被搜索到 而且这种分词,Li,LeiLei不加逗号,也不能匹配到。但是不知道为什么我在mapping里面添加停用词也不管用?
228 0
Elasticsearch自定义分词,从一个问题说开去
|
自然语言处理 搜索推荐 程序员
让分词更懂你的搜索!海量分词-ES插件重磅发布!
海量中文智能分词v5.0-ES插件 发布!
3200 0
|
自然语言处理
HanLP分词工具中的ViterbiSegment分词流程
本篇文章将重点讲解HanLP的ViterbiSegment分词器类,而不涉及感知机和条件随机场分词器,也不涉及基于字的分词器。因为这些分词器都不是我们在实践中常用的,而且ViterbiSegment也是作者直接封装到HanLP类中的分词器,作者也推荐使用该分词器,同时文本分类包以及其他一些自然语言处理任务包中的分词器也都间接使用了ViterbiSegment分词器。
1093 0
部分常用分词工具使用整理
以下分词工具均能在Python环境中直接调用(排名不分先后)。1、jieba(结巴分词) 免费使用2、HanLP(汉语言处理包) 免费使用3、SnowNLP(中文的类库) 免费使用4、FoolNLTK(中文处理工具包) 免费使用5、Jiagu(甲骨NLP) 免费使用6、pyltp(哈工大语言云) 商用需要付费7、THULAC(清华中文词法分析工具包) 商用需要付费8、NLPIR(汉语分词系统) 付费使用 1、jieba(结巴分词)“结巴”中文分词:做最好的 Python 中文分词组件。
2117 0