分词 概述

简介: 现有的分词算法可分为三大类:基于字符串匹配的分词方法、基于理解的分词方法和基于统计的分词方法。基于字符串匹配的分词方法 按照扫描方向的不同,串匹配分词方法可以分为正向匹配和逆向匹配;按照不同长度优先匹配的情况,可以分为最大(最长)匹配和最小(最短)匹配理解法 在分词的同时进行句法、语义分析,利用句法信息和语义信息来处理歧义现象。它通常包括三个部分:分词子系统、句法语义子系统、总控部分。
现有的分词算法可分为三大类:基于字符串匹配的分词方法、基于理解的分词方法和基于统计的分词方法。

基于字符串匹配的分词方法

按照扫描方向的不同,串匹配分词方法可以分为正向匹配和逆向匹配;按照不同长度优先匹配的情况,可以分为最大(最长)匹配和最小(最短)匹配

理解法

在分词的同时进行句法、语义分析,利用句法信息和语义信息来处理歧义现象。它通常包括三个部分:分词子系统、句法语义子系统、总控部分。在总控部分的协调下,分词子系统可以获得有关词、句子等的句法和语义信息来对分词歧义进行判断,即它模拟了人对句子的理解过程。这种分词方法需要使用大量的语言知识和信息。由于汉语语言知识的笼统、复杂性,难以将各种语言信息组织成机器可直接读取的形式,因此目前基于理解的分词系统还处在试验阶段。

统计法

从形式上看,词是稳定的字的组合,因此在上下文中,相邻的字同时出现的次数越多,就越有可能构成一个词。因此字与字相邻共现的频率或概率能够较好的反映成词的可信度。

机器学习

首先给出大量已经分词的文本,利用统计机器学习模型学习词语切分的规律(称为训练),从而实现对未知文本的切分。我们知道,汉语中各个字单独作词语的能力是不同的,此外有的字常常作为前缀出现,有的字却常常作为后缀(“者”“性”),结合两个字相临时是否成词的信息,这样就得到了许多与分词有关的知识。这种方法就是充分利用汉语组词的规律来分词。这种方法的最大缺点是需要有大量预先分好词的语料作支撑,而且训练过程中时空开销极大。

歧义

歧义是指同样的一句话,可能有两种或者更多的切分方法。主要的歧义有两种:交集型歧义和组合型歧义。
交集型歧义——辛勤/劳动;辛/勤劳/动.
组合型歧义——在句子“这个门把手坏了”中,“把手”是个词,但在句子“请把手拿开”中,“把手”就不是一个词。
目录
相关文章
|
关系型数据库 MySQL 开发工具
NextCloud自建家用网盘
在阿里云ECS(2核2G,SSD40G,3M带宽)上,安装Ubuntu 22.04,然后配置FRPs,设置权限,开放端口。本地服务器拉取 `NextCloud` Docker镜像,并通过docker-compose进行容器部署,容器启动成功,通过FRPc链接到云主机,到这里就已经实现本地网盘服务可以通过公网访问。
563 0
|
人工智能 自动驾驶 安全
人工智能的最终目标:超越人类智能的未来
人工智能(AI)已经成为当今世界最引人注目的技术领域之一,其应用范围涵盖了从医疗保健到自动驾驶汽车的各个领域。然而,尽管AI在许多任务上已经表现出惊人的能力,但其最终目标是什么?这是一个备受争议的问题,但大多数研究人员和科技领袖都同意,人工智能的最终目标是超越人类智能。
|
人工智能 Cloud Native 数据挖掘
|
索引 Python
python 对一组list数据,进行区间划分,按照大小排序并返回索引值
最近在对海洋数据进行处理时,对数据需要进行一些排序,数据匹配等操作; 现对我所希望实现的一些函数进行总结:
python 对一组list数据,进行区间划分,按照大小排序并返回索引值
|
SQL 运维 关系型数据库
PDOException 异常处理|学习笔记
快速学习 PDOException 异常处理
PDOException 异常处理|学习笔记
|
JSON 数据可视化 API
FastAPI-Amis-Admin: 一个拥有高性能,高效率,易拓展的fastapi管理后台框架
fastapi-amis-admin是一个拥有高性能,高效率,易拓展的fastapi管理后台框架. 启发自Django-Admin,并且拥有不逊色于Django-Admin的强大功能.
4765 1
|
数据可视化 JavaScript 开发工具
|
存储 对象存储
阿里云对象存储OSS可以关闭吗?
误操作开通了对象存储OSS如何关闭?
1380 0
|
Android开发 iOS开发 Windows
Windows Phone 寿终正寝了,这些经典机型你还记得吗?
不久前,随着最后一家WP手机厂商惠普宣布取消今后Windows Phone的研发计划,以及微软官方声明对WP8.1系统今后所有升级维护的终止,WP手机,作为曾经和安卓手机、苹果手机并驾齐驱的三大智能手机之一,正式寿终正寝。
1833 0
Windows Phone 寿终正寝了,这些经典机型你还记得吗?
|
运维 Oracle 容灾
OceanBase上线OBCA认证,推动分布式数据库人才生态发展
培养分布式数据库人才,我们是认真的。
2974 0
OceanBase上线OBCA认证,推动分布式数据库人才生态发展