浅析中文分词与命名实体

简介: 中文信息处理是自然语言信息处理的一个分支,具体内容包括对字、词、句、篇章的分析、理解和生成等方面的技术。而中文分词和实体识别则是中文信息处理的基础和最常用的技术,本文重点是对一些基本感念做以介绍。

【2020年11月分享】

背景介绍

  1. 计算机、互联网服务越来越多的改变着人们的生活;
  2. 信息时代,信息消费需求的数量越来越大,精度越来越高;
  3. 信息的采集、加工、传递等技术提升需求迫切;
  4. 信息大多以文字形式体现,文字处理,英文具有天然优势和既有技术领先优势,中文处理因为汉字语言的特殊性并没有外文那样简单,还存在很多的挑战。

中文信息处理是自然语言信息处理的一个分支,具体内容包括对字、词、句、篇章的分析、理解和生成等方面的技术。而中文分词和实体识别则是中文信息处理的基础和最常用的技术,本文重点是对一些基本感念做以介绍。

中文分词

把中文的汉字序列切分为有意义的词序列。

  • 什么叫词
    最小的语义单位
  • 歧义分类
    (1)交叉歧义
    例如: “技术和服务” 中的 “和服”, “南京市长江大桥” 中的 “市长”
    (2)组合歧义
    例如: “产量三年中将增长两倍”,“馒头好吃?那是面的质量好”
    (3)真歧义
    例如: “白天鹅在湖里游泳”,“乒乓球拍卖完了”
  • 特殊词
    (1)新词
    随着时代发展新造或新生词语,例如:蜗居,微博
    (2)未登录词
    表达多样、自由,无法依靠词典收录解决的词类,例如:周杰伦,中新药业,樱桃沟
    (3)音译词
    例如: 奥巴马,阿姆斯特丹
  • 分类体系
    (1)词性分类
    名、动、形、数、量、代、副
    (2)用途分类
    实词、名词、动词、形容词、虚词、副词、代词、叹词
    (3)应用分类
    人名、地名、机构名、数量词、时间词等

命名实体

文本中具有特定意义的实体,主要包括人名、地名、机构名、专有名词等。

  • 常见命名实体
    人名、机构名、地名、产品名、时间、日期、货币和百分比
  • 命名实体的识别
    命名实体识别的过程通常包括两部分
    (1)实体边界识别;
    (2) 确定实体类别(人名、地名、机构名或其他)。
  • 命名实体的属性:
    各类实体属性不同,如:人名,包括年龄、身高、工作单位、职务、所属行业等
  • 常见学术分类
    (1)三大类:实体类、时间类、数字类
    (2)七小类:人名、机构名、地名、时间、日期、货币、百分比

中文分词准确率问题

  • 词语切分
    (1)歧义处理:交叉歧义、组合歧义
    (2)未登录词识别:人名识别、机构名识别、地名识别、数量词识别、时间词识别
    (3)新词识别:同现统计
  • 词彩标注
    词的感情色彩标注,一般分为三类:褒义、贬义、中性,也就是我们现在在舆情应用中经常提到情感分析模型的正面、负面、中性的基础
  • 词性和词义标准的准确性

命名实体的识别难点

  • 实体边界
    确定命名实体在文本中的边界,给出其类型
  • 属性标注
    通过属性表达识别,文本挖掘,给命名实体标注其重要属性,例如:人名 对应的重要属性,机构名 对应的重要属性
  • 关系构建
    指命名实体与命名实体之间 或 命名实体与其他词的关系建立,例如:丁磊 与 网易公司,丁磊 与 互联网 ,狗不理包子 与 天津

中文信息技术体系

image.png

分词效果示例

image.png

目录
相关文章
|
8月前
|
机器学习/深度学习 算法 API
商品价格动态调整接口技术详解
本文详解电商商品价格动态调整接口设计,涵盖RESTful API规范、成本加成与需求弹性算法、Python代码实现及优化策略,结合真实场景,助力构建高效、可扩展的智能定价系统。
|
11月前
|
数据采集 人工智能 安全
开源赋能双碳:MyEMS 能源管理系统的架构与实践价值
在全球碳中和趋势与“双碳”目标推动下,能源管理趋向精细化与智能化。MyEMS是一款基于Python开发的开源能源管理系统,具备灵活适配、功能全面的优势,覆盖工厂、建筑、数据中心等多元场景。系统支持能源数据采集、分析、可视化及设备管理、故障诊断、AI优化控制等功能,提供“监测-分析-优化”闭环解决方案。遵循“国家+省级+接入端”三级架构,MyEMS在重点用能单位能耗监测中发挥关键作用,助力实现能源效率提升与政策合规。开源模式降低了技术门槛,推动“双碳”目标落地。
356 0
|
7月前
|
JSON API 数据处理
淘宝天猫API调用指南:获取店铺所有商品数据
淘宝店铺商品API支持通过HTTP POST获取商品数据,返回JSON格式信息。核心接口包括店铺商品列表、分类及促销商品查询,以及商品详情、SKU、图片视频等信息获取,助力商家高效管理商品。
|
8月前
|
人工智能 自然语言处理 算法
智能体来了:阿里云×黎跃春共建AI教育与产业融合新生态
2025年被视为“智能体元年”,AI正从工具创新迈向生态融合。阿里云携手黎跃春教授推动“大学生智能体开发实训”,通过零基础教学、产教融合与创业孵化,培养能驾驭AI的新型人才,助力学生从学习到创新、创业的全链条成长,开启教育与产业协同发展的新时代。
520 10
|
9月前
|
人工智能 监控 小程序
【快递鸟】选择对接你的物流商城/小程序的物流API平台
在电商竞争日益激烈的今天,物流体验已成为影响用户留存和复购的关键因素。一个高效、透明、稳定的物流系统,对于物流商城或小程序来说至关重要。然而,自建物流查询系统需要对接众多快递公司,开发周期长、维护成本高、数据整合困难。
433 0
|
SQL 分布式计算 关系型数据库
Hadoop-13-Hive 启动Hive 修改启动参数命令行启动测试 几句简单的HQL了解Hive
Hadoop-13-Hive 启动Hive 修改启动参数命令行启动测试 几句简单的HQL了解Hive
500 2
|
区块链 Python
9-18|图片上生成字体设置字体大小
9-18|图片上生成字体设置字体大小
|
11月前
|
数据采集 供应链 监控
如何开发WMS系统中的经营看板(附架构图+流程图+代码参考)
WMS(仓库管理系统)通过经营看板实现数据可视化,助力企业提升运营效率、降低成本并优化决策。本文详解经营看板的功能设计、业务流程、开发技巧与实现效果,并提供代码示例及实际案例,帮助企业构建高效、可扩展的看板系统,提升仓库管理与业务分析能力。
|
算法 计算机视觉
图像处理之角点检测算法(Harris Corner Detection)
图像处理之角点检测算法(Harris Corner Detection)
679 3
|
机器学习/深度学习 人工智能 算法
快手开源的这个「斗地主」项目,在 GitHub 火了!
快手开源的这个「斗地主」项目,在 GitHub 火了!
4433 0
快手开源的这个「斗地主」项目,在 GitHub 火了!