iOS MachineLearning 系列(10)—— 自然语言分析之文本拆解

本文涉及的产品
NLP自然语言处理_高级版,每接口累计50万次
NLP 自学习平台,3个模型定制额度 1个月
云解析 DNS,旗舰版 1个月
简介: 本系列的前几篇文章介绍了iOS中有关图像和视频处理的API,视觉处理主要有Vision框架负责,本篇起,将介绍在iOS中Machine Learning领域相关的自然语言处理框架:NaturalLanguage。

iOS MachineLearning 系列(10)—— 自然语言分析之文本拆解

本系列的前几篇文章介绍了iOS中有关图像和视频处理的API,视觉处理主要有Vision框架负责,本篇起,将介绍在iOS中Machine Learning领域相关的自然语言处理框架:NaturalLanguage。

1 - 简介

NaturalLanguage是iOS种提供的一种处理自然语言的内置框架,使用它不会使应用的包体积增大,不会为应用带来额外的负担,且可以实现非常强大的语言处理功能。

NaturalLanguage默认支持多种语言,拥有如下能力:

  • 检测一段文本所使用的语言。
  • 将一段文本按照词组,句子,段落进行拆解。
  • 进行词性分析。
  • 进行语义分析。

本篇,我们主要介绍其文本拆解能力,及如何使用这些API。

2 - 拆解文本 

我们先从一个简单的示例来看如何使用NaturalLanguage框架中的API进行文本拆解。

首先准备一段测试文本,如下:

最近,随着Chat-GPT4的发布,人工智能相关的资讯和话题再次火热了起来😄。

有了人工智能的加持,对人们的生活以及各行各业的工作都将带来效率的极大提升。目前,各种大模型的发布层出不穷。这些大模型虽然功能非常强大(如文本理解,绘图等),但对于个人来说,要跑起这样一个模型来对外提供服务还是比较困难的,其需要有非常强大的算力支持。

这段文案有两个段落组成。我们可以先尝试对其内的单词进行拆解。 使用NLTokenizer来解析文本,定义NLTokenizer实例如下:

let tokenizer = NLTokenizer(unit: .word)

其参数unit确定要解析的元素类型,枚举如下:

public enum NLTokenUnit : Int, @unchecked Sendable {
    // 以单词为基础进行拆解
    case word = 0 
    // 以句子为基础进行拆解
    case sentence = 1
    // 以段落为基础进行拆解
    case paragraph = 2 
    // 以文档为基础,此模式下会返回原字符串
    case document = 3 
}

调用如下的方法即可进行拆解任务:

tokenizer.enumerateTokens(in: string.startIndex ..< string.endIndex) { range, attribute in
    let word = string[range]
    self.showWord(string: String(word), type: attribute)
    return true
}

在回调block中,如果需要停止解析,返回false即可。解析的结果会将元素属性,所在原字符串中的范围进行返回。其中元素属性结构体定义如下:

public struct Attributes : OptionSet, @unchecked Sendable {

    public init(rawValue: UInt)

    // 包含数值    
    public static var numeric: NLTokenizer.Attributes { get }
    // 包含符号
    public static var symbolic: NLTokenizer.Attributes { get }
    // 包含表情
    public static var emoji: NLTokenizer.Attributes { get }
}

如果上面定义的3个静态值都没有命中,则表示当前元素只包含简单文本。

showWord方法简单实现如下:

func showWord(string: String, type: NLTokenizer.Attributes) {
    var t = ""
    if type.contains(.emoji) { t.append("[emoji]") }
    if type.contains(.numeric) { t.append("[num]") }
    if type.contains(.symbolic) { t.append("[sym]") }
    if t.isEmpty {
        t = "txt"
    }
    resultLabel.text = (resultLabel.text ?? "").appending("【\(string) - \(t)】")
}

分别以单词,句子和段落的模式进行拆解,效果如下所示:

        

可以看到,整体来说NaturalLanguage对于中文的解析能力还是比较强大的。

3 - 再看NLTokenizer 类

NLTokenizer类专门用来对文本进行拆解,本身比较简单。其中的NLTokenUnit用来设置拆解模式,内部Attributes结构体可以标记出所拆解出的元素所包含的属性。NLTokenizer类本身定义如下:

open class NLTokenizer : NSObject {
    // 初始化方法,设置拆解模式
    public init(unit: NLTokenUnit)
    // 拆解单元模式
    open var unit: NLTokenUnit { get }
    // 进行处理的字符串
    open var string: String?
    // 设置文本所使用的语言,如果不设置可以自行解析
    open func setLanguage(_ language: NLLanguage)
    // 解析文本某个位置的元素
    public func tokenRange(at index: String.Index) -> Range<String.Index>
    // 解析文本某个范围的元素
    public func tokenRange(for range: Range<String.Index>) -> Range<String.Index>
    // 枚举出所有元素
    public func enumerateTokens(in range: Range<String.Index>, using block: (Range<String.Index>, NLTokenizer.Attributes) -> Bool)
    // 解析所有元素
    public func tokens(for range: Range<String.Index>) -> [Range<String.Index>]
}
拆解往往是自然语言分析的第一步,通常我们会将长文本进行拆解,之后在对每个元素进行语言类型分析或语义分析,以及词汇的词性分析等,后面的文章会具体再做介绍。
目录
相关文章
|
11天前
|
Java 开发工具 Android开发
安卓与iOS开发环境对比分析
【8月更文挑战第20天】在移动应用开发的广阔天地中,Android和iOS两大平台各自占据着重要的位置。本文将深入探讨这两种操作系统的开发环境,从编程语言到开发工具,从用户界面设计到性能优化,以及市场趋势对开发者选择的影响。我们旨在为读者提供一个全面的比较视角,帮助理解不同平台的优势与挑战,并为那些站在选择十字路口的开发者提供有价值的参考信息。
|
11天前
|
开发框架 Android开发 Swift
安卓与iOS应用开发对比分析
【8月更文挑战第20天】在移动应用开发的广阔天地中,安卓和iOS两大平台各占半壁江山。本文将深入探讨这两大操作系统在开发环境、编程语言、用户界面设计、性能优化及市场分布等方面的差异和特点。通过比较分析,旨在为开发者提供一个宏观的视角,帮助他们根据项目需求和目标受众选择最合适的开发平台。同时,文章还将讨论跨平台开发框架的利与弊,以及它们如何影响着移动应用的开发趋势。
|
11天前
|
安全 搜索推荐 Android开发
安卓与iOS应用开发的对比分析
【8月更文挑战第20天】在移动应用开发领域,安卓和iOS两大平台各领风骚。本文通过深入探讨两者的开发环境、编程语言、用户界面设计、应用市场及分发机制等方面的差异,揭示了各自的优势和挑战。旨在为开发者提供决策支持,同时帮助理解为何某些应用可能优先选择在一个平台上发布。
22 2
|
15天前
|
开发工具 Android开发 Swift
安卓与iOS开发环境对比分析
在移动应用开发的大舞台上,安卓与iOS两大操作系统各占半壁江山。本文将深入浅出地比较两者的开发环境,从开发工具、编程语言到用户界面设计等多个维度进行剖析,旨在为初入行的开发者们提供一盏明灯,帮助他们选择适合自己的开发路径。通过实例分析和数据支持,我们将揭示这两个平台的独特优势和潜在挑战,以及它们如何影响应用的性能和用户体验。
34 1
|
22天前
|
开发工具 Android开发 Swift
安卓与iOS开发环境对比分析
在移动应用开发的广阔天地中,安卓与iOS两大平台各占半壁江山。本文通过浅显的语言和直观的比喻,探讨了这两大操作系统在开发环境上的差异与特点,旨在为初入行的开发者们提供一个清晰的指南。我们将从开发工具、编程语言、用户界面设计以及生态系统四个方面进行比较,帮助读者理解每个平台的优势与局限。
|
23天前
|
Java 开发工具 Android开发
安卓与iOS开发环境对比分析
在移动应用开发的大潮中,安卓和iOS两大平台各自展现出独特的开发环境和生态系统。本文将从开发者的角度出发,深入探讨这两个平台在编程语言、开发工具、用户界面设计以及市场分布等方面的不同特点。通过比较分析,旨在为移动应用开发者提供一份实用的参考,帮助他们在项目初期做出更加明智的平台选择。
|
23天前
|
开发工具 Android开发 Swift
安卓与iOS开发环境对比分析
在移动应用开发的广阔天地中,安卓和iOS平台如同双子星座般耀眼。本文将深入探讨这两大操作系统的开发环境,从语言、工具到生态系统,揭示它们的独特魅力与挑战。通过比较,我们不仅能更清晰地看到各自的特点,还能理解开发者如何在这两个平台上进行高效工作。无论你是安卓的忠实拥趸还是iOS的狂热粉丝,这篇文章都将为你提供一个全面的视角,让你对移动应用开发有更深的认识。
33 1
|
13天前
|
机器学习/深度学习 人工智能 自然语言处理
【自然语言处理】TF-IDF算法在人工智能方面的应用,附带代码
TF-IDF算法在人工智能领域,特别是自然语言处理(NLP)和信息检索中,被广泛用于特征提取和文本表示。以下是一个使用Python的scikit-learn库实现TF-IDF算法的简单示例,并展示如何将其应用于文本数据。
162 65
|
3天前
|
机器学习/深度学习 人工智能 自然语言处理
AI技术在自然语言处理中的应用与挑战
【8月更文挑战第28天】本文将探讨AI技术在自然语言处理(NLP)领域的应用及其面临的挑战。我们将通过实例和代码示例,展示AI如何帮助机器理解和生成人类语言,并讨论在这一过程中遇到的主要问题和可能的解决方案。
|
4天前
|
机器学习/深度学习 人工智能 自然语言处理
AI技术在自然语言处理中的应用
【8月更文挑战第27天】本文将探讨人工智能技术在自然语言处理领域的应用,包括语音识别、机器翻译、情感分析等方面。我们将通过实例展示AI如何改变我们与计算机的交互方式,并讨论其在未来发展的潜力。
下一篇
云函数