使用 Arize 监控非结构化数据(Arize)

简介: 为什么要 Embeddings?我们认为 Embeddings 是人工智能和深度学习的基础。Embeddings 是深度学习模型如何表示模型所学习的结构、映射、层次结构和流形的核心。它们将现代深度学习从transformers扩展到编码器、解码器、自动编码器、推荐引擎、矩阵分解、SVD、图神经网络和生成模型——它们无处不在。

为什么要 Embeddings?

我们认为 Embeddings 是人工智能和深度学习的基础。Embeddings 是深度学习模型如何表示模型所学习的结构、映射、层次结构和流形的核心。它们将现代深度学习从transformers扩展到编码器、解码器、自动编码器、推荐引擎、矩阵分解、SVD、图神经网络和生成模型——它们无处不在。

Embeddings 占主导地位,因为它们是下一代模型工作方式的基础。鉴于该行业在理解 embeddings 是什么以及如何将信息压缩和映射到 embeddings 方面才刚刚起步,我们希望我们正在构建的东西将引领下一代专注于 embeddings 的分析系统,并为从业者提供世界一流的工具来分析解决模型和数据。


作为一家专注于构建软件以帮助人类了解 AI 工作原理、在出现故障时对其进行修复和改进的公司,朝着这个方向前进是很自然的——但从一开始就并不明确。在过去的一年里,每月在数百个平台用户中跟踪数千亿次预测,这是一次了不起的旅程,我们学到了很多东西,将这些学习知识转化为一个用于 embedding 分析的架构,这是同类中的第一个。


我们从顶级机器学习团队那里听到了什么

根据多项估计,生成的数据中有 80% 是非结构化图像、文本或音频。不幸的是,使用这种非结构化数据的 ML 团队在交付模型时是盲目的。

以下是从与客户和顶级 ML 团队的对话中确定的使用深度学习模型的几个主要挑战:

  • 当非结构化数据模型投入生产时,机器学习团队缺乏对数据发生了什么情况的可见性。如果不监控漂移或性能,实际上不可能发现上游数据质量问题或数据变化。
  • 深度学习模型的训练成本很高。由于标记成本高昂,机器学习团队通常只标记 0.1% 的数据。当模型随后投入生产时,通常会导致出现模型在训练中没有遇到的新模式。这些新模式被忽视了,会导致性能下降。

在与顶级 ML 组织的对话中,我们还看到越来越多的结构化和非结构化输入组合成一个模型。随着越来越多的团队朝着这个方向前进,他们需要一个跨越结构化和非结构化模型的 ML 可观察性解决方案。


Arize 发布 Embeddings 支持

在此版本中,团队可以将包含结构化和非结构化数据的模型记录到 Arize 以进行监控。通过监控其非结构化数据的 Embeddings,团队可以主动识别非结构化数据何时漂移。使用交互式可视化帮助隔离新的或正在出现的模式、基础数据更改和数据质量问题,故障排除很简单。

Arize 的交互式 UMAP(统一流形逼近和投影)实施具有 2D 和 3D 视图,使团队能够在低维空间中快速可视化他们的高维数据。通过可视化 Embeddings 与在训练数据之上分层的生产数据之间的漂移,团队能够看到 Embeddings 分组并轻松识别训练中不存在的模式或数据。

有了与每个 Embeddings 相关的原始数据,团队还拥有对深度学习模型进行故障排除所需的可行洞察力。无论是导出有问题的部分以进行高价值标签还是识别上游数据质量问题以进行挖掘,ML 团队在交付其非结构化数据模型时不再处于黑暗之中。


使用 Arize 的示例工作流程

Embedding 表示是允许团队不断改进模型和数据的工作流的关键。 可以从几乎所有类型的深度学习模型中提取内部embedding表示,从而从内部了解模型“看到”的内容。

让我们看一下 Arize 中非结构化数据的 ML Observability 示例。 在此示例中,一家电子商务公司的模型包含结构化数据(例如:年龄和性别)以及非结构化数据(例如:对其产品的文本评论),以更好地了解其消费者对其产品的反应。

这家电子商务公司生成embeddings来代表它收到的文本评论,训练它的情感分类模型。 该模型读取评论并将情绪分类为积极、中性或消极。

通过将模型记录到 Arize,公司可以监控所有输入(结构化和非结构化)的偏差和性能。

网络异常,图片无法展示
|


在 Arize 中 Embedding 模型输入

通过点击 embedding 特征,我们可以看到漂移有所增加。

网络异常,图片无法展示
|


Embedding 漂移

为了更好地可视化数据可能发生的情况以便进行故障排除,Arize 生成了一个 2D → 3D  的 UMAP。

通过在 UMAP 图上将它们的embeddings可视化,生产 embeddings 覆盖在训练 embeddings 上,该公司发现生产中存在一种训练中不存在的新模式。

网络异常,图片无法展示
|


2D UMAP 可视化:识别新模式

单击这个新区域并查看评论(reviews)中的原始文本,我们看到这些评论是西班牙语的。 由于该团队的 ML 模型仅针对英语进行了训练,因此该模型无法正确分类这些评论的情绪。 有了这种新的洞察力,团队可以重新训练他们的模型以包含西班牙语,这样他们就可以了解所有客户的情绪,而不仅仅是说英语的客户。

网络异常,图片无法展示
|


3D UMAP 可视化:从生产中选择嵌入,原始数据显示西班牙语评论,实际标签与预测不符


总结

从 DALL-E 2 到 GPT-3,在非结构化数据空间中发生了许多惊人的技术创新。 随着 AI 变得越来越复杂,Arize 可以帮助解决最复杂的模型。 我们很高兴能通过此版本继续推动行业向前发展。


相关文章
|
3月前
|
存储 传感器 人工智能
2024年非结构化数据管理将以四种方式发生变化
2024年非结构化数据管理将以四种方式发生变化
|
6月前
|
存储 数据采集 数据可视化
实时报表与多维分析,如何实现
实时报表与多维分析,如何实现
|
存储 数据管理 数据库
非结构化数据怎么盘点?
非结构化数据怎么盘点?
|
存储 自然语言处理 文字识别
非结构化数据怎么治理?
非结构化数据怎么治理?
|
存储 XML 容灾
结构化数据,我该拿你怎么办?
结构化数据,我该拿你怎么办?
152 0
|
数据采集 消息中间件 存储
大数据数据采集的数据采集(收集/聚合)的Logstash之概念的开源数据收集引擎
在大数据领域,数据采集是非常重要的一环。而Logstash作为一个开源的数据收集引擎,可以帮助我们轻松地实现数据的采集、聚合和传输等功能。本文将会对Logstash进行详细介绍。
269 0
|
数据采集 消息中间件 分布式计算
大数据数据采集的数据采集(收集/聚合)的Flume之概念
在大数据应用中,数据采集是非常重要的一步。Flume是一个开源的分布式系统,可以帮助企业完成数据采集、收集和聚合等操作,并将它们发送到后续处理系统中。
286 0
|
存储 数据采集 NoSQL
大数据数据采集的数据来源的日志数据之埋点访问数据
在大数据采集中,埋点访问数据是一种常见的日志数据类型。本文将介绍什么是埋点访问数据以及如何高效地从该类型的数据中采集和处理数据。
168 0
|
XML 存储 JSON
什么是结构化数据、半结构化数据、非结构化数据
什么是结构化数据、半结构化数据、非结构化数据
637 0
什么是结构化数据、半结构化数据、非结构化数据