面向AI场景的数据处理和数据检索

简介: 本文分享了AI场景下面临的数据处理与检索挑战及解决方案。AI内容生产涉及数据准备、模型训练、推理及应用四大环节,其中数据准备环节面临数据来源复杂、格式多样及数据量激增的挑战,模型训练环节需解决推理准确性问题,AI应用环节则需克服接口兼容性难题。为应对这些挑战,阿里云存储OSS与智能媒体管理IMM提供百余种数据处理能力,并升级数据索引功能支持向量检索,助力构建多模态检索应用。此外,还介绍了Serverless数据处理方案,可日均处理百亿级别文件,通过OSS数据索引能力,客户能快速构建RAG检索增强,同时实现多模态检索的搭建,显著提升AI应用的效能和用户体验。


1. AI场景为数据处理和数据检索带来的挑战

在AI的生产内容当中可以分为4个环节,其中包括数据准备环节、模型训练环节和模型推理环节、以及AI应用环节。其中数据准备环节、模型推理环节以及AI应用环节都会大量的使用到数据处理和数据检索能力,在AI和AIGC大模型的背景下数据处理和数据检索都面临了很多挑战。

数据准备环节在大数据中主要面临数据来源较复杂性问题,其归结为两方面原因,一是因为原始数据是全球采集,同时数据的格式非常多样化,从过往的文本和图片为主到现在拓展到视频音频文件,因此对数据处理的能力要求也更加多样化。二是因为音视频文件的占比增大导致数据的体积变得很大,以往的原始数据更多是在TB或者是GB级别,而现在更多是一个PB的级别,这对数据处理的性能和效率也提出了更高的要求。

在模型训练环节当中,大模型主要面临推理结果的准确性问题,因为单纯依靠大模型会伴随知识幻觉、数据的时效性、数据安全等问题,其中数据的时效性和数据安全是大模型推理带来的问题。而RAG检索增强被认为是可以有效增强推理结果的一种方式,但是RAG检索增强需要对海量数据进行大规模的索引抽取和索引构建,这对于传统行业的客户来说难度其实比较大,除了技术方面的难度之外,更多还面临GPU资源的采购和技术运维等一系列问题。

AI应用环节中,很多应用场景都会使用到数据处理和数据检索,比如智能客服、智能机器人、智能问答、多模态检索等。所以AI应用场景是非常多样化的。又因为应用会安装在不同的客户端,所以会带来接口的兼容性问题,如果这部分能力全部自研,将会面临GPU资源的采购以及较高的开发投入这两个严峻的问题。

2. 智能存储时代下的数据组织能力演进

在这些挑战下,存储数据的数据处理和检索能力也在不断的演进当中,演进的方向主要聚焦在四个方面,即简单、易用、更强的兼容性和低成本。同时AI serverless提供了一个开箱即用的AI能力,不需要关注底层的资源购买和部署问题。

在数据准备环节中,我们针对图片视频音频文档等数据格式提供了多样化的数据处理能力来满足客户在AI数据准备阶段的需求,如图片裁剪、缩放、视频截帧和文档关键词提取等,它们已经大量应用在了AI数据准备环节当中了。

在模型推理阶段,OSS全新升级数据索引能力,在已有标量检索的基础之上支持了向量检索,客户可以通过数据索引功能进行标量和限量的联合检索,来快速构建多模态检索的相关AI应用,或者在模型推理环节当中进行REG检索增强。在AI应用环节,提供了多样化的智能识别能力,同时通过向智能创作和智能编辑的能力来助力客户快速构建自身的AI应用。

2.1 面向AI的大规模数据处理能力

image.png

在数据处理方面,阿里云存储 OSS 和智能媒体管理 IMM 提供了百余种数据处理的原子能力,包括 60 余项数据处理能力,集中在图片处理、音视频处理、文档处理和通用文件处理上。在图片处理方面,除了提供多样化的处理功能外,我们还提供了如 AVIF 压缩、Heic 压缩等多种图片压缩格式,可以在不改变图片主观效果的情况下,将图片的体积降低 50% 以上,帮助客户降低内容分发的流量成本。

同时在视频处理方面,除了提供丰富的视频转码能力外,我们还提供边转边播、视频拼接等丰富的处理能力。这里重点讲一下边转边播。边转边播可以边转码边进行视频播放,播放多久转码多久,可以有效降低转码成本。同时,由于转码量减少,也可以进一步减少转码后视频的存储成本。

在智能处理方面,我们提供了丰富的智能原子能力,包括各类型的识别和聚类,如相似人脸聚类、异常人脸检测、人脸查询、物体和人物检测,相似内容聚类等。同时,我们提供一些生成式的能力,如故事生成,故事封面生成等。同时,为了满足对视频的编辑需求,我们提供视频编辑能力,如食品标签、视频分割、视频集锦等等。另外,我们还提供了丰富的安全能力,如数字水印、数据加密、原图保护等。

那在产品使用方面,除了提供 API 接口外,我们还提供丰富的数据操作方式。如触发器基于事件通知能力,可以增量数据进行自动化的触发和处理;批量处理可以对存量数据进行批量数据处理操作,而任务管理和任务通知能力,可以对各类异步事件进行监控和通知,提升数据处理的使用体验和处理效率。

2.2 Serverless 数据处理方案,日均数百亿数据文件处理量

OSS 数据处理提供了serverless化的数据处理方案,当前日均处理了百亿级别的文件,具备高性能、高并发的特点。使用OSS数据处理简单易用,客户只要在 GET 或者 PUT 文件时,在请求的URL或者SDK中携带相关的参数即可。比如客户希望进行图片压缩,那么只需要在URL中携带image/recise这样的处理参数,并携带宽高和缩放方式,就可以实现在读文件或者写文件的时候来做到图片缩放。

同时为了满足一些复杂的处理需求,客户也可以提前去创建一个图片的处理样式,在一个样式中囊括多种处理能力,在请求时只需要写在该样式的名称即可,所以说使用非常便捷。

2.3 OSS 数据索引,提供百亿数据的秒级索引和聚合

OSS提供了数据索引的能力,支持百亿级别的数据锁影和数据聚合,OSS数据索引可以对bucket生成一个索引表,而索引表可以对文件的OSS Meta、多媒体 Meta、自定义 Meta以及向量特征进行抽取。在抽取性能方面,OSS数据索引可以实现秒级索引的构建,针对一些数据规模较大的一些bucket,也可以做到分钟级别的索引构建。

OSS数据索引除了对存量数据可以生成索引之外,也可以对后续的增量数据来生成索引,生成索引之后客户可以通过API来对文件进行向量检索。

OSS数据索引提供多样化的数据检索条件,包括支持一些标量和向量的检索条件。在标量检索条件方面,可以根据文件大小、存储类型、最后一次修改时间、ACL权限等OSS Meta来进行检索,也可以根据文件格式、视频创作者、视频分辨率、文档大小、图片地理信息等信息来进行检索,同时也可以支持通过语义来进行检索,比如可以去检索一个“2022年雪中草原”这句话来对应它这个内容相关的一些文件,客户还可以将索引表导出到自己的这个表格,存储table store表格当中。

3. 最佳实践

3.1 使用 OSS 数据处理准备 AI 训练所需数据集

首先是关于数据处理的最佳实践。在大模型训练的数据准备环节中,OSS 和智能媒体管理 IMM 提供丰富的数据处理能力。在数据准备过程中,尤其是视频文件的数据准备过程中,往往第一步是对视频进行截帧。截帧之后,需要对截帧后的图片进行质量评分,将分数较高的图片挑选出来。

之后,会对图片进行一些标准化处理,如缩放、裁剪、添加水印等等,以满足标准数据集的数据要求。处理完之后,往往还会对图片上的文字进行识别,因此会用到 OCR 能力。

同时,因为模型训练的需要,往往会对图片中的标签进行识别,如物体识别、人脸识别。或者在一些特殊训练场景下,还会有车辆识别、车牌识别等需求。识别后,返回识别后的标签和置信水品。

最后,还要对图片的媒体信息进行识别,如宽高、创建时间、格式等。处理完成后,客户会根据自身场景需求将这些数据写入元数据表。

image.png

3.2 OSS 数据索引快速构建 RAG 检索增强

在很多AI大模型的公司会有很多原始数据,比如企业内部的数据、爬虫数据以及第三方上传上来的数据等,这些数据都会存储到OSS当中。客户将对应的 Bucket 开启数据索引后,OSS 会在后台自动将数据的各类型元数据抽取出来,在后台生成索引表。客户可以将这张表作为大模型推理过程中的 RAG 外挂知识库。

当发起数据检索时,比如检索了“2022年极光照片”,OSS会在索引表当中去查询相关的文件并返回检索结果,该检索结果可以以文本的形式返回到大模型当中对检索增强,同时也支持将索引表导出到客户自己的tablestore表中,用以serverless化的聚合查询的一些场景。

因此,对客户来说,该功能简单易用,且无需关注底层所需的资源,可以开箱即用。同时,因为索引表随OSS数据可以做到及时更新,所以检索结果它其实具有时效性,且数据无需上传到第三方平台,因此也不会发生一些数据泄露的风险,除此之外检索数据均为内部的数据属于客户的私域的知识,能够有效的解决大模型带来的知识幻觉的问题。

image.png

3.3 使用 OSS 数据索引快速搭建多模态检索

随着用户使用习惯的变化,越来越多的客户希望通过多模态检索的方式来对所需内容进行一个检索,而OSS 数据索引可以直接支撑该能力的一个建设,且用户仅需一步操作就可以 bucket 的向量检索,开启后,客户端便可以通过调用API的方式来发起检索操作,比如检索“日落照片”或者检索“2023年产品规划”等。

总而言之,OSS数据索引检索内容丰富,且功能简单易用、开箱即用,无需关注底层资源的问题,并且支持SQL 化的查询,同时可以有效保证检索内容的实效性。

image.png


分享人:薄磊(为常)阿里云智能产品专家

作者介绍
目录