业务场景

在很多业务场景中，时时刻刻在产生多模态数据，如图像、音频、视频等。这些数据通常以文件的方式存在对象存储上，如何在数据库内部对这些多模态的数据进行统一的分析和查询，一直是一个热门的问题。

多模态大模型（Multimodal Large Language Models, MLLMs）是人工智能领域的前沿技术，它们结合了多种数据模态（如文本、图像等），通过大规模预训练，实现了对复杂信息的深度理解和高效处理。这些模型不仅扩展了传统语言模型的边界，更在视觉问答、图像字幕生成、语音识别等领域展现出了强大的应用潜力。

数据库结合多模态大模型的能力，实现在数据库中对于多模态数据的查询和分析，一些可能的场景包括：

图像识别与分类：根据特定的图像，识别出图片中的对象。比如用户上传了一些餐食的图片，识别出这些图片中包含了哪些食物，并计算出所有食物的卡路里。

图像到文本检索：也就是根据给定的图像，从一堆文字中找出最匹配的描述。这种技术在搜索商品图片时特别有用，可以从图片中找出相关的商品评论。
基于文本的图像检索（图像搜索）：根据用户详细描述的文本，检索出与文本最相近的图片。这不仅对于用户检索商品图片很有用，对于企业内部查找文档和图片也同样重要。

最佳实践

技术实现

PolarDB

PolarDB PostgreSQL版（下文简称为 PolarDB）是一款阿里云自主研发的云原生关系型数据库产品，100% 兼容 PostgreSQL，高度兼容Oracle语法；采用基于 Shared-Storage 的存储计算分离架构，具有极致弹性、毫秒级延迟、HTAP 的能力和高可靠、高可用、弹性扩展等企业级数据库特性。同时，PolarDB 具有大规模并行计算能力，可以应对OLTP与OLAP混合负载。

PolarDB具备POLAR_AI模型服务调用插件，支持使用SQL的方式调用模型服务，不需要拥有机器学习经验，不需要拷贝移动数据，不需要学习新的单独的工具，就可以将AI/ML的能力添加到数据库中。

PolarDB从底层直接调用模型服务，不经过应用程序层，因此访问延迟低、性能优、吞吐大、安全高，也不会影响到数据库的性能。

Embedding

中文可译为嵌入或嵌入式表示，是机器学习和自然语言处理领域中的一个重要概念。它是指将高维、稀疏的特征向量（如词典中的词语、图像像素点等）转换为低维、密集的连续向量空间中的向量表示的过程。

CLIP

CLIP是OpenAI在2021年发布的一种用于图像和文本联合表示的AI模型。其核心思想是通过对比学习来预训练一个模型，使其能够理解图像和文本之间的关系。CLIP使用大规模的图像-文本对数据集进行预训练，例如从互联网上收集的4亿个图像-文本对，这些数据集包含了丰富的图像和对应的描述文本，使得模型能够学习到广泛的视觉概念和语言表达。

CLIP通过对比学习来训练模型。具体来说，对于一个批次中的每个图像-文本对，模型会计算图像和文本的特征向量，并使用对比损失函数来优化模型参数。对比损失函数的目标是使得匹配的图像-文本对的特征向量尽可能接近，而不匹配的图像-文本对的特征向量尽可能远离。

查询流程

主要的查询步骤包含以下步骤：

客户端将AI相关的SQL发送给PolarDB
PolarDB从OSS中获取要查询的图片数据，进行重采样和编码操作
PolarDB把编码后的数据发送给CLIP模型服务
CLIP模型服务进行推理后，将结果进行返回
PolarDB将从服务获取的结果转换为数据库类型，并返回给客户端

建议配置

为了得到良好的体验，建议使用以下配置：

项目	推荐配置
PolarDB 版本	标准版兼容PostgreSQL 14
CPU	>16 Core
内存	>64 GB
磁盘	>100GB (AUTOPL)
版本	>=14.13.28.0（20241230发布）

实战步骤

本文以自动驾驶的图片数据为例，介绍如何使用POLAR AI的能力进行多模态相似性的检索（文搜图，图搜图）。

自动驾驶数据使用的是加州大学伯克利分校发布的 BDD100K 数据集，数据可从此处下载。

部署CLIP模型服务

CLIP模型以及衍生模型服务由多种方式进行部署，本教程为了简便起见采用了 CLIP-as-service作为CLIP模型服务。CLIP-as-service 支持多种部署形态，多种CLIP模型以及提供HTTP，gPRC等访问协议。

CLIP-as-service部署非常简单：

pip install clip-client
python -m clip_server

即可启动模型服务。

注意：

Polar AI需要使用HTTP接口，因此需要允许HTTP请求，配置参见YAML config章节
CLIP-as-service支持多种CLIP模型，运行环境以及输出的向量维度不相同，配置参见Model support 章节

部署完成后可通过

curl -X POST http://0.0.0.0:51000/post \ 
     -H 'Content-Type: application/json' \
     -d '{"data":[{"text": "First do it"}]}'

来对http服务进行测试。

从文档可知，CLIP-as-service的请求数据格式分为两种，文本类型为：

{"data":[{"text": "First do it"}]}

图片类型支持base64编码的图片以及基于uri的访问模式:

{"data":[ {"blob":"base64_string" }]}
{"data":[ {"uri":"https://clip-as-servie/static/test.jpg" }]}

其中图片类型需要转为base64编码且不带mime类型信息。

返回的结果格式为:

{"header":{"requestId":"8b1f4b419bc54e95abxxxxxxx","status":null,"execEndpoint":"/","targetExecutor":""},"parameters":null,"routes":[{"executor":"gateway","startTime":"2022-04-01T15:24:28.267003+00:00","endTime":"2022-04-01T15:24:28.328868+00:00","status":null},{"executor":"clip_t","startTime":"2022-04-01T15:24:28.267189+00:00","endTime":"2022-04-01T15:24:28.328748+00:00","status":null}],"data":[{"id":"b15331b8281ffde1e9f...","parent_id":null,"granularity":null,"adjacency":null,"blob":null,"tensor":null,"mime_type":"text/plain","text":"hello, world!","weight":null,"uri":null,"tags":null,"offset":null,"location":null,"embedding":[-0.022064208984375,0.1044921875, ..., -0.1363525390625,-0.447509765625],"modality":null,"evaluations":null,"scores":null,"chunks":null,"matches":null}]}

embedding包含在 embedding 这个键值中。

数据库准备

创建扩展

创建POLAR_AI扩展

CREATE EXTENSION POLAR_AI WITH SCHEMA PUBLIC;
set search_path="$user", public,polar_ai;

创建模型

一个自定义的模型包含输入，输出以及用户使用的三个函数

输入函数

根据文档，可以定义出相应的输入和输出函数：

文本类型的多模态embedding

-- 此处输入一个文本串
CREATE OR REPLACE FUNCTION clip_text_embedding_in(model text, setence text)
    RETURNS jsonb
    LANGUAGE plpgsql
    AS $function$
    BEGIN
    RETURN ('{"data": [{"text": "' ||setence || '"}]}')::jsonb;
    END;
    $function$;

图像类型的多模态embedding

函数涉及到以下三个函数

ai_loadfile 从OSS上读取一个文件，以bytea的方式进行返回
ai_resizeimage 将图片从采样为指定的大小
ai_imageasbase64 将图片进行base64编码，返回出编码串

此处输入的参数为一个存储在oss上的图像文件路径，数据库首先会从oss上读取该文件；由于原始的图片分辨率较高，而模型最终需要转换为336*336的分辨率，因此将原始图像转换为336*336分辨率后降低数据传输量，提升推理性能；最后把重采样后的图片转为base64编码。

-- 图片类型
CREATE OR REPLACE FUNCTION clip_image_embedding_in(model text, image_path text)
    RETURNS jsonb
    LANGUAGE plpgsql
    AS $function$
    DECLARE 
     url text;
    BEGIN
      url = 'oss://<ak>:<sk>@<endpoint-internal>/<bucket>/' || $2;
    RETURN ('{"data": [{"blob": "' || ai_imageasbase64(ai_resizeimage(ai_loadfile(url), 336, 336), false)|| '"}]}')::jsonb;
    END;
    $function$;

输出函数

输出函数对于文本和图片类型一致，从返回的结果中提取embedding

CREATE OR REPLACE FUNCTION clip_embedding_out(model_id text, response_json jsonb)
    RETURNS jsonb
    AS $$ select (((((response_json)->>'data')::jsonb->0)::jsonb)->>'embedding')::jsonb as result $$
    LANGUAGE 'sql' IMMUTABLE;

创建模型

创建一个自定义的模型，分别定义文本和图片的embedding模型

-- 文本模式
SELECT polar_ai.ai_createmodel('embedding/clip_text', --模型id
'http://10.10.1.x:51000/post', --访问地址
'other', -- 模型提供商
'embedding', -- 模型类别
'clip', -- 模型名称
'{"author_type": "token", "token": "my_token"}', --认证信息
NULL, -- header函数
'clip_text_embedding_in'::regproc, -- 输入函数
'clip_embedding_out'::regproc --输出函数); 
-- 图片模式
SELECT polar_ai.ai_createmodel('embedding/clip_image', --模型id
'http://10.10.1.x:51000/post',--访问地址
'other',-- 模型提供商
'embedding',-- 模型类别
'clip',-- 模型名称
'{"author_type": "token", "token": "my_token"}', --认证信息
NULL,-- header函数
'clip_image_embedding_in'::regproc,-- 输入函数
'clip_embedding_out'::regproc --输出函数);

注意：url地址与token需要替换为clip-as-service部署时记录的信息

创建用户函数

创建用户使用的函数，分别定义文本和图片两种类型的函数。其中图片类型的函数输入为oss的路径地址。

-- 输入文本生成embedding
CREATE OR REPLACE FUNCTION clip_text_embedding(text text)
    RETURNS float4[]
    AS $$ select array(select json_array_elements_text(polar_ai.AI_CALLMODEL('embedding/clip_text',$1)::json))::float4[] as result $$
    LANGUAGE 'sql' IMMUTABLE;
-- 输入图片路径生成embedding
CREATE OR REPLACE FUNCTION clip_image_embedding(text text)
    RETURNS float4[]
    AS $$ select array(select json_array_elements_text(ganos_ai.AI_CALLMODEL('embedding/clip_image',$1)::json))::float4[] as result $$
    LANGUAGE 'sql' IMMUTABLE;

函数返回的结果是基于float4数组的embedding。

数据准备

数据上传

使用oss工具将BDD100K数据解压后进行上传，图片放置到统一目录下。

数据库建表

创建如下表结构用于保存文件路径以及对应embedding

CREATE TABLE images(id serial, 
url text,  -- 图片路径
embedding vector(512),  -- 图片向量
);

其中url记录了图像的相对路径，如

test_data/bdd100k/images/10k/train/0004a4c0-d4dff0ad.jpg

数据写入

根据数据的目录结构向数据库中插入数据，如:

INSERT INTO images(url)
VALUES ('test_data/bdd100k/images/10k/train/0004a4c0-d4dff0ad.jpg');

创建embedding

路径插入完成后，可以使用前一步创建的图片向量生成函数进行图片embedding的创建：

UPDATE images
SET embedding=clip_image_embedding(url)::vector(512);

创建索引

图片embedding创建完成后，可对embedding进行索引创建，加速后续的查询

CREATE INDEX ON images USING hnsw (embedding vector_l2_ops);

对于向量索引的更多用法参见PGVector。

多模态检索

当完成以上准备工作后，就能进行以下的检索查询：

文搜图

使用一段文本，检索与该文本最相近的图片。

例如：使用关键词 `white truck in a snow day`，找出包含以上关键词最相关的10张图片

SELECT id, url
FROM images
ORDER BY embedding <-> clip_text_embedding('white truck in a snow day')::vector(512) DESC
limit 10;

使用附录中的notebook可以预览效果,：

检索还可以结合其他的条件过滤，使用的方法与普通的SQL条件查询一致，可以与b树，全文检索，时空等多模态检索进行组合。

例如：使用关键词 `black car in the night`，找出id > 1000 中包含以上关键词最相关的10张图片

SELECT id, url
FROM images
WHERE id > 1000
ORDER BY embedding <-> clip_text_embedding('black car in the night')::vector(512) DESC
limit 10;

图搜图

给定一张图片，检索与该图片在语义上最类似的图片。

例如：找出与id = 5560 图片语义上最相似的10张图片

SELECT id, url
FROM images
ORDER BY embedding <-> (
  SELECT clip_image_embedding(url)::vector(512)::vector(512) FROM images WHERE id = 5560) DESC 
limit 10;

注意：CLIP从本质上搭建的文本和图片之间的关系，用图片检索图片效果不一定最佳。如有以图搜图的需求，可使用 RESNET或VGG模型，除了模型部署的步骤，其他操作流程与本文一致。

总结

PolarDB POLAR_AI模型服务具备灵活的特性，通过调用CLIP多模态模型服务，定制SQL实现多模态数据的embedding生成和相似性检索功能。使用时仅使用简单的SQL语句，不需要专业的AI/ML背景，不需要移动数据，就满足文搜图和图搜图的业务需求。

试用体验

欢迎访问PolarDB免费试用页面，选择试用“云原生数据库PolarDB PostgreSQL版”，体验PolarDB的AI能力

附录

图片预览代码

import psycopg
import io
from PIL import Image
import matplotlib.pyplot as plt
def connect():
    try:
        conn = psycopg2.connect(
            dbname="dbname",  # 数据库名
            host="localhost", # 数据库地址，如果是本地就是'localhost'
            port="5432"       # 数据库端口，默认是5432
        )
      
    except (Exception, psycopg2.Error) as error:
        print("连接到PostgreSQL数据库时发生错误: ", error)
    return conn
def exec_sql(sql):
    connection = connect()
    
    try:
        # 创建游标对象，用来执行SQL命令
        cursor = connection.cursor()
    
        cursor.execute(sql)
        rows = cursor.fetchall();
        image = None
        for row in rows:
            print(str(row[0]) + ":" +row[2])
            image = Image.open(io.BytesIO(row[1]))
            plt.imshow(image)
            plt.axis('off')
            plt.show()
        cursor.close()              
    except (Exception, psycopg2.Error) as error:
        print(error)
        cursor.close()
    connection.close()
'''
my_loadfile函数需要预先在数据库内创建，用于从oss上读取文件并缩放大小到512便于显示
CREATE OR REPLACE FUNCTION my_loadfile(text)
    RETURNS bytea
    AS $$ SELECT AI_RESIZEIMAGE(AI_LOADFILE('OSS://<ak>:<sk>@<endpoint-internal>/<bucket>/' || $1), 512, 0 )$$
    LANGUAGE 'sql' IMMUTABLE;
'''
## 文搜图
sql = "SELECT id, my_loadfile(url),url \
FROM images \
WHERE url 
ORDER BY embedding <-> clip_text_embedding('white truck in a snow day')::vector(512) \
limit 5"
exec_sql(sql)

PolarDB-PG AI最佳实践3 ：PolarDB AI多模态相似性搜索最佳实践

业务场景

最佳实践

技术实现

PolarDB

Embedding

CLIP

查询流程

建议配置

实战步骤

部署CLIP模型服务

数据库准备

创建扩展

创建模型

输入函数

输出函数

创建模型

创建用户函数

数据准备

数据上传

数据库建表

数据写入

创建embedding

创建索引

多模态检索

文搜图

图搜图

总结

试用体验

附录

Data+AI

热门文章

最新文章

相关产品

相关课程

相关电子书