向量 + 超融合，打造大模型应用的数据中枢

2024-01-22 88

版权

本文内容由阿里云实名注册用户自发贡献，版权归原作者所有，阿里云开发者社区不拥有其著作权，亦不承担相应法律责任。具体规则请查看《阿里云开发者社区用户服务协议》和《阿里云开发者社区知识产权保护指引》。如果您发现本社区中有涉嫌抄袭的内容，填写侵权投诉表单进行举报，一经查实，本社区将立刻删除涉嫌侵权内容。

简介： 向量数据库能够为用户提供高效、准确的搜索和分析功能，与机器学习和人工智能应用的兼容性使其在大模型领域中变得越来越重要。

免费体验阿里云高性能向量检索服务：https://www.aliyun.com/product/ai/dashvector

一场由 OpenAI 掀起的 AI 革命，带动了向量数据库产业的爆发。但究其根本，通用大模型技术之所以能够迎来质的变化，核心驱动因素在于底层数据库的数据存储、分析能力不断进化及量变的结果。

据 IDC 预测，至 2025 年，全球每年产生的数据量将达到 175ZB，其中超过 80%为非结构化数据。文本、音频、视频和关系数据等海量的非结构化数据需要一种特殊的处理方式，这种需求催生了向量数据库的出现，即“向量化”。

如何看待向量数据库技术？

向量是一种将非结构化的数据转换为嵌入向量的技术，通过多维度向量数值表述某个对象或事物的属性或者特征。通过嵌入技术，任何图像、声音、文本都可以被表达为一个高维的向量，相当于让大数据拥有了更强大的记忆能力。当模型需要记忆大量的聊天记录或行业知识库时，可将其储存在向量数据库中，后续在提问时将问题向量化，送入向量数据库中匹配相似的语料作为 prompt，向量数据库通过提供记忆能力使 prompt 更精简和精准，从而使返回结果更精准。

因此，通过向量化计算，用户使用向量数据库能够高速地处理大规模的复杂数据和高维数据，例如图像、音频和视频等；同时，向量数据库支持复杂的查询操作，可轻松地扩展到多个节点，以处理更大规模的数据。

总之，利用向量数据的特性，向量数据库能够为用户提供高效、准确的搜索和分析功能，与机器学习和人工智能应用的兼容性使其在大模型领域中变得越来越重要。也许，向量数据库未来将会成为智能化 AI 的数据中枢。但对于企业而言，这样的向量数据库仍有不足。

目前来看，由于数据质量、多模态、成本性能等问题的存在，导致向量数据库对非结构化数据的理解相对困难，很多场景下依然需要多模型组合、搜索与生成结合等方法组合使用。这意味着，在真实应用场景当中，企业不可能只使用一款向量数据库，面对多样的数据类型与业务需求，很可能会同其它各类型数据库配合使用。在人工智能场景下，企业需要向量数据库来高效完成数据查询与写入，但企业的业务并非只集中于 AI 场景，解决来自多场景的数据融合问题，才是正确梳理、解决当前企业业务纵横交错的核心所在。而面对此类“大而全”的场景，应用场景相对单一、能力范围更加垂直的向量数据库，就显得有些力不从心。

我们将视野放大至整个数据库产业中，在向量化场景之外，会发现数据库产业所应用的场景之多、范围之广、能力之深。

因此，在多元化场景发展趋势下，数据库所做的应该是要聚焦用户的核心场景，为用户提供全方位的场景化数据库综合解决方案。其中，由人工智能大模型所催生的向量数据库也是诸多场景中的一员。

推荐向量检索服务DashVector

为应对海量写⼊和实时分析的多场景需求，基于阿里自研的向量引擎 Proxima 内核的向量检索服务 DashVector应运而生，可以提供具备水平拓展、全托管、云原生的高效向量检索服务。

将强大的向量管理、查询等能力，通过简洁易用的 SDK/API 接口透出，方便在大模型知识库搭建、多模态 AI 搜索等多种应用场景上集成。

SDK接口

拥有开箱即用的SDK接口，用极简的代码迅速实现向量管理：

importdashvector# 创建Collectiondashvector_client=dashvector.Client(api_key='YOUR_API_KEY', endpoint='YOUR_CLUSTER_ENDPOINT')
dashvector_client.create(name='quickstart', dimension=4)
# 向量入库collection=dashvector_client.get('quickstart')
collection.insert([
    ("A", [0.1, 0.2, 0.3, 0.4]),
    ("B", [0.2, 0.3, 0.4, 0.5]),
    ("C", [0.3, 0.4, 0.5, 0.6])
])

向量插入

importdashvector# 创建Client，获取collectiondashvector_client=dashvector.Client(api_key='YOUR_API_KEY',endpoint='YOUR_CLUSTER_ENDPOINT')
collection=dashvector_client.get('quickstart')
# 相似向量查询 collection.query(
vector=[0.1, 0.2, 0.3, 0.4]
)
#  使用过滤条件查询 collection.query(
vector=[0.1, 0.2, 0.3, 0.4],
topk=100,
filter='age>18',                # 条件过滤，仅对age > 18的Doc进行相似性检索output_fields=['name', 'age'],  # 仅返回name、age这2个Fieldinclude_vector=True)

相似向量查询

多个应用场景

大模型生成式检索

使用向量检索服务，结合灵积模型服务上的 Embedding API ，从 0 到 1 构建基于文本索引的构建+向量检索基础上的语义搜索能力。实现与通义千问相同的回答问题、创作文字、编写代码、语言翻译、文本润色、文本摘要和扮演角色进行对话等功能。

图像/视频/多模态搜索

通过 embedding 将单个图片/视频/文本文件抽象成高维向量特征，然后将所有特征构建成高效的向量索引。用户只需拍摄或者上传照片/短视频或输入文本，就可以通过相似向量搜索实现“文搜图”、“文搜视频”、“图搜视频”等功能。多模态的搜索服务大大提升用户的使用体验。

智能问答

将DashVector向量检索服务与大语言模型（LLM）相结合，构建专属领域的知识问答系统。我们将客户提问的文本，和知识库的内容，都先转化为高质量向量，再通过向量检索将匹配过程转化为语义搜索，更加简单且高效的提取相关知识点，并通过特定Prompt构造，理解意图并根据注入的领域知识来做出回答。