通俗地理解向量数据库的使用

简介: 该文章主要介绍AI理解和学习世界的方式,强调了向量在AI中的重要性,将其比喻为AI的“海马体”。向量数据库用于存储和检索信息,增强大语言模型的记忆力。最后推荐阿里云的高性能向量检索服务DashVector,提供相关链接以供了解和使用。

免费体验阿里云高性能向量检索服务:https://www.aliyun.com/product/ai/dashvector

向量banner制作-用于日常发文章.png


每天早晨当闹钟铃声响起我们睁开双眼,光线强度的信号传到视觉皮层,随手摸了一下手机看一下时间。五官的神经元激活后形成对事物的神经表征,最后由大脑对信号进行处理,这就是我们人类理解世界的机制。AI 模型的学习原理也并无二致,它实际识别和理解的不是一个个具体的文字符号,而是神经网络对各类数据的向量值,可以说向量是 AI 理解世界的通用数据形式。

image.png

图1 国王、女王、男、女在向量空间的表现形式

东汉和帝永元十二年(公元100年),许慎完成《说文解字》初稿。中国人有了第一部真正意义上的字典。基于字典读者可以精准匹配到某个字所对应的相关信息。这样的精准匹配方法在后世影响巨大,无论是八股文考试、高考语文的古诗词默写、SQL等标量数据库查询都是采用这种方法。这套逻辑归结成一句话则是“每一个问题的背后都有一个对应的标准答案”。可以说几千年的人类文明和学习方式都建立在此基础之上,但是它与我们的人类大脑处理问题的方式并不相同。人类的记忆形成依赖于大脑中的海马体,当一个人经历了某件事后海马体会形成情景记忆存入脑中,在处理问题时会通过模糊匹配的方式从海马体中再次提取出来。相较于精准匹配,模糊匹配所展现的特征往往与“标准答案”有所偏差,但是这却让人类在有限大脑资源的情况下能够拥有强大记忆的能力。这也是为什么一个不擅长背书的人,在早已忘记童年伙伴的名字的情况下,到了退休年龄依然能够回忆小时候的故事场景的原因所在。

图2 中国第一部字典《说文解字》

向量数据库就是AI系统中的海马体。

有用过大语言模型(LLM)的朋友可能都有过这样的经历,同样的问题在不同的时间段问,大语言模型会返回完全不同的答案。如果LLM回答错误通过提示让他进行修正,但是过几天它又开始一本正经的胡说八道。这是由于作为AI的主体,大语言模型自身并不具备短期记忆能力。所以我们可以将大语言模型视为一个患有短期失忆症的中科院院士。从应用角度来说,这样的AI显然不是我们想要的。当我们与一位知识渊博的院士打交道的时候,他应当记住我们今天的对话内容,对于他已经说错的话在提示后他会改正进步。如果他在某个领域不是很懂,在我们推荐他一些书本后他具有自主学习的能力。

那么,我们的AI开发者是如何让大语言模型拥有记忆力呢?最早的方案叫Retrieval Augmentation,它会将用户过往的聊天历史记录和该用户可能涉及到的专业知识全部存储到向量数据库中,这个数据库被称为“外部记忆”。当用户输入prompt的时候,应用程序会先去“外部记忆”去寻找相关信息,然后与prompt一起输入给大语言模型。这种方式给予了AI具有记忆能力,但是这种方式也带来了另一个问题:Max Token的限制问题。对于GPT3.5 来说,单次输入的最大token数为4001,GPT4为8192,即使是目前最为强大的GPT-4-32k也在32769。对于某些专业性极强的领域光找出来几篇具有相关性的论文的字数就已经超出了LLM的限额。如何对信息进行裁剪控制token成了Retrieval Augmentation方案的核心工作。

图3 Retrieval Augmentation方案逻辑

试想一下,如果作为一个人来说当我们在为了解决问题找了50篇相关论文。我们如何在其中整理出核心的2000字结论?这就涉及到我们人类的另一项重要能力——逻辑推理能力。当我们人类在处理这50篇论文的时候,会一篇一篇链式阅读,在阅读每篇论文的时候,我们通常会带着疑问(子问题)划出相应的重点内容,用俗语说“好记性不如烂笔头”。在读前几篇的时候可能对某些概念还并不熟悉和理解,但是随着阅读过程中不断进行的逻辑推理和内容的归纳、复盘。在读完第50篇论文的时候便能够轻松输出一篇2000字的结论。这样的思考方式我们称之为Chain of Thoughts。

图4 Chain of Thoughts方案逻辑

随着 LLM 能力越来越强,还会有很多这样的讨论。其背后隐藏的主线逻辑是:当 AI 能有这么强的信息提取和组织能力之后,传统数据库的很多能力是受到冲击的。 向量搜索的普及过程中,很多之前用 SQL 和结构化数据比较难解锁的产品功能自然得到了实现,长期用户的使用范式肯定慢慢会从传统数据库转移到 LLM + 向量数据库。那么数据仓库未来会如何面对这一冲击,届时向量数据库又比今天的形态复杂多少呢?这是值得我们一起持续思考和关注的重要问题。


了解阿里云向量检索服务DashVector的使用方法,请点击:

https://help.aliyun.com/product/2510217.html?spm=a2c4g.2510217.0.0.54fe155eLs1wkT

向量banner制作-用于日常发文章.png


相关实践学习
使用CLup和iSCSI共享盘快速体验PolarDB for PostgtreSQL
在Clup云管控平台中快速体验创建与管理在iSCSI共享盘上的PolarDB for PostgtreSQL。
AnalyticDB PostgreSQL 企业智能数据中台:一站式管理数据服务资产
企业在数据仓库之上可构建丰富的数据服务用以支持数据应用及业务场景;ADB PG推出全新企业智能数据平台,用以帮助用户一站式的管理企业数据服务资产,包括创建, 管理,探索, 监控等; 助力企业在现有平台之上快速构建起数据服务资产体系
相关文章
|
7月前
|
存储 搜索推荐 数据库
深入解析向量数据库:定义、原理和应用的全面指南
深入解析向量数据库:定义、原理和应用的全面指南
1203 0
|
7月前
|
存储 自然语言处理 搜索推荐
什么是向量数据库?
什么是向量数据库?
366 0
|
1天前
|
存储 SQL NoSQL
数据库的介绍、分类、作用和特点
数据库的介绍、分类、作用和特点
8 1
|
5月前
|
存储 人工智能 NoSQL
一文带你了解向量数据库
相较于发展起步较早的关系型数据库以及图数据库、键值数据库等,专门用于存储和管理向量数据的数据库,能对向量数据进行高效的操作。
|
5月前
|
存储 机器学习/深度学习 自然语言处理
知识图谱和向量数据库的关系
知识图谱和向量数据库在处理不同类型的数据和任务中具有各自的优势。它们可以在大语言模型中相互结合,以处理复杂的需求,提供更全面和准确的信息检索和推理能力。这种结合为我们在自然语言处理和机器学习领域中解决实际问题提供了有力的工具和方法。
562 1
|
3月前
|
存储 算法 关系型数据库
向量数据库的索引技术
【2月更文挑战第2天】向量数据库的索引技术
96 0
|
3月前
|
存储 人工智能 搜索推荐
大模型时代,为什么要懂向量数据库?
大模型时代,为什么要懂向量数据库?
大模型时代,为什么要懂向量数据库?
|
3月前
|
存储 NoSQL 关系型数据库
数据库的分类,作用以及特点介绍
数据库是按照数据结构来组织、存储和管理数据的仓库。
43 0
|
3月前
|
机器学习/深度学习 存储 算法
向量数据库
向量数据库
276 0
|
4月前
|
存储 自然语言处理 API
向量数据库:了解其内部结构
向量数据库在底层是如何工作的,以及如何在高效的向量存储之上构建搜索?
向量数据库:了解其内部结构