ChatGPT 引爆向量数据库赛道

本文涉及的产品
阿里云百炼推荐规格 ADB PostgreSQL,4核16GB 100GB 1个月
简介: 最近,为 ChatGPT 等生成式 AI 应用提供向量搜索、向量数据存储、向量嵌入等功能的向量数据库赛道突然走红,两家初创公司 Pinecone 和 Weaviate 共获 10 亿元融资,融资时间仅间隔6天,而 Shopify、Brex、Hubspot 等公司正在将向量数据库和 Embedding 作为其 AI 应用的基础。

向量数据库和 Embedding 是现在 AI 领域的热门话题。

最近,为 ChatGPT 等生成式 AI 应用提供向量搜索、向量数据存储、向量嵌入等功能的向量数据库赛道突然走红,两家初创公司 Pinecone 和 Weaviate 共获 10 亿元融资,融资时间仅间隔6天,而 Shopify、Brex、Hubspot 等公司正在将向量数据库和 Embedding 作为其 AI 应用的基础。

事实上,在 ChatGPT 火爆出圈之前向量数据库非常小众,大量开发者涌向生成式 AI 应用开发领域,这使得蛰伏的向量数据库厂商终于迎来了曙光,其用户数量呈指数级增长,也是获得巨额投资的重要原因之一。


什么是向量 Embedding,如何工作?

首先,所谓向量 Embedding 简单地说就是 N 维数字向量,可以代表任何东西,包括文本、音乐、视频等等,我们主要关注的是文本。要创建一个向量 Embedding,我们需要借助于 Embedding 模型(例如 OpenAI 的 Ada),把想要处理的文本内容输入到模型里面,就可以生成一个向量表示,并把它存储起来以备之后使用。

向量数据库与 Embedding 之所以非常重要,因为它使我们能够进行语义搜索,即通过相似性来搜索数据,比如寻找具有相似含义的文本。例如,在向量空间上建模男人、国王,女人和女王的关系时就能非常明确地看出它们之间的相关性。

更为直观的例子:

假设你是一个孩子,有一个大玩具盒子。现在你想找一些类似的玩具,比如玩具汽车和玩具巴士。它们都是交通工具,这就被称为“语义相似性”(事物有着相似的含义)。

再假设你有两个相关的玩具,但并不相同。例如一个玩具汽车和一条玩具道路。尽管它们不完全相同,但会被认为是相似的,因为汽车通常是开在道路上的。


为什么向量数据库与 Embedding 如此重要呢?

这是因为绝大多数 LLM 有其上下文限制,在理想情况下,我们可以将无限数量的单词拟合到 LLM 提示中,但目前这个限制通常被限制在约 4096 - 32k 个 tokens。

因此,我们受到 LLM 在"内存"方面的严格限制(即我们可以将多少单词拟合到其提示中),从而影响了与 LLM 交互的方式,这就是为什么你不能将整个 PDF 文档复制粘贴到 ChatGPT 中进行问答。


如何让 LLM 读取大文本呢?

假设你有一个巨大的 PDF 文件,你很懒不想读整个文件,而且你也不能把整个文件复制进去,因为它超过了一亿页,怎么办?

我们可以利用向量 Embedding 的优势来将相关文本注入 LLM 上下文窗口。对 PDF 进行向量 Embedding 并将其存储在向量数据库中。

具体做法:

1)把 PDF 切分成小的文本片段,通过 Embedding 模型创建向量 Embedding 放到本地或远程向量数据库。

2)把用户的提问也创建成向量 Embedding,用它和之前创建的 PDF 向量比对,通过语义相似性搜索(比如余弦算法),找到最相关的文本片段。

3)把用户提问和相似文本片段发给 LLM,写 Prompt 要求 LLM 基于给定的内容生成回答,如果没有相似文本或关联度不高,则回答不知道。


这就是向量 Embedding 的最典型应用。Github 上非常火的 langchain-ChatGLM 项目,用的就是 LLM 结合向量 Embedding,来达到本地知识库问答的效果,后面树先生也会为大家带来相关教程。


相关实践学习
阿里云百炼xAnalyticDB PostgreSQL构建AIGC应用
通过该实验体验在阿里云百炼中构建企业专属知识库构建及应用全流程。同时体验使用ADB-PG向量检索引擎提供专属安全存储,保障企业数据隐私安全。
AnalyticDB PostgreSQL 企业智能数据中台:一站式管理数据服务资产
企业在数据仓库之上可构建丰富的数据服务用以支持数据应用及业务场景;ADB PG推出全新企业智能数据平台,用以帮助用户一站式的管理企业数据服务资产,包括创建, 管理,探索, 监控等; 助力企业在现有平台之上快速构建起数据服务资产体系
相关文章
|
6月前
|
存储 自然语言处理 搜索推荐
ChatGPT 文本Embedding融合Qdrant向量数据库:构建智能问答系统的技术探索
向量数据库结合ChatGPT带来了什么 1. **语义搜索:** 使用向量数据库进行语义搜索,可以更准确地找到与查询相关的信息。ChatGPT可以理解用户的自然语言查询,而向量数据库可以根据语义相似性返回匹配的向量数据。 2. **智能推荐:** 结合ChatGPT的智能理解和向量数据库的相似性搜索,可以实现更智能的推荐系统。系统可以根据用户的历史行为和语境,向用户推荐相似的向量数据,如文章、产品或其他内容。 3. **自然语言处理与向量表示结合:** ChatGPT可以将自然语言转换为向量表示,这样就可以在向量数据库中进行更高效的查询。这种集成使得自然语言处理和向量数据库可以相互补充等
541 0
|
6月前
|
Cloud Native 关系型数据库 分布式数据库
祝贺!阿里云PolarDB斩获数据库国际顶会ICDE 2024工业赛道最佳论文
阿里云斩获国际顶会ICDE 2024最佳论文,0.5秒实现数据库跨机实例迁移。
祝贺!阿里云PolarDB斩获数据库国际顶会ICDE 2024工业赛道最佳论文
|
6月前
|
人工智能 自然语言处理 搜索推荐
【创意坊】未来之巅:国内ChatGPT对标,双千亿级大模型引爆科幻革命!
【创意坊】未来之巅:国内ChatGPT对标,双千亿级大模型引爆科幻革命!
96 0
|
存储 算法 OLAP
ChatGPT都推荐的向量数据库,不仅仅是向量索引
本文带大家一起了解阿里云 AnalyticDB 技术负责人姚奕玮在 QCon 全球软件开发大会(北京站)2023 上的精彩演讲,解密 AnalyticDB 全自研企业级向量数据库核心技术,以及新一代向量数据库在云原生存算分离和 AI 原生上的技术演进路线。
|
存储 算法 OLAP
ChatGPT都推荐的向量数据库,不仅仅是向量索引
在AIGC时代下不少人理解向量数据库就是在传统数据库之上新增一个向量索引,然而随着大模型应用逐渐拓展到核心业务领域,通过复杂代码工程来拼接大模型、向量索引和结构化数据分析结果会阻碍规模化复制。同时并发查询性能、数据一致性、高可靠和弹性伸缩等特性会变得越发重要。阿里云AnalyticDB锚点未来5年企业数据架构智能化升级需求,全自研了企业级向量数据库,它也是国内云厂商中唯一被ChatGPT和LangChain推荐的向量引擎。本文给大家分享QCon 2023的精彩演讲,解密AnalyticDB全自研企业级向量数据库核心技术,以及新一代向量数据库在云原生存算分离和AI原生上的技术演进路线。
|
存储 机器学习/深度学习 人工智能
ChatGPT盛行的当下,向量数据库为大模型配备了一个超级大脑
ChatGPT盛行的当下,向量数据库为大模型配备了一个超级大脑
499 0
|
SQL 人工智能 运维
ChatGPT4高分通过数据库系统工程师(DBA)认证
ChatGPT 已经通过了美国MBA、法律和医学考试,**ChatGPT 又通过了数据库系统工程师考试。** 这次考试使用了2021年的真实试卷,上午的笔试题全部为选择题,总分75分(45分通过)。
451 2
ChatGPT4高分通过数据库系统工程师(DBA)认证
|
存储 机器学习/深度学习 人工智能
热点解读:大模型的突现能力和ChatGPT引爆的范式转变(1)
热点解读:大模型的突现能力和ChatGPT引爆的范式转变
122 0
热点解读:大模型的突现能力和ChatGPT引爆的范式转变(1)
|
SQL 安全 关系型数据库
智商狂飙,问了ChatGPT几个数据库问题后,我的眼镜掉了
NineData 是多云数据管理平台(https://www.ninedata.cloud/),致力于让每个人用好数据和云。作为数据库领域的技术创新团队,面对这么火ChatGPT,NineData 的工程师也针对ChatGPT,做了一些关于数据库领域的相关测试,测试结果,真的是智商狂飙。
597 2
智商狂飙,问了ChatGPT几个数据库问题后,我的眼镜掉了
|
SQL 人工智能 数据挖掘
ChatGPT4 给出数据库开发者最容易犯的 10 个错误和解决方案
近期 ChatGPT4 发布,作为数据库领域的开发者,也是 10 年老 DBA,也是迫不及待体验了一把。 ChatGPT 4 目前是付费使用,使用次数也有限制,门槛更高,API 调用费用是 ChatGPT 3.5 的 15 倍,网站也经常登录不上。 我让 ChatGPT4 列举出【数据库开发者最容易犯的 10 个错误和解决方案】 ChatGPT4 的原文回答如下:
611 0
ChatGPT4 给出数据库开发者最容易犯的 10 个错误和解决方案