什么是向量数据库?
我们在用图片搜索图片,或者语音搜索语音的时候,在数据库中存储和对比的并不是图片和语音片段,而是通过D算法提取出来的“特征”,这些特征可以用数学中的向量来表示。
专门用于存储和管理向量数据的数据库,能对向量数据进行高效的操作。
为什么需要向量数据库?
想必你已经使用过ChatGPT或者类似的AI,他们有一个弊端就是当我们问一些既定的事实时,回答不太规范,那么我们能不能让这些大模型在既定的问题的答案中始终输出一致呢?
就需要一个存储海量信息的知识库,那么就需要向量数据库了。
向量数据库作用
1.私域知识
私域知识是指可以把向量数据库作为大模型的外部知识库。
不需要去训练模型,比常见的大模型微调地方法成本更低、速度更快也能通过更新数据库保证AI大模型知识的实时更新。
2.本地存储
顾名思义,将数据存储在本地,通过向量的相似关系保证隐私信息不会“喂给”大模型。
3.长期记忆
长期记忆是相比大模型的短期记忆来说的,使用完ChatGPT我们都知道,他的上下文信息有数量限制。
向量数据库就可以解决数量这一限制。不会丢失上下文信息。
向量数据库与传统数据库的区别
1.数据规模超过传统的关系型数据库
传统的关系型数据库管理1亿条数据已经是拥有很大的业务流量,而在向量数据库需求中,一张表千亿数据是底线,并且原始的向量通常比较大,例如512个float=2k,千亿数据需要保存的向量就需要200T的存储空间(不算多副本),单机显然不具备这种能力,可线性扩展的分布式系统才是正确的道路,这对系统的可扩展性,可靠性,低成本提出非常大的挑战。
2.查询方式不同,计算密集型
传统的数据库查询通常可以归结为点查和范围查,而无论是点查和范围查都是一种精确查找,即查询得到的结果要么符合条件要么不符合条件,而向量数据库的向量查询通常是近似查找,即查找与查询条件相近的结果,即查询得到的结果是与输入条件最相似的,而近视比较对计算能力要求非常高。
3.低时延与高并发
在平安城市中的应用需要支持交互式查询,端到端3秒,对向量数据库的要求提升到1秒,我们的设想是后续所有的警察人手一个查询终端,所以高并发也是必须的,1w QPS是我们的底线。
全球知名向量数据库都有哪些
不难发现,相较于发展起步较早的关系型数据库以及图数据库、键值数据库等,向量数据库数量确实较少,但其架构特性及针对特定场景的优势十分明显,且当前AI、大模型的发展也已将这一领域的市场空间拉高了几个数量级。
有没有推荐的国内向量数据库
向量检索服务 DashVector基于阿里云自研的向量引擎 Proxima 内核,提供具备水平拓展、全托管、云原生的高效向量检索服务。DashVector 将强大的向量管理、查询等能力,通过简洁易用的 SDK/API 接口透出,方便在大模型知识库搭建、多模态 AI 搜索等多种应用场景上集成。
目前向量检索服务 DashVector免费试用进行中,玩转大模型搜索,快来试试吧~
了解更多信息,请点击:https://www.aliyun.com/activity/intelligent/DashVector