Atlas Vector Search:借助语义搜索和 AI 针对任何类型的数据构建智能应用

本文涉及的产品
云数据库 RDS MySQL,集群系列 2核4GB
推荐场景:
搭建个人博客
Redis 开源版,标准版 2GB
推荐场景:
搭建游戏排行榜
云数据库 Tair(兼容Redis),内存型 2GB
简介: 一切才刚刚开始,MongoDB 致力于提供优秀的开发者数据平台,助力开发者打造新一代 AI 赋能的应用

Atlas Vector Search已正式上线!

Vector Search(向量搜索)现在支持生产工作负载,开发者可以继续构建由语义搜索和生成式人工智能驱动的智能应用,同时通过 Search Node(搜索节点)优化资源消耗并提高性能。

image.png

这一刻终于到来:人工智能已触手可及。曾经,数据科学与机器学习是高深莫测的领域,仅为企业内部的专业人士所掌握;然而如今,这些技术的神秘面纱已被揭开,现已向世界各地的创造者敞开了大门。

但若想深入挖掘这些新兴工具的巨大潜能,开发者需要一个可信赖、可灵活组合、精巧高效的数据平台作为基础。同时,这些新能力的效果好坏,取决于它们能够获取的数据或“基本事实”的质量。

因此,我们为 MongoDB Atlas 开发者数据平台增加了一项新的功能,让开发者的数据释放出无限可能,助力 AI 应用的发展——MongoDB 隆重推出全新的 Vector Search 功能,它能够适应各种形式的数据需求,让我们的合作伙伴享受这些惊人新功能带来的好处。

向量搜索的原理和优势

Vector Search 是一种基于语义或数据含义,而不是基于数据本身来查询数据的功能。这种功能的实现原理是,把任何形式的数据转换成数字向量,再用高级算法进行相互比较。

第一步是获取源数据,可以是文本、音频、图像或视频数据源,并使用“编码模型”将其转换为“向量”或“嵌入”。得益于人工智能的最新进展,这些向量现在能够将低维数据投影到包含更多数据上下文的高维空间,从而更准确地理解数据的含义。

一旦数据转换成数字表示,就可以使用“近似最近邻”算法查找相似的值,这种算法可以让查询非常快速地找到具有相似向量的数据。用户可以使用自然语言进行查询,例如:“推荐一些悲伤的电影”,或“找一些类似……的图片”。这项功能解锁了全新的可能性。

image.png

MongoDB Atlas平台已原生内置向量搜索!

MongoDB Atlas 已原生内置此功能,开发者无需复制和转换数据、无需学习新的技术栈和语法,也无需管理一整套新的基础设施。借助 MongoDB 的 Atlas Vector Search,开发者可以在一个经过实战考验的出色平台中利用这些强大的新功能,以前所未有的速度构建应用。

有效使用 AI 和 Vector Search 所面临的许多挑战,都源于保证应用数据安全所涉及到的复杂性。这些繁琐的任务会降低开发效率,并让应用的构建、调试和维护变得更加困难。MongoDB 消除了所有这些挑战,同时将 Vector Search 的强大能力整合到平台中,无论面对什么样的工作负载,该平台都能灵活地纵向和横向扩展,轻松应对。

最后,如果没有安全性和可用性的保证,这一切都毫无意义。MongoDB 致力于提供安全的数据管理解决方案,通过冗余和自动故障转移保证高可用性,让应用始终稳定运行。

MongoDB.local 伦敦见面会发布的新功能

在 .Local 伦敦见面会上,我们很高兴地宣布推出专门的Vector Search 聚合阶段,它可以通过 $vectorSearch 调用。这个新的聚合阶段引入了一些新概念,增加了新的能力,使得 Vector Search 比以往任何时候都更容易使用。

借助 vectorSearchMQL使gte、$eq 等),以在遍历索引时过滤掉一些文档,从而获得一致的结果和更高性能。任何了解 MongoDB 的开发者都能够轻松使用此过滤功能!

最后,我们还介绍了在聚合阶段内部调整结果的两种方法,即“numCandidates”和“limit”参数。通过这些参数,开发者可以调整应该成为近似最近邻搜索候选者的文档数量,然后通过“limit”限制结果数量。

它如何与生态系统交互?

人工智能的发展日新月异,让人叹为观止,而开源社区的突飞猛进也令人赞叹不已。开源语言模型以及将它们集成到应用中的各种方法取得了巨大的进步。人工智能展现出了强大力量,因此,建立一个能够让开发者自由发挥的坚实抽象也变得前所未有地重要。基于这样的考虑,我们非常激动地告诉大家,LangChain 和 LlamaIndex 支持我们的多种功能,包括 Vector Search、聊天日志 (Chat Logging) 和文档索引等。我们正在快速推进,并将继续为主要提供商发布新功能。
image.png

总结

一切才刚刚开始,MongoDB 致力于提供优秀的开发者数据平台,助力开发者打造新一代 AI 赋能的应用。我们还会不断研究和支持更多的框架和插件架构。但始终不变的是,这一切的核心都是开发者。我们将与社区交流,找到最合适的服务方式,让开发者在每一步都感到满意。放手去创造吧!

点击【阅读原文】访问中文官网Vector Search产品页,并获取教程和更多AI资源。

相关实践学习
MongoDB数据库入门
MongoDB数据库入门实验。
快速掌握 MongoDB 数据库
本课程主要讲解MongoDB数据库的基本知识,包括MongoDB数据库的安装、配置、服务的启动、数据的CRUD操作函数使用、MongoDB索引的使用(唯一索引、地理索引、过期索引、全文索引等)、MapReduce操作实现、用户管理、Java对MongoDB的操作支持(基于2.x驱动与3.x驱动的完全讲解)。 通过学习此课程,读者将具备MongoDB数据库的开发能力,并且能够使用MongoDB进行项目开发。   相关的阿里云产品:云数据库 MongoDB版 云数据库MongoDB版支持ReplicaSet和Sharding两种部署架构,具备安全审计,时间点备份等多项企业能力。在互联网、物联网、游戏、金融等领域被广泛采用。 云数据库MongoDB版(ApsaraDB for MongoDB)完全兼容MongoDB协议,基于飞天分布式系统和高可靠存储引擎,提供多节点高可用架构、弹性扩容、容灾、备份回滚、性能优化等解决方案。 产品详情: https://www.aliyun.com/product/mongodb
目录
打赏
0
2
2
0
234
分享
相关文章
exo:22.1K Star!一个能让任何人利用日常设备构建AI集群的强大工具,组成一个虚拟GPU在多台设备上并行运行模型
exo 是一款由 exo labs 维护的开源项目,能够让你利用家中的日常设备(如 iPhone、iPad、Android、Mac 和 Linux)构建强大的 AI 集群,支持多种大模型和分布式推理。
309 100
IDEA + 通义灵码AI程序员:快速构建DDD后端工程模板
本文介绍如何使用 IntelliJ IDEA 和阿里云的通义灵码 AI 程序员,快速搭建基于 DDD 领域驱动设计的后端工程模板。通过安装和配置 IDEA、JDK、Maven 及通义灵码插件,用户可以借助 AI 自动生成项目结构和代码。然而,测试发现 AI 生成的代码存在依赖问题,需手动修正才能成功运行。最终,项目包括 Spring Boot、Maven 和 Deepseek API 集成,可调用大模型进行预测。尽管 AI 工具提高了开发效率,但目前仍需人工干预确保项目顺利运行。
56 2
 IDEA + 通义灵码AI程序员:快速构建DDD后端工程模板
Data Formulator:微软开源的数据可视化 AI 工具,通过自然语言交互快速创建复杂的数据图表
Data Formulator 是微软研究院推出的开源 AI 数据可视化工具,结合图形化界面和自然语言输入,帮助用户快速创建复杂的可视化图表。
182 9
Data Formulator:微软开源的数据可视化 AI 工具,通过自然语言交互快速创建复杂的数据图表
大数据AI一体化开发再加速:DataWorks 支持GPU类型资源
大数据开发治理平台 DataWorks 的Serverless资源组支持GPU资源类型,以免运维、按需付费、弹性伸缩的Serverless架构,将大数据处理与AI开发能力无缝融合。面向大数据&AI协同开发场景,DataWorks提供了交互式开发和分析工具Notebook。开发者在创建个人开发环境时,可以选择GPU类型的资源作为Notebook运行环境,以支持进行高性能的计算工作。本教程将基于开源多模态大模型Qwen2-VL-2B-Instruct,介绍如何使用 DataWorks Notebook及LLaMA Factory训练框架完成文旅领域大模型的构建。
45 24
CLaMP 3:音乐搜索AI革命!多模态AI能听懂乐谱/MIDI/音频,用27国语言搜索全球音乐
CLaMP 3是由清华大学团队开发的多模态、多语言音乐信息检索框架,支持27种语言,能够进行跨模态音乐检索、零样本分类和音乐推荐等任务。
24 1
CLaMP 3:音乐搜索AI革命!多模态AI能听懂乐谱/MIDI/音频,用27国语言搜索全球音乐
Kiln AI:零代码实现微调模型!自动生成合成数据与微调模型的开源平台
Kiln AI 是一款开源的 AI 开发工具,支持零代码微调多种语言模型,生成合成数据,团队协作开发,自动部署。帮助用户快速构建高质量的 AI 模型。
483 7
Kiln AI:零代码实现微调模型!自动生成合成数据与微调模型的开源平台
通义灵码AI程序员实战:从零构建Python记账本应用的开发全解析
本文通过开发Python记账本应用的真实案例,展示通义灵码AI程序员2.0的代码生成能力。从需求分析到功能实现、界面升级及测试覆盖,AI程序员展现了需求转化、技术选型、测试驱动和代码可维护性等核心价值。文中详细解析了如何使用Python标准库和tkinter库实现命令行及图形化界面,并生成单元测试用例,确保应用的稳定性和可维护性。尽管AI工具显著提升开发效率,但用户仍需具备编程基础以进行调试和优化。
108 9
一键构建智能导购 AI 助手,轻松重塑购物体验
在数字化时代,线上购物已成为消费者生活中不可或缺的消费方式,而消费者的购物习惯和需求逐渐呈现多样化的趋势,为了帮助商家全天候、自动化地满足顾客的购物需求,本方案将详细介绍如何基于商品内容构建一个智能商品导购助手。
Airweave:快速集成应用数据打造AI知识库的开源平台,支持多源整合和自动同步数据
Airweave 是一个开源工具,能够将应用程序的数据同步到图数据库和向量数据库中,实现智能代理检索。它支持无代码集成、多租户支持和自动同步等功能。
77 14
Lindorm作为AI搜索基础设施,助力Kimi智能助手升级搜索体验
月之暗面旗下的Kimi智能助手在PC网页、手机APP、小程序等全平台的月度活跃用户已超过3600万。Kimi发布一年多以来不断进化,在搜索场景推出的探索版引入了搜索意图增强、信源分析和链式思考等三大推理能力,可以帮助用户解决更复杂的搜索、调研问题。 Lindorm作为一站式数据平台,覆盖数据处理全链路,集成了离线批处理、在线分析、AI推理、融合检索(正排、倒排、全文、向量......)等多项服务,支持Kimi快速构建AI搜索基础设施,显著提升检索效果,并有效应对业务快速发展带来的数据规模膨胀和成本增长。

数据库

+关注