性能提升20倍:阿里云 Milvus 深度优化磁盘索引,重新定义亿级向量检索

简介: 向量检索正步入"既要低成本,又要高性能"的新时代。阿里云向量数据库 Milvus 版通过将 DiskANN 图索引与最前沿的 RaBitQ 量化算法深度融合,并在工程层面完成从量化内核到 I/O 调度链路的全栈优化,在 1 亿 768 维标准评测数据集上,将磁盘向量索引 QPS 提升至开源 Milvus 的 20倍 以上,P99 延迟降低至 1/10 以下,QueryNode 内存占用减少 29%,同时保持 98%+ 的召回率,为 RAG、多模态检索、智能推荐等 AI 场景提供了极致性价比的基础设施。

摘要

向量检索正步入"既要低成本,又要高性能"的新时代。阿里云向量数据库 Milvus 版通过将 DiskANN 图索引与最前沿的 RaBitQ 量化算法深度融合,并在工程层面完成从量化内核到 I/O 调度链路的全栈优化,在 1 亿 768 维标准评测数据集上,将磁盘向量索引 QPS 提升至开源 Milvus 的 20倍 以上,P99 延迟降低至 1/10 以下,QueryNode 内存占用减少 29%,同时保持 98%+ 的召回率,为 RAG、多模态检索、智能推荐等 AI 场景提供了极致性价比的基础设施。

一、为什么需要磁盘向量索引?

1.1 百亿级数据下的成本困境

在大规模 AI 应用中,数据集通常包含数十亿甚至数百亿向量。传统内存索引(HNSW、IVF_FLAT)在数据量突破亿级时,内存成本呈线性增长,单节点难以承载。DiskANN 将图索引与向量数据存放在 SSD 上,内存仅需保留轻量压缩向量与热点缓存,从而将内存成本降低一个数量级。

1.2 开源 DiskANN 的性能瓶颈

开源Milvus中原生 DiskANN 使用 Product Quantization(PQ)作为内存中的距离估算方案,在系统架构和搜索性能方面存在三重瓶颈:

瓶颈维度

问题

计算效率

PQ 依赖查表累加,CPU计算效率不高

I/O 调度

系统调用开销大,并发吞吐受限

搜索策略

大量候选节点被无效计算,CPU压力大

阿里云 Milvus 团队基于此,对 DiskANN 进行了从算法到工程的全栈优化。

二、核心技术:DiskANN + RaBitQ 深度融合

2.1 Vamana 图:图索引内存重排布

DiskANN 的核心是 Vamana 图索引。与 HNSW 的多层结构不同,Vamana 采用单层稀疏图,通过两轮剪枝构图策略,在保持图连通性的同时引入更多"长边",显著减少搜索收敛所需的跳数。开源 DiskANN 将每个节点的邻居列表与其全精度向量数据存放在同一磁盘扇区。搜索时通过一次磁盘读取同时获得邻居关系和原始向量,实现"隐式重排",虽然可以在计算下一轮邻居的同时完成精确距离计算,但是在搜索过程中涉及到大量的串行磁盘 IO。 阿里云 Milvus 通过将 Vamana 图索引在内存中重新组织,实现搜索过程 Zero IO, 只在最后 Rerank 阶段从磁盘上获取原始向量,获得极致性能提升。

2.2 RaBitQ:极致量化,1 bit 到 4 bit 的精准压缩

RaBitQ(Random Bit Quantization)是当前最前沿的向量量化算法。其核心思想是:在高维空间中,将向量归一化后映射到超立方体的顶点上,每一维仅需 1 bit 表示。

为什么高维下 RaBitQ 精度反而更高? 这源于高维概率的"集中效应":当维度 d 足够大时,随机向量之间的角度高度集中,量化到超立方体顶点的误差以 O(1/√d) 的速率收敛。这意味着在 768 维空间中,1 bit 量化的误差已经非常小。阿里云 Milvus 在标准 1-bit RaBitQ 基础上,采用了 4-bit 扩展模式,在每一维使用 4 bit 来编码残差信息,在压缩比和精度之间取得最优平衡:

量化方案

压缩倍率

单条 768 维向量内存

精度

计算速度

Float32

1x

3072 Byte

精确

基准

PQ (M=384)

8x

384 Byte

中等

查表累加,较慢

RaBitQ 1-bit

32x

96 Byte

较高

popcount,极快

RaBitQ 4-bit

8x

384 Byte

AVX-512 VNNI,极快

三、性能测评

3.1 测试环境

项目

配置

Benchmark

Zilliz VectorDBBench

数据集

Performance768D100M(1 亿 768 维向量)

QueryNode

16 CU × 2 节点

对比组

阿里云 DiskANN + RaBitQ

开源 DiskANN + PQ

3.2 测试结果

四、结论

在不同的测试场景在阿里云 Milvus 方案均实现 20 倍以上 QPS 提升,在 P99/P95延迟也大幅降低,召回率略降低不到 1%。索引构建时间从 20h 缩短到 6h 小时左右,阿里云 Milvus 相比于开源 DiskANN 实现完成端到端性能极致提升。

参考文献

  1. Subramanya, S.J., et al. "DiskANN: Fast Accurate Billion-point Nearest Neighbor Search on a Single Node." NeurIPS 2019.
  2. Gao, J., Long, C. "RaBitQ: Quantizing High-Dimensional Vectors with a Theoretical Error Bound for Approximate Nearest Neighbor Search." SIGMOD 2024.
  3. Aguerrebere, C., et al. "Locally-adaptive Quantization for Streaming Vector Search." arXiv 2024.
  4. Gao, J. "Quantization in The Counterintuitive High-Dimensional Space." dev.to, 2024.
目录
相关文章
|
1小时前
|
人工智能 自然语言处理 文字识别
阿里云百炼Qwen3.7-Max简介:能力、优势、支持订阅计划参考
Qwen3.7-Max是阿里云百炼面向智能体时代推出的新一代旗舰模型,对标GPT-5.5、Claude Opus 4.7等闭源旗舰。该模型支持百万级token上下文窗口,具备顶级推理能力、多模态搜索与视觉理解增强、流式输出低延迟响应等核心优势,覆盖编程、办公、长周期自主执行等复杂场景。同时支持OpenAI接口兼容,便于系统快速迁移。用户可通过Token Plan团队或节省计划等订阅方式灵活调用,适合企业级高要求场景使用。
7182 31
阿里云百炼Qwen3.7-Max简介:能力、优势、支持订阅计划参考
|
1小时前
|
数据采集 人工智能 前端开发
让 Coding Agent 从黑盒到透明:阿里云 Agent 观测审计数据采集实践
AI Agent 规模化落地带来执行黑盒、行为难追溯、成本难度量三大难题。阿里云基于 OTel 标准,面向 Coding Agent、个人通用助理和框架型 Agent,推出 LoongSuite Pilot、插件及探针等无侵入采集方案,让 Agent 实现可看见、可分析、可审计、可治理。
625 140
|
1小时前
|
人工智能 缓存 自然语言处理
阿里Qwen3.7-Max评测:Agent能力显著提升,耗时与调用成本大幅下降
阿里云百炼推出面向智能体的旗舰大模型Qwen3.7-Max,具备长周期自主执行能力,显著提升编程、办公自动化等复杂任务处理水平;支持MCP集成与多框架兼容,并以限时5折+100万Tokens免费试用大幅降低使用门槛,助力企业高效落地AI应用。在阿里云百炼平台快速体验:https://t.aliyun.com/U/fPVHqY
|
1小时前
|
人工智能 弹性计算 运维
阿里云发布堡垒机智能运维Agent,运维交互进入自然语言新时代
支持自然语言运维,提升效率与安全双保障。
1158 1
|
1小时前
|
人工智能 安全 定位技术
CodeGraph深度解析 让Claude Code工具调用直降七成的核心原理与实操教程
如今以Claude Code为代表的AI编程智能体已经成为开发者日常编码、项目重构、漏洞修复的必备工具。但在长期使用过程中,几乎所有开发者都会遇到同一个明显痛点:AI虽然具备强大的代码生成与分析能力,却常常陷入盲目探索的循环中。
1221 2
|
1小时前
|
存储 定位技术 数据库
CodeGraph 如何让 Claude Code减少 7 成工具调用?
CodeGraph 为 Coding Agent 提供本地代码知识图谱,把函数、类、调用链和框架路由提前整理成“项目地图”,减少盲目搜索和文件读取。它不是新 Agent,而是上下文基础设施,让 Agent 更快找到正确代码路径,平均减少 7 成工具调用。
1296 3
|
1小时前
|
人工智能 弹性计算 安全
阿里云618活动时间、活动入口、优惠活动详细解读
2026年阿里云618创新加速季已全面开启,作为年度力度最大的云产品促销活动,本次大促覆盖轻量应用服务器、ECS云服务器、GPU云服务器、数据库、AI算力、安全服务、CDN等全品类产品,推出5亿元算力补贴、新用户限时秒杀、普惠满减、企业专享、免费试用、云大使返佣等多重福利,个人开发者、中小企业、AI团队均可享受专属低价。本文将系统梳理2026年阿里云618活动的完整时间节点、官方参与入口、各类优惠细则、使用规则、热门产品推荐及实操代码,帮助用户精准参与、高效省钱,以最低成本完成上云部署。
1043 5
|
1小时前
|
人工智能 自然语言处理 算法
|
1小时前
|
人工智能 自然语言处理 安全
Vibe Coding 实战:别盲目跟风,先分清 vibe coding 适合什么场景
本文系统总结vibe coding实战经验:明确其适用场景(原型、小工具、标准化模块),剖析5步落地流程(场景判定→结构化提示词→目录初始化→分模块生成→自动化校验),指出四大常见误区,并推荐适配工具Trae。强调“场景匹配+规则前置”是提效关键,避免盲目套用。
853 1
|
1小时前
|
人工智能 运维 API
2026年阿里云百炼通义千问Qwen3.7-plus深度介绍 功能特性、使用优势及618大促订阅方案指南
大模型技术的普及,让AI能力逐步融入个人办公、内容创作、代码编写、企业运营、教育培训等各类场景。不同定位的模型对应不同使用需求,旗舰级模型性能强劲但使用成本偏高,轻量化模型价格低廉却难以胜任复杂任务,而介于两者之间的中端主力模型,凭借均衡的能力、亲民的定价、广泛的场景适配性,成为绝大多数个人用户、小型团队、中小企业的首选。
404 1