milvus-use教程 python

本文涉及的产品
云数据库 Tair(兼容Redis),内存型 2GB
Redis 开源版,标准版 2GB
推荐场景:
搭建游戏排行榜
RDS MySQL Serverless 基础系列,0.5-2RCU 50GB
简介: 本项目参考vanna项目,获取数据库元数据和问题SQL对,存入Milvus向量数据库,并进行相似性检索。采用m3e-large嵌入模型,通过DatabaseManager类实现数据库连接持久化,MilvusVectorStore类封装了Milvus操作方法,如创建集合、添加数据和查询。项目提供init_collections、delete_collections等文件用于初始化、删除和管理集合。所用Milvus版本较新,API与vanna项目不兼容。[项目地址](https://gitee.com/alpbeta/milvus-use)

简介

项目地址:https://gitee.com/alpbeta/milvus-use

需求描述

参考vanna项目,获取数据库元数据和问题sql对,存入Milvus向量数据库,之后进行检索,返回相似的数据库表和问题对。本项目采用的嵌入模型为m3e-large。该该项目milvus版本较新,与vanna项目版本不同,大量api不兼容

功能介绍

DatabaseManager类对数据库连接持久化,具体的连接信息如host、用户名密码等在.env文件中。现支持mysql,milvus数据库连接;

MilvusVectorStore类封装对milvus数据库操作方法,如创建数据库元数据和问题sql对的collection(类似于mysql中的表),添加数据库元数据和问题对,和基于问题查询collections中最相似的数据。

另通过init_collections、delete_collections、add_db_metadata、add_qa_pairs、api_search文件对collections进行初始化、删除、添加数据库元数据、添加问题对、对输入的问题查询数据库

milvus介绍

milvus intro

一款专为向量数据设计的数据库,主要用于高效存储和检索大规模向量数据

FieldSchema 定义了字段的类型和属性,类似于 MySQL 中的列定义。Milvus 支持多种数据类型,包括标量(如 INT64VARCHAR)和向量(如 FLOAT_VECTOR

CollectionSchema 是字段的集合,类似于 MySQL 中的表结构。它由多个 FieldSchema 组成,并包含集合的描述信息

Collection 是 Milvus 中存储数据的逻辑单元,类似于 MySQL 中的表。它基于 CollectionSchema 创建,并用于插入、查询和管理数据

create_index 用于为字段创建索引,以加速查询。Milvus 支持多种索引类型,如 IVF_FLATHNSW 等,每种索引类型都有其适用场景

项目实施

.env文件配置数据库连接信息

# Milvus 连接参数
MILVUS_HOST=
MILVUS_PORT=19530
MILVUS_USER=root
MILVUS_PASSWORD=
# MySQL 连接参数
MYSQL_HOST=
MYSQL_PORT=3306
MYSQL_USER=root
MYSQL_PASSWORD=
MYSQL_DB_NAME=

DatabaseManager

对外提供数据库连接关闭功能

从环境变量中获取连接信息,定义连接milvs,mysql的方法及返回实例,关闭连接


MilvusVectorStore

初始化

对外提供milvus的集合初始化,添加、删除操作

m3e嵌入模型从本地导入,连接milvus,指定嵌入模型和向量维度,m3e是1024

创建集合和索引

创建集合,通过FieldSchema指定字段信息,除最后一个vector存的向量信息,其余类似mysql表字段,存储字段名称、类型、是否主键等,vector要指定向量的维度。CollectionSchema定义集合中的字段、索引、分区、描述信息等,该项目只定义了字段和描述信息;Collection使用CollectionSchema定义的字段信息schema初始化集合,类似创建了一个表,多了一个字段汇总步骤CollectionSchema。

创建索引,通过上步创建集合的create_index方法创建,索引的配置参数有索引类型、度量类型和聚类中心数量,本项目统一分别采用IVF_FLAT基于倒排文件(Inverted File)的索引结构,I2欧几里得距离,128聚类中心。IVF(Inverted File,倒排文件),FLAT(平面索引/线性索引)

添加和查询数据

添加数据,以添加问题sql对为例

通过Collection("name")找到对应集合,将问题sql对分别转成问题列表和sql列表,通过self.embedding_function.encode(questions).tolist()将问题列表转换成向量。将问题列表、sql列表,转换后的向量组成类表,通过collection.insert方法插入数据库中。flush将数据刷新到磁盘。

查询数据,以查询问题sql对为例

将问题转成向量,设置搜索参数为l2距离度量,10探针数量;加载对应集合,通过collection.search方法进行搜索并返回结果,传入的参数有待搜索的向量数据即问题的向量表示,要搜索的向量字段名称,前一步配置的搜索参数、返回结果数量和返回结果需要输出的字段。对返回的结果进行遍历,构造对应的键值映射。返回类似json的实体对象数组映射

外部文件调用MilvusVectorStore中的方法

通过init_collections、delete_collections、add_db_metadata、add_qa_pairs、api_search文件对collections进行初始化、删除、添加数据库元数据、添加问题对、对输入的问题查询数据库

add_db_metadata需要先连接mysql数据库,获取元数据,通过cursor.execute("SHOW TABLES"):执行查询语句,cursor.fetchall():获取查询结果的所有行,返回一个表名列表tables,再遍历每个表名,执行cursor.execute(f"SHOW CREATE TABLE {table}")获取建表语句,拼接并返回元数据列表


相关文章
|
2月前
|
机器学习/深度学习 数据安全/隐私保护 计算机视觉
过三色刷脸技术,过三色刷脸技术教程,插件过人脸python分享学习
三色刷脸技术是基于RGB三通道分离的人脸特征提取方法,通过分析人脸在不同颜色通道的特征差异
|
2月前
|
XML Linux 区块链
Python提取Word表格数据教程(含.doc/.docx)
本文介绍了使用LibreOffice和python-docx库处理DOC文档表格的方法。首先需安装LibreOffice进行DOC到DOCX的格式转换,然后通过python-docx读取和修改表格数据。文中提供了详细的代码示例,包括格式转换函数、表格读取函数以及修改保存功能。该方法适用于Windows和Linux系统,解决了老旧DOC格式文档的处理难题,为需要处理历史文档的用户提供了实用解决方案。
158 0
|
7月前
|
JSON 数据可视化 API
Python 中调用 DeepSeek-R1 API的方法介绍,图文教程
本教程详细介绍了如何使用 Python 调用 DeepSeek 的 R1 大模型 API,适合编程新手。首先登录 DeepSeek 控制台获取 API Key,安装 Python 和 requests 库后,编写基础调用代码并运行。文末包含常见问题解答和更简单的可视化调用方法,建议收藏备用。 原文链接:[如何使用 Python 调用 DeepSeek-R1 API?](https://apifox.com/apiskills/how-to-call-the-deepseek-r1-api-using-python/)
|
1月前
|
数据采集 索引 Python
Python Slice函数使用教程 - 详解与示例 | Python切片操作指南
Python中的`slice()`函数用于创建切片对象,以便对序列(如列表、字符串、元组)进行高效切片操作。它支持指定起始索引、结束索引和步长,提升代码可读性和灵活性。
|
4月前
|
人工智能 安全 Shell
Jupyter MCP服务器部署实战:AI模型与Python环境无缝集成教程
Jupyter MCP服务器基于模型上下文协议(MCP),实现大型语言模型与Jupyter环境的无缝集成。它通过标准化接口,让AI模型安全访问和操作Jupyter核心组件,如内核、文件系统和终端。本文深入解析其技术架构、功能特性及部署方法。MCP服务器解决了传统AI模型缺乏实时上下文感知的问题,支持代码执行、变量状态获取、文件管理等功能,提升编程效率。同时,严格的权限控制确保了安全性。作为智能化交互工具,Jupyter MCP为动态计算环境与AI模型之间搭建了高效桥梁。
317 2
Jupyter MCP服务器部署实战:AI模型与Python环境无缝集成教程
|
3月前
|
人工智能 搜索推荐 数据可视化
用 Python 制作简单小游戏教程:手把手教你开发猜数字游戏
本教程详细讲解了用Python实现经典猜数字游戏的完整流程,涵盖从基础规则到高级功能的全方位开发。内容包括游戏逻辑设计、输入验证与错误处理、猜测次数统计、难度选择、彩色输出等核心功能,并提供完整代码示例。同时,介绍了开发环境搭建及调试方法,帮助初学者快速上手。最后还提出了图形界面、网络对战、成就系统等扩展方向,鼓励读者自主创新,打造个性化游戏版本。适合Python入门者实践与进阶学习。
306 1
|
3月前
|
存储 算法 数据可视化
用Python开发猜数字游戏:从零开始的手把手教程
猜数字游戏是编程入门经典项目,涵盖变量、循环、条件判断等核心概念。玩家通过输入猜测电脑生成的随机数,程序给出提示直至猜中。项目从基础实现到功能扩展,逐步提升难度,适合各阶段Python学习者。
178 0
|
5月前
|
数据采集 存储 监控
Python 原生爬虫教程:网络爬虫的基本概念和认知
网络爬虫是一种自动抓取互联网信息的程序,广泛应用于搜索引擎、数据采集、新闻聚合和价格监控等领域。其工作流程包括 URL 调度、HTTP 请求、页面下载、解析、数据存储及新 URL 发现。Python 因其丰富的库(如 requests、BeautifulSoup、Scrapy)和简洁语法成为爬虫开发的首选语言。然而,在使用爬虫时需注意法律与道德问题,例如遵守 robots.txt 规则、控制请求频率以及合法使用数据,以确保爬虫技术健康有序发展。
753 31

推荐镜像

更多