CreatePartition API执行流程_milvus源码解析

本文涉及的产品
RDS PostgreSQL Serverless,0.5-4RCU 50GB 3个月
推荐场景:
对影评进行热评分析
阿里云百炼推荐规格 ADB PostgreSQL,4核16GB 100GB 1个月
简介: CreatePartition API执行流程_milvus源码解析

CreatePartition API执行流程源码解析

milvus版本:v2.3.2

整体架构:

architecture.png

CreatePartition 的数据流向:

create_partition数据流向.jpg

1.客户端sdk发出CreatePartition API请求。

from pymilvus import (
    connections,
    Collection, Partition,
)

print("start connecting to Milvus")
connections.connect(db_name="default", host="192.168.230.71", port="19530")

hello_milvus = Collection("hello_milvus")

print("create a partition")
partition = Partition(hello_milvus, name="part01", description="this is a partition")

客户端SDK向proxy发送一个CreatePartition API请求,在hello_milvus这个collection下创建一个名为part01的partition。

exam_partition.jpg

2.客户端接受API请求,将request封装为createPartitionTask,并压入ddQueue队列。

代码路径:internal\proxy\impl.go

// CreatePartition create a partition in specific collection.
func (node *Proxy) CreatePartition(ctx context.Context, request *milvuspb.CreatePartitionRequest) (*commonpb.Status, error) {
   
   
    ......
    // request封装为task
    cpt := &createPartitionTask{
   
   
        ctx:                    ctx,
        Condition:              NewTaskCondition(ctx),
        CreatePartitionRequest: request,
        rootCoord:              node.rootCoord,
        result:                 nil,
    }

    ......
    // 将task压入ddQueue队列
    if err := node.sched.ddQueue.Enqueue(cpt); err != nil {
   
   
        ......
    }

    ......
    // 等待cct执行完
    if err := cpt.WaitToFinish(); err != nil {
   
   
        ......
    }

    ......
}

3.执行createPartitionTask的3个方法PreExecute、Execute、PostExecute。

PreExecute()一般为参数校验等工作。

Execute()一般为真正执行逻辑。

代码路径:internal\proxy\task.go

func (t *createPartitionTask) Execute(ctx context.Context) (err error) {
   
   
    t.result, err = t.rootCoord.CreatePartition(ctx, t.CreatePartitionRequest)
    if err != nil {
   
   
        return err
    }
    if t.result.ErrorCode != commonpb.ErrorCode_Success {
   
   
        return errors.New(t.result.Reason)
    }
    return err
}

从代码可以看出调用了rootCoord的CreatePartition接口。

4.进入rootCoord的CreatePartition接口。

代码路径:internal\rootcoord\root_coord.go

继续将请求封装为rootcoord里的createDatabaseTask

// CreatePartition create partition
func (c *Core) CreatePartition(ctx context.Context, in *milvuspb.CreatePartitionRequest) (*commonpb.Status, error) {
   
   
    ......
    // 封装为createPartitionTask
    t := &createPartitionTask{
   
   
        baseTask: newBaseTask(ctx, c),
        Req:      in,
    }
    // 加入调度
    if err := c.scheduler.AddTask(t); err != nil {
   
   
        ......
    }
    // 等待task完成
    if err := t.WaitToFinish(); err != nil {
   
   
        ......
    }

    ......
}

5.执行createPartitionTask的Prepare、Execute、NotifyDone方法。

Execute()为核心方法。

代码路径:internal\rootcoord\create_partition_task.go

func (t *createPartitionTask) Execute(ctx context.Context) error {
   
   
    for _, partition := range t.collMeta.Partitions {
   
   
        if partition.PartitionName == t.Req.GetPartitionName() {
   
   
            log.Warn("add duplicate partition", zap.String("collection", t.Req.GetCollectionName()), zap.String("partition", t.Req.GetPartitionName()), zap.Uint64("ts", t.GetTs()))
            return nil
        }
    }

    cfgMaxPartitionNum := Params.RootCoordCfg.MaxPartitionNum.GetAsInt()
    if len(t.collMeta.Partitions) >= cfgMaxPartitionNum {
   
   
        return fmt.Errorf("partition number (%d) exceeds max configuration (%d), collection: %s",
            len(t.collMeta.Partitions), cfgMaxPartitionNum, t.collMeta.Name)
    }
    // 分配partID
    partID, err := t.core.idAllocator.AllocOne()
    if err != nil {
   
   
        return err
    }
    // 构建partition结构体
    // 包含partID,partName,collectID等
    partition := &model.Partition{
   
   
        PartitionID:               partID,
        PartitionName:             t.Req.GetPartitionName(),
        PartitionCreatedTimestamp: t.GetTs(),
        Extra:                     nil,
        CollectionID:              t.collMeta.CollectionID,
        State:                     pb.PartitionState_PartitionCreating,
    }

    undoTask := newBaseUndoTask(t.core.stepExecutor)
    // 分为多个step执行,每一个undoTask由todoStep和undoStep构成
    // 执行todoStep,报错则执行undoStep
    undoTask.AddStep(&expireCacheStep{
   
   
        baseStep:        baseStep{
   
   core: t.core},
        dbName:          t.Req.GetDbName(),
        collectionNames: []string{
   
   t.collMeta.Name},
        collectionID:    t.collMeta.CollectionID,
        ts:              t.GetTs(),
    }, &nullStep{
   
   })
    // 添加partition元数据
    undoTask.AddStep(&addPartitionMetaStep{
   
   
        baseStep:  baseStep{
   
   core: t.core},
        partition: partition,
    }, &removePartitionMetaStep{
   
   
        baseStep:     baseStep{
   
   core: t.core},
        dbID:         t.collMeta.DBID,
        collectionID: partition.CollectionID,
        partitionID:  partition.PartitionID,
        ts:           t.GetTs(),
    })

    undoTask.AddStep(&nullStep{
   
   }, &releasePartitionsStep{
   
   
        baseStep:     baseStep{
   
   core: t.core},
        collectionID: t.collMeta.CollectionID,
        partitionIDs: []int64{
   
   partID},
    })

    undoTask.AddStep(&syncNewCreatedPartitionStep{
   
   
        baseStep:     baseStep{
   
   core: t.core},
        collectionID: t.collMeta.CollectionID,
        partitionID:  partID,
    }, &nullStep{
   
   })

    undoTask.AddStep(&changePartitionStateStep{
   
   
        baseStep:     baseStep{
   
   core: t.core},
        collectionID: t.collMeta.CollectionID,
        partitionID:  partID,
        state:        pb.PartitionState_PartitionCreated,
        ts:           t.GetTs(),
    }, &nullStep{
   
   })

    return undoTask.Execute(ctx)
}

创建partition涉及多个步骤,可以看出这里依次分为expireCacheStep、addPartitionMetaStep、syncNewCreatedPartitionStep、changePartitionStateStep这几个步骤,关于etcd元数据的操作,这里重点关注addPartitionMetaStep。其余step另用篇幅进行讲解。

6.进入addCollectionMetaStep,执行其Execute()方法。

代码路径:internal\rootcoord\step.go

func (s *addPartitionMetaStep) Execute(ctx context.Context) ([]nestedStep, error) {
   
   
    err := s.core.meta.AddPartition(ctx, s.partition)
    return nil, err
}

在这里重点研究s.core.meta.AddPartition()这个方法做了什么事情。

调用栈如下:

s.core.meta.AddPartition()
  |--AddPartition()(internal\rootcoord\meta_table.go)
    |--mt.catalog.CreatePartition()(同上)
      |--CreatePartition()(internal\metastore\kv\rootcoord\kv_catalog.go)
        |--kc.Snapshot.Save()

create_partition堆栈.jpg

在etcd产生partition相关的key:

==root-coord/partitions/445762854989594797/445766775506484222==

value的值的结构为etcdpb.PartitionInfo,然后进行protobuf序列化后存入etcd。

因此etcd存储的是二进制数据。

&pb.PartitionInfo{
   
   
    PartitionID:               partition.PartitionID,
    PartitionName:             partition.PartitionName,
    PartitionCreatedTimestamp: partition.PartitionCreatedTimestamp,
    CollectionId:              partition.CollectionID,
    State:                     partition.State,
}

partitionInfo2.jpg

可以看出partition由partitionID、partitionName、collectionID等组成。

func (kc *Catalog) CreatePartition(ctx context.Context, dbID int64, partition *model.Partition, ts typeutil.Timestamp) error {
   
   
    collMeta, err := kc.loadCollection(ctx, dbID, partition.CollectionID, ts)
    if err != nil {
   
   
        return err
    }

    if partitionVersionAfter210(collMeta) {
   
   
        // save to newly path.
        // 走这条路径
        // 构建key的规则
        k := BuildPartitionKey(partition.CollectionID, partition.PartitionID)

        partitionInfo := model.MarshalPartitionModel(partition)
        // 序列化
        v, err := proto.Marshal(partitionInfo)
        if err != nil {
   
   
            return err
        }
        // 写入etcd
        return kc.Snapshot.Save(k, string(v), ts)
    }

    ......
}

跟踪BuildPartitionKey()函数,不难得出key的规则。整理如下:

key规则:

  • 前缀/root-coord/partitions/{collectionID}/{partitionID}
  • 前缀/snapshots/root-coord/partitions/{collectionID}/{partitionID}_ts{时间戳}

根据路径能够反映出partition属于哪个collection。一个collection可以包含多个partition。

默认partition名为:_default。

可配置(milvus.yml):common.defaultPartitionName

使用etcd-manager查看etcd:

partition.jpg

总结:

1.CreatePartition由proxy传递给协调器rootCoord操作etcd。

2.CreatePartition最终会在etcd上写入一种类型的key

  • 前缀/root-coord/partitions/{collectionID}/{partitionID}
  • 前缀/snapshots/root-coord/partitions/{collectionID}/{partitionID}_ts{时间戳}
目录
相关文章
|
9天前
|
XML JSON API
淘宝京东商品详情数据解析,API接口系列
淘宝商品详情数据包括多个方面,如商品标题、价格、图片、描述、属性、SKU(库存量单位)库存、视频等。这些数据对于买家了解商品详情以及卖家管理商品都至关重要。
|
11天前
|
持续交付 jenkins Devops
WPF与DevOps的完美邂逅:从Jenkins配置到自动化部署,全流程解析持续集成与持续交付的最佳实践
【8月更文挑战第31天】WPF与DevOps的结合开启了软件生命周期管理的新篇章。通过Jenkins等CI/CD工具,实现从代码提交到自动构建、测试及部署的全流程自动化。本文详细介绍了如何配置Jenkins来管理WPF项目的构建任务,确保每次代码提交都能触发自动化流程,提升开发效率和代码质量。这一方法不仅简化了开发流程,还加强了团队协作,是WPF开发者拥抱DevOps文化的理想指南。
31 1
|
3天前
|
缓存 网络协议 Linux
DNS的执行流程是什么?
DNS的执行流程是什么?
7 0
|
11天前
|
持续交付 jenkins C#
“WPF与DevOps深度融合:从Jenkins配置到自动化部署全流程解析,助你实现持续集成与持续交付的无缝衔接”
【8月更文挑战第31天】本文详细介绍如何在Windows Presentation Foundation(WPF)项目中应用DevOps实践,实现自动化部署与持续集成。通过具体代码示例和步骤指导,介绍选择Jenkins作为CI/CD工具,结合Git进行源码管理,配置构建任务、触发器、环境、构建步骤、测试及部署等环节,显著提升开发效率和代码质量。
30 0
|
11天前
|
C# 开发者 Windows
震撼发布:全面解析WPF中的打印功能——从基础设置到高级定制,带你一步步实现直接打印文档的完整流程,让你的WPF应用程序瞬间升级,掌握这一技能,轻松应对各种打印需求,彻底告别打印难题!
【8月更文挑战第31天】打印功能在许多WPF应用中不可或缺,尤其在需要生成纸质文档时。WPF提供了强大的打印支持,通过`PrintDialog`等类简化了打印集成。本文将详细介绍如何在WPF应用中实现直接打印文档的功能,并通过具体示例代码展示其实现过程。
45 0
|
11天前
|
API C# 开发框架
WPF与Web服务集成大揭秘:手把手教你调用RESTful API,客户端与服务器端优劣对比全解析!
【8月更文挑战第31天】在现代软件开发中,WPF 和 Web 服务各具特色。WPF 以其出色的界面展示能力受到欢迎,而 Web 服务则凭借跨平台和易维护性在互联网应用中占有一席之地。本文探讨了 WPF 如何通过 HttpClient 类调用 RESTful API,并展示了基于 ASP.NET Core 的 Web 服务如何实现同样的功能。通过对比分析,揭示了两者各自的优缺点:WPF 客户端直接处理数据,减轻服务器负担,但需处理网络异常;Web 服务则能利用服务器端功能如缓存和权限验证,但可能增加服务器负载。希望本文能帮助开发者根据具体需求选择合适的技术方案。
41 0
|
13天前
|
监控 网络协议 Java
Tomcat源码解析】整体架构组成及核心组件
Tomcat,原名Catalina,是一款优雅轻盈的Web服务器,自4.x版本起扩展了JSP、EL等功能,超越了单纯的Servlet容器范畴。Servlet是Sun公司为Java编程Web应用制定的规范,Tomcat作为Servlet容器,负责构建Request与Response对象,并执行业务逻辑。
Tomcat源码解析】整体架构组成及核心组件
|
1月前
|
存储 NoSQL Redis
redis 6源码解析之 object
redis 6源码解析之 object
52 6
|
1天前
|
开发工具
Flutter-AnimatedWidget组件源码解析
Flutter-AnimatedWidget组件源码解析

推荐镜像

更多