Etcd源码分析: 启动篇

简介: 启动 启动从源码 /etcdmain/main.go 中的main函数开始 func Main() { checkSupportArch() // 检查系统是否支持 if len(os.

启动

启动从源码 /etcdmain/main.go 中的main函数开始

func Main() {
    checkSupportArch()   // 检查系统是否支持

    if len(os.Args) > 1 {  // 获取入参
        cmd := os.Args[1]  // 获取启动命令
        if covArgs := os.Getenv("ETCDCOV_ARGS"); len(covArgs) > 0 {
            args := strings.Split(os.Getenv("ETCDCOV_ARGS"), "\xe7\xcd")[1:]
            rootCmd.SetArgs(args)
            cmd = "grpc-proxy"
        }
        switch cmd {
        case "gateway", "grpc-proxy":
            if err := rootCmd.Execute(); err != nil {
                fmt.Fprint(os.Stderr, err)
                os.Exit(1)
            }
            return
        }
    }

    startEtcdOrProxyV2()
}

上面仔细去看,前面是根据命令行输入的第一个参数去启动不同的代码逻辑

后面的startEtcdOrProxyV2()则是启动etcd server的函数

命令行输入

我们来查看一下etcd命令的使用帮助:

$ ./etcd -help
Usage:

  etcd [flags]
    Start an etcd server.

  etcd --version //查看版本
    Show the version of etcd.

  etcd -h | --help //获取帮助
    Show the help information about etcd.

  etcd --config-file //设置配置文件
    Path to the server configuration file.

  etcd gateway //启动 L4 TCP网关代理
    Run the stateless pass-through etcd TCP connection forwarding proxy.

  etcd grpc-proxy //L7 grpc 代理
    Run the stateless etcd v3 gRPC L7 reverse proxy.

可以看到有三个启动命令

 ./etcd //启动etcd服务
 ./etcd gateway start //启动tcp网关代理
 ./etcd grpc-proxy start //启动grpc网关代理

其中,代码中的rootCmd,这个是一个叫corba的在github上的开源库,它的设计目的是提供一个编写/生成交互式命令程序的框架.

简单的说,它就是可以添加命令和子命令的插件库,查看 gateway.go的源码可以发现

var (
    rootCmd = &cobra.Command{                 (1)
        Use:        "etcd",
        Short:      "etcd server",
        SuggestFor: []string{"etcd"},
    }
)

func init() {
    rootCmd.AddCommand(newGatewayCommand())            (2)
}

// newGatewayCommand returns the cobra command for "gateway".
func newGatewayCommand() *cobra.Command {
    lpc := &cobra.Command{
        Use:   "gateway <subcommand>",
        Short: "gateway related command",
    }
    lpc.AddCommand(newGatewayStartCommand())           (3)

    return lpc
}

func newGatewayStartCommand() *cobra.Command {
    cmd := cobra.Command{
        Use:   "start",
        Short: "start the gateway",
        Run:   startGateway,
    }

    cmd.Flags().StringVar(&gatewayListenAddr, "listen-addr", "127.0.0.1:23790", "listen address")
    cmd.Flags().StringVar(&gatewayDNSCluster, "discovery-srv", "", "DNS domain used to bootstrap initial cluster")
    cmd.Flags().BoolVar(&gatewayInsecureDiscovery, "insecure-discovery", false, "accept insecure SRV records")
    cmd.Flags().StringVar(&gatewayCA, "trusted-ca-file", "", "path to the client server TLS CA file.")

    cmd.Flags().StringSliceVar(&gatewayEndpoints, "endpoints", []string{"127.0.0.1:2379"}, "comma separated etcd cluster endpoints")

    cmd.Flags().DurationVar(&getewayRetryDelay, "retry-delay", time.Minute, "duration of delay before retrying failed endpoints")

    return &cmd
}

(1) 首先生成了一个etcd的命令
(2) 添加了一个子命令 gateway
(3) 接着又添加了一个子命令start

组合起来,是不是就是我们看到的etcd gateway start,这个命令就会去执行Run字段指向的函数,而Short是注释

具体cobra用法可以查询相关文档

server启动

上面有提到main()函数里面调用了startEtcdOrProxyV2()

查看其代码,发现里面做了2件事情

  • 初始化配置文件
  • 根据数据目录的情况,启动进程(startEtcd())Etcd Server或者代理进程(startProxy(),代理进程是和其他etcd节点交互的)

startEtcd()又调用了embed.StartEtcd(cfg),这个即启动EtcdServer的函数。

func StartEtcd(inCfg *Config) (e *Etcd, err error) {
    if err = inCfg.Validate(); err != nil {
        return nil, err
    }
    serving := false
    e = &Etcd{cfg: *inCfg, stopc: make(chan struct{})}
    cfg := &e.cfg

    ······
    return e, nil

从函数的前面的代码可以看到,该函数入参是一个配置文件,返回值是一个Etcd的结构体指针,代表一个Etcd Server实例,但是不保证已经加入集群。

进来先进行了入参的检查,inCfg.Validate(),里面需要注意的是
5*cfg.TickMs > cfg.ElectionMs :选举超时时间必须大于五倍于心跳超时时间。
cfg.ElectionMs > maxElectionMs :选举超时时间必须小于5000ms

接着来看看Etcd的内容

type Etcd struct {
    Peers   []*peerListener
    Clients []net.Listener
    // a map of contexts for the servers that serves client requests.
    sctxs            map[string]*serveCtx
    metricsListeners []net.Listener

    Server *etcdserver.EtcdServer

    cfg   Config
    stopc chan struct{}
    errc  chan error

    closeOnce sync.Once
}
  • Peers和Clients都是监听器,允许多个goroutine同时连接,Peers用于内部member间通信,Clients用于外部通信
  • cfg是配置参数
  • Server为Etcd Server的核心配置

后面会通过rafthttp.NewListener()把这两个Listener初始化创建

下面初始化了ServerConfig结构体,这个是new一个 EtcdServer所需要的配置

    type ServerConfig struct {
        // etcdserver 名称,对应flag "name“
        Name           string  
        
        // etcd 用于服务发现,无需知道具体etcd节点ip即可访问etcd 服务,对应flag  "discovery"
        DiscoveryURL   string  
        
        // 供服务发现url的代理地址, 对应flag "discovery-proxy"
        DiscoveryProxy string  
        
        // 由ip+port组成,默认DefaultListenClientURLs = "http://localhost:2379"; 
        // 实际情况使用https schema,用以外部etcd client访问,对应flag "listen-client-urls"
        ClientURLs     types.URLs 
        
        // 由ip+port组成,默认DefaultListenPeerURLs   = "http://localhost:2380"; 
        // 实际生产环境使用http schema, 供etcd member 通信,对应flag "peer-client-urls"
        PeerURLs       types.URLs 
        
        // 数据目录地址,为全路径,对应flag "data-dir"
        DataDir        string   
        
        // DedicatedWALDir config will make the etcd to write the WAL to the WALDir
        // rather than the dataDir/member/wal.
        DedicatedWALDir     string
        
        // 默认是10000次事件做一次快照:DefaultSnapCount = 100000
        // 可以作为调优参数进行参考,对应flag "snapshot-count", 
        SnapCount           uint64  
        
        // 默认是5,这是v2的参数,v3内只有一个db文件,
        // DefaultMaxSnapshots = 5,对应flag "max-snapshots"
        MaxSnapFiles        uint  
        
        // 默认是5,DefaultMaxWALs      = 5,表示最大存储wal文件的个数,
        // 对应flag "max-wals",保留的文件可以作为etcd-dump-logs工具进行debug使用。
        MaxWALFiles         uint  
        
        // peerUrl 与 etcd name对应的map,由方法cfg.PeerURLsMapAndToken("etcd")生成。
        InitialPeerURLsMap  types.URLsMap 
        
        // etcd 集群token, 对应flang "initial-cluster-token"
        InitialClusterToken string 
        
        // 确定是否为新建集群,对应flag "initial-cluster-state",
        // 由方法func (cfg Config) IsNewCluster() bool { return cfg.ClusterState == ClusterStateFlagNew }确定;
        NewCluster          bool 
        
        // 对应flag "force-new-cluster",默认为false,若为true,
        // 在生产环境内,一般用于含v2数据的集群恢复,
        // 效果为以现有数据或者空数据新建一个单节点的etcd集群,
        // 如果存在数据,则会清楚数据内的元数据信息,并重建只包含该etcd的元数据信息。
        ForceNewCluster     bool 
        
        // member间通信使用的证书信息,若peerURL为https时使用,对应flag "peer-ca-file","peer-cert-file", "peer-key-file"
        PeerTLSInfo         transport.TLSInfo
        
        // raft node 发送心跳信息的超时时间。 "heartbeat-interval" 
        TickMs           uint 
        
        // raft node 发起选举的超时时间,最大为5000ms maxElectionMs = 50000, 
        // 对应flag "election-timeout", 
        // 选举时间与心跳时间在最佳实践内建议是10倍关系。
        ElectionTicks    int 
        
        // etcd server启动的超时时间,默认为1s, 
        // 由方法func (c *ServerConfig) bootstrapTimeout() time.Duration确定;
        BootstrapTimeout time.Duration 

        // 默认为0,单位为小时,主要为了方便用户快速查询,
        // 定时对key进行合并处理,对应flag "auto-compaction-retention",
        // 由方法func NewPeriodic(h int, rg RevGetter, c Compactable) *Periodic确定,
        // 具体compact的实现方法为:
        //func (s *kvServer) Compact(ctx context.Context, r *pb.CompactionRequest) (*pb.CompactionResponse, error)
        AutoCompactionRetention int  
        
        // etcd后端数据文件的大小,默认为2GB,最大为8GB, v3的参数,
        // 对应flag  "quota-backend-bytes" ,具体定义:etcd\etcdserver\quota.go   
        QuotaBackendBytes       int64 

        StrictReconfigCheck bool

        // ClientCertAuthEnabled is true when cert has been signed by the client CA.
        ClientCertAuthEnabled bool

        AuthToken string
    }

继续往下分析,发现StartEtcd()函数里面最关键的调用如下

    ······

    if e.Server, err = etcdserver.NewServer(srvcfg); err != nil {
        return e, err
    }

    ······

    e.Server.Start()

    ······

这两个函数的具体实现都位于 /etcdserver/server.go

首先看看NewServer()函数,代码很长,省略,其核心思路就是先判断是不是有WAL文件存在,然后根据两个条件:1、是否有WAL;2、是否新建集群; 来走不同流程,最后startNode(),startNode()里面就是创建WAL文件和调用raft协议的函数raft.StartNode(c, peers)来启动一个新的节点

EtcdServer.start()函数做了简单初始化之后,调用了EtcdServer.run(),该函数为EtcdServer运行的主函数

主要逻辑有:

初始化了raftReadyHandler,里面有2个函数回调,然后调用raftNode.start()函数来在一个新的goroutine启动一个raft节点

然后是for循环,等待channel响应

相关文章
|
15天前
|
运维 NoSQL 算法
Java开发-深入理解Redis Cluster的工作原理
综上所述,Redis Cluster通过数据分片、节点发现、主从复制、数据迁移、故障检测和客户端路由等机制,实现了一个分布式的、高可用的Redis解决方案。它允许数据分布在多个节点上,提供了自动故障转移和读写分离的功能,适用于需要大规模、高性能、高可用性的应用场景。
16 0
|
6月前
|
NoSQL Redis
redis_cluster集群启动失败问题解决方案
删除每个节点的.aof |.rdb | nodes-*.conf
56 0
|
6月前
|
数据可视化 Ubuntu Go
etcd源码分析 - 0.搭建学习etcd的环境
如果要更深入地研究etcd,就需要我们涉及到源码、并结合实践进行学习。那么,接下来,我将基于`v3.4`这个版本,做一期深入的环境搭建。
45 0
|
6月前
|
Kubernetes 监控 容器
etcd源码分析 - 1.【打通核心流程】etcd server的启动流程
在第一阶段,我将从主流程出发,讲述一个`PUT`指令是怎么将数据更新到`etcd server`中的。今天,我们先来看看server是怎么启动的。
112 0
|
6月前
|
网络协议 NoSQL Redis
【Redis源码】集群之分布式cluster原理(十四)
集群之分布式cluster原理(十四)
47 0
|
存储 监控 算法
《Ceph源码分析》——导读
本节书摘来自华章出版社《Ceph源码分析》一书中的导读,作者常涛,更多章节内容可以访问云栖社区“华章计算机”公众号查看 目  录序言第1章 Ceph整体架构 **1.1 Ceph的发展历程1.2 Ceph的设计目标1.
6602 1
Giraph源码分析(二)—启动Master/Worker服务
作者 | 白松 注:本文为原创,引用转载需与数澜联系。 1、org.apache.giraph.bsp.CentralizedService 接口 功能:Basic service interface shared by both CentralizedServiceMaster and CentralizedServiceWorker.
|
分布式计算 Hadoop
Giraph源码分析(一)— 启动ZooKeeper服务
作者 | 白松 【注:本文为原创,引用转载需与数澜联系。】 Giraph介绍: Apache Giraph is an iterative graph processing system built for high scalability.
|
JSON Kubernetes API
Kubelet源码分析(一):启动流程分析
源码版本 kubernetes version: v1.3.0 简介 在Kubernetes急群众,在每个Node节点上都会启动一个kubelet服务进程。该进程用于处理Master节点下发到本节点的任务,管理Pod及Pod中的容器。
2609 0
|
安全 Go Perl
Etcd源码分析:网络
配置文件 etcd配置文件位于/etc/etcd/etcd.conf,该配置文件一共有5个section 名称 作用 member 本节点的配置,包括监听服务端口、心跳时间等 cluster 集群配置,包括集群状态、集群名称以及本节点广播地址 proxy 用于网络自动发现服务 security 安.
2386 0