前置:这里使用的linux版本是4.8,x86体系。
cgroup_init_early()
聊这个函数就需要先了解cgroup。
cgroup概念
这个函数就是初始化cgroup所需要的参数的。cgroup最初是在2006年由google的一名工程师提出的,目的是把一些共同目标的进程放在一个组里面,而这个组里面的进程能共享指定数额的资源。而后就有了cgroup这个概念了。
我们把每种资源叫做子系统,比如CPU子系统,内存子系统。为什么叫做子系统呢,因为它是从整个操作系统的资源衍生出来的。然后我们创建一种虚拟的节点,叫做cgroup,然后这个虚拟节点可以扩展,以树形的结构,有root节点,和子节点。这个父节点和各个子节点就形成了层级(hierarchiy)。每个层级都可以附带继承一个或者多个子系统,就意味着,我们把资源按照分割到多个层级系统中,层级系统中的每个节点对这个资源的占比各有不同。
下面我们想法子把进程分组,进程分组的逻辑叫做css_set。这里的css是cgroup_subsys_state的缩写。所以css_set和进程的关系是一对多的关系。另外,在cgroup眼中,进程请不要叫做进程,叫做task。这个可能是为了和内核中进程的名词区分开吧。
进程分组css_set,不同层级中的节点cgroup也都有了。那么,就要把节点cgroup和层级进行关联,和数据库中关系表一样。这个事一个多对多的关系。为什么呢?首先,一个节点可以隶属于多个css_set,这就代表这这批css_set中的进程都拥有这个cgroup所代表的资源。其次,一个css_set需要多个cgroup。因为一个层级的cgroup只代表一种或者几种资源,而一般进程是需要多种资源的集合体。
美团的这个图片描写的非常清晰,一看就了解了:

task_struct
首先先看进程的结构,里面和cgroup有关的是
#ifdef CONFIG_CGROUPS
struct css_set __rcu *cgroups;
struct list_head cg_list;
#endif
我们会在代码中经常见到list_head。它其实就是表示,这个在链表中存在。
struct list_head {
struct list_head *next, *prev;
};
它的结构很简单,就能把某种相同性质的结构连成一个链表,根据这个链表我能前后找全整个链表或者头部节点等。
css_set
结构体在include/linux/cgroup-defs.h中。
struct css_set {
atomic_t refcount;
struct hlist_node hlist;
struct list_head tasks;
struct list_head mg_tasks;
struct list_head cgrp_links;
struct cgroup *dfl_cgrp;
struct cgroup_subsys_state *subsys[CGROUP_SUBSYS_COUNT];
struct list_head mg_preload_node;
struct list_head mg_node;
struct cgroup *mg_src_cgrp;
struct cgroup *mg_dst_cgrp;
struct css_set *mg_dst_cset;
struct list_head e_cset_node[CGROUP_SUBSYS_COUNT];
struct list_head task_iters;
bool dead;
struct rcu_head rcu_head;
};
这里说一下rcu锁,这个锁是linux2.6引入的。它是非常高效的,适合读多写少的情况。全称是(Read-Copy Update)读-拷贝修改。原理就是读操作的时候,不需要任何锁,直接进行读取,写操作的时候,先拷贝一个副本,然后对副本进行修改,最后使用回调(callback)在适当的时候把指向原来数据的指针指向新的被修改的数据。https://www.ibm.com/developerworks/cn/linux/l-rcu/
这里的rcu_head就存储了对这个结构上rcu锁所需要的回调信息。
struct callback_head {
struct callback_head *next;
void (*func)(struct callback_head *head);
} __attribute__((aligned(sizeof(void *))));
#define rcu_head callback_head
回到css_set,其实最重要的就是cgroup_subsys_state subsys[]数组这个结构。
cgroup_subsys_state 和 cgroup_subsys
这个结构最重要的就是存储的进程与特定子系统相关的信息。通过它,可以将task_struct和cgroup连接起来了:task_struct->css_set->cgroup_subsys_state->cgroup
struct cgroup_subsys_state {
struct cgroup *cgroup;
struct cgroup_subsys *ss;
struct percpu_ref refcnt;
struct cgroup_subsys_state *parent;
struct list_head sibling;
struct list_head children;
int id;
unsigned int flags;
u64 serial_nr;
atomic_t online_cnt;
struct rcu_head rcu_head;
struct work_struct destroy_work;
};
cgroup_subsys结构体在include/linux/cgroup-defs.h里面
struct cgroup_subsys {
struct cgroup_subsys_state *(*css_alloc)(struct cgroup_subsys_state *parent_css);
int (*css_online)(struct cgroup_subsys_state *css);
void (*css_offline)(struct cgroup_subsys_state *css);
void (*css_released)(struct cgroup_subsys_state *css);
void (*css_free)(struct cgroup_subsys_state *css);
void (*css_reset)(struct cgroup_subsys_state *css);
int (*can_attach)(struct cgroup_taskset *tset);
void (*cancel_attach)(struct cgroup_taskset *tset);
void (*attach)(struct cgroup_taskset *tset);
void (*post_attach)(void);
int (*can_fork)(struct task_struct *task);
void (*cancel_fork)(struct task_struct *task);
void (*fork)(struct task_struct *task);
void (*exit)(struct task_struct *task);
void (*free)(struct task_struct *task);
void (*bind)(struct cgroup_subsys_state *root_css);
bool early_init:1;
bool implicit_on_dfl:1;
bool broken_hierarchy:1;
bool warned_broken_hierarchy:1;
int id;
const char *name;
const char *legacy_name;
struct cgroup_root *root;
struct idr css_idr;
struct list_head cfts;
struct cftype *dfl_cftypes;
struct cftype *legacy_cftypes;
unsigned int depends_on;
};
这里特别说一下cftype。它是cgroup_filesystem_type的缩写。这个要从我们的linux虚拟文件系统说起(VFS)。VFS封装了标准文件的所有系统调用。那么我们使用cgroup,也抽象出了一个文件系统,自然也需要实现这个VFS。实现这个VFS就是使用这个cftype结构。
这里说一下idr。这个是linux的整数id管理机制。你可以把它看成一个map,这个map是把id和制定指针关联在一起的机制。它的原理是使用基数树。一个结构存储了一个idr,就能很方便根据id找出这个id对应的结构的地址了。http://blog.csdn.net/dlutbrucezhang/article/details/10103371
cgroup
cgroup结构也在相同文件,但是cgroup_root和子节点cgroup是使用两个不同结构表示的。
struct cgroup {
struct cgroup_subsys_state self;
unsigned long flags;
int id;
int level;
int populated_cnt;
struct kernfs_node *kn;
struct cgroup_file procs_file;
struct cgroup_file events_file;
u16 subtree_control;
u16 subtree_ss_mask;
u16 old_subtree_control;
u16 old_subtree_ss_mask;
struct cgroup_subsys_state __rcu *subsys[CGROUP_SUBSYS_COUNT];
struct cgroup_root *root;
struct list_head cset_links;
struct list_head e_csets[CGROUP_SUBSYS_COUNT];
struct list_head pidlists;
struct mutex pidlist_mutex;
wait_queue_head_t offline_waitq;
struct work_struct release_agent_work;
int ancestor_ids[];
};
这里看到一个新的结构,wait_queue_head_t,这个结构是用来将一个资源挂在等待队列中,具体参考:http://www.cnblogs.com/lubiao/p/4858086.html
还有一个结构是cgroup_root
struct cgroup_root {
struct kernfs_root *kf_root;
unsigned int subsys_mask;
int hierarchy_id;
struct cgroup cgrp;
int cgrp_ancestor_id_storage;
atomic_t nr_cgrps;
struct list_head root_list;
unsigned int flags;
struct idr cgroup_idr;
char release_agent_path[PATH_MAX];
char name[MAX_CGROUP_ROOT_NAMELEN];
};
cgroup_init_early
回到这个函数
int __init cgroup_init_early(void)
{
init_cgroup_root(&cgrp_dfl_root, &opts);
cgrp_dfl_root.cgrp.self.flags |= CSS_NO_REF;
RCU_INIT_POINTER(init_task.cgroups, &init_css_set);
for_each_subsys(ss, i) {
WARN(!ss->css_alloc || !ss->css_free || ss->name || ss->id,
"invalid cgroup_subsys %d:%s css_alloc=%p css_free=%p id:name=%d:%s\n",
i, cgroup_subsys_name[i], ss->css_alloc, ss->css_free,
ss->id, ss->name);
WARN(strlen(cgroup_subsys_name[i]) > MAX_CGROUP_TYPE_NAMELEN,
"cgroup_subsys_name %s too long\n", cgroup_subsys_name[i]);
ss->id = i;
ss->name = cgroup_subsys_name[i];
if (!ss->legacy_name)
ss->legacy_name = cgroup_subsys_name[i];
if (ss->early_init)
cgroup_init_subsys(ss, true);
}
return 0;
}
这个函数初始化的cgroup_root是一个全局的变量。定义在kernel/cgroup.c中。
struct cgroup_root cgrp_dfl_root
EXPORT_SYMBOL_GPL(cgrp_dfl_root)
理解了cgroup结构,里面的设置就可以基本看懂了。
本文转自轩脉刃博客园博客,原文链接:http://www.cnblogs.com/yjf512/p/6003094.html,如需转载请自行联系原作者