进程上下文切换 – 残酷的性能杀手(上)

简介:

对于服务器的优化,很多人都有自己的经验和见解,但就我观察,有两点常常会被人忽视 – 上下文切换 和 Cache Line同步 问题,人们往往都会习惯性地把视线集中在尽力减少内存拷贝,减少IO次数这样的问题上,不可否认它们一样重要,但一个高性能服务器需要更细致地去考察这些问题,这个问题我将分成两篇文章来写:

1)从一些我们常用的用户空间函数,到linux内核代码的跟踪,来看一个上下文切换是如何产生的

2)从实际数据来看它对我们程序的影响

另外,关于Cache Line 的测试大家可移步 http://www.cppthinker.com/cpp/9/cpu_cache/

 

Context Switch简介 -

上下文切换(以下简称CS)的定义,http://www.linfo.org/context_switch.html 此文中已做了详细的说明,这里我又偷懒不详细解释了:)  只提炼以下几个关键要点:

*) context(这里我觉得叫process context更合适)是指CPU寄存器和程序计数器在任何时间点的内容

*)CS可以描述为kernel执行下面的操作

1. 挂起一个进程,并储存该进程当时在内存中所反映出的状态

2. 从内存中恢复下一个要执行的进程,恢复该进程原来的状态到寄存器,返回到其上次暂停的执行代码然后继续执行

*)CS只能发生在内核态(kernel mode)

*)system call会陷入内核态,是user mode => kernel mode的过程,我们称之为mode switch,但不表明会发生CS(其实mode switch同样也会做很多和CS一样的流程,例如通过寄存器传递user mode 和 kernel mode之间的一些参数)

*)一个硬件中断的产生,也可能导致kernel收到signal后进行CS

 

 

什么样的操作可能会引起CS -

首先我们一定是希望减少CS,那什么样的操作会发生CS呢?也许看了上面的介绍你还云里雾里?

首先,linux中一个进程的时间片到期,或是有更高优先级的进程抢占时,是会发生CS的,但这些都是我们应用开发者不可控的。那么我们不妨更多地从应用开发者(user space)的角度来看这个问题,我们的进程可以主动地向内核申请进行CS,而用户空间通常有两种手段能达到这一“目的”:

1)休眠当前进程/线程

2)唤醒其他进程/线程

pthread库中的pthread_cond_wait 和 pthread_cond_signal就是很好的例子(虽然是针对线程,但linux内核并不区分进程和线程,线程只是共享了address space和其他资源罢了),pthread_cond_wait负责将当前线程挂起并进入休眠,直到条件成立的那一刻,而pthread_cond_signal则是唤醒守候条件的线程。我们直接来看它们的代码吧

pthread_cond_wait.c

1
2
3
4
5
6
7
8
9
10
11
12
13
14
15
16
17
18
19
20
21
22
23
24
25
26
27
28
29
30
31
32
33
34
35
36
37
38
int
__pthread_cond_wait (cond, mutex)
      pthread_cond_t *cond;
      pthread_mutex_t *mutex;
{
   struct  _pthread_cleanup_buffer buffer;
   struct  _condvar_cleanup_buffer cbuffer;
   int  err;
   int  pshared = (cond->__data.__mutex == ( void  *) ~0l)
         ? LLL_SHARED : LLL_PRIVATE;
 
   /* yunjie: 这里省略了部分代码 */
 
   do
     {
         /* yunjie: 这里省略了部分代码 */
 
       /* Wait until woken by signal or broadcast.  */
       lll_futex_wait (&cond->__data.__futex, futex_val, pshared);
 
         /* yunjie: 这里省略了部分代码 */
 
       /* If a broadcast happened, we are done.  */
       if  (cbuffer.bc_seq != cond->__data.__broadcast_seq)
     goto  bc_out;
 
       /* Check whether we are eligible for wakeup.  */
       val = cond->__data.__wakeup_seq;
     }  
   while  (val == seq || cond->__data.__woken_seq == val);
 
   /* Another thread woken up.  */ 
   ++cond->__data.__woken_seq;
 
  bc_out:
     /* yunjie: 这里省略了部分代码 */
   return  __pthread_mutex_cond_lock (mutex);
}

代码已经经过精简,但我们仍然直接把目光放到19行,lll_futex_wait,这是一个pthread内部宏,用处是调用系统调用sys_futex(futex是一种user mode和kernel mode混合mutex,这里不展开讲了),这个操作会将当前线程挂起休眠(马上我们将会到内核中一探究竟)

lll_futex_wait宏展开的全貌

1
2
3
4
5
6
7
8
9
10
11
#define lll_futex_wake(futex, nr, private) \                                                                                                                                                                                                
   do  {                                        \
     int  __ignore;                                 \
     register  __typeof (nr) _nr __asm ( "edx" ) = (nr);                  \
     __asm __volatile ( "syscall"                            \
               : "=a"  (__ignore)                       \
               : "0"  (SYS_futex), "D"  (futex),                 \
             "S"  (__lll_private_flag (FUTEX_WAKE, private )),       \
             "d"  (_nr)                         \
               : "memory" , "cc" , "r10" , "r11" , "cx" );              \
   } while  (0)

可以看到,该宏的行为很简单,就是通过内嵌汇编的方式,快速调用syscall:SYS_futex,所以我们也不用再多费口舌,直接看kernel的实现吧

linux/kernel/futex.c

1
2
3
4
5
6
7
8
9
10
11
12
13
14
15
16
17
18
19
20
21
22
23
24
25
26
27
28
29
30
31
SYSCALL_DEFINE6(futex, u32 __user *, uaddr, int , op, u32, val,
         struct  timespec __user *, utime, u32 __user *, uaddr2,
         u32, val3)
{
     struct  timespec ts;
     ktime_t t, *tp = NULL;
     u32 val2 = 0;
     int  cmd = op & FUTEX_CMD_MASK;
 
     if  (utime && (cmd == FUTEX_WAIT || cmd == FUTEX_LOCK_PI ||
               cmd == FUTEX_WAIT_BITSET)) {
         if  (copy_from_user(&ts, utime, sizeof (ts)) != 0)
             return  -EFAULT;
         if  (!timespec_valid(&ts))
             return  -EINVAL;
 
         t = timespec_to_ktime(ts);
         if  (cmd == FUTEX_WAIT)
             t = ktime_add_safe(ktime_get(), t);
         tp = &t;
     }
     /*
      * requeue parameter in 'utime' if cmd == FUTEX_REQUEUE.
      * number of waiters to wake in 'utime' if cmd == FUTEX_WAKE_OP.
      */
     if  (cmd == FUTEX_REQUEUE || cmd == FUTEX_CMP_REQUEUE ||
         cmd == FUTEX_WAKE_OP)
         val2 = (u32) (unsigned long ) utime;
 
     return  do_futex(uaddr, op, val, tp, uaddr2, val2, val3);
}

linux 2.5内核以后都使用这种SYSCALL_DEFINE的方式来实现内核对应的syscall(我这里阅读的是inux-2.6.27.62内核), 略过一些条件检测和参数拷贝的代码,我们可以看到在函数最后调用了do_futex,由于这里内核会进行多个函数地跳转,我这里就不一一贴代码污染大家了

大致流程: pthread_cond_wait => sys_futex => do_futex => futex_wait (蓝色部分为内核调用流程)

futex_wait中的部分代码

1
2
3
4
5
6
7
8
9
10
11
12
13
14
15
16
17
18
19
20
21
22
23
24
25
26
27
28
29
30
31
32
33
34
35
36
37
/* add_wait_queue is the barrier after __set_current_state. */
__set_current_state(TASK_INTERRUPTIBLE);
add_wait_queue(&q.waiters, &wait);
/*  
  * !plist_node_empty() is safe here without any lock.
  * q.lock_ptr != 0 is not safe, because of ordering against wakeup.
  */
if  (likely(!plist_node_empty(&q.list))) {
     if  (!abs_time)
         schedule();
     else  {
         hrtimer_init_on_stack(&t.timer, CLOCK_MONOTONIC,
                     HRTIMER_MODE_ABS);
         hrtimer_init_sleeper(&t, current);
         t.timer.expires = *abs_time;
 
         hrtimer_start(&t.timer, t.timer.expires,
                     HRTIMER_MODE_ABS);
         if  (!hrtimer_active(&t.timer))
             t.task = NULL;
 
         /*  
          * the timer could have already expired, in which
          * case current would be flagged for rescheduling.
          * Don't bother calling schedule.
          */
         if  (likely(t.task))
             schedule();
 
         hrtimer_cancel(&t.timer);
 
         /* Flag if a timeout occured */
         rem = (t.task == NULL);
 
         destroy_hrtimer_on_stack(&t.timer);
     }   
}

以上是futex_wait的一部分代码,主要逻辑是将当前进程/线程的状态设为TASK_INTERRUPTIBLE(可被信号打断),然后将当前进程/线程加入到内核的wait队列(等待某种条件发生而暂时不会进行抢占的进程序列),之后会调用schedule,这是内核用于调度进程的函数,在其内部还会调用context_switch,在这里就不展开,但有一点可以肯定就是当前进程/线程会休眠,然后内核会调度器他还有时间片的进程/线程来抢占CPU,这样pthread_cond_wait就完成了一次CS

pthread_cond_signal的流程基本和pthread_cond_wait一致,这里都不再贴代码耽误时间

大致流程:pthread_cond_signal => SYS_futex => do_futex => futex_wake => wake_futex => __wake_up => __wake_up_common => try_to_wake_up (蓝色部分为内核调用流程)

try_to_wake_up()会设置一个need_resched标志,该标志标明内核是否需要重新执行一次调度,当syscall返回到user space或是中断返回时,内核会检查它,如果已被设置,内核会在继续执行之前调用调度程序,之后我们万能的schedule函数就会在wait_queue(还记得吗,我们调用pthread_cond_wait的线程还在里面呢)中去拿出进程并挑选一个让其抢占CPU,所以,根据我们跟踪的内核代码,pthread_cond_signal也会发生一次CS

 

本篇结束 -

会造成CS的函数远远不止这些,例如我们平时遇到mutex竞争,或是我们调用sleep时,都会发生,我们总是忽略了它的存在,但它却默默地扼杀着我们的程序性能(相信我,它比你想象中要更严重),在下一篇中我将以chaos库(我编写的一个开源网络库)中的一个多线程组件为例,给大家演示CS所带来的性能下降

希望对大家有帮助 :)

我的个人博客地址:www.cppthinker.com

目录
相关文章
|
5月前
|
缓存 监控
第四十三章 使用^TRACE跟踪进程性能
第四十三章 使用^TRACE跟踪进程性能
37 0
|
5月前
|
网络协议 安全 Unix
深入剖析进程间通信:Unix 套接字、共享内存与IP协议栈的性能比较
深入剖析进程间通信:Unix 套接字、共享内存与IP协议栈的性能比较
167 2
|
5月前
|
缓存 负载均衡 安全
在Python中,如何使用多线程或多进程来提高程序的性能?
【2月更文挑战第17天】【2月更文挑战第50篇】在Python中,如何使用多线程或多进程来提高程序的性能?
56 4
|
2月前
|
API Android开发
Android P 性能优化:创建APP进程白名单,杀死白名单之外的进程
本文介绍了在Android P系统中通过创建应用进程白名单并杀死白名单之外的进程来优化性能的方法,包括设置权限、获取运行中的APP列表、配置白名单以及在应用启动时杀死非白名单进程的代码实现。
47 1
|
3月前
|
运维 关系型数据库 MySQL
掌握taskset:优化你的Linux进程,提升系统性能
在多核处理器成为现代计算标准的今天,运维人员和性能调优人员面临着如何有效利用这些处理能力的挑战。优化进程运行的位置不仅可以提高性能,还能更好地管理和分配系统资源。 其中,taskset命令是一个强大的工具,它允许管理员将进程绑定到特定的CPU核心,减少上下文切换的开销,从而提升整体效率。
掌握taskset:优化你的Linux进程,提升系统性能
|
3月前
|
算法 调度 UED
操作系统中的进程调度策略及其对系统性能的影响
本文深入探讨了操作系统中进程调度的多种策略,包括先来先服务、短作业优先、优先级调度、轮转与多级队列等,并分析了它们对系统性能的具体影响。通过比较不同调度算法的效率和公平性,本文旨在为系统管理员提供选择合适调度策略的依据,以优化系统的整体表现。
|
3月前
|
NoSQL Redis
Redis性能优化问题之查看 Redis 进程是否发生内存 swap,如何解决
Redis性能优化问题之查看 Redis 进程是否发生内存 swap,如何解决
|
2月前
|
并行计算 开发者 Python
解锁Python多进程编程的超能力:并行计算的魔法与奇迹,探索处理器核心的秘密,让程序性能飞跃!
【8月更文挑战第12天】在Python编程领域,多进程编程是一项关键技能,能有效提升程序效率。本文通过理论与实践结合,深入浅出地介绍了Python中的多进程编程。首先解释了多进程的概念:即操作系统中能够并发执行的多个独立单元,进而提高整体性能。接着重点介绍了`multiprocessing`模块,演示了如何创建和启动进程,以及进程间的通信方式,如队列等。此外,还提到了更高级的功能,例如进程池管理和同步原语等。通过这些实例,读者能更好地理解如何在实际项目中利用多核处理器的优势,同时注意进程间通信和同步等问题,确保程序稳定高效运行。
32 0
|
3月前
|
大数据 API 数据处理
Python高手都在用的并发秘籍:解锁线程与进程的终极奥义,性能飙升不是梦!
【7月更文挑战第8天】Python并发编程提升性能,线程(threading)适合I/O密集型任务,如网络请求,通过`start()`和`join()`实现并发。进程(multiprocessing)利用多核CPU,适用于CPU密集型任务,如大数据处理。结合两者可优化混合任务,实现最佳并发效果。
30 1
|
5月前
|
消息中间件 安全 调度
基于Python的性能优化(线程、协程、进程)
一、多线程 在CPU不密集、IO密集的任务下,多线程可以一定程度的提升运行效率。