linux内核分析--异步io(三)

简介:

用户建立了异步io环境,并且提交了异步io请求,该做的都做了,剩下的就是结果了,人生漂泊,有因无果,结果真的重要吗?务实一点说,重要,真正不在乎结果的人又有几个呢?人尤如此,内核就更不用说了,我拿到钱大把大把的花,等到请客吃饭时,囊中羞涩,这也是一种务实--肥水不流外人田;我有了时间,大把大把浪费,等到考试或考核时,总在呐喊:再多一秒吧!linux内核是这样的吗?很抱歉,不是!我觉得它是世界上最吝啬的了,不花一分冤枉钱,啥时候 windows也能这么吝啬就好了,我们就不用攒几个月的工资来买一块显卡仅仅为了玩一个几个月后就过时的游戏了,君不见Linux跑在奔二128m内存 机器上,天马行空,windows在酷睿1g内存机器依然蠕动,钞票啊!好了,不扯犊子了,第三场,开始! 
为了得到结果,用户应该调用io_getevents库函数,该函数进行sys_io_getevents系统调用,实际上不用分析代码也能猜个八九不离十,但是分析该系统调用前,必须先看一眼aio_complete函数,毕竟,得有人把数据放到一个地方你才可以读,而aio_complete函数就是 做这个的:

int fastcall aio_complete(struct kiocb *iocb, long res, long res2) 

struct kioctx *ctx = iocb->ki_ctx; 
struct aio_ring_info *info
struct aio_ring *ring
struct io_event *event
unsigned long flags
unsigned long tail; 
int ret; 
if (is_sync_kiocb(iocb)) { 
BUG_ON(iocb->ki_users != 1); 
iocb->ki_user_data = res
iocb->ki_users = 0; 
wake_up_process(iocb->ki_obj.tsk); 
return 1; 

info = &ctx->ring_info;//还记得吗?在setup_ring中事情 
spin_lock_irqsave(&ctx->ctx_lock, flags); 
if (iocb->ki_run_list.prev && !list_empty(&iocb->ki_run_list)) 
list_del_init(&iocb->ki_run_list); 
if (kiocbIsCancelled(iocb)) 
goto put_rq; 
ring = kmap_atomic(info->ring_pages[0], KM_IRQ1); 
tail = info->tail; 
event = aio_ring_event(info, tail, KM_IRQ0);//这是个宏,用来临时将从用户虚存区间得到的物理页面影射到高端,这么做为了往里面写数据,毕竟现代操作系统内核只认虚拟地址 
if (++tail >= info->nr
tail = 0; 
event->obj = (u64)(unsigned long)iocb->ki_obj.user
event->data = iocb->ki_user_data; 
event->res = res
event->res2 = res2; 
smp_wmb(); /* make event visible before updating tail */ 
info->tail = tail; 
ring->tail = tail; 
put_aio_ring_event(event, KM_IRQ0);//写完了,去映射,高端映射区间资源很宝贵,不要长期占用就好,都自觉点就行,内核并没有强制! 
kunmap_atomic(ring, KM_IRQ1); 
pr_debug("added to ring %p at [%lu]/n", iocb, tail); 
pr_debug("%ld retries: %d of %d/n", iocb->ki_retried, 
iocb->ki_nbytes - iocb->ki_left, iocb->ki_nbytes); 
put_rq: 
/* everything turned out well, dispose of the aiocb. */ 
ret = __aio_put_req(ctxiocb); 
spin_unlock_irqrestore(&ctx->ctx_lock, flags); 
if (waitqueue_active(&ctx->wait))//在sys_io_getevents中可能当下没有数据的时候要睡眠,现在有了,唤醒吧! 
wake_up(&ctx->wait); 
if (ret) 
put_ioctx(ctx); 
return ret; 

现在内核已经把数据放到一个地方了,就是info->ring_pages[0],就等着有人拿了,如果通读了代码,很多人不禁要问,内存直接申请一块不就的了,为什么还有映射来映射去的,难道不麻烦吗?其实,调用这个完成函数的进程根本就可能不是我们的用户进程,前面说过,所有的请求是放到工作队列中的,而工作队列是有自己的进程上下文的,所以就应该在请求者的地址空间申请内存,然后得到物理页,物理页面并不是进程级别的,所以可以随意操作。下面该真正的sys_io_getevents了: 
asmlinkage long sys_io_getevents(aio_context_t ctx_id, 
long min_nr, 
long nr
struct io_event __user *events
struct timespec __user *timeout

struct kioctx *ioctx = lookup_ioctx(ctx_id);//轻车熟路!! 
long ret = -EINVAL
if (likely(ioctx)) { 
if (likely(min_nr <= nr && min_nr >= 0 && nr >= 0)) 
ret = read_events(ioctx, min_nr, nreventstimeout); 
put_ioctx(ioctx); 

return ret; 

///////// 
static int read_events(struct kioctx *ctx
long min_nr, long nr
struct io_event __user *event
struct timespec __user *timeout

long start_jiffies = jiffies
struct task_struct *tsk = current
DECLARE_WAITQUEUE(wait, tsk); 
int ret; 
int i = 0; 
struct io_event ent
struct aio_timeout to; 
int retry = 0; 
memset(&ent, 0, sizeof(ent)); 
retry: 
ret = 0; 
while (likely(i < nr)) { 
ret = aio_read_evt(ctx, &ent);//真正的读取 
if (unlikely(ret <= 0)) 
break;

/* Could we split the check in two? */ 
ret = -EFAULT
if (unlikely(copy_to_user(event, &ent, sizeof(ent)))) { 
break; 

ret = 0; 
/* Good, event copied to userland, update counts. */ 
event ++; 
i ++; 

if (min_nr <= i
return i
if (ret) 
return ret; 
if (!retry && unlikely(!list_empty(&ctx->run_list))) { 
retry = 1; 
aio_run_all_iocbs(ctx); 
goto retry; 

init_timeout(&to); 
if (timeout) { 
struct timespec ts; 
ret = -EFAULT
if (unlikely(copy_from_user(&ts, timeout, sizeof(ts)))) 
goto out
set_timeout(start_jiffies, &to, &ts); 

while (likely(i < nr)) { 
add_wait_queue_exclusive(&ctx->wait, &wait); 
do { 
set_task_state(tsk, TASK_INTERRUPTIBLE);//没有数据,睡眠! 
ret = aio_read_evt(ctx, &ent); 
if (ret) 
break; 
if (min_nr <= i
break; 
ret = 0; 
if (to.timed_out) /* Only check after read evt */ 
break; 
schedule(); 
if (signal_pending(tsk)) { 
ret = -EINTR
break; 

/*ret = aio_read_evt(ctx, &ent);*/ 
} while (1) ; 
set_task_state(tsk, TASK_RUNNING);//被唤醒,肯定有了数据 
remove_wait_queue(&ctx->wait, &wait); 
if (unlikely(ret <= 0)) 
break; 
ret = -EFAULT
if (unlikely(copy_to_user(event, &ent, sizeof(ent)))) { 
dprintk("aio: lost an event due to EFAULT./n"); 
break; 

/* Good, event copied to userland, update counts. */ 
event ++; 
i ++; 

if (timeout
clear_timeout(&to); 
out
return i ? i : ret; 

最后看一下aio_read_evt函数,这个函数把所有虚伪的东西落到实处: 
static int aio_read_evt(struct kioctx *ioctx, struct io_event *ent

struct aio_ring_info *info = &ioctx->ring_info
struct aio_ring *ring
unsigned long head
int ret = 0; 
ring = kmap_atomic(info->ring_pages[0], KM_USER0); 
if (ring->head == ring->tail) 
goto out
spin_lock(&info->ring_lock); 
head = ring->head % info->nr
if (head != ring->tail) { 
struct io_event *evp = aio_ring_event(infohead, KM_USER1); 
*ent = *evp; 
head = (head + 1) % info->nr
smp_mb(); /* finish reading the event before updatng the head */ 
ring->head = head
ret = 1; 
put_aio_ring_event(evp, KM_USER1); 

spin_unlock(&info->ring_lock); 
… 

这下脉络就很清晰了,到这里我想到了一些东西,我读内核的过程中发现,内核函数基本可以分为两种,一种为管理函数,一种为操作函数,管理函数主要涉及到很多很复杂的数据结构,可谓变态级别,而操作函数一般一目了然,比如写寄存器,就一个writeX函数,由此想到了我们的社会何尝不是如此,管理机关机构臃肿,人员闲杂,而劳动人民则是那么的淳朴...... 
愿好人一生平安!


 本文转自 dog250 51CTO博客,原文链接:http://blog.51cto.com/dog250/1274054



相关文章
|
7天前
|
算法 Linux 调度
深入理解Linux内核调度器:从基础到优化####
本文旨在通过剖析Linux操作系统的心脏——内核调度器,为读者揭开其高效管理CPU资源的神秘面纱。不同于传统的摘要概述,本文将直接以一段精简代码片段作为引子,展示一个简化版的任务调度逻辑,随后逐步深入,详细探讨Linux内核调度器的工作原理、关键数据结构、调度算法演变以及性能调优策略,旨在为开发者与系统管理员提供一份实用的技术指南。 ####
34 4
|
11天前
|
缓存 算法 Linux
深入理解Linux内核调度器:公平性与性能的平衡####
真知灼见 本文将带你深入了解Linux操作系统的核心组件之一——完全公平调度器(CFS),通过剖析其设计原理、工作机制以及在实际系统中的应用效果,揭示它是如何在众多进程间实现资源分配的公平性与高效性的。不同于传统的摘要概述,本文旨在通过直观且富有洞察力的视角,让读者仿佛亲身体验到CFS在复杂系统环境中游刃有余地进行任务调度的过程。 ####
33 6
|
2天前
|
算法 Linux 开发者
Linux内核中的锁机制:保障并发控制的艺术####
本文深入探讨了Linux操作系统内核中实现的多种锁机制,包括自旋锁、互斥锁、读写锁等,旨在揭示这些同步原语如何高效地解决资源竞争问题,保证系统的稳定性和性能。通过分析不同锁机制的工作原理及应用场景,本文为开发者提供了在高并发环境下进行有效并发控制的实用指南。 ####
|
10天前
|
缓存 资源调度 安全
深入探索Linux操作系统的心脏——内核配置与优化####
本文作为一篇技术性深度解析文章,旨在引领读者踏上一场揭秘Linux内核配置与优化的奇妙之旅。不同于传统的摘要概述,本文将以实战为导向,直接跳入核心内容,探讨如何通过精细调整内核参数来提升系统性能、增强安全性及实现资源高效利用。从基础概念到高级技巧,逐步揭示那些隐藏在命令行背后的强大功能,为系统管理员和高级用户打开一扇通往极致性能与定制化体验的大门。 --- ###
36 9
|
9天前
|
缓存 负载均衡 Linux
深入理解Linux内核调度器
本文探讨了Linux操作系统核心组件之一——内核调度器的工作原理和设计哲学。不同于常规的技术文章,本摘要旨在提供一种全新的视角来审视Linux内核的调度机制,通过分析其对系统性能的影响以及在多核处理器环境下的表现,揭示调度器如何平衡公平性和效率。文章进一步讨论了完全公平调度器(CFS)的设计细节,包括它如何处理不同优先级的任务、如何进行负载均衡以及它是如何适应现代多核架构的挑战。此外,本文还简要概述了Linux调度器的未来发展方向,包括对实时任务支持的改进和对异构计算环境的适应性。
30 6
|
10天前
|
缓存 Linux 开发者
Linux内核中的并发控制机制:深入理解与应用####
【10月更文挑战第21天】 本文旨在为读者提供一个全面的指南,探讨Linux操作系统中用于实现多线程和进程间同步的关键技术——并发控制机制。通过剖析互斥锁、自旋锁、读写锁等核心概念及其在实际场景中的应用,本文将帮助开发者更好地理解和运用这些工具来构建高效且稳定的应用程序。 ####
29 5
|
10天前
|
算法 Unix Linux
深入理解Linux内核调度器:原理与优化
本文探讨了Linux操作系统的心脏——内核调度器(Scheduler)的工作原理,以及如何通过参数调整和代码优化来提高系统性能。不同于常规摘要仅概述内容,本摘要旨在激发读者对Linux内核调度机制深层次运作的兴趣,并简要介绍文章将覆盖的关键话题,如调度算法、实时性增强及节能策略等。
|
11天前
|
存储 监控 安全
Linux内核调优的艺术:从基础到高级###
本文深入探讨了Linux操作系统的心脏——内核的调优方法。文章首先概述了Linux内核的基本结构与工作原理,随后详细阐述了内核调优的重要性及基本原则。通过具体的参数调整示例(如sysctl、/proc/sys目录中的设置),文章展示了如何根据实际应用场景优化系统性能,包括提升CPU利用率、内存管理效率以及I/O性能等关键方面。最后,介绍了一些高级工具和技术,如perf、eBPF和SystemTap,用于更深层次的性能分析和问题定位。本文旨在为系统管理员和高级用户提供实用的内核调优策略,以最大化Linux系统的效率和稳定性。 ###
|
10天前
|
Java Linux Android开发
深入探索Android系统架构:从Linux内核到应用层
本文将带领读者深入了解Android操作系统的复杂架构,从其基于Linux的内核到丰富多彩的应用层。我们将探讨Android的各个关键组件,包括硬件抽象层(HAL)、运行时环境、以及核心库等,揭示它们如何协同工作以支持广泛的设备和应用。通过本文,您将对Android系统的工作原理有一个全面的认识,理解其如何平衡开放性与安全性,以及如何在多样化的设备上提供一致的用户体验。
|
9天前
|
缓存 运维 网络协议
深入Linux内核架构:操作系统的核心奥秘
深入Linux内核架构:操作系统的核心奥秘
27 2
下一篇
无影云桌面