linux内核分析--异步io(三)

简介:

用户建立了异步io环境,并且提交了异步io请求,该做的都做了,剩下的就是结果了,人生漂泊,有因无果,结果真的重要吗?务实一点说,重要,真正不在乎结果的人又有几个呢?人尤如此,内核就更不用说了,我拿到钱大把大把的花,等到请客吃饭时,囊中羞涩,这也是一种务实--肥水不流外人田;我有了时间,大把大把浪费,等到考试或考核时,总在呐喊:再多一秒吧!linux内核是这样的吗?很抱歉,不是!我觉得它是世界上最吝啬的了,不花一分冤枉钱,啥时候 windows也能这么吝啬就好了,我们就不用攒几个月的工资来买一块显卡仅仅为了玩一个几个月后就过时的游戏了,君不见Linux跑在奔二128m内存 机器上,天马行空,windows在酷睿1g内存机器依然蠕动,钞票啊!好了,不扯犊子了,第三场,开始! 
为了得到结果,用户应该调用io_getevents库函数,该函数进行sys_io_getevents系统调用,实际上不用分析代码也能猜个八九不离十,但是分析该系统调用前,必须先看一眼aio_complete函数,毕竟,得有人把数据放到一个地方你才可以读,而aio_complete函数就是 做这个的:

int fastcall aio_complete(struct kiocb *iocb, long res, long res2) 

struct kioctx *ctx = iocb->ki_ctx; 
struct aio_ring_info *info
struct aio_ring *ring
struct io_event *event
unsigned long flags
unsigned long tail; 
int ret; 
if (is_sync_kiocb(iocb)) { 
BUG_ON(iocb->ki_users != 1); 
iocb->ki_user_data = res
iocb->ki_users = 0; 
wake_up_process(iocb->ki_obj.tsk); 
return 1; 

info = &ctx->ring_info;//还记得吗?在setup_ring中事情 
spin_lock_irqsave(&ctx->ctx_lock, flags); 
if (iocb->ki_run_list.prev && !list_empty(&iocb->ki_run_list)) 
list_del_init(&iocb->ki_run_list); 
if (kiocbIsCancelled(iocb)) 
goto put_rq; 
ring = kmap_atomic(info->ring_pages[0], KM_IRQ1); 
tail = info->tail; 
event = aio_ring_event(info, tail, KM_IRQ0);//这是个宏,用来临时将从用户虚存区间得到的物理页面影射到高端,这么做为了往里面写数据,毕竟现代操作系统内核只认虚拟地址 
if (++tail >= info->nr
tail = 0; 
event->obj = (u64)(unsigned long)iocb->ki_obj.user
event->data = iocb->ki_user_data; 
event->res = res
event->res2 = res2; 
smp_wmb(); /* make event visible before updating tail */ 
info->tail = tail; 
ring->tail = tail; 
put_aio_ring_event(event, KM_IRQ0);//写完了,去映射,高端映射区间资源很宝贵,不要长期占用就好,都自觉点就行,内核并没有强制! 
kunmap_atomic(ring, KM_IRQ1); 
pr_debug("added to ring %p at [%lu]/n", iocb, tail); 
pr_debug("%ld retries: %d of %d/n", iocb->ki_retried, 
iocb->ki_nbytes - iocb->ki_left, iocb->ki_nbytes); 
put_rq: 
/* everything turned out well, dispose of the aiocb. */ 
ret = __aio_put_req(ctxiocb); 
spin_unlock_irqrestore(&ctx->ctx_lock, flags); 
if (waitqueue_active(&ctx->wait))//在sys_io_getevents中可能当下没有数据的时候要睡眠,现在有了,唤醒吧! 
wake_up(&ctx->wait); 
if (ret) 
put_ioctx(ctx); 
return ret; 

现在内核已经把数据放到一个地方了,就是info->ring_pages[0],就等着有人拿了,如果通读了代码,很多人不禁要问,内存直接申请一块不就的了,为什么还有映射来映射去的,难道不麻烦吗?其实,调用这个完成函数的进程根本就可能不是我们的用户进程,前面说过,所有的请求是放到工作队列中的,而工作队列是有自己的进程上下文的,所以就应该在请求者的地址空间申请内存,然后得到物理页,物理页面并不是进程级别的,所以可以随意操作。下面该真正的sys_io_getevents了: 
asmlinkage long sys_io_getevents(aio_context_t ctx_id, 
long min_nr, 
long nr
struct io_event __user *events
struct timespec __user *timeout

struct kioctx *ioctx = lookup_ioctx(ctx_id);//轻车熟路!! 
long ret = -EINVAL
if (likely(ioctx)) { 
if (likely(min_nr <= nr && min_nr >= 0 && nr >= 0)) 
ret = read_events(ioctx, min_nr, nreventstimeout); 
put_ioctx(ioctx); 

return ret; 

///////// 
static int read_events(struct kioctx *ctx
long min_nr, long nr
struct io_event __user *event
struct timespec __user *timeout

long start_jiffies = jiffies
struct task_struct *tsk = current
DECLARE_WAITQUEUE(wait, tsk); 
int ret; 
int i = 0; 
struct io_event ent
struct aio_timeout to; 
int retry = 0; 
memset(&ent, 0, sizeof(ent)); 
retry: 
ret = 0; 
while (likely(i < nr)) { 
ret = aio_read_evt(ctx, &ent);//真正的读取 
if (unlikely(ret <= 0)) 
break;

/* Could we split the check in two? */ 
ret = -EFAULT
if (unlikely(copy_to_user(event, &ent, sizeof(ent)))) { 
break; 

ret = 0; 
/* Good, event copied to userland, update counts. */ 
event ++; 
i ++; 

if (min_nr <= i
return i
if (ret) 
return ret; 
if (!retry && unlikely(!list_empty(&ctx->run_list))) { 
retry = 1; 
aio_run_all_iocbs(ctx); 
goto retry; 

init_timeout(&to); 
if (timeout) { 
struct timespec ts; 
ret = -EFAULT
if (unlikely(copy_from_user(&ts, timeout, sizeof(ts)))) 
goto out
set_timeout(start_jiffies, &to, &ts); 

while (likely(i < nr)) { 
add_wait_queue_exclusive(&ctx->wait, &wait); 
do { 
set_task_state(tsk, TASK_INTERRUPTIBLE);//没有数据,睡眠! 
ret = aio_read_evt(ctx, &ent); 
if (ret) 
break; 
if (min_nr <= i
break; 
ret = 0; 
if (to.timed_out) /* Only check after read evt */ 
break; 
schedule(); 
if (signal_pending(tsk)) { 
ret = -EINTR
break; 

/*ret = aio_read_evt(ctx, &ent);*/ 
} while (1) ; 
set_task_state(tsk, TASK_RUNNING);//被唤醒,肯定有了数据 
remove_wait_queue(&ctx->wait, &wait); 
if (unlikely(ret <= 0)) 
break; 
ret = -EFAULT
if (unlikely(copy_to_user(event, &ent, sizeof(ent)))) { 
dprintk("aio: lost an event due to EFAULT./n"); 
break; 

/* Good, event copied to userland, update counts. */ 
event ++; 
i ++; 

if (timeout
clear_timeout(&to); 
out
return i ? i : ret; 

最后看一下aio_read_evt函数,这个函数把所有虚伪的东西落到实处: 
static int aio_read_evt(struct kioctx *ioctx, struct io_event *ent

struct aio_ring_info *info = &ioctx->ring_info
struct aio_ring *ring
unsigned long head
int ret = 0; 
ring = kmap_atomic(info->ring_pages[0], KM_USER0); 
if (ring->head == ring->tail) 
goto out
spin_lock(&info->ring_lock); 
head = ring->head % info->nr
if (head != ring->tail) { 
struct io_event *evp = aio_ring_event(infohead, KM_USER1); 
*ent = *evp; 
head = (head + 1) % info->nr
smp_mb(); /* finish reading the event before updatng the head */ 
ring->head = head
ret = 1; 
put_aio_ring_event(evp, KM_USER1); 

spin_unlock(&info->ring_lock); 
… 

这下脉络就很清晰了,到这里我想到了一些东西,我读内核的过程中发现,内核函数基本可以分为两种,一种为管理函数,一种为操作函数,管理函数主要涉及到很多很复杂的数据结构,可谓变态级别,而操作函数一般一目了然,比如写寄存器,就一个writeX函数,由此想到了我们的社会何尝不是如此,管理机关机构臃肿,人员闲杂,而劳动人民则是那么的淳朴...... 
愿好人一生平安!


 本文转自 dog250 51CTO博客,原文链接:http://blog.51cto.com/dog250/1274054



相关文章
|
24天前
|
Ubuntu Linux Shell
(已解决)Linux环境—bash: wget: command not found; Docker pull报错Error response from daemon: Get https://registry-1.docker.io/v2/: net/http: request canceled
(已成功解决)Linux环境报错—bash: wget: command not found;常见Linux发行版本,Linux中yum、rpm、apt-get、wget的区别;Docker pull报错Error response from daemon: Get https://registry-1.docker.io/v2/: net/http: request canceled
224 68
(已解决)Linux环境—bash: wget: command not found; Docker pull报错Error response from daemon: Get https://registry-1.docker.io/v2/: net/http: request canceled
|
13天前
|
Ubuntu Linux 开发者
Ubuntu20.04搭建嵌入式linux网络加载内核、设备树和根文件系统
使用上述U-Boot命令配置并启动嵌入式设备。如果配置正确,设备将通过TFTP加载内核和设备树,并通过NFS挂载根文件系统。
53 15
|
16天前
|
Linux API C语言
Linux基础IO
Linux基础IO操作是系统管理和开发的基本技能。通过掌握文件描述符、重定向与管道、性能分析工具、文件系统操作以及网络IO命令等内容,可以更高效地进行系统操作和脚本编写。希望本文提供的知识和示例能帮助读者更深入地理解和运用Linux IO操作。
42 14
|
18天前
|
存储 运维 监控
Linux--深入理与解linux文件系统与日志文件分析
深入理解 Linux 文件系统和日志文件分析,对于系统管理员和运维工程师来说至关重要。文件系统管理涉及到文件的组织、存储和检索,而日志文件则记录了系统和应用的运行状态,是排查故障和维护系统的重要依据。通过掌握文件系统和日志文件的管理和分析技能,可以有效提升系统的稳定性和安全性。
35 7
|
20天前
|
监控 安全 Linux
启用Linux防火墙日志记录和分析功能
为iptables启用日志记录对于监控进出流量至关重要
|
1月前
|
算法 Linux
深入探索Linux内核的内存管理机制
本文旨在为读者提供对Linux操作系统内核中内存管理机制的深入理解。通过探讨Linux内核如何高效地分配、回收和优化内存资源,我们揭示了这一复杂系统背后的原理及其对系统性能的影响。不同于常规的摘要,本文将直接进入主题,不包含背景信息或研究目的等标准部分,而是专注于技术细节和实际操作。
|
1月前
|
存储 缓存 网络协议
Linux操作系统的内核优化与性能调优####
本文深入探讨了Linux操作系统内核的优化策略与性能调优方法,旨在为系统管理员和高级用户提供一套实用的指南。通过分析内核参数调整、文件系统选择、内存管理及网络配置等关键方面,本文揭示了如何有效提升Linux系统的稳定性和运行效率。不同于常规摘要仅概述内容的做法,本摘要直接指出文章的核心价值——提供具体可行的优化措施,助力读者实现系统性能的飞跃。 ####
|
1月前
|
监控 算法 Linux
Linux内核锁机制深度剖析与实践优化####
本文作为一篇技术性文章,深入探讨了Linux操作系统内核中锁机制的工作原理、类型及其在并发控制中的应用,旨在为开发者提供关于如何有效利用这些工具来提升系统性能和稳定性的见解。不同于常规摘要的概述性质,本文将直接通过具体案例分析,展示在不同场景下选择合适的锁策略对于解决竞争条件、死锁问题的重要性,以及如何根据实际需求调整锁的粒度以达到最佳效果,为读者呈现一份实用性强的实践指南。 ####
|
1月前
|
缓存 监控 网络协议
Linux操作系统的内核优化与实践####
本文旨在探讨Linux操作系统内核的优化策略与实际应用案例,深入分析内核参数调优、编译选项配置及实时性能监控的方法。通过具体实例讲解如何根据不同应用场景调整内核设置,以提升系统性能和稳定性,为系统管理员和技术爱好者提供实用的优化指南。 ####
|
1月前
|
负载均衡 算法 Linux
深入探索Linux内核调度机制:公平与效率的平衡####
本文旨在剖析Linux操作系统内核中的进程调度机制,特别是其如何通过CFS(完全公平调度器)算法实现多任务环境下资源分配的公平性与系统响应速度之间的微妙平衡。不同于传统摘要的概览性质,本文摘要将直接聚焦于CFS的核心原理、设计目标及面临的挑战,为读者揭开Linux高效调度的秘密。 ####
41 3