接上一篇select和poll的区别文章中,介绍了select
和poll
,它们有几个明显的缺点,比如select
每次调用都要把用户关心的文件描述符重新设置一遍,并且它能处理的文件描述符数量有限,而且无论是select
还是poll
,函数返回时我们都要遍历一遍事件集,找到就绪的文件描述符,效率比较低。而epoll
正好可以用来解决这些问题。epoll
是Linux特有的IO复用函数,它是一组函数:
#include <sys/epoll.h> int epoll_create(int size); int epoll_ctl(int epfd, int op, int fd, struct epoll_event *event); int epoll_wait(int epfd, struct epoll_event *events, int maxevents, int timeout);
epoll
把用户关心的文件描述符上的事件放在内核的一个事件表中,通过epoll_create
返回一个文件描述符epollfd
,该描述符用来唯一标识内核中的这个事件表。epoll_create
中的size
参数无关紧要,但要给一个大于0的值。
epoll_ctl
第一个参数传入epollfd
,op
表示操作类型,fd
是要操作的文件描述符,event
是事件类型。
操作类型op
有3种:
EPOLL_CTL_ADD 往事件表中注册fd上的事件 EPOLL_CTL_MOD 修改fd上的注册事件 EPOLL_CTL_DEL 删除fd上的注册事件
epoll_event
的定义:
The struct epoll_event is defined as : typedef union epoll_data { void *ptr; int fd; uint32_t u32; uint64_t u64; } epoll_data_t; struct epoll_event { uint32_t events; /* Epoll events */ epoll_data_t data; /* User data variable */ };
epoll_event
中的events
用来描述事件类型,epoll
支持的事件类型和poll
基本相同。表示epoll
事件类型的宏是在poll
对应的宏前加上“E”,比如epoll
的数据可读事件是EPOLLIN
。data
用来存放用户数据,epoll_data_t
中fd
可以存放用户fd
,ptr
用来指定与fd
相关的用户数据,但由于epoll_data
是一个联合体,所以不能同时使用ptr
和fd
,因此我们可以在ptr
指向的用户数据中包含fd
。
epoll_wait
在一段超时时间内等待一组文件描述符上的事件,函数成功时返回就绪的文件描述符的个数。events
是传出参数,epoll_wait
函数如果检测到事件,就将所有就绪的事件从内核事件表中复制到它的第二个参数events
指向的数组中。这个数组只用于输出epoll_wait
检测到的就绪事件,因此,当epoll_wait
返回时,我们只需要遍历这个数组就好了,大大提高了效率。
来看一下poll
和epoll
的区别:
int ret = poll(fds, MAX_EVENT_NUMBER, -1); //遍历所有sockfd for (int i = 0; i < MAX_EVENT_NUMBER; i++) { if (fds[i].revents & POLLIN) { int sockfd = fds[i].fd; //处理事件 } } int ret = epoll_wait(epollfd, events, MAX_EVENT_NUMBER, -1); //遍历就绪sockfd for (int i = 0; i < ret; i++) { int sockfd = events[i].data.fd; //处理事件 }
可以看到,当sockfd
较多时,epoll
较poll
效率提升还是很高的。
现在把上一篇中select
的例子改写一下:
#include <stdio.h> #include <unistd.h> #include <sys/types.h> #include <sys/socket.h> #include <netinet/in.h> #include <string.h> #include <vector> #include <sys/epoll.h> using namespace std; #define MAX_EVENT_NUMBER 1024 int main(void) { //初始化套接字 int listenfd = socket(AF_INET, SOCK_STREAM, 0); if (listenfd < 0) { perror("socket"); return -1; } struct sockaddr_in address; bzero(&address, sizeof(address)); address.sin_family = AF_INET; address.sin_addr.s_addr = htonl(INADDR_ANY); address.sin_port = htons(8080); int ret = bind(listenfd, (struct sockaddr *)&address, sizeof(address)); if (ret < 0) { perror("bind"); return -1; } ret = listen(listenfd, 5); if (ret < 0) { perror("listen"); return -1; } int epollfd = epoll_create(5); if (epollfd < 0) { perror("epoll_create"); return -1; } struct epoll_event event; event.data.fd = listenfd; event.events = EPOLLIN; //将listenfd加入epoll内核事件表 epoll_ctl(epollfd, EPOLL_CTL_ADD, listenfd, &event); epoll_event events[MAX_EVENT_NUMBER]; vector<int> vecClientfd; while (1) { ret = epoll_wait(epollfd, events, 1024, -1); for (int i = 0; i < ret; i++) { int sockfd = events[i].data.fd; if (sockfd == listenfd) { struct sockaddr_in client_address; socklen_t client_addrlength = sizeof(client_address); int clientfd = accept(listenfd, (struct sockaddr *)&client_address, &client_addrlength); //如果有新客户端连接 printf("The connection is successful : %d\n", clientfd); struct epoll_event event; event.data.fd = clientfd; event.events = EPOLLIN; //将clientfd加入epoll内核事件表 epoll_ctl(epollfd, EPOLL_CTL_ADD, clientfd, &event); vecClientfd.push_back(clientfd); } else if (events[i].events & EPOLLIN) { //如果有客户端的读事件 char buf[1024]; ret = recv(events[i].data.fd, buf, sizeof(buf) - 1, 0); if (ret <= 0) { perror("recv"); } printf("client: %d recv: %s\n", events[i].data.fd, buf); } } } for (int i = 0; i < vecClientfd.size(); i++) { close(vecClientfd[i]); } close(listenfd); return 0; }
epoll
比较高效的原因还有一个是它对文件描述符的操作有两种模式:LT(水平触发)和ET(边缘触发)。select
和poll
都只能工作在相对低效的LT模式。epoll
默认是水平触发,这种模式下epoll
相当于一个效率较高的poll
。当往epoll
内核事件表中注册一个文件描述符上的EPOLLET
事件时,epoll
将以ET模式来操作该文件描述符。ET模式是epoll
的高效工作模式。
对于采用LT工作模式的文件描述符,当epoll_wait
检测到其上有事件发生并将此事件通知应用程序后,应用程序可以不立即处理该事件。这样,当应用程序下一次调用epoll_wait
时,epoll_wait
还会再次向应用程序通告此事件,直到该事件被处理。而对于采用ET工作模式的文件描述符,当epoll_wait
检测到其上有事件发生并将此事件通知应用程序后,应用程序必须立即处理该事件,因为后续的epoll_wait
调用将不再向应用程序通知这一事件。可见,ET模式在很大程度上降低了同一个epoll
事件被重复触发的次数,因此效率要比LT模式高。
关于水平触发和边缘触发在我脑海中一直有一个电信号的图:
水平触发在于看当前状态,比如当前状态是高电平就会一直触发,而边沿触发在于看状态变化,比如从低电平变为高电平,这个过程只会触发一次,想要再次触发,只能状态发生改变。
所以,ET模式效率高的原因就在于同一事件(比如可读或可写事件)只会触发一次,而LT只要状态不变就会一直触发。同时这也引出了一个问题,对于ET模式,当有事件来时,就要一次把这个事件处理完,因为之后不会再触发该事件,即使上一次该事件没处理完。
说了这么多epoll
的优点,难道他没有缺点吗?有,比如活动连接比较多的时候,epoll_wait
的效率未必比select
和poll
高,因为epoll_wait
采用的是回调的方式,内核检测到就绪的文件描述符时,触发回调函数,回调函数将该文件描述符上对应的事件插入内核就绪事件队列,内核最后在适当的时机将该就绪队列中的内容拷贝到用户空间。而连接较多时回调函数被触发过于频繁,开销较大,所以epoll_wait
适用于连接数量多,但活动连接较少的情况。
参考资料
[1] 游双.Linux高性能服务器编程[M].北京:机械工业出版社,2013.