epoll在LT和ET模式下的读写方式
ET模型的逻辑:内核的读buffer有内核态主动变化时,内核会通知你, 无需再去mod。写事件是给用户使用的,最开始add之后,内核都不会通知你了,你可以强制写数据(直到EAGAIN或者实际字节数小于 需要写的字节数),当然你可以主动mod OUT,此时如果句柄可以写了(send buffer有空间),内核就通知你。
这里内核态主动的意思是:内核从网络接收了数据放入了读buffer(会通知用户IN事件,即用户可以recv数据)
并且这种通知只会通知一次,如果这次处理(recv)没有到刚才说的两种情况(EAGIN或者实际字节数小于 需要读写的字节数),则该事件会被丢弃,直到下次buffer发生变化。
与LT的差别就在这里体现,LT在这种情况下,事件不会丢弃,而是只要读buffer里面有数据可以让用户读,则不断的通知你。
另外对于ET而言,当然也不一定非send/recv到前面所述的结束条件才结束,用户可以自己随时控制,即用户可以在自己认为合适的时候去设置IN和OUT事件:
1 如果用户主动epoll_mod OUT事件,此时只要该句柄可以发送数据(发送buffer不满),则epoll
_wait就会响应(有时候采用该机制通知epoll_wai醒过来)。
2 如果用户主动epoll_mod IN事件,只要该句柄还有数据可以读,则epoll_wait会响应。
这种逻辑在普通的服务里面都不需要,可能在某些特殊的情况需要。?但是请注意,如果每次调用的时候都去epoll mod将显著降低效率,已经吃过几次亏了!
因此采用et写服务框架的时候,最简单的处理就是:
建立连接的时候epoll_add IN和OUT事件, 后面就不需要管了
每次read/write的时候,到两种情况下结束:
1 发生EAGAIN
2 read/write的实际字节数小于 需要读写的字节数
对于第二点需要注意两点:
A:如果是UDP服务,处理就不完全是这样,必须要recv到发生EAGAIN为止,否则就丢失事件了
因为UDP和TCP不同,是有边界的,每次接收一定是一个完整的UDP包,当然recv的buffer需要至少大于一个UDP包的大小
随便再说一下,一个UDP包到底应该多大?
对于internet,由于MTU的限制,UDP包的大小不要超过576个字节,否则容易被分包,对于公司的IDC环境,建议不要超过1472,否则也比较容易分包。
B 如果发送方发送完数据以后,就close连接,这个时候如果recv到数据是实际字节数小于读写字节数,根据开始所述就认为到EAGIN了从而直接返回,等待下一次事件,这样是有问题的,close事件丢失了!
因此如果依赖这种关闭逻辑的服务,必须接收数据到EAGIN为止,例如lb。
?
在一个非阻塞的socket上调用read/write函数, 返回EAGAIN或者EWOULDBLOCK(注: EAGAIN就是EWOULDBLOCK)
从字面上看, 意思是:
* EAGAIN: 再试一次
* EWOULDBLOCK: 如果这是一个阻塞socket, 操作将被block
* perror输出: ?Resource temporarily unavailable
总结:
这个错误表示资源暂时不够, 可能read时, 读缓冲区没有数据, 或者, write时,
写缓冲区满了. ?
遇到这种情况, 如果是阻塞socket, read/write就要阻塞掉.
而如果是非阻塞socket, read/write立即返回-1, 同?时errno设置为EAGAIN.
所以, 对于阻塞socket, read/write返回-1代表网络出错了.
但对于非阻塞socket, read/write返回-1不一定网络真的出错了.
可能是Resource temporarily unavailable. 这时你应该再试, 直到Resource available.
?
综上, 对于non-blocking的socket, ?正确的读写操作为:
读: 忽略掉errno = EAGAIN的错误, 下次继续读
写:?忽略掉errno = EAGAIN的错误, 下次继续写
?
对于select和epoll的LT模式, 这种读写方式是没有问题的. 但对于epoll的ET模式, 这种方式还有漏洞.
?
epoll的两种模式 LT 和 ET
二者的差异在于 level-trigger 模式下只要某个 socket 处于 readable/writable 状态,无论什么时候
进行 epoll_wait 都会返回该 socket;而 edge-trigger 模式下只有某个 socket 从 unreadable 变为 readable 或从unwritable 变为 writable 时,epoll_wait 才会返回该 socket。
?
如下两个示意图:
从socket读数据:

?
?
?
往socket写数据

所以, 在epoll的ET模式下, 正确的读写方式为:
读: 只要可读, 就一直读, 直到返回0, 或者 errno = EAGAIN
写: 只要可写, 就一直写, 直到数据发送完, 或者 errno = EAGAIN
?
正确的读:
?
C代码??
n?=?0;??while?((nread?=?read(fd,?buf?+?n,?BUFSIZ-1))?>?0)?{??????n?+=?nread;??}??if?(nread?==?-1?&&?errno?!=?EAGAIN)?{??????perror("read?error");??}???正确的写:
?
C代码??
int?nwrite,?data_size?=?strlen(buf);??n?=?data_size;??while?(n?>?0)?{??????nwrite?=?write(fd,?buf?+?data_size?-?n,?n);??????if?(nwrite?<?n)?{??????????if?(nwrite?==?-1?&&?errno?!=?EAGAIN)?{??????????????perror("write?error");??????????}??????????break;??????}??????n?-=?nwrite;??}???
正确的accept,accept 要考虑 2 个问题
(1) 阻塞模式 accept 存在的问题
考虑这种情况: TCP 连接被客户端夭折,即在服务器调用 accept 之前,客户端主动发送 RST 终止
连接,导致刚刚建立的连接从就绪队列中移出,如果套接口被设置成阻塞模式,服务器就会一直阻塞
在 accept 调用上,直到其他某个客户建立一个新的连接为止。但是在此期间,服务器单纯地阻塞在
accept 调用上,就绪队列中的其他描述符都得不到处理.
?
解决办法是把监听套接口设置为非阻塞,当客户在服务器调用 accept 之前中止某个连接时,accept 调用
可以立即返回 -1, 这时源自 Berkeley 的实现会在内核中处理该事件,并不会将该事件通知给 epool,
而其他实现把 errno 设置为 ECONNABORTED 或者 EPROTO 错误,我们应该忽略这两个错误。
?
(2) ET 模式下 accept 存在的问题
考虑这种情况:多个连接同时到达,服务器的 TCP 就绪队列瞬间积累多个就绪连接,由于是边缘触发模式,
?epoll 只会通知一次,accept 只处理一个连接,导致 TCP 就绪队列中剩下的连接都得不到处理。
?
?解决办法是用 while 循环抱住 accept 调用,处理完 TCP 就绪队列中的所有连接后再退出循环。如何知道
?是否处理完就绪队列中的所有连接呢? accept??返回 -1 并且 errno 设置为 EAGAIN 就表示所有连接都处理完。
?
综合以上两种情况,服务器应该使用非阻塞地 accept, accept 在 ET 模式下 的正确使用方式为:
?
C代码??
while?((conn_sock?=?accept(listenfd,(struct?sockaddr?*)?&remote,???????????????????(size_t?*)&addrlen))?>?0)?{??????handle_client(conn_sock);??}??if?(conn_sock?==?-1)?{??????if?(errno?!=?EAGAIN?&&?errno?!=?ECONNABORTED???????????????&&?errno?!=?EPROTO?&&?errno?!=?EINTR)???????????perror("accept");??}???
?
一道腾讯后台开发的面试题
使用Linux epoll模型,水平触发模式;当socket可写时,会不停的触发 socket 可写的事件,如何处理?
?
第一种最普遍的方式:
需要向 socket 写数据的时候才把 socket 加入 epoll ,等待可写事件。
接受到可写事件后,调用 write 或者 send 发送数据。。。
当所有数据都写完后,把 socket 移出 epoll。
?
这种方式的缺点是,即使发送很少的数据,也要把 socket 加入 epoll,写完后在移出 epoll,有一定操作代价。
?
一种改进的方式:
开始不把 socket 加入 epoll,需要向 socket 写数据的时候,直接调用 write 或者 send 发送数据。
如果返回 EAGAIN,把 socket 加入 epoll,在 epoll 的驱动下写数据,全部数据发送完毕后,再移出 epoll。
?
这种方式的优点是:数据不多的时候可以避免 epoll 的事件处理,提高效率。
?
?
?
最后贴一个使用epoll, ET模式的简单HTTP服务器代码:
?
C代码??
#include?<sys/socket.h>??#include?<sys/wait.h>??#include?<netinet/in.h>??#include?<netinet/tcp.h>??#include?<sys/epoll.h>??#include?<sys/sendfile.h>??#include?<sys/stat.h>??#include?<unistd.h>??#include?<stdio.h>??#include?<stdlib.h>??#include?<string.h>??#include?<strings.h>??#include?<fcntl.h>??#include?<errno.h>?????#define?MAX_EVENTS?10??#define?PORT?8080????//设置socket连接为非阻塞模式??void?setnonblocking(int?sockfd)?{??????int?opts;????????opts?=?fcntl(sockfd,?F_GETFL);??????if(opts?<?0)?{??????????perror("fcntl(F_GETFL)\n");??????????exit(1);??????}??????opts?=?(opts?|?O_NONBLOCK);??????if(fcntl(sockfd,?F_SETFL,?opts)?<?0)?{??????????perror("fcntl(F_SETFL)\n");??????????exit(1);??????}??}????int?main(){??????struct?epoll_event?ev,?events[MAX_EVENTS];??????int?addrlen,?listenfd,?conn_sock,?nfds,?epfd,?fd,?i,?nread,?n;??????struct?sockaddr_in?local,?remote;??????char?buf[BUFSIZ];????????//创建listen?socket??????if(?(listenfd?=?socket(AF_INET,?SOCK_STREAM,?0))?<?0)?{??????????perror("sockfd\n");??????????exit(1);??????}??????setnonblocking(listenfd);??????bzero(&local,?sizeof(local));??????local.sin_family?=?AF_INET;??????local.sin_addr.s_addr?=?htonl(INADDR_ANY);;??????local.sin_port?=?htons(PORT);??????if(?bind(listenfd,?(struct?sockaddr?*)?&local,?sizeof(local))?<?0)?{??????????perror("bind\n");??????????exit(1);??????}??????listen(listenfd,?20);????????epfd?=?epoll_create(MAX_EVENTS);??????if?(epfd?==?-1)?{??????????perror("epoll_create");??????????exit(EXIT_FAILURE);??????}????????ev.events?=?EPOLLIN;??????ev.data.fd?=?listenfd;??????if?(epoll_ctl(epfd,?EPOLL_CTL_ADD,?listenfd,?&ev)?==?-1)?{??????????perror("epoll_ctl:?listen_sock");??????????exit(EXIT_FAILURE);??????}????????for?(;;)?{??????????nfds?=?epoll_wait(epfd,?events,?MAX_EVENTS,?-1);??????????if?(nfds?==?-1)?{??????????????perror("epoll_pwait");??????????????exit(EXIT_FAILURE);??????????}????????????for?(i?=?0;?i?<?nfds;?++i)?{??????????????fd?=?events[i].data.fd;??????????????if?(fd?==?listenfd)?{??????????????????while?((conn_sock?=?accept(listenfd,(struct?sockaddr?*)?&remote,???????????????????????????????????(size_t?*)&addrlen))?>?0)?{??????????????????????setnonblocking(conn_sock);??????????????????????ev.events?=?EPOLLIN?|?EPOLLET;??????????????????????ev.data.fd?=?conn_sock;??????????????????????if?(epoll_ctl(epfd,?EPOLL_CTL_ADD,?conn_sock,??????????????????????????????????&ev)?==?-1)?{??????????????????????????perror("epoll_ctl:?add");??????????????????????????exit(EXIT_FAILURE);??????????????????????}??????????????????}??????????????????if?(conn_sock?==?-1)?{??????????????????????if?(errno?!=?EAGAIN?&&?errno?!=?ECONNABORTED???????????????????????????????&&?errno?!=?EPROTO?&&?errno?!=?EINTR)???????????????????????????perror("accept");??????????????????}??????????????????continue;??????????????}????????????????if?(events[i].events?&?EPOLLIN)?{??????????????????n?=?0;??????????????????while?((nread?=?read(fd,?buf?+?n,?BUFSIZ-1))?>?0)?{??????????????????????n?+=?nread;??????????????????}??????????????????if?(nread?==?-1?&&?errno?!=?EAGAIN)?{??????????????????????perror("read?error");??????????????????}??????????????????ev.data.fd?=?fd;??????????????????ev.events?=?events[i].events?|?EPOLLOUT;??????????????????if?(epoll_ctl(epfd,?EPOLL_CTL_MOD,?fd,?&ev)?==?-1)?{??????????????????????perror("epoll_ctl:?mod");??????????????????}??????????????}??????????????if?(events[i].events?&?EPOLLOUT)?{??????????????????sprintf(buf,?"HTTP/1.1?200?OK\r\nContent-Length:?%d\r\n\r\nHello?World",?11);??????????????????int?nwrite,?data_size?=?strlen(buf);??????????????????n?=?data_size;??????????????????while?(n?>?0)?{??????????????????????nwrite?=?write(fd,?buf?+?data_size?-?n,?n);??????????????????????if?(nwrite?<?n)?{??????????????????????????if?(nwrite?==?-1?&&?errno?!=?EAGAIN)?{??????????????????????????????perror("write?error");??????????????????????????}??????????????????????????break;??????????????????????}??????????????????????n?-=?nwrite;??????????????????}??????????????????close(fd);??????????????}??????????}??????}????????return?0;??} ?