1:背景介绍
1.1:在处理tcp连接接收数据时,要考虑recv时(读取数据时),数据的半包,粘包问题
===》tcp是可靠的流式传输,意味着对于每个连接,tcp可以按顺序,可靠的接收到对端消息。
===》理解:对于每个连接(fd对应五元组),tcp协议栈底层维持了一个发送缓冲区和接收缓冲区。
=====》对于一个连接,对应的自己的接收缓冲区,一系列的数据,按顺序塞入在了缓冲区中,recv只是从中取数据。
=====》对于recv取接收缓冲区数据,需要一定策略(1:可能一次取到多个包(粘包) 2:可能recv参数设置不够,取了半个包(半包))
1.2:处理半包,粘包问题
半包粘包问题考虑有两点:
1:recv取数据时,要注意策略
2:需要用户层发送数据时,定义一定的协议。
===》方案1:发送数据时,数据构造特定的头/尾,接收后暂存在缓冲区中按逻辑处理(这里使用一块内存模拟了缓冲区)
===》方案2:发送数据时,特定字节标识发送的数据长度+实际data
2:测试代码
按照自己理解的处理半包和粘包的逻辑,两种处理方案分别使用测试代码进行模拟:
/************************************************ info: 作为tcp的服务端,数据的粘包,半包问题,期望对其进行处理 data: 2022/02/10 author: hlp ************************************************/ #include <stdio.h> #include <stdlib.h> #include <string.h> //tcp是可靠的流式传输 我们能保证它可靠,顺序的接收到,这里是放在tcp的接收缓冲区中 //但是放入缓冲区中,我们取数据的方案,需要做控制,以识别特定的不同的包。(有的包很小,有的包很大,取数据时要注意) //汇总:我们从缓存中取数据,要关注数据的完整,一次是否能取到完整的包。 int exec_one_data(char* data, int len); void check_buff(char * ringbuff, int *ops, int buff_size);//第三个参数为了在处理成功后清空用 void recv_data_by_specific_tail_symbol(int fd); void recv_data_by_length_and_data(int fd); int main() { //要解决识别数据的完整性问题 我们需要适配用户层协议 特定字节/特定终止符/长度+data int fd = 0; //特定的终止符+缓冲区处理 这里我是项目被要求使用这种复杂的头和尾标识,就这样演示 其实只要尾部也可以保证的 recv_data_by_specific_tail_symbol(fd); //按照长度+data的方案也是一种可靠方案, 先接收特定字节的长度,再接收数据。 recv_data_by_length_and_data(fd); return 0; } //发送时 特定的尾部标识+缓冲区方案 //每次不知道取多少数据,以及是否取到完整数据,一定需要缓冲区 //作为服务端 我们是有多个客户端fd连接的 最佳方案其实是每个fd连接应该有自己的缓冲区 // 假设我们的数据都能一次发送(业务不会有拆包现象),那么直接一个缓冲区做粘包的解析处理即可 (有拆包的话就会有问题的) void recv_data_by_specific_tail_symbol(int fd) { //缓冲区可以使用ringbuffer 这里demo只是演示,用了一块内存,并且所有连接公用一个(假设没有拆包,只是验证思路) //client 发送 假设构造发送数据 依次再客户端进行发送了 业务不涉及多包 const char * send1_data = "FFFF0D0A<header>my test of send 1. \\<tail>0D0AFEFE"; const char * send2_data = "FFFF0D0A<header>my test of send 2. \\<tail>0D0AFEFE"; const char * send3_data = "FFFF0D0A<header>my test of send 3. \\<tail>0D0AFEFE"; //tcp是可靠的 流式传输,必然按顺序,完整的收到一个包,接收放入缓冲区后,依次处理就好 //server 接收 由于我recv时不知道接收的长度,可能每次接收特定len(可能小于一个单包,可能刚好截断缓冲区某个包) //所以 放在缓冲区中,判断缓冲区中“FFFF0D0A<header><tail>0D0AFEFE”头和尾的标识进行处理,我是每次接收后判断一次,可以定时器等其他方案 //len = recv(fd, data, 44, 0); memcpy(ringbuff +ops, data, len); check_buff(ringbuff, ops); //每个fd使用一个缓冲区是最佳方案,这里用一块内存进行简单测试处理 char * ringbuff = (char *) malloc(1024); //假设缓冲区大小定义为1024 memset(ringbuff, 1024, 0); int ops = 0; //假设接收到数据 先放入缓冲区中 这里假设客户端发送的数据都符号标准,当然要做安全防护 //假设我取数据两次取到 "FFFF0D0A<header>my test of send 1. \\<tail>0D0AFEFEFFFF0D0A<header>my test" // " of send 2. \\<tail>0D0AFEFEFFFF0D0A<header>my test of send 3. \\<tail>0D0AFEFE" //len = recv(fd, recv1_data, my_len,0); my_len是我提前定义的recv1_data大小,这种情况应该是my_len == len //第一次recv提取 const char* recv1_data = "FFFF0D0A<header>my test of send 1. \\<tail>0D0AFEFEFFFF0D0A<header>my test"; memcpy(ringbuff+ops, recv1_data, strlen(recv1_data)); ops += strlen(recv1_data); //消费缓冲区位置 修改ops check_buff(ringbuff, &ops, 1024); //校验缓冲区中是否有完整数据 有则处理 识别第一个FFFF0D0A<header> 到下一个<tail>0D0AFEFE //第二次recv提取 const char* recv2_data =" of send 2. \\<tail>0D0AFEFEFFFF0D0A<header>my test of send 3. \\<tail>0D0AFEFE"; memcpy(ringbuff+ops, recv2_data, strlen(recv2_data)); ops += strlen(recv2_data); check_buff(ringbuff, &ops, 1024); //这里是正常数据 应该已经全部处理了 printf("ringbuff length is [%d] \n", ops); memset(ringbuff, 1024, 0); //每次处理完要清空 很有必要 不然下次处理也会有问题 if(ringbuff) { free(ringbuff); ringbuff = NULL; } } //这个函数其实是recv后,放入ringbuff后的主要解析逻辑 //这里的处理与recv的逻辑也有关 尽量一次recv循环取完,则每次数据都是能完整处理 (否则其实会有半包的现象) void check_buff(char * ringbuff, int *buffops, int buff_size) { //循环一次取完 应该就不会有这种问题 但是半包问题肯定有 if(*buffops <= strlen("FFFF0D0A<header><tail>0D0AFEFE")) { return; } printf ("check buff tail is [%s] \n", ringbuff+(*buffops)-strlen("<tail>0D0AFEFE")); //对比终结符相同再处理 否则留给下一次 if(strcmp("<tail>0D0AFEFE", ringbuff+(*buffops)-strlen("<tail>0D0AFEFE")) !=0) { return; } //对接收到的数据做拆包处理 int datalen = -1; char * onedata; char * ops; char * temp_data = ringbuff; //先判断是否有结尾的包 再判断头进行处理 const char * end_str = "<tail>0D0AFEFE"; //每次取一个尾部 然后处理一个包 while((ops = strstr(temp_data, end_str)) != NULL) { datalen = ops - temp_data +strlen(end_str); exec_one_data(temp_data, datalen); temp_data = ops+strlen(end_str); } //有剩下的数据 这是不可能的 因为recv是循环取完放在缓冲区中的 if(temp_data - ringbuff != *buffops) { printf("there is loss data: [%ld][%s] \n", strlen(temp_data), temp_data); } //清空处理 memset(ringbuff, 1024, 0); buffops = 0; } //这是一个完整的发送数据包 FFFF0D0A<header> XXX <tail>0D0AFEFE int exec_one_data(char* data, int len) { const char * start_str = "FFFF0D0A<header>"; char * ops; ops = strstr(data, start_str); if(ops == data) //如果中间包含header,解析有误,但是应该是不可能的 { int out_len = len-strlen("FFFF0D0A<header><tail>0D0AFEFE"); char * out_data = NULL; out_data =(char*)malloc(out_len +1); memset(out_data, out_len+1, 0); memcpy(out_data, data + strlen("FFFF0D0A<header>"), out_len); printf("out_data is [%lu][%s] \n", strlen(out_data), out_data); if(out_data != NULL) { free(out_data); out_data = NULL; } } if(ops == NULL) //没有找到头 丢弃 { printf("package data is error, not find start data. \n"); } if(ops != data) //头前面有异常数据 { printf("recv package data is error."); } return 0; } //发送时 特定的字节存储数据长度+实际data //个人理解 这种按照特定的结构取数据 不需要缓冲区是可以保证的 void recv_data_by_length_and_data(int fd) { //构造发送的数据 const char * send_data_str = "my test of send data \\"; unsigned short len = strlen(send_data_str); printf("vps short is : %lu \n", sizeof(unsigned short)); //vps short is : 2 //用2个字节的特定长度 +data的结构进行数据的构造 //这里要转网络序 取出后再转回来 char * send_data = NULL; send_data = (char*)malloc(2 +len +1);//预留了一个终结符 memset(send_data, 2+len, 0); memcpy(send_data, &len, 2); memcpy(send_data+2, send_data_str, len); //这里应该按照十六进制打印特定的长度 last send data is [22][my test of send data \] printf("last send data is [%u][%s] \n", *((unsigned short *)send_data), send_data+2); //接收端处理 应该先接收两字节长度 再接收后面数据长度 //这里发送的其实就是send_data 接收端先接收两个字节的长度,再接收特定长度的数据 (这里直接做解析) unsigned short recv_data_len; memcpy(&recv_data_len, send_data, 2); printf("recv data is[%d: %s] \n", recv_data_len, send_data+2); //recv data is[22: my test of send data \] //注意发送端数据的free if(send_data != NULL) { free(send_data); send_data = NULL; } }
3:测试结果:
只是模拟接收的逻辑,实际的接收可以根据tcp逻辑进行参考实现。
hlp@ubuntu:~/220107$ ./tag check buff tail is [header>my test] check buff tail is [<tail>0D0AFEFE] out_data is [20][my test of send 1. \] out_data is [20][my test of send 2. \] out_data is [20][my test of send 3. \] ringbuff length is [150] vps short is : 2 last send data is [22][my test of send data \] recv data is[22: my test of send data \]
我开始试着积累一些常用代码:自己代码库中备用
我的知识储备更多来自这里,推荐你了解:Linux,Nginx,ZeroMQ,MySQL,Redis,fastdfs,MongoDB,ZK,流媒体,CDN,P2P,K8S,Docker,TCP/IP,协程,DPDK等技术内容,立即学习