知识巩固源码落实之6:c语言拼接字符串与切割字符串(strsep)代码

本文涉及的产品
全局流量管理 GTM,标准版 1个月
云解析 DNS,旗舰版 1个月
公共DNS(含HTTPDNS解析),每月1000万次HTTP解析
简介: 知识巩固源码落实之6:c语言拼接字符串与切割字符串(strsep)代码

网络数据是以流的形式进行传输的(我们在构造客户端/服务端待发送数据时,肯定有特定的格式)。

关于发送一次,一个包的完整性可靠接收(tcp的可靠传输,以及取数据的半包粘包问题)这里不关注,可以参考上文。

这里的目的是

===》备份c语言字符处理相关方案

===》备份自己在业务实现时,对字符串切割实现的一个接口(strstr,strcasestr,strsep,strtok,strdup相关接口)

有如下几个细节可以关注

===》1:实现不同类型的数据拼接字符串的方案 (3.1)

===》2:char**通过传参的方式再函数内部进行构造 (3.2.4.2)

===》3:对字符串进行解析处理的几种方案,尤其是分割字符串的实现(strsep实现了demo)(3.2.4)

1:背景描述

网络传输过程中,如tcp的客户端可服务端进行通信时,send函数实际发送的数据是用字符数组+长度表示的,即流的形式。

有关一次发送,一个包的完整接收,依赖于tcp底层的可靠流式传输,需要进行半包和粘包处理,可以参考上文。

但是,这里针对一个包的结构,我们其实也会需要根据我们的业务场景进行设计,按照特定的结构进行构造,与解析。

这里关注一次发送一个包的构造与解析方案,以及代码实现做备份

2:逻辑描述

2.1:大概描述

网络传输中,对字符流的处理非常重要,建立在我们制定的特定的规范上

===》除了关注一个包的完整接收(粘包半包问题),还需要关注数据本身

===》1:类似tcp/ip协议栈那样,用特定的协议栈,特定的字节表示特定的含义进行解析(固定字节大小表示含义)

===》2:我们可以自定义规范,如用特定的字符/字符串进行识别,分割不同字符所表示的含义(如 msg_type|other_type|msg_len|msg_data).

这里针对以上所描述的两种方案的数据的构造与解析,进行梳理及代码测试。。。

2.2:数据的构造(目的构造特定格式待发送的char*及获取长度)

一般发送端和接收端对数据的处理都是协商好的,按照特定的格式构造,必然会按照特定的格式进行解析。

数据的构造本质:其实就是按照特定的格式给char指针中塞入协商的格式的数据,以及获取到实际发送的数据的长度

===》1:类似tcp/ip协议头,可以通过结构体指针强转,以及获取实际长度进行发送

===》2:构造要发送的char*指针及获取长度方案:使用 memcpy

===》3:构造要发送的char*指针及获取长度方案:c库函数,strcpy, strcat

===》4:构造要发送的char*指针及获取长度方案:使用sprintf、sprintf_s觉得最好用

2.3:数据的解析(目的对接收到的char*按协商的格式进行解析)

以流的形式,接收到对待的数据(实际是char*指针和数据长度),对其按照协商进行解析。

解析的本质:按照特定的字节,或者对整个流进行处理依次取特定位置数据

===》1:指针强转,类似tcp/ip协议栈处理,可以把接收到的报文,直接转为结构体指针进行操作

===》2:先取特定长度,再按这个长度取实际数据。 (发送先发送长度+data(可以自己定义解析格式))

===》3:解析接收到的流,进行解析(如按照“|”进行分割

本文的目的之一也是为了备份按照“|”进行分割的一个实践代码

3:代码梳理

3.1:待发送数据构造的demo

3.1.1:结构体指针转为char*实现/解析逻辑

构造结构体,计算实际长度,send时直接转为char*传参进行发送。。。

再linux环境上使用gcc进行编译测试过,代码执行ok

//1:类似tcp/ip协议栈,其实都是按照特定的结构体进行类型强转数据解析
void parse_struct_format_data()
{
printf("parse_struct_format_data test: \n");
  //假设定义了柔性数组,构造数据并解析数据的流程如下
  struct my_data_t
  {
    int msg_type;
    int data_len;
    char data[0];
  };
  //假设要发送的数据为client send data example. \n, 类型为1
  const char* data = "client send data example. \n";
  //发送端构造最终的数据如下
  struct my_data_t *send_data = NULL;
  send_data = (struct my_data_t*)malloc(sizeof(struct my_data_t)+strlen(data)+1);
  if(send_data == NULL)
  {
    return ;
  }
  memset(send_data, '\0', sizeof(struct my_data_t)+strlen(data)+1);//只是预留了一个位而已
  send_data->msg_type = 1;
  send_data->data_len = strlen(data);
  memcpy(send_data->data, data, strlen(data));
  //这里其实 send_data就是我们最终构造的一个网络数据格式包,可以进行发送
  //使用send进行发送时,只是传参char*以及待发送的数据长度
  char *send_para_data = (char *)send_data; //结构体类型强转  tcp识别到的是这个结构里的流数据
  int send_para_data_len = sizeof(struct my_data_t)+strlen(data);
  //如果客户端使用send_para_data 及长度send_para_data_len 进行发送及校验 。。。
  //我们收到的流,以recv进行接收,就是一个字符流,内容其实就是send_para_data 长度为send_para_data_len 
  //这里要完整的接收到一个包(半包粘包问题,可参考上文)
  //进行逆向解析就好
  struct my_data_t *recv_data = (struct my_data_t*)send_para_data;
  //可以按照柔性数组的逻辑 按照长度对实际数据进行解析打印
  printf("\trecv_data type is [%d] \n",recv_data->msg_type);
  printf("\trecv_data len is [%d] \n",recv_data->data_len);
  //这里只是测试  注意如果这个data中有特殊的字符如\0等,不能这样打印,要按照十六进制按照长度打印
  printf("\trecv_data len is [%s] \n", recv_data->data);
  printf("recv_data ASSII is [");
  for(int i=0; i<recv_data->data_len; i++)
  {
    printf("%02x ", recv_data->data[i]);
  }
  printf("]\n");
  if(send_data!= NULL)
  {
    free(send_data);
    send_data = NULL;
  }
}

3.1.2:使用memcpy实现字符串的拼接,构造char*

目的是获得最终的char*指针位置以及实际发送的数据长度。

这里因为懒,使用了to_string把int转为string进行测试,所以编译的时候用c++11,可以修改用itoa…

//1:使用memcpy实现字符串的拼接 splicing test of string1 and string2
int use_memcpy_splic_string()
{
printf("use_memcpy_splic_string test:\n");
  const char* str1 = "splicing test of ";
  const char* str2 = "string";
  const char* and1 = " and ";
  int one = 1;
  int two = 2;
  //这里用到了C++中的to_string函数  c语言可以用itoa,这里主要是理解字符串拼接,,, 有int类型的字符串转换拼接常用sprintf
  int size = strlen(str1) + strlen(str2) * 2 + (strlen(to_string(one).c_str())) + strlen(and1) + (strlen(to_string(two).c_str())) + 1;
  printf("\tget the len is : %d %lu\n", size, strlen("splicing test of string1 and string2"));
  int pos = 0;
  char* result = (char*)malloc(size);
  if (result == NULL)
  {
    return -1;
  }
  memset(result, '\0', size);
  memcpy(result, str1, strlen(str1));
  pos += strlen(str1);
  memcpy(result + pos, str2, strlen(str2));
  pos += strlen(str2);
  memcpy(result + pos, to_string(one).c_str(), strlen(to_string(one).c_str()));
  pos += strlen(to_string(one).c_str());
  memcpy(result + pos, and1, strlen(and1));
  pos += strlen(and1);
  memcpy(result + pos, str2, strlen(str2));
  pos += strlen(str2);
  memcpy(result + pos, to_string(two).c_str(), strlen(to_string(two).c_str()));
  pos += strlen(to_string(two).c_str());
  printf("\tthe result is [%lu][%s]  \n", strlen(result), result);
  printf("\tpos is [%d] \n", pos);
  if (result != NULL)
  {
    free(result);
    result = NULL;
  }
  return 0;
}

3.1.3:使用c库函数(strcpy, strcat)

偷懒用了to_string(),编译测试用c++11

//2:使用c库函数实现字符串的拼接 splicing test of string1 and string2
//写代码的时候要注意目标字符串的长度一定要够用 
int use_clibrary_strcat_splic_string()
{
printf("use_clibrary_strcat test: \n");
  const char* str1 = "splicing test of ";
  const char* str2 = "string";
  const char* and1 = " and ";
  int one = 1;
  int two = 2;
  //这里用到了C++中的to_string函数  c语言可以用itoa,这里主要是理解字符串拼接,,, 有int类型的字符串转换拼接常用sprintf
  int size = strlen(str1) + strlen(str2) * 2 + (strlen(to_string(one).c_str())) + strlen(and1) + (strlen(to_string(two).c_str())) + 1;
  printf("\tget the len is : %d %lu\n", size, strlen("splicing test of string1 and string2"));
  char* result = (char*)malloc(size);
  if (result == NULL)
  {
    return -1;
  }
  memset(result, '\0', size); 
    //vs上测试时要用strcpy_s
  // strcpy_s(result, size, str1);
  // strcat_s(result, size, str2);
  // strcat_s(result, size, to_string(one).c_str());
  // strcat_s(result, size, and1);
  // strcat_s(result, size, str2);
  // strcat_s(result, size, to_string(two).c_str());
  //注意字符串处理时的不安全性!!!
  strcpy(result,  str1);
  strcat(result,  str2);
  strcat(result,  to_string(one).c_str());
  strcat(result,  and1);
  strcat(result,  str2);
  strcat(result,  to_string(two).c_str());
  printf("\tthe result is [%lu][%s]  \n", strlen(result), result);
  if (result != NULL)
  {
    free(result);
    result = NULL;
  }
  return 0;
}

3.1.4:使用sprintf(sprintf_s):最实用和方便

vs上测试时需要使用sprintf_s

int use_sprintf_splic_string()
{
  printf("use_sprintf_splic_string test: \n");
  const char* str1 = "splicing test of ";
  const char* str2 = "string";
  const char* and1 = " and ";
  int one = 1;
  int two = 2;
  //定义目标字符串,为其申请内存都是必须的
  int size = strlen(str1) + strlen(str2) * 2 + (strlen(to_string(one).c_str())) + strlen(and1) + (strlen(to_string(two).c_str())) + 1;
  printf("\tget the len is : %d %lu\n", size, strlen("splicing test of string1 and string2"));
  char* result = (char*)malloc(size);
  if (result == NULL)
  {
    return -1;
  }
  memset(result, '\0', size);
  //使用sprintf一步到位
  sprintf(result, "%s%s%d%s%s%d", str1, str2, one, and1, str2, two);
  //sprintf_s(result, size, "%s%s%d%s%s%d", str1, str2, one, and1, str2, two);
  printf("\tthe result is [%lu][%s]  \n", strlen(result), result);
  if (result != NULL)
  {
    free(result);
    result = NULL;
  }
  return 0;
}

3.2:接收数据进行解析的demo

3.2.1:直接把char*转为结构体(类似tcp/ip协议栈处理)

参考3.1.1

3.2.2:按照协商的自己含义,使用memcpy按字节处理

参考3.1.2

3.2.3:先接收长度,再接收数据的解析

网络数据有个场景,可以先发送实际数据的长度,recv时先接收特定字节长度,再接收实际数据,保证报的完整.

//2:特定字节表示长度,对后面的数据进行处理==》其实和结构体格式差不多,柔性数组
void parse_len_and_data_networkdata()
{
printf("parse_len_and_data_networkdata test: \n");
  //在网络传输中,可以用特定字节表示长度+实际数据的格式
  const char *send_data = "msg_type | msg_len |msg_data ...\n"; //实际数据有特殊字符的话,长度要传进来或者结构体其他方案
  //在网络发送中,如果想简单实现不想用结构那么麻烦,可以这样用 
  int send_len = strlen(send_data);
  printf("\tsend_len [%d][%s] \n",send_len, send_data);
  //可以类似上个函数用结构体  struct data_t{int len; char data[0];};构造
  //我试试这种:
  char * real_send_data = (char *)malloc(send_len +4+1);
  memset(real_send_data, 0, send_len +4+1);
  memcpy(real_send_data, (char*)&send_len, sizeof(int)); //前四个字节拷贝长度,也可以以字符串形式直接存进去 to_string(send_len).c_str()
  memcpy(real_send_data +sizeof(int), send_data, send_len);
  //real_send_data 就是我们实际send的流   我们可以先接收取前四个字节获取数据长度,再接收后面的字段
  //先定义一个int,从recv取四个字节,转为int表示的长度
  int recv_len = *(int *)real_send_data; //先recv取四个字节  解析成真正的数据
  char* recv_data = real_send_data+4;  //这里应该是recv读出来的 长度为recv_len 
  printf("\trecv_len[%d] [%s] \n",recv_len, recv_data);
  if(real_send_data != NULL)
  {
    free(real_send_data);
    real_send_data = NULL;
  }
}

3.2.4:如果是按字符串进行分割的设计,对其进行解析

这里只是实现了切割字符串的其中一种方案。

3.2.4.1:数据的构造(符合”|“切割的字符串:”msg_type|other_type|msg_len|msg_data“):
//模拟一个完整的包,返回一个符合特定格式的拼接起来的包数据
//假设 msg_type|other_type|msg_len|msg_data 格式
int get_concatenate_strings(char ** result_data, int* len)
{
  // 假设格式msg_type|other_type|msg_len|msg_data 格式
  const char * data = "mytest of spilt of send data ... \n\t test";//注意网络数据这里的复杂,用memcpy处理
  int msg_type = 1;
  int other_type = 2;
  int msg_len = strlen(data); //实际后面的数据长度
  //这里估算一下最终最大长度 用20+strlen(data)肯定够用
  char *send_data = NULL;
  send_data = (char*)malloc(20+msg_len);
  memset(send_data, 0, 20+msg_len);
  sprintf(send_data, "%d|%d|%d|", msg_type, other_type, msg_len);
  //通过传参的方式传递出去
  *len = strlen(send_data) +msg_len;
  memcpy(send_data+strlen(send_data), data, msg_len);
  *result_data = send_data;
  printf("\t result_data is [%d][%s] \n",*len, send_data);
}
3.2.4.2:按特定字符对字符串实现切割解析(解析提取”msg_type|other_type|msg_len|msg_data“各字段含义)

这里可以关注一下这几个库函数实现字符串切割的方案,测试只是其中一种

char * strstr(const char *haystack, const char *needle); 函数定位子串的位置,然后实现字符串的切割

char * strcasestr(const char *haystack, const char *needle); 和strstr同样的功能,只是忽略两个参数的大小写

char *strtok(char *str, const char *delim); 分解字符串 str 为一组字符串,delim 为分隔符

char *strsep(char **stringp, const char *delim); strtok的升级,

//这里使用"|"对长度为len目标数据data进行切割,通过参数result返回解析后的数据
int check_recv_data_by_spilit(const char * data, int len, char **result, const char* delim)
{
  //直接根据'|'对字符串进行切割 根据切割后的个数进行校验
  char *src = strdup(data); //复制了一份数据 strsep会修改原字符串
  char * src_free = src; 
  //msg_type|other_type|msg_len|msg_data  按照协商的格式 定义了暂存的指针
  char * delim_buff[4] = {0};
  char* token = NULL;  //切割后返回的字符指针
  int i = 0;       //切割的个数
  //返回的是符合的分割的字符   同时原字符从分割后的位置开始
  for(token = strsep(&src, delim); token!=NULL && i<4; token=strsep(&src, delim))
  {
    delim_buff[i++] = token;
    printf("\tspilt data [%d:%lu:%s] \n", i, strlen(token), token);
    printf("\t\t src:[%s] \n",src);
  }
  if(i != 4) //必然是协商的格式 
  {
    printf("\tvps spilit data error \n");
    free(src_free);
    return -1;
  }
  int msg_type = (int)atoi(delim_buff[0]);
  int dev_type = (int)atoi(delim_buff[1]);
  int data_len = (int)atoi(delim_buff[2]);
  char * cli_data = delim_buff[3];
  printf("\nmsg_type:%d, dev_type:%d, data_len:%d:%lu:[%s] \n", msg_type, dev_type, data_len, strlen(cli_data), cli_data);
  //把解析后的数据进行处理 使用传参传出去
  int ret = 0;
  struct client_recv_t *result_t = NULL;
  result_t = (struct client_recv_t *)malloc(sizeof(struct client_recv_t) + data_len+1);
  if(result_t == NULL)
  {
    printf("malloc error \n");
    *result = NULL;
    ret = -1;
  }else
  {
    memset(result_t, sizeof(struct client_recv_t) + data_len+1, 0);
    result_t->msg_type = msg_type;
    result_t->dev_type = dev_type;
    result_t->data_len = data_len;
    memcpy(result_t->data, cli_data, data_len);
    *result = (char *)result_t;
  }
  memset(src_free, 0, len);
  free(src_free);
  src_free = NULL;
  return ret;
}
3.2.4.2:测试代码:

再linux环境直接用gcc进行编译测试,代码ok。。。

//定义一个保存解析后数据的结构
struct client_recv_t
{
  int msg_type;
  int dev_type;
  int data_len;
  char data[0];
};
int parse_spilt_string_and_getdata(const char * data, int len)
{
  printf("\tneed parse data is [%d][%s] \n", len, data);
  //使用特定字符串对字符串进行切割,这里举例是"|",可以是其他的字符串。。。
  //协商的协议是:msg_type|other_type|msg_len|msg_data 
  //实际数据是:[47][1|2|40|mytest of spilt of send data ... \n\t test
  char * result_data_t = NULL; //存储解析后的数据,也可以是其他方案,这里只是举例
  //这里使用"|"对长度为len目标数据data进行切割,通过传参获取 result_data_t
  if(check_recv_data_by_spilit(data, len, &result_data_t, "|") != 0)
  {
    printf("vps parse spilit error \n");
    return -1;
  }
  //对解析后的数据进行打印
  struct client_recv_t *result_data = (struct client_recv_t *)result_data_t;
  printf("\t parse test data is [%d][%d][%d][%s] \n", result_data->msg_type, result_data->dev_type, result_data->data_len, result_data->data);
  // memset(result_data, sizeof(struct client_recv_t)+ (result_data->data_len+1), 0);
  if(result_data != NULL)
  {
    free(result_data);
    result_data = NULL;
    printf("free success \n");
  }
  return 0;
}
//真正的入口
void parse_string_spilt_data()
{
printf("parse_string_spilt_data test: \n");
  //假设协商的协议是msg_type|other_type|msg_len|msg_data 
  //构造一个数据,获取到最终发送的数据和数据长度
  char * send_data = NULL;
  int send_len = 0;
  if(get_concatenate_strings(&send_data, &send_len) < 0)
  {
    printf("\t make send_data error \n");
    return;
  }
  printf("\t last_result_data is [%d][%s] \n",send_len, send_data);
  //假设对这个数据进行发送了,报的完整性参考上文
  //接收其实就是这样格式的数据,解析一下这个 这里recv接收时要关注包的完整性
  parse_spilt_string_and_getdata(send_data, send_len);
  if(send_data != NULL)
  {
    free(send_data);
    send_data = NULL;
  }
}

我开始试着积累一些常用代码:自己代码库中备用

我的知识储备更多来自这里,推荐你了解:Linux,Nginx,ZeroMQ,MySQL,Redis,fastdfs,MongoDB,ZK,流媒体,CDN,P2P,K8S,Docker,TCP/IP,协程,DPDK等技术内容,立即学习

目录
相关文章
|
5天前
|
C语言
【数据结构】栈和队列(c语言实现)(附源码)
本文介绍了栈和队列两种数据结构。栈是一种只能在一端进行插入和删除操作的线性表,遵循“先进后出”原则;队列则在一端插入、另一端删除,遵循“先进先出”原则。文章详细讲解了栈和队列的结构定义、方法声明及实现,并提供了完整的代码示例。栈和队列在实际应用中非常广泛,如二叉树的层序遍历和快速排序的非递归实现等。
64 9
|
4天前
|
存储 搜索推荐 算法
【数据结构】树型结构详解 + 堆的实现(c语言)(附源码)
本文介绍了树和二叉树的基本概念及结构,重点讲解了堆这一重要的数据结构。堆是一种特殊的完全二叉树,常用于实现优先队列和高效的排序算法(如堆排序)。文章详细描述了堆的性质、存储方式及其实现方法,包括插入、删除和取堆顶数据等操作的具体实现。通过这些内容,读者可以全面了解堆的原理和应用。
43 16
|
4天前
|
C语言
【数据结构】二叉树(c语言)(附源码)
本文介绍了如何使用链式结构实现二叉树的基本功能,包括前序、中序、后序和层序遍历,统计节点个数和树的高度,查找节点,判断是否为完全二叉树,以及销毁二叉树。通过手动创建一棵二叉树,详细讲解了每个功能的实现方法和代码示例,帮助读者深入理解递归和数据结构的应用。
32 8
|
7天前
|
存储 C语言
【数据结构】手把手教你单链表(c语言)(附源码)
本文介绍了单链表的基本概念、结构定义及其实现方法。单链表是一种内存地址不连续但逻辑顺序连续的数据结构,每个节点包含数据域和指针域。文章详细讲解了单链表的常见操作,如头插、尾插、头删、尾删、查找、指定位置插入和删除等,并提供了完整的C语言代码示例。通过学习单链表,可以更好地理解数据结构的底层逻辑,提高编程能力。
32 4
|
8天前
|
存储 C语言
【数据结构】顺序表(c语言实现)(附源码)
本文介绍了线性表和顺序表的基本概念及其实现。线性表是一种有限序列,常见的线性表有顺序表、链表、栈、队列等。顺序表是一种基于连续内存地址存储数据的数据结构,其底层逻辑是数组。文章详细讲解了静态顺序表和动态顺序表的区别,并重点介绍了动态顺序表的实现,包括初始化、销毁、打印、增删查改等操作。最后,文章总结了顺序表的时间复杂度和局限性,并预告了后续关于链表的内容。
32 3
|
27天前
|
存储 搜索推荐 C语言
深入C语言指针,使代码更加灵活(二)
深入C语言指针,使代码更加灵活(二)
|
27天前
|
存储 程序员 编译器
深入C语言指针,使代码更加灵活(一)
深入C语言指针,使代码更加灵活(一)
|
27天前
|
C语言
深入C语言指针,使代码更加灵活(三)
深入C语言指针,使代码更加灵活(三)
深入C语言指针,使代码更加灵活(三)
|
7天前
|
C语言
【数据结构】双向带头循环链表(c语言)(附源码)
本文介绍了双向带头循环链表的概念和实现。双向带头循环链表具有三个关键点:双向、带头和循环。与单链表相比,它的头插、尾插、头删、尾删等操作的时间复杂度均为O(1),提高了运行效率。文章详细讲解了链表的结构定义、方法声明和实现,包括创建新节点、初始化、打印、判断是否为空、插入和删除节点等操作。最后提供了完整的代码示例。
24 0
|
1月前
|
C语言 定位技术 API
【C语言】实践:贪吃蛇小游戏(附源码)(二)
【C语言】实践:贪吃蛇小游戏(附源码)
【C语言】实践:贪吃蛇小游戏(附源码)(二)