彻底理解C、C++、Win32与COM中的字符串

简介:       C/C++中的字符串问题在网上的讲解一向非常含糊,存在各个层次的库混用、滥用的情况,尤其是宽字符与窄字符等问题很难找到有效的资料,本篇随笔分享一下我长期收集到的一些比较准确的资料以及据此得到的个人理解.     C语言中的字符串      C语言中提供了两种字符类型char和wchar_t,C语言使用字符数组来表示字符串,同时支持两种直接量写法:"abcd"和 L"abcd" 来表示字符串常量文字量,C语言允许用字符串常量来初始化字符串。

      C/C++中的字符串问题在网上的讲解一向非常含糊,存在各个层次的库混用、滥用的情况,尤其是宽字符与窄字符等问题很难找到有效的资料,本篇随笔分享一下我长期收集到的一些比较准确的资料以及据此得到的个人理解.

    C语言中的字符串

     C语言中提供了两种字符类型char和wchar_t,C语言使用字符数组来表示字符串,同时支持两种直接量写法:"abcd"和 L"abcd" 来表示字符串常量文字量,C语言允许用字符串常量来初始化字符串。标准C函数库提供了printf和wprintf两个版本的输出函数。

#include
int main(){
char str[] = "abcd";
wchar_t wstr[] = L"abcd数学";
printf("%s/n",str);
wprintf(L"%s/n",wstr);
return 0;
}

纯C语言环境下,可以使用两个函数wcstombs和mbstowcs 来进行宽窄字符串的互相转换,下面一段是C语言中wcstombs的例子

#include
#include
int main(){
char str[] = "abcd";
wchar_t wstr[] = L"bcda";
wcstombs(str,wstr,sizeof(str));
printf("%s/n",str);
return 0;
}

这两个函数都声明在C标准库头文件stdlib.h中。其它配套的字符串操作都在头文件string.h和wchar.h

      C++语言中的字符串


C++中我们有了字符串类string和wstring,这两个类都在头文件string当中,并且iostream中也提供了各自对应版本的输出流:
#include
#include
int main(){
std::string str = "abcd";
std::wstring wstr = L"abcd";
std::cout std::wcout return 0;
}
C++中转换就很容易了,构造字符串的时候把另一个的迭代器传入就可以了:
#include
#include
int main(){
std::string str = "abcd";
std::wstring wstr(str.begin(),str.end());
std::wcout return 0;
}

对于已经存在的字符串,可以用assign来赋值。因为宽字符有些窄字符中没有的字符,所以当你要指定一些转换规则时,可以使用头文件algorithm中的transform函数。其它字符串相关操作也在头文件string的类定义当中。


Win32编程中的字符串


但是我们实际编程中,遇到字符集问题比较多的情况是Win32编程。Win32SDK为了避免编译器造成的差异,用宏定义了自己的一套类型系统,其中字符类型就是CHAR和WCHAR,比较特别的是,Win32编程支持编译时的Unicode和非Unicode指定,所以Win32SDK又提供了 TCHAR类型,它会根据是否是Unicode环境自动选择CHAR或者WCHAR类型,没有特别要求时,我们一般应该使用TCHAR。
CHAR和WCHAR的字面值分别是"abcd"和L"abcd",而TCHAR对应的字面值是_T"abcd",或者TEXT("abcd")。
Win32类型系统中还定义了字符串类型,见下表:
       PSTR      PCSTR      LPSTR      LPCSTR
       PTSTR     PCTSTR    LPTSTR     LPCTSTR
       PWSTR     PCWSTR     LPWSTR     LPCWSTR
其中我们把STR的前缀分成了不同的颜色,红色前缀可能是P或者LP,P表示指针,LP表示长整型指针。大部分系统中P和LP是同一类型,所以这个前缀是不会造成区别的,可能64位C++或者一些旧的16位C++环境中会有区别。
蓝色前缀可能是C或者没有,这个很简单,表示是否是常量指针。
绿色前缀可能是T、W或者没有,这对应着CHAR、WCHAR以及TCHAR。
对于转换问题,Windows提供了两个API函数,这里就不实际举例了,具体请参看MSDN:
MultiByteToWideChar WideCharToMultiByte
其它与这些类型配套的Win32API函数请参看:MSDN中的参考
MFC中的CString类型提供了这些API的封装,编程时使用可以省去不少麻烦。


COM中的字符串


COM中提供了一个BSTR类型,它是OLECHAR的字符串形式(OLECHAR可能是WCHAR或者CHAR,取决于系统的OLE字符集),很多人因为看了它的宏定义:
typedef /* [wire_marshal] */ OLECHAR *BSTR;
认为它只是简单的OLECHAR *甚至WCHAR*,但是并非如此。BSTR所指向的内存地址前几个字节也是被分配的空间,用于存储BSTR的长度等信息。所以BSTR对应着一整套相关操作函数:
      SysAllocString
      SysAllocStringByteLen
      SysAllocStringLen
      SysFreeString
      SysReAllocString
      SysReAllocStringLen
      SysStringByteLen
      SysStringLen
如果你在自己分配的WCHAR*上使用这些函数,一定会导致问题。同样道理,如果你试图用delete去释放BSTR,也会造成错误。但是有相当一部分针对WCHAR的Win32API可以用在BSTR上。

目录
相关文章
|
4月前
|
搜索推荐 编译器 C语言
【C++核心】特殊的元素集合-数组与字符串详解
这篇文章详细讲解了C++中数组和字符串的基本概念、操作和应用,包括一维数组、二维数组的定义和使用,以及C风格字符串和C++字符串类的对比。
106 4
|
3月前
|
缓存 网络协议 API
C/C++ StringToAddress(字符串转 boost::asio::ip::address)
通过上述步骤和示例代码,你可以轻松地在C++项目中实现从字符串到 `boost::asio::ip::address`的转换,从而充分利用Boost.Asio库进行网络编程。
99 0
|
3月前
|
编译器 C语言 C++
C/C++数字与字符串互相转换
C/C++数字与字符串互相转换
|
4月前
|
C++
HTML+JavaScript构建一个将C/C++定义的ANSI字符串转换为MASM32定义的DWUniCode字符串的工具
HTML+JavaScript构建一个将C/C++定义的ANSI字符串转换为MASM32定义的DWUniCode字符串的工具
|
4月前
|
存储 C++
C++(五)String 字符串类
本文档详细介绍了C++中的`string`类,包括定义、初始化、字符串比较及数值与字符串之间的转换方法。`string`类简化了字符串处理,提供了丰富的功能如字符串查找、比较、拼接和替换等。文档通过示例代码展示了如何使用这些功能,并介绍了如何将数值转换为字符串以及反之亦然的方法。此外,还展示了如何使用`string`数组存储和遍历多个字符串。
|
6月前
|
算法 C++
2730. 找到最长的半重复子字符串(c++,滑动窗口)
2730. 找到最长的半重复子字符串(c++,滑动窗口)
|
6月前
|
C++
567. 字符串的排列(c++)滑动窗口
567. 字符串的排列(c++)滑动窗口
|
6月前
|
编译器 C++
【C++】string类的使用④(字符串操作String operations )
这篇博客探讨了C++ STL中`std::string`的几个关键操作,如`c_str()`和`data()`,它们分别返回指向字符串的const char*指针,前者保证以'\0'结尾,后者不保证。`get_allocator()`返回内存分配器,通常不直接使用。`copy()`函数用于将字符串部分复制到字符数组,不添加'\0'。`find()`和`rfind()`用于向前和向后搜索子串或字符。`npos`是string类中的一个常量,表示找不到匹配项时的返回值。博客通过实例展示了这些函数的用法。
|
7月前
|
C++ 容器
C++字符串string容器(构造、赋值、拼接、查找、替换、比较、存取、插入、删除、子串)
C++字符串string容器(构造、赋值、拼接、查找、替换、比较、存取、插入、删除、子串)
|
7月前
|
编译器 C++
【C++进阶】深入STL之string:模拟实现走进C++字符串的世界
【C++进阶】深入STL之string:模拟实现走进C++字符串的世界
47 1