boost库之tokenizer的使用-阿里云开发者社区

boost库之tokenizer的使用

2015-10-28 3611

版权

本文内容由阿里云实名注册用户自发贡献，版权归原作者所有，阿里云开发者社区不拥有其著作权，亦不承担相应法律责任。具体规则请查看《阿里云开发者社区用户服务协议》和《阿里云开发者社区知识产权保护指引》。如果您发现本社区中有涉嫌抄袭的内容，填写侵权投诉表单进行举报，一经查实，本社区将立刻删除涉嫌侵权内容。

本文涉及的产品

公共DNS（含HTTPDNS解析），每月1000万次HTTP解析

云解析 DNS，旗舰版 1个月

全局流量管理 GTM，标准版 1个月

简介：

在tokenizer出现之前，如果我们要对一个字符串进行分割，可能要自己封装一个函数。如果有n种不同的分割规则，那么你
要封装n个不同的分割函数……太麻烦了！现在好了，Boost库的tokenizer封装了统一的语法来分割字符串，并且提供了三
种常用的分割方式，足以满足我们的绝大多数编程需求。
tokenizer主要由分割器和迭代器两部分组成。分割器用于指定字符串的分割规则，如果不指定任何分割器，则tokenizer
默认将字符串以空格和标点（键盘上除26个字母（包括大小写）和数字外的其他可打印字符）为边界进行分割。迭代器用于
保存字符串分割后的结果。下面着重介绍tokenizer的三种分割器。
■ char_separator是默认的分隔器，它以一组特定的字符来分隔字符串，其构造函数为：
explicit char_separator(); (默认构造函数）
explicit char_separator(const Char* dropped_delims, const Char* kept_delims = "", empty_token_policy
empty_tokens = drop_empty_tokens);
其参数的详细说明如下：
◆ dropped_delims和kept_delims：是两个字符数组，这两个数组中的每个字符都是一个分割符。不同的是，
dropped_delims中的分割符本身被丢弃，而kept_delims中的分割符本身作为一个单独的记号被保留在迭代器中。默认构
造函数的dropped_delims为空格符，kept_delims为标点符号。
◆ empty_tokens：是否保留长度0的记号。它有两个可选值，keep_empty_tokens表示要保留空记号，而默认的
drop_empty_tokens表示丢弃空记号。默认构造函数的empty_tokens为drop_empty_tokens。
■ offset_separator主要用于解析长度和格式都固定的字符串，如身份证或电话号码等。其构造函数为：
template<typename Iter> offset_separator(Iter begin,Iter end,bool bwrapoffsets = true, bool
breturnpartiallast = true);
其参数的详细说明如下：
◆ begin和end：指向一个整数容器开始和末尾的迭代器，其中每个元素表示要分割的字段的字符数。
◆ bwrapoffsets: 如果字符串长度大于整数容器中所有字段长度的和，是否重复解析字符串。
◆ breturnpartiallast: 当字符串解析到末尾剩余部分的长度（注意：包括结尾的空字符）小于字段长度时，是保留还是丢
弃剩余部分。
■ escaped_list_separator主要用于解析包含转义符、分隔符和引号的字符串。其构造函数为：
explicit escaped_list_separator(Char e = '\\', Char c = ',',Char q = '\"');
explicit escaped_list_separator(string_type e, string_type c, string_type q);
其参数的详细说明如下：
◆ e：为单个转义符或包含多个转义符的串。转义符后跟引号表示引号，转义符后跟n表示换行，连续两个转义符表示作为普
通字符的转义符本身。
◆ c：为单个分割符或包含多个分割符的串，字符串以该分隔符为边界进行分割。
◆ q：为单个引号或包含多个引号的串，两个引号中间出现的分隔符不再作为分割标志，而是作为普通字符处理。
最后给出一组简单的测试题，大家既可以借此看看tokenizer的语法，也可以根据回答结果来考察一下你对tokenizer的用

法有没有理解透彻。稍后我会在评论中给出正确答案。

a) string s = "hello, crearo-sw blog";
tokenizer<> tok(s);
for (tokenizer<>::iterator beg=tok.begin(); beg!=tok.end(); ++beg)
{c
out << *beg <<endl;
} b
) string str = ";!!;miaocl|zhangwh ||-hujian--terry|";
typedef tokenizer<char_separator<char> > tokenizers;
char_separator<char> sep("-;", "|", keep_empty_tokens);
tokenizers tokens(str, sep);
for (tokenizers::iterator tok_iter = tokens.begin(); tok_iter != tokens.end(); ++tok_iter)
{c
out << "<" << *tok_iter << "> ";
}
c) string s = "20090321";
int offsets[] = {4,2,3};
offset_separator f(offsets, offsets+3, true, false);
tokenizer<offset_separator> tok(s,f);
for(tokenizer<offset_separator>::iterator beg=tok.begin();
beg!=tok.end(); ++beg)
{c
out << *beg << endl;
}

boost库之tokenizer的使用

热门文章

最新文章

相关电子书

热门

活动广场

任务中心

开发者评测

高校计划

乘风者计划

训练营

阿里云MVP

话题

直播

下载

镜像站

技术资料

插件

boost库之tokenizer的使用

热门文章

最新文章

相关电子书