因为一个函数strtok踩坑,我被老工程师无情嘲笑了(一)
ID:技术让梦想更伟大
作者:李肖遥
在用C/C++实现字符串切割中,strtok函数经常用到,其主要作用是按照给定的字符集分隔字符串,并返回各子字符串。
但是实际上,可不止有strtok(),还有strtok、strtok_s、strtok_r 函数,我们本篇文章作为基础篇,来一些简单的介绍。因为滥用了这个函数,我可是被老工程师嘲笑的无地自容了。
strtok()函数详解
描述
该函数用来将字符串分割成一个个片段,并返回各子字符串。
函数原型
char *strtok(char *str, const char *delim)
参数
-
str,待分割的字符串 -
delim,分割符字符串
返回值
该函数返回被分解的第一个子字符串,如果没有可检索的字符串,则返回一个空指针。
实例
//https://tool.lu/coderunner/
//来源:技术让梦想更伟大
//作者:李肖遥
#include <string.h>
#include <stdio.h>
#define INFO_MAX_SZ 80
int main () {
char str[INFO_MAX_SZ] = "dream - coder - lixiaoyao";
const char delim[2] = "-";
char *token;
//获取第一个子字符串
token = strtok(str,delim);
//继续获取其他的子字符串
while( token != NULL )
{
printf( "%s\n", token );
token = strtok(NULL, delim);
}
return(0);
}
运行的结果如下:
注意事项
使用该函数进行字符串分割时,会破坏被分解字符串的完整,调用前和调用后的s已经不一样了。第一次分割之后,原字符串str是分割完成之后的第一个字符串,剩余的字符串存储在一个静态变量中。
strtok函数在提取字符串时使用了静态缓冲区,因此,它是线程不安全的,多线程同时访问该静态变量时,则会出现错误。本篇为基础篇,在后续中将进一步剖析
拓展一个应用实例
网络上一个比较经典的例子是将字符串切分,存入结构体中,我整理了一下,看代码
//https://tool.lu/coderunner/
//来源:技术让梦想更伟大
//作者:李肖遥
#include <stdio.h>
#include <stdlib.h>
#include <string.h>
#define INFO_MAX_SZ 80
typedef struct person{
char name[25];
char sex[10];
char age[4];
}Person;
int main()
{
int in=0;
int j;
char buffer[INFO_MAX_SZ]="Aob male 18,Bob male 19,Cob female 20";
char *p[20];
char *buf = buffer;
while((p[in]=strtok(buf,","))!=NULL)//先以,为分界符,将三个人的信息分开
{
buf=p[in];//调用strtok,先将子串先一一保存到字符串指针数组中,
while((p[in]=strtok(buf," "))!=NULL)//以空格为分界符
{
in++;
buf=NULL;
}
buf=NULL;
}
printf("Here we have %d strings\n", in);
for (j=0; j<in; j++)
{
//打印指针数组中保存的所有子串
printf(">%s<\n",p[j]);
}
return 0;
}
运行结果如下
按照这个结果并没有得到我们想要的结果,仅仅提取出了第一个人的信息。
那么出现了什么问题呢?
我们分析得到,其实在第一次循环中,strtok函数将第一个人信息后的这个逗号,改为了'\0,这时strtok内部的this指针指向的是逗号的后一个字符。
而在第一个循环结束后,函数第一个参数被设定为NULL,strtok将以this指针指向的位置作为分解起始位置,此时this指针指向的是'\0’,strtok对一个空串无法切分,返回NULL,所以得到上面的结果。
那么我们怎么解决这个问题呢?
我们看一下代码来实现这个想要的结果
//https://tool.lu/coderunner/
//来源:技术让梦想更伟大
//作者:李肖遥
#include <stdio.h>
#include <stdlib.h>
#include <string.h>
#define INFO_MAX_SZ 80
typedef struct person{
char name[25];
char sex[10];
char age[4];
}Person;
int main()
{
int in=0;
int j;
char buffer[INFO_MAX_SZ]="Aob male 18,Bob male 19,Cob female 20";
char *p[20];
char *buf = buffer;
while ((p[in] = strtok(buf, " ,")) != NULL)//同时以逗号和空格为分界符
{
switch (in % 3)
{
case 0:
printf("第%d个人:Name!\n", in/3+1);
break;
case 1:
printf("第%d个人:Sex!\n", in/3+1);
break;
case 2:
printf("第%d个人:Age!\n", in/3+1);
break;
}
in++;
buf = NULL;
}
printf("Here we have %d strings\n", in);
for (j=0; j<in; j++)
{
printf(">%s<\n",p[j]);
}
return 0;
}
最终运行的结果如下
额,这样的代码我看不下去了,要实现我们必须提前知道一个结构体中究竟包含了几个数据成员,那么有没有合适的函数能够代替strtok呢?
有的,它就是strtok_r。
Linux下的strtok_r函数
描述
strtok_r是linux平台下的strtok函数的线程安全版。windows的string.h中并不包含它。要想使用这个函数,找到linux下的实现源码,复制到你的程序中即,或者使用GNU C Library。
strtok_r函数是strtok函数的可重入版本。char **saveptr
参数是一个指向char *
的指针变量,用来在strtok_r内部保存切分时的上下文,以应对连续调用分解相同源字符串。
第一次调用strtok_r时,str参数必须指向待提取的字符串,saveptr参数的值可以忽略。连续调用时,str赋值为NULL,saveptr为上次调用后返回的值,不要修改。
一系列不同的字符串可能会同时连续调用strtok_r进行提取,要为不同的调用传递不同的saveptr参数。
strtok_r实际上就是将strtok内部隐式保存的this指针,以参数的形式与函数外部进行交互。由调用者进行传递、保存甚至是修改。需要调用者在连续切分相同源字符串时,除了将str参数赋值为NULL,还要传递上次切分时保存下的saveptr。
函数原型如下
char *strtok_r(char *str, const char *delim, char **saveptr);
源码
/* Parse S into tokens separated by characters in DELIM.
If S is NULL, the saved pointer in SAVE_PTR is used as
the next starting point. For example:
char s[] = "-abc-=-def";
char *sp;
x = strtok_r(s, "-", &sp); // x = "abc", sp = "=-def"
x = strtok_r(NULL, "-=", &sp); // x = "def", sp = NULL
x = strtok_r(NULL, "=", &sp); // x = NULL
// s = "abc\0-def\0"
*/
char *strtok_r(char *s, const char *delim, char **save_ptr) {
char *token;
/*判断参数s是否为NULL,如果是NULL就以传递进来的save_ptr作为起始分解位置;若不是NULL,则以s开始切分*/
if (s == NULL) s = *save_ptr;
/* Scan leading delimiters. */
s += strspn(s, delim);
/*判断当前待分解的位置是否为'\0',若是则返回NULL(联系到(一)中所说对返回值为NULL的解释);不是则继续。*/
if (*s == '\0')
return NULL;
/* Find the end of the token. */
token = s;
s = strpbrk(token, delim);
if (s == NULL)
/* This token finishes the string. */
*save_ptr = strchr(token, '\0');
else {
/* Terminate the token and make *SAVE_PTR point past it. */
*s = '\0';
*save_ptr = s + 1;
}
return token;
}
实现以上实例
调用strtok_r的代码比调用strtok的代码多了两个指针,outer_ptr和inner_ptr。outer_ptr用于标记每个人的提取位置,即外循环;inner_ptr用于标记每个人内部每项信息的提取位置,即内循环。
strtok_r将原内部指针显示化,提供了saveptr这个参数。增加了函数的灵活性和安全性。
//https://tool.lu/coderunner/
//来源:技术让梦想更伟大
//作者:李肖遥
#include <stdio.h>
#include <stdlib.h>
#include <string.h>
#define INFO_MAX_SZ 80
typedef struct person{
char name[25];
char sex[10];
char age[4];
}Person;
int main()
{
int in=0;
int j;
char buffer[INFO_MAX_SZ]="Aob male 18,Bob male 19,Cob female 20";
char *p[20];
char *buf=buffer;
char *outer_ptr=NULL;
char *inner_ptr=NULL;
while((p[in] = strtok_r(buf, ",", &outer_ptr))!=NULL)
{
buf=p[in];
while((p[in]=strtok_r(buf, " ", &inner_ptr))!=NULL)
{
in++;
buf=NULL;
}
buf=NULL;
}
printf("Here we have %d strings\n",in);
for (j=0; j<in; j++)
{
printf(">%s<\n",p[j]);
}
return 0;
}
编译结果如下
注意事项
该函数也会破坏带分解字符串的完整性,但是其将剩余的字符串保存在saveptr变量中,保证了安全性。
Windows下的strtok_s函数
描述
strtok_s是windows下的一个分割字符串安全函数,
原型
char *strtok_s( char *strToken, const char *strDelimit, char **buf);
char * strtok_s(char * restrict str,rsize_t * restrict strmax,const char * restrict delim,char ** restrict ptr);
在由str指向的以空字符结尾的字节字符串中查找下一个标记。分隔符字符由delim指向的以空字符结尾的字节字符串标识。
该函数被设计为被称为倍数时间以从相同的字符串获得连续的令牌。
这里大家可以参考,我在这里不多讲了。
https://cloud.tencent.com/developer/section/1009645
巨人的肩膀
https://blog.csdn.net/bobyangsmile/article/details/38420985
https://www.runoob.com/cprogramming/c-function-strtok.html
最后
这里先简单介绍下这几个函数的基本使用以及一些优缺点等等,后续会根据自己踩的坑来解读strtok()的隐含特性,下一期,我们再见!
嵌入式编程专辑 Linux 学习专辑
C/C++编程专辑
关注 微信公众号『技术让梦想更伟大』,后台回复“ m ”查看更多内容,回复“ 加群 ”加入技术交流群。
![]()
长按前往图中包含的公众号关注
本文分享自微信公众号 - 技术让梦想更伟大(gh_f7effb2fbc1c)。
如有侵权,请联系 support@oschina.cn 删除。
本文参与“OSC源创计划”,欢迎正在阅读的你也加入,一起分享。

低调大师中文资讯倾力打造互联网数据资讯、行业资源、电子商务、移动互联网、网络营销平台。
持续更新报道IT业界、互联网、市场资讯、驱动更新,是最及时权威的产业资讯及硬件资讯报道平台。
转载内容版权归作者及来源网站所有,本站原创内容转载请注明来源。
- 上一篇
Linux系统运维人员常用速查表
Linux系统运维人员常用速查表 1、awk速查表 2、bash速查表 3、firewall-cmd速查表 4、Linux常用命令速查表 5、Linux权限速查表 6、Linux网络速查表 7、SSH命令速查表 8、vim命令速查表 9、Git命令速查表 10、kubectl命令速查表 阅读时请点击图片查看高清大图 1、awk速查表 2、bash速查表 3、firewall-cmd速查表 CentOS7上firewall-cmd的常用命令 4、Linux常用命令速查表 包含了寻找文件的绝对路径、复制和重命名文件、建立目录、启动系统服务等Linux基本操作命令 5、Linux权限速查表 包含了useradd、usermod、chown、chmod、passwd、gpasswd、umask等命令 6、Linux网络速查表 包含了最常见的网络简单命令,包括 nslookup、tcpdump、nmcli、netstat、traceroute 等 7、SSH命令速查表 SSH速查表包括了SSH本地端口转发及远程端口转发等高级用法 8、vim命令速查表 9、Git命令速查表 10、kubectl命...
- 下一篇
什么时候开始数据库竟然变成薪资跳板了?
进了互联网公司,整天也就是搬砖搬砖,等到了面试的时候,发现学的数据库方面的东西都已经全部还给了老师。 不管是工作还是面试,互联网对 MySQL 的注重程度是不言而喻的。所以今天很细心地为大家整理了一些数据库方面的知识。 事务四大特性(ACID)原子性、一致性、隔离性、持久性? 原子性(Atomicity) 原子性是指事务包含的所有操作要么全部成功,要么全部失败回滚,因此事务的操作如果成功就必须要完全应用到数据库,如果操作失败则不能对数据库有任何影响。 一致性(Consistency) 事务开始前和结束后,数据库的完整性约束没有被破坏。比如 A 向 B 转账,不可能 A 扣了钱,B 却没收到。 这里涉及到一个概念,什么是 MySQL 中的事务? 事务是一组操作,组成这组操作的各个单元,要不全都成功要不全都失败,这个特性就是事务。 在 MySQL 中,事务是在引擎层实现的,只有使用 innodb 引擎的数据库或表才支持事务。 隔离性(Isolation) 隔离性是当多个用户并发访问数据库时,比如操作同一张表时,数据库为每一个用户开启的事务,不能被其他事务的操作所干扰,多个并发事务之间要相互...
相关文章
文章评论
共有0条评论来说两句吧...
文章二维码
点击排行
推荐阅读
最新文章
- Hadoop3单机部署,实现最简伪集群
- Springboot2将连接池hikari替换为druid,体验最强大的数据库连接池
- Docker使用Oracle官方镜像安装(12C,18C,19C)
- CentOS8,CentOS7,CentOS6编译安装Redis5.0.7
- SpringBoot2整合Redis,开启缓存,提高访问速度
- CentOS6,7,8上安装Nginx,支持https2.0的开启
- Eclipse初始化配置,告别卡顿、闪退、编译时间过长
- Docker快速安装Oracle11G,搭建oracle11g学习环境
- CentOS7,8上快速安装Gitea,搭建Git服务器
- CentOS8安装MyCat,轻松搞定数据库的读写分离、垂直分库、水平分库