C标准库中的字符串操作函数


程序按功能划分可分为数值运算、符号处理和I/O操作三类,符号处理程序占相当大的比例,符号处理程序无处不在,编译器、浏览器、Office套件等程序的主要功能都是符号处理。无论多复杂的符号处理都是由各种基本的字符串操作组成的,这里总结C语言的标准库函数做字符串初始化、取长度、拷贝、连接、比较、搜索等基本操作。

1. 字符串初始化

#include <string.h>

void *memset(void *s, int c, size_t n);
// 返回值:s指向哪,返回的指针就指向哪

memset函数把s所指的内存地址开始的n个字节都填充为c的值。通常c的值为0,把一块内存区清零。例如定义char buf[10];,如果它是全局变量或静态变量,则自动初始化为0(位于.bss段),如果它是函数的局部变量,则初值不确定,可以用memset(buf, 0, 10)清零,由malloc分配的内存初值也是不确定的,也可以用memset清零。

2. 字符串长度

#include <string.h>

size_t strlen(const char *s);
// 返回值:字符串的长度

strlen函数返回s所指的字符串的长度。该函数从s所指的第一个字符开始找’\0’字符,一旦找到就返回,返回的长度不包括’\0’字符在内。例如定义char buf[] = “hello”;,则strlen(buf)的值是5,但要注意,如果定义char buf[5] = “hello”;,则调用strlen(buf)是危险的,会造成数组访问越界。

3. 拷贝字符串

#include <string.h>

char *strcpy(char *dest, const char *src);
char *strncpy(char *dest, const char *src, size_t n);
void *memcpy(void *dest, const void *src, size_t n);
void *memmove(void *dest, const void *src, size_t n);
// 返回值:dest指向哪,返回的指针就指向哪

memcpy函数从src所指的内存地址拷贝n个字节到dest所指的内存地址,和strncpy不同,memcpy并不是遇到’\0’就结束,而是一定会拷贝完n个字节。这里的命名规律是,以str开头的函数处理以’\0’结尾的字符串,而以mem开头的函数则不关心’\0’字符,或者说这些函数并不把参数当字符串看待,因此参数的指针类型是void *而非char *。
memmove也是从src所指的内存地址拷贝n个字节到dest所指的内存地址,虽然叫move但其实也是拷贝而非移动。但是和memcpy有一点不同,memcpy的两个参数src和dest所指的内存区间如果重叠则无法保证正确拷贝,而memmove却可以正确拷贝。假设定义了一个数组char buf[20] = “hello world\n”;,如果想把其中的字符串往后移动一个字节(变成”hhello world\n”),调用memcpy(buf + 1, buf, 13)是无法保证正确拷贝的:

4. 连接字符串

#include <string.h>

char *strcat(char *dest, const char *src);
char *strncat(char *dest, const char *src, size_t n);
// 返回值:dest指向哪,返回的指针就指向哪

strcat和strcpy有同样的问题,调用者必须确保dest缓冲区足够大,否则会导致缓冲区溢出错误。strncat函数通过参数n指定一个长度,就可以避免缓冲区溢出错误。注意这个参数n的含义和strncpy的参数n不同,它并不是缓冲区dest的长度,而是表示最多从src缓冲区中取n个字符(不包括结尾的’\0’)连接到dest后面。如果src中前n个字符没有出现’\0’,则取前n个字符再加一个’\0’连接到dest后面,所以strncat总是保证dest缓冲区以’\0’结尾,这一点又和strncpy不同,strncpy并不保证dest缓冲区以’\0’结尾。所以,提供给strncat函数的dest缓冲区的大小至少应该是strlen(dest)+n+1个字节,才能保证不溢出。

5. 比较字符串

#include <string.h>

int memcmp(const void *s1, const void *s2, size_t n);
int strcmp(const char *s1, const char *s2);
int strncmp(const char *s1, const char *s2, size_t n);
// 返回值:负值表示s1小于s2,0表示s1等于s2,正值表示s1大于s2

memcmp从前到后逐个比较缓冲区s1和s2的前n个字节(不管里面有没有’\0’),如果s1和s2的前n个字节全都一样就返回0,如果遇到不一样的字节,s1的字节比s2小就返回负值,s1的字节比s2大就返回正值。
strcmp把s1和s2当字符串比较,在其中一个字符串中遇到’\0’时结束,按照上面的比较准则,”ABC”比”abc”小,”ABCD”比”ABC”大,”123A9″比”123B2″小。
strncmp的比较结束条件是:要么在其中一个字符串中遇到’\0’结束(类似于strcmp),要么比较完n个字符结束(类似于memcmp)。例如,strncmp(“ABCD”, “ABC”, 3)的返回值是0,strncmp(“ABCD”, “ABC”, 4)的返回值是正值。

#include <strings.h>

int strcasecmp(const char *s1, const char *s2);
int strncasecmp(const char *s1, const char *s2, size_t n);
// 返回值:负值表示s1小于s2,0表示s1等于s2,正值表示s1大于s2

这两个函数和strcmp/strncmp类似,但在比较过程中忽略大小写,大写字母A和小写字母a认为是相等的。这两个函数不属于C标准库,是POSIX标准中定义的。

6. 搜索字符串

#include <string.h>

char *strchr(const char *s, int c);
char *strrchr(const char *s, int c);
// 返回值:如果找到字符c,返回字符串s中指向字符c的指针,如果找不到就返回NULL

strchr在字符串s中从前到后查找字符c,找到字符c第一次出现的位置时就返回,返回值指向这个位置,如果找不到字符c就返回NULL。strrchr和strchr类似,但是从右向左找字符c,找到字符c第一次出现的位置就返回,函数名中间多了一个字母r可以理解为Right-to-left。

#include <string.h>

char *strstr(const char *haystack, const char *needle);
// 返回值:如果找到子串,返回值指向子串的开头,如果找不到就返回NULL

strstr在一个长字符串中从前到后找一个子串(Substring),找到子串第一次出现的位置就返回,返回值指向子串的开头,如果找不到就返回NULL。这两个参数名很形象,在干草堆haystack中找一根针needle,按中文的说法叫大海捞针,显然haystack是长字符串,needle是要找的子串。

7. 分割字符串

#include <string.h>

char *strtok(char *str, const char *delim);
char *strtok_r(char *str, const char *delim, char **saveptr);
// 返回值:返回指向下一个Token的指针,如果没有下一个Token了就返回NULL

参数str是待分割的字符串,delim是分隔符,可以指定一个或多个分隔符,strtok遇到其中任何一个分隔符就会分割字符串。下面用几个例子对这两个函数进行说明。

  • strtok:
#include <stdio.h>
#include <string.h>

int main(void)
{
	char str[] = "root:x::0:root:/root:/bin/bash:";
	char *token;

	token = strtok(str, ":");
	printf("%s\n", token);
	while ( (token = strtok(NULL, ":")) != NULL)
		printf("%s\n", token);

	return 0;
}

/////////////
/* 运行结果 */
$ ./a.out
root
x
0
root
/root
/bin/bash
/////////////

strtok的行为可以这样理解:冒号是分隔符,把”root:x::0:root:/root:/bin/bash:”这个字符串分隔成”root”、”x”、””、”0″、”root”、”/root”、”/bin/bash”、””等几个Token,但空字符串的Token被忽略。第一次调用要把字符串首地址传给strtok的第一个参数,以后每次调用第一个参数只要传NULL就可以了,strtok函数自己会记住上次处理到字符串的什么位置(显然这是通过strtok函数中的一个静态指针变量记住的)。在strtok函数中应该有一个静态指针变量记住上次处理到字符串中的什么位置,所以不需要每次调用时都把字符串中的当前处理位置传给strtok,但是在函数中使用静态变量是不好的,以后会讲到这样的函数是不可重入的。strtok_r函数则不存在这个问题,它的内部没有静态变量,调用者需要自己分配一个指针变量来维护字符串中的当前处理位置,每次调用时把这个指针变量的地址传给strtok_r的第三个参数,告诉strtok_r从哪里开始处理,strtok_r返回时再把新的处理位置写回到这个指针变量中(这是一个Value-result参数)。strtok_r末尾的r就表示可重入(Reentrant),这个函数不属于C标准库,是在POSIX标准中定义的。

  • strtok_r:

#include
#include
#include

int main(int argc, char *argv[])
{
char *str1, *str2, *token, *subtoken;
char *saveptr1, *saveptr2;
int j;

if (argc != 4) {
fprintf(stderr, “Usage: %s string delim subdelim\n”,
argv[0]);
exit(EXIT_FAILURE);
}

for (j = 1, str1 = argv[1]; ; j++, str1 = NULL) {
token = strtok_r(str1, argv[2], &saveptr1);
if (token == NULL)
break;
printf(“%d: %s\n”, j, token);

for (str2 = token; ; str2 = NULL) {
subtoken = strtok_r(str2, argv[3], &saveptr2);
if (subtoken == NULL)
break;
printf(” –> %s\n”, subtoken);
}
}

exit(EXIT_SUCCESS);
}

/////////////
/* 运行结果 */
$ ./a.out ‘a/bbb///cc;xxx:yyy:’ ‘:;’ ‘/’
1: a/bbb///cc
–> a
–> bbb
–> cc
2: xxx
–> xxx
3: yyy
–> yyy
/////////////

Advertisements

Leave a Reply

Fill in your details below or click an icon to log in:

WordPress.com Logo

You are commenting using your WordPress.com account. Log Out / Change )

Twitter picture

You are commenting using your Twitter account. Log Out / Change )

Facebook photo

You are commenting using your Facebook account. Log Out / Change )

Google+ photo

You are commenting using your Google+ account. Log Out / Change )

Connecting to %s