可变参数给编程带来了很大的方便,在享受它带来的方便的同时,很有必要了解一下其实现方式,在了解编程语言的同时,也可以扩展编程的思路。
可变参数的实现要解决三个问题:
如何调用带有可变参数的函数
如何编译有可变参数的程序
在带有可变参数的函数体中如何持有可变参数
第一个问题,调用时在可以传入可变参数的地方传入可变参数即可,当然,还有一些需要注意的地方,后面会提到。
第二个问题,编译器需要在编译时采用一种宽松的检查方案,,这会带来一些问题,比如对编程查错不利。
第三个是我在这里要关心的问题,先以C语言为例分析其实现原理。
printf和scanf是C语言标准库中最常见的可变参数函数,printf的签名是
int printf(const char* format, ...);
其中,...表示可变参数,现在模仿printf写一个简单的例子。
一、一个简单了例子:
#include #include
void VariableArgumentMethod(intargc, ...);intmain(){
VariableArgumentMethod(6, 4, 7, 3, 0, 7, 9);return 0;
}void VariableArgumentMethod(intargc, ...){//声明一个指针, 用于持有可变参数
va_list pArg;//将 pArg 初始化为指向第一个参数
va_start(pArg, argc);//输出参数
for(int i = 0; i != argc; ++i){//获取 pArg 所指向的参数并输出
printf("%d,", va_arg(pArg, int) );
}
va_end(pArg);
}
voidVariableArgumentMethod(intargc, ...)是一个可变参数函数,这个函数用于将argc 指定个数的可变参数输出。VariableArgumentMethod(6, 4, 7, 3, 0, 7, 9);是对这个函数的调用,第一个实参6 表示后面跟了6个参数。
在VariableArgumentMethod的函数体中:
1.va_list pArg;
定义了一个用于持有可变参数的指针,通过将这个指针在传入的可变参数表中移动,可以持有第一个可变参数。
2.va_start(pArg, argc);
让 pArg指向可变参数列表中的第一个参数。argc是一个用来定位的参数,因为可变参数是从argc后开始的,后面会说明为什么要这样定位。
3.va_arg(pArg,int);
这句话放在循环体中,用于取出可变参数表中的参数。并且,它会让 pArg移向下个可变参数(如果已经到达末尾,则它将指向一个没有意义的地址)。
4.va_end(pArg);
给 pArg清零,个人认为在这里可有可无,因为pArg已经不需要了。
就这样,VariableArgumentMethod函数体遍历了可变参数表中传入的参数,并用printf("%d, ", va_arg(pArg,int))进行了输出。
二、实现细节
1.先了解一下编译器如何处理传递参数这个问题的。
编译器是将参数压入栈中进行传递的。传递实参的时候,编译器会从实参列表中,按从右到左的顺序将参数入栈,对于VariableArgumentMethod(6, 4, 7, 3, 0, 7, 9)调用,则入栈的顺序是9, 7, 0, 3, 7, 4, 6 (注意没有可变参数与不可变参数之分)。由于栈的地址是从高到低的,所以实参入栈后,实参在栈中的分布如下图。可以看出,实参在栈中,还是保持了左边参数处于低地址,右边参数处于高地址的状态。OK,知道这些就够了。
低地址高地址
...
6
4
7
3
0
7
9
...
栈
2.va_list,va_start,va_arg和va_end
va_list是一个定义的指针类型,va_start,va_arg和va_end都是C语言用于处理可变参数而定义的宏,在stdarg.h文件中。由于硬件平台的不同,编译器的不同,导致它们的定义也有所不同,但基本思路相同。以下是相关宏的定义。
typedef char *va_list;#define _ADDRESSOF(v) ( &(v) )
#define _INTSIZEOF(n) ( (sizeof(n) + sizeof(int) - 1) & ~(sizeof(int) - 1) )
#define va_start(ap,v) ( ap = (va_list)_ADDRESSOF(v) + _INTSIZEOF(v) )
#define va_arg(ap,t) ( *(t *)((ap += _INTSIZEOF(t)) - _INTSIZEOF(t)) )
#define va_end(ap) ( ap = (va_list)0 )
可以看出,此处引入了另外两个宏_ADDRESSOF和_INTSIZEOF。
_ADDRESSOF(v)是用于获取变量地址的,这一眼就能看出来;
_INTSIZEOF(n)是用于对齐的。(什么是对齐呢?这是因为栈的结构导致的,在 32位机中,栈中每个单元都是占4个字节的,这往往是一个int型的长度,但实际传过来的参数可能并不正好是4个字节,或者正好是4的倍数个字节,就好像坐车时不会卖半个座位给乘客一样,如果传入的数据没有正好占4个或4的倍数个字节,则需要对齐(补齐)。至于为什么这个表达式能够对齐,需要分析一下);
va_start(ap,v)中,ap是用于持有可变参数的指针,v是最后一个非可变参数的参数,(va_list)_ADDRESSOF(v)获取 v的地址,并转为va_list类型的,v是最后一个非可变参数的参数,在本例中应为6,在上图中处理栈的低地址端,_INTSIZEOF(v)获取了一个对齐地址,这里应为 4,两个相加后,即指向了第一个可变参数,即上图中的4,将这个值赋给ap后,就让ap指向了第一个可变参数。(从这里可以看出,将va_list定义为char*是很有用的,因为char长度为一个字节,便于指针运算);
va_arg(ap,t)中,ap是用于持有可变参数的指针,t是要获取参数的类型,ap += _INTSIZEOF(t)让 ap指向下一个参数,但是,此处还需要获取当前参数的值,所以又将表达式减回来,返回的应是一个va_list(char*)型的指针,因此要转型为t*后再进行解引用运算,得到当前参数的值。(注意这里有个将ap移向下一个参数又减回来的操作,本人感觉不太好,一方面这里有个浪费的操作,对性能会有一些影响,另一方面,我更希望将取当前值的操作和移向下一个的操作分离,这样可以让程序员有更多的控制,并且容易理解。)
va_end(ap)则是让 ap指向一个空地址。
通过以上分析,可以发现,C语言中可变参数是从栈中按顺序访问的,过程中所使用的三个宏,也只是对操作的简单包装,完全可以自己编程实现。而且,参数的类型和个数是不能直接确定的,在本例中,VariableArgumentMethod的第一个参数用于指定参数的个数,而参数的类型约定为整形,这样程序才能正常运行,再说到 printf,它之所以能识别参数的个数,是因为它的第一个参数中必须要描述后面参数的格式字符串,这正是一开始所提到的第一个问题中说到的要注意的问题。这也是它被很多人所诟病的原因,但是,本人认为这种方式是很好的,后面会与java和.net的实现方式进行比较。
三、java 和 .net 实现可变参数的方式
java从1.5以后,开始支持可变参数,其定义语法为:
void testMethod(String ... args)
对于这个方法,可以这样调用:testMethod("gly", "zxy", "ChenFei");
.net 也支持可变参数,其定义语法为:
void TestMethod(params string[] args)
对于这个方法,可以这样调用:TestMethod("gly", "zxy", "ChenFei");
在 java和.net中,对于可变参数的实现基本是一样的:编译器在编译时,将方法签名中的可变参数视为相应类型的数组,编译相应的调用时,根据实参生成一个数组,将参数装入到数组中进行传递,而在可变参数方法的方法体中,按使用数组的方式使用可变参数。
四、两种实现方式的比较
C 语言的实现方式与java .net的实现方式相比,C语言需要程序员做更多的工作,而且,确实增加了出错的机会,java .net的实现方式可以很容易的确定参数的类型和个数,这些C的实现中是没有的,但是java .net的实现方式会生成临时数组,当然java .net有垃圾回收机制,但是,垃圾什么时候被回收是不确定的,而且是代价很大的,垃圾回收是个好东西,但我不喜欢,我认为不需要的东西应该立即释放,这是完美的一个方面的体现。C中没有这个问题,参数的个数和类型问题可以靠约定或指定来解决,而这两个问题在java和.net中,参数个数其实是间接传递过去了(数组的长度),参数类型则是在方法签名中约定了。当然,java .net的设计目标和C语言不同,这里说多了。