在用多元线性回归模型进行统计推断之前,我们需要知道该模型的基础假设。假设我们有n个因变量Y及自变量X1,X2,...,Xk的值,我们想推断多元回归方程Yi= b0 + b1X1i + b2X2i + ... + bkXki +εi。
为了从多元线性回归模型中得出有效的推论,我们需要进行以下六个假设,这些假设是经典的多元线性回归模型有效的前提:
1、因变量Y和自变量X1,X2,...,Xk之间的关系是线性的。
2、自变量(X1,X2,...,Xk)不是随机的。而且,两个或多个自变量之间不存在精确的线性关系。
3、以自变量为条件的残差的期望值为0:E(ε|X1,X2,…,Xk)=0。
4、残差项的方差对于所有观察值都是相同的:E(εi^2)=σε^2。
5、残差项在各个观测值之间是不相关的:E(εiεj)=0,j≠i。
6、残差项是正态分布的。
请注意,这些假设与一元线性回归模型的假设几乎完全相同。除了假设2,该假设说两个或多个自变量或自变量组合之间不存在确切的线性关系。如果违反了假设2,那么我们将无法计算线性回归的估计值。另外,即使两个或多个自变量或自变量组合之间不存在确切的线性关系,如果两个或多个自变量或自变量组合之间相关性很高的话,线性回归也会存在问题。相关性很高的现象被称为多重共线性,我们将在后面的内容中讨论。
尽管多元线性回归的公式看上去似乎仅适用于横截面数据,因为观测的符号是相同的(i=1,…,n),但实际上也适用于时间序列数据。例如,如果我们分析一个公司多个时间段的数据,则通常使用符号Yt,X1t,X2t,…,Xkt,其中第一个下标表示变量,第二个下标表示第t个时间段。
案例 解释跨国公司估值的因子
Kyaw,Manley和Shetty(2011)研究了哪些因子会影响跨国公司的估值。他们想知道政治风险、透明度和地域多元化是否影响了跨国公司的估值。他们使用了1998年至2003年间450家美国跨国公司的数据。这些公司的估值使用托宾q来衡量,托宾q是一种常用的公司估值方法,其计算方法是公司股权的市场价值及长期债务的账面价值之和与权益及长期债务的账面价值之和的比率。作者对代表政治风险、透明度和地域多元化的变量对跨国公司的托宾q进行了回归。其中还包括一些可能影响公司估值的其他变量,包括公司规模、杠杆率和beta。回归的等式如下:
托宾qi,t= b0 + b1(规模i,t)+b2(杠杆i,t)+b3(Betai,t)+b4(政治风险,t)+b5(透明度,t)+b6(地域分布i,t)+εi,t
其中托宾qi,t= 年度t时跨国公司i的托宾q,托宾q的计算公式为(权益+长期债务的账面价值)/(权益的账面价值+长期债务的账面价值)
规模i,t= 年度t时跨国公司i的总销售额的自然对数,以百万美元为单位
杠杆i,t= 年度t时跨国公司i的总债务与总资产的比率
Betai,t= 年度t时跨国公司i的贝塔值
政治风险i,t=年度t时跨国公司i在国际业务中潜在风险比例,计算公式为[1–(公司开展业务的安全国家数/公司开展业务的国家总数)],使用欧洲货币局的国家风险编码
透明度i,t=年度t时跨国公司i的“透明度百分比”,使用标准普尔透明度披露中的调查数据
地域分布i,t= 年度t时跨国公司i在国外的销售额占其在当年总销售额的百分比
下表显示了分析结果
假设我们使用上图中的结果来检验原假设:跨国公司的规模对其价值没有影响。我们的原假设是规模变量的系数等于0(H0:b1= 0),而我们的备择假设是规模变量的系数不等于0(Ha:b1≠0)。
检验假设为的t统计量是
通过450个观测值和7个系数,t统计量具有450– 7 =443个自由度。在0.05的显著性水平下,t的临界值约为1.97。规模系数的t统计量绝对值为3.12,这表明我们可以拒绝大小与罗宾q价值无关的原假设。实际上,在0.01的显著性水平下,t的临界值约为2.6。
因为规模i,t是销售额的自然对数,所以规模i,t增加1等于销售额增长2.72倍。因此,规模i,t的估计系数约为–0.7意味着回归中其他五个自变量保持不变时,跨国公司销售额每增长2.72倍(规模i,t增长1),罗宾qi,t就下降0.7。
假设我们要检验原假设:地域分布与托宾q不相关,即H0:b6= 0,相应备择假设为Ha:b6≠0。
检验该假设的t统计量是
在0.05的显著性水平下,t检验的临界值为1.97。因此,在显著性水平为0.05的情况下,我们可以否定原假设,即地域分布对跨国公司的估值没有影响。地域分布的系数为0.021,这意味着如果其他自变量保持不变,跨国公司国外销售额所占百分比增加1,跨国公司罗宾q将预期增长0.021。