医微客 - 加权最小二乘法

加权最小二乘法

临床研究

1970-01-01

4419 0

一、问题与数据

在前期推送的有关多重线性回归的内容中，我们介绍了构建多重线性回归模型模型需要满足的4个核心条件：线性（Linear）、独立（Independence）、正态（Normality）、方差齐性（Equal variance），即LINE原则。

今天我们就来继续讨论一下，如果残差不满足方差齐性时，应该如何解决？

残差方差齐性判断

1. 残差方差齐性

回顾一下前面介绍过的残差方差齐性，即残差ei的大小不随预测值水平的变化而变化。我们在进行残差分析时，可以通过绘制标准化残差和标准化预测值的散点图来进行判断。若残差满足方差齐性，则标准化残差的散点会在一定区域内，围绕标准化残差ei=0这条直线的上下两侧均匀分布，不随标准化预测值的变化而变化，如图1所示。

图1. 标准化残差散点图（方差齐性）

2. 残差方差不齐

但有时残差不满足方差齐性的假设，其标准化残差散点图显示，残差的变异程度随着变量取值水平的变化而发生变化，如图2(a)显示标准化残差的分布随变量取值的增大而呈现扩散趋势，图2(b)显示标准化残差的分布随变量取值的增大而呈现收敛趋势，说明残差不满足方差齐性的条件。

图2. 标准化残差散点图（方差不齐）

加权最小二乘法

在多重线性回归模型中，我们采用的是普通最小二乘法（Ordinary Least Square，OLS）来对参数进行估计，即要求每个观测点的实际值与预测值之间的残差平方和最小，对于模型中的每个观测点是同等看待的，残差满足方差齐性的假设。

但是在有些研究问题中，例如调查某种疾病的发病率，以地区为观测单位，很显然地区人数越多，所得到的率就越稳定，变异程度越小，而地区人数越少，所得到的率的变异就越大。在这种情况下，因变量的变异程度会随着自身数值或其他变量的变化而变化，残差不满足方差齐性的条件。此时如果继续采用OLS方法进行模型估计，则拟合结果就会受到变异程度较大的数据的影响，在这种情况下构建的回归模型就会发生偏差，预测精度降低，甚至预测功能失效。

为了解决这一问题，我们可以采用加权最小二乘法（Weighted Least Squares，WLS）的方法来进行模型估计，即在模型拟合时，根据数据变异程度的大小赋予不同的权重，对于变异程度较小、测量更精确的数据赋予较大的权重，对于变异程度较大、测量不稳定的数据赋予较小的权重，从而使得加权后回归直线的残差平方和最小，保证拟合的模型具有更好的预测价值。

研究问题

某研究人员拟研究PM2.5浓度与癌症发病率之间的关联性，以地区为观测单位，收集了40个地区的癌症发病率（/10万），PM2.5年平均浓度（μg/m³），人口数量（万），地区来源（0=农村，1=城市）等信息。（注：数据为模拟数据，不代表真实情况）