最小二乘法是一种数学优化技术,它通过最小化误差的平方和来寻找数据的最佳函数匹配。在回归分析中,最小二乘法用于求解自变量(或称为解释变量)和因变量(或称为响应变量)之间的线性关系。
回归方程的形式
设回归方程为 \( y' = bx + a \),其中 \( y' \) 是因变量的预测值,\( x \) 是自变量的值,\( a \) 是截距,\( b \) 是斜率。
最小二乘法的求解步骤
数据准备:
首先,收集一组具有相关关系的变量与数据点 \((x_1, y_1), (x_2, y_2), \ldots, (x_n, y_n)\)。
建立拟合函数:
确定回归直线的形式,即 \( y = ax + b \)。
定义误差函数:
误差函数 \( e(x) \) 定义为实际观测值 \( y_i \) 与预测值 \( ax_i + b \) 之间的差的平方和,即:
\[
e(x) = \sum_{i=1}^{n} (y_i - ax_i - b)^2
\]
求导并最小化误差函数:
对误差函数 \( e(x) \) 分别对 \( a \) 和 \( b \) 求导,并令导数等于零,得到两个方程:
\[
\frac{d}{da} e(x) = -2 \sum_{i=1}^{n} (y_i - ax_i - b) x_i = 0
\]
\[
\frac{d}{db} e(x) = -2 \sum_{i=1}^{n} (y_i - ax_i - b) = 0
\]
解方程组:
解上述方程组,得到 \( a \) 和 \( b \) 的值:
\[
a = \frac{\sum_{i=1}^{n} x_i y_i - n \bar{x} \bar{y}}{\sum_{i=1}^{n} x_i^2 - n \bar{x}^2}
\]
\[
b = \bar{y} - a \bar{x}
\]
其中,\(\bar{x}\) 和 \(\bar{y}\) 分别是 \( x \) 和 \( y \) 的均值。
得出回归方程:
将求得的 \( a \) 和 \( b \) 值代入回归方程 \( y' = bx + a \),得到最终的回归直线方程。
示例
假设有以下数据点:
\[
(x_1, y_1) = (1, 2), (2, 3), (3, 5), (4, 6)
\]
1. 计算均值:
\[
\bar{x} = \frac{1+2+3+4}{4} = 2.5, \quad \bar{y} = \frac{2+3+5+6}{4} = 4
\]
2. 代入求导后的方程:
\[
a = \frac{1 \cdot 2 + 2 \cdot 3 + 3 \cdot 5 + 4 \cdot 6 - 4 \cdot 2.5 \cdot 4}{1^2 + 2^2 + 3^2 + 4^2 - 4 \cdot (2.5)^2} = 1
\]
\[
b = 4 - 1 \cdot 2.5 = 1.5
\]
3. 得出回归方程:
\[
y' = 1.5x + 1
\]
通过以上步骤,我们使用最小二乘法求得了回归方程 \( y' = 1.5x + 1 \),该方程可以用于预测新的 \( x \) 值对应的 \( y \) 值。