2.1. 回归分析简介

2.1.1. 什么是回归分析

回归分析 ( Regression Analysis ) 是确定两种或两种以上变量间相互依赖的定量关系的一种统计分析方法.

设有随机向量 \({\bf x}=({\rm x}_1, {\rm x}_2, \cdots, {\rm x}_n)^T\) , \({\bf y}=({\rm y}_1, {\rm y}_2, \cdots, {\rm y}_m)^T\) , 以及一组观测值数据样本对 \({\mathbb S} = \{{\bm x}_i, {\bm y}_i\}_{i=0}^K\) , 其中 \({\bm x}_i = (x_{1_i}, x_{2_i}, \cdots, x_{n_i})^T\) , \({\bm y}_i = (y_{1_i}, y_{2_i}, \cdots, y_{m_i})^T\) , \(n, m , K \in {\mathbb Z}^+\) , 回归分析旨在确定随机变量 \({\bf x}, {\bf y}\) 间的关系, 这种关系的数学化称为建模. 用 \(\mathcal G\) 表示模型, 则:

(2.5)\[{\bf y} = {\mathcal G}({\bf x}). \]

模型可以有参数, 也可以无参数. 若模型为有参的, 记 \({\bm \beta}\) 为模型参数, 从而 式.2.5 可表示为:

(2.6)\[{\bf y} = {\mathcal G}({\bf x}, {\bm \beta}). \]

即回归分析的目的是在给出一组数据样本对 \({\mathbb S} = \{{\bm x}_i, {\bm y}_i\}_{i=0}^K\) 的情况下, 求解一个模型 \(\mathcal G\) , 使得该模型可以很好地拟合数据. 记 \(\hat{\bf y}\) 为模型预测输出, 为评测模型的预测结果与实际观测数据在结果上的一致性, 通常定义评测准则, 如定义评测准则为损失函数 (你完全可以定义其它函数), 假设损失函数为均方误差 (Mean Squared Error, MSE):

(2.7)\[L = \frac{1}{K}\sum_{i=1}^K \| \hat{\bf y}_i - {\bf y}_i \|_2^2 = \frac{1}{K}\sum_{i=1}^K \|{\mathcal G}\left({\bf x}_i) - {\bf y}_i\right\|_2^2, \]

一般通过优化 式.2.7 求解模型.

提示

本书中的符号表示与一般概率论统计书籍中有所区别:

  • 随机变量: \({\rm x}\) , 随机变量取值 \(x\) , 如 \(P({\rm x} = x)\)

  • 随机向量: \({\bf x}\) , 随机向量取值 \(\bm x\) , 如 \(P({\bf x} = {\bm x})\)

2.1.2. 回归分析的类型

  1. 若模型为无参的, 称为无参数回归 (Nonparametric Regression);

  2. 若模型为有参的, 称为有参数回归 (Parametric Regression);

  3. \(n=1, m=1\) , 称为单重回归 (Simple Regression), 一个输入, 单个输出;

  4. \(n>1, m=1\) , 称为多重回归 (Multiple Regression), 多个输入, 单个输出;

  5. \(n\in {\mathbb Z}^+, m>1\) , 称为多元回归 (Multivariate Regression), 多个输出;

  6. \({\mathcal G}({\bf x}) = {\bm \beta}{\bf x} + {\bm \beta}_0\) 即满足线性关系, 称为线性回归 (Linear Regression)

  7. \({\mathcal G}({\bf x}) \neq {\bm \beta}{\bf x} + {\bm \beta}_0\) 即满足非线性关系, 称为非线性回归 (Nonlinear Regression)

  8. 投影追踪回归 (Projection Pursuit Regression)

  9. 贝叶斯回归 (Bayesian Regression)