5.2. 模糊支撑矢量机¶
模糊支撑矢量机 (Fuzzy Support Vector Machine, FSVM) 通过在SVM中引入模糊性质, 使得对不干净输入更加鲁棒. [1] , [2] , [3] .
5.2.1. FSVM原理¶
现实世界中, 每个训练样本的重要性不一, 通常一些训练样本比另外一些更重要, 我们希望有意义的样本正确分类, 而不关心噪声样本是否被错分 [1] . 假设有训练样本集 \({\mathbb S} = \{({\bm x}_i, {\bm y}_i)\}_{i=1}^N\) , 为每一个训练样本分配一个隶属度 \(\mu_i\), 则样本集重新表示为 \(\tilde{\mathbb S} = \{({\bm x}_i, {\bm y}_i, \mu_i)\}_{i=1}^N\), SVM 优化问题 式.5.16 变为
其中, \({\bm w}\) 为模型参数, \(C\) 为平衡因子, \(\xi_i\) 为第 \(i\) 个样本对应误差, \({\bm z}_i\) 为第 \(i\) 个样本 \({\bm x}_i\) 在特征空间中的象 \({\bm z}_i = f({\bm x}_i)\) , \(f: {\mathbb R}^n \rightarrow {\mathbb R}^m\).
5.2.2. 隶属函数选择¶
基于时间特性¶
对于序列学习, 样本的重要性与样本到达时间紧密相关, 特别是在实时信号处理中, 最新到达的样本比以往的样本更重要, 因而可以根据时间来确定隶属度 [1] , 即
其中, \(t_{1}<\cdots t_{i}<\cdots t_{N}\) 是训练样本到达时间序列.
基于类别中心¶
使用样本到类别中心的距离作为隶属度可以减少异常值的影响, 假设有 \(K\) 个类别, 用 \(\bar{{\bm x}_k}\) 表示第 \(k\) 类的均值中心. 可定义如下隶属函数
其中, \(k=1,2,\cdots,K\) , \(\delta > 0\) 以避免 \(\mu_i = 0\) , \(r_{k}\) 为类别 \(k\) 的半径: