Linear Classifiers¶

Parametric Approach(参数化方法)¶

$f(x,\mathbf{W}) = \mathbf{W}x + b$

输入向量$x$是图像展开的长向量，$\mathbf{W}$是权重，最后输出的是对于各个类别的得分向量，向量长度等于类别数量

线性分类器对每一种类别都有一个“模版”，图像结果每个模版从而生成分数

这种方法非常依赖图像中的上下文线索，比如背景的颜色

线性分类器对每一种类别只能学习一个模版，对于同一种类别有多种模式的数据时难以胜任

Geometric Viewpoint: Hyperplanes carving up high-dimensional space

Warning

Perceptron 不能实现异或

Define a Linear score function¶

如何选择一个好的权重？ - 使用损失函数来量化权重的质量 - 找到一个使损失函数值最小的权重（optimization）

multi-class SVM Loss:

$$ L_i = \sum_{j\neq y_i} \max(0,s_j-s_{y_i}+1) $$ - 也就是说，对于某一个样本，它实际类别对应的得分如果远大于（我们需要一个边界，就是上图中的+1）某个其他类别的得分，那么该“其他类别”对损失函数的贡献即为0；反之，如果并没有远大于其他某个类别的得分，则需要将这个偏差作为对损失函数的贡献。

正则化¶

防止模型过拟合

L1 范数：$R(W) = \sum_k \sum_l W^2_{k,l}$
L2 范数：$R(W) = \sum_k \sum_l |W_{k,l}|$
Elastic Net： L1+L2

正则化的目的：

在“最小化训练误差”之外，表达对不同模型的偏好。
避免过拟合：偏好泛化能力更好的简单模型。
通过增加曲率来改善优化。

偏好简单的模型

Cross-Entropy Loss¶

Softmax Classifier¶

softmax将得分归一化为概率分布
scores = 未归一化的
$P(Y = k|X = x_i) = \frac{e^{s_k}}{\sum_j e^{s_j}}, where ~s = f(x_i;W)$
$L_i = -log(P(Y = y_i | X = x_i))$

交叉熵损失函数¶

Kullback-Leibler divergence(KL散度):$D_{KL}(P||Q) = \sum_y P(y)log(\frac{P(y)}{Q(y)})$
- 衡量两个概率分布的差异
Cross Entropy: $H(P,Q) = H(p) +D_{KL}(P||Q)$,交叉熵等于信息熵加上KL散度

Cross-Entropy vs. SVM Loss¶

交叉熵 $loss > 0$,SVM loss = 0
在实际使用中，SVM 在保证真实标签对应的得分高于其他得分一定量后就接受了，即存在一个明确的突变标准；而对于 Softmax 来说，它会在这个过程中不断将正确标签对应的概率向1逼近，不断优化自己。