Deep Learning III • Roxy's Library

Image Classification#

下面我们研究多分类问题，问题描述如下：

classification

给定一张图片，经过模型后输出一个向量，向量的维度等于类别数，每个元素表示该类别的概率，且所有元素的和为1

其实多分类的具体框架和二分类相似，都是先经过多个卷积层/池化层/激活函数，最后展开成一个向量，再经过MLP。不过最后的输出层不同，二分类输出一个元素，经过sigmoid函数得到概率；多分类输出一个向量，经过softmax函数得到每个分类的概率

Softmax函数的定义如下：

softmax(x_i) = \frac{e^{\beta x_i}}{\sum_{j=1}^{n} e^{\beta x_j}}

通常情况下 $\beta$ 设置为1，当 $\beta \to \infty$ 时，softmax趋近于argmax

现在已经可以得到每个类别的概率，那我们该怎么计算损失函数呢

如果标签是one-hot编码的，那么仍然可以使用NLL损失函数，只需计算所属的类别的损失即可

L = -\sum_{i=1}^{n} y_i \log(p_i)

其中 $y_i$ 是标签的one-hot编码， $p_i$ 是模型输出的概率（已经经过softmax函数）

但如果标签表示为图片属于某个类别的概率，那么我们需要一种标准来计算模型输出的概率分布和标签的概率分布之间的差异

soft_tag

KL散度:

KL散度是一种常用的计算两个概率分布之间差异的指标，定义如下：

D_{KL}(P||Q) = \sum_{i=1}^{n} P(i) \log\left(\frac{P(i)}{Q(i)}\right)

其中 $P$ 和 $Q$ 分别是两个概率分布， $P(i)$ 和 $Q(i)$ 分别是第 $i$ 个类别的概率

KL散度的几个特点：

把KL散度展开

D_{KL}(P||Q) = - \sum_{i=1}^{n} P(i) \log(Q(i)) - (-\sum_{i=1}^{n} P(i) \log(P(i)))

其中 $-\sum_{i=1}^{n} P(i) \log(P(i))$ 表示P的熵，即 $H(P)$ ， $-\sum_{i=1}^{n} P(i) \log(Q(i))$ 表示交叉熵，即 $H(P, Q)$ ，因此KL散度可以表示为：

D_{KL}(P||Q) = H(P, Q) - H(P)

$P$ 是固定的， $H(P)$ 是常数，因此最小化KL散度等价于最小化交叉熵 $H(P, Q)$

我们得到了交叉熵损失函数的定义：

L = -\sum_{i=1}^{n} P(i) \log(Q(i))

Underfitting最简单的解决方法就是增加模型的容量，比如增加模型层数，增加参数数量

但增加模型容量可能会破坏参数的分布，导致模型难以优化（比如同一学习率对于不同层的参数可能不合适），我们需要一些方法来使模型深度增加后仍然能进行可控的优化

为了控制不同层之间参数分布变化，一般会在FC Layer后，激活函数前加入Batch Normalization层

下面我们看一下BatchNorm的实现：

设输入 $X$ 的维度为 $N\times D$ ，其中 $N$ 是batch size， $D$ 是特征维度

\mu = \frac{1}{N} \sum_{i=1}^{N} X_i, \quad \sigma^2 = \frac{1}{N} \sum_{i=1}^{N} (X_i - \mu)^2

其中 $X_i$ 表示第 $i$ 个样本的特征向量， $\mu$ 和 $\sigma^2$ 都是 $D$ 维的向量

\hat{X}_i = \frac{X_i - \mu}{\sqrt{\sigma^2 + \epsilon}}

$\epsilon$ 是一个小常数，防止除以0

这样得到了一个方差 $1$ 、均值 $0$ 的分布，但我们希望模型能够学习到不同的分布，因此需要进行缩放和平移

Y_i = \gamma \hat{X}_i + \beta

其中 $\gamma$ 和 $\beta$ 是可学习的参数，分别控制缩放和平移的程度。在反向传播时像线性层一样更新

batchnorm

经过BatchNorm层之后，输入被转化为一个方差为 $\gamma^2$ 、均值为 $\beta$ 的分布

summary: