Detection and Segmentation¶

1 Slow R-CNN Training¶

在训练结束时，要给每一个region proposal 打上一个positive, negative或者neutral打标签，接着和ground truth boxes进行比较

训练时会忽略掉neutral 的region proposal

接着将所有region proposals 会被裁剪成固定的大小，传入独立的卷积神经网络，共享权重，预测类别和边界框，

Anchor -> Region proposal -> Object Box

无需Anchors进行检测

主要思想是改变边界框的参数化方式, 只用左上角和右下角来表示边界框

对于我们要预测的每类对象, 我们会预测出一个 "左上角概率热图" 和 "右下角概率热图", 对于每个像素还预测一个嵌入向量来决定哪些左上角和右下角匹配

给图片中的每一个像素点一个类别标签

不用区分统一类别的不同实例

在像素点周围提取一个小照片，进行分类

全连接卷积网络只有卷积层, 最终输出是通道数为分类数的三维张量

事先确定组别的数量

为了做出更好的决策, 我们希望决策依赖于输入图像中一块较大的区域, 如果用 3 3 的卷积核需要很多层才能积累到较大的感受野, 这样的计算可能在高精度图像上非常昂贵
于是我们需要通过下采样(downsampling) 和上采样(upsampling)* 来加速过程

Downsampling: 池化，有一定步长的卷积
Upsampling:
- Unpooling:
  - Nearest Neighbor: 用同样的数字填充
  - Bilinear Interpolation:
  - Max Unpooling: 记住MaxPooling 中，记住每个选取出的数字的位置，在Unpooing的过程中填回原来的位置