深度：自动驾驶特斯拉背后核心技术解析

时间：10-02 来源：雷锋网点击：

池化层的下采样倍数的不同导致不同的语义分割精细程度。如 FCN-32s，由于是 FCN 的最后一层卷积和池化的输出，该模型的下采样倍数最高，其对应的语义分割结果最为粗略；而 FCN-8s 则因下采样倍数较小可以取得较为精细的分割结果。

Dilated Convolutions

FCN 的一个不足之处在于，由于池化层的存在，响应张量的大小（长和宽）越来越小，但是FCN的设计初衷则需要和输入大小一致的输出，因此 FCN 做了上采样。但是上采样并不能将丢失的信息全部无损地找回来。

对此，dilated convolution 是一种很好的解决方案——既然池化的下采样操作会带来信息损失，那么就把池化层去掉。但是池化层去掉随之带来的是网络各层的感受野（receptive field）变小，这样会降低整个模型的预测精度。Dilated convolution 的主要贡献就是，如何在去掉池化下采样操作的同时，而不降低网络的感受野。

以 3×3 的卷积核为例，传统卷积核在做卷积操作时，是将卷积核与输入张量中「连续」的 3×3 的 patch 逐点相乘再求和（如下图a，红色圆点为卷积核对应的输入「像素」，绿色为其在原输入中的感知野）。而 dilated convolution 中的卷积核则是将输入张量的 3×3 patch 隔一定的像素进行卷积运算。

如下图 b 所示，在去掉一层池化层后，需要在去掉的池化层后将传统卷积层换做一个「dilation=2」的 dilated convolution 层，此时卷积核将输入张量每隔一个「像素」的位置作为输入 patch 进行卷积计算，可以发现这时对应到原输入的感知野已经扩大（dilate）为；同理，如果再去掉一个池化层，就要将其之后的卷积层换成「dilation=4」的 dilated convolution 层，如图 c 所示。这样一来，即使去掉池化层也能保证网络的感受野，从而确保图像语义分割的精度。

从下面的几个图像语义分割效果图可以看出，在使用了 dilated convolution 这一技术后可以大幅提高语义类别的辨识度以及分割细节的精细度。

以条件随机场为代表的后处理操作

当下许多以深度学习为框架的图像语义分割工作都是用了条件随机场（conditional random field，CRF）作为最后的后处理操作来对语义预测结果进行优化。

一般来讲，CRF 将图像中每个像素点所属的类别都看作一个变量，然后考虑任意两个变量之间的关系，建立一个完全图（如下图所示）。

在全链接的 CRF 模型中，对应的能量函数为：

其中是一元项，表示像素对应的语义类别，其类别可以由 FCN 或者其他语义分割模型的预测结果得到；而第二项为二元项，二元项可将像素之间的语义联系／关系考虑进去。例如，「天空」和「鸟」这样的像素在物理空间是相邻的概率，应该要比「天空」和「鱼」这样像素的相邻概率大。最后通过对 CRF 能量函数的优化求解，得到对 FCN 的图像语义预测结果进行优化，得到最终的语义分割结果。

值得一提的是，已经有工作[5]将原本与深度模型训练割裂开的 CRF 过程嵌入到神经网络内部，即，将 FCN+CRF 的过程整合到一个端到端的系统中，这样做的好处是 CRF 最后预测结果的能量函数可以直接用来指导 FCN 模型参数的训练，而取得更好的图像语义分割结果。

展望

俗话说，「没有免费的午餐」（no free lunch）。基于深度学习的图像语义分割技术虽然可以取得相比传统方法突飞猛进的分割效果，但是其对数据标注的要求过高：不仅需要海量图像数据，同时这些图像还需提供精确到像素级别的标记信息（semantic labels）。因此，越来越多的研究者开始将注意力转移到弱监督（weakly-supervised）条件下的图像语义分割问题上。在这类问题中，图像仅需提供图像级别标注（如，有「人」，有「车」，无「电视」）而不需要昂贵的像素级别信息即可取得与现有方法可比的语义分割精度。
另外，示例级别（instance level）的图像语义分割问题也同样热门。该类问题不仅需要对不同语义物体进行图像分割，同时还要求对同一语义的不同个体进行分割（例如需要对图中出现的九把椅子的像素用不同颜色分别标示出来）。

最后，基于视频的前景／物体分割（video segmentation）也是今后计算机视觉语义分割领域的新热点之一，这一设定其实更加贴合无人驾驶系统的真实应用环境。
按：本文作者魏秀参，谢晨伟南京大学计算机系机器学习与数据挖掘所（LAMDA），研究方向为计算机视觉和机器学习。

References:

[1] Jianbo Shi and Jitendra Malik. Normalized Cuts and Image Segm

上一篇：可穿戴医疗设备典型架构及设计难点
下一篇：机器人学中最流行的10种编程语言

无人驾驶特斯拉相关文章：

栏目分类