DeepFusion - HackMD

# DeepFusion ###### tags: `CV` [CVPR] 2022 DeepFusion: Lidar-Camera Deep Fusion for Multi-Modal 3D Object Detection https://arxiv.org/abs/2203.08195 [TOC] ## 第一部分：背景 ### 围绕任务 3D目标检测 ### 任务背景 3D目标检测根据处理数据的形式与种类不同，可以分为单模态方法与多模态方法，可用的传感器数据包含又不仅限于图像、激光雷达、毫米波雷达等。 ### 工作背景本项工作是基于Waymo 2020的3D Detection任务数据集展开的相关研究。数据集中有包含64线激光雷达与图像数据，从公布的排行榜上来看，如果除去作者提出的Deepfusion方法，榜前10名次中只有一种方法使用了融合的方法，大多数方法只使用了激光雷达的数据进行3D目标检测。这说明，当前用于该任务的图像数据中，能被人们利用的知识，与从激光雷达采集数据中获得的知识存在相当程度的重复，因此融合两种模态的数据需要更高级的融合技巧。鉴于此，作者提出了两种技巧，第一：InverseAug，第二：LearnableAlign。 ## 第二部分：思路 ### 提出InverseAug的原因为了达到更好的模型效果，数据增强是开始时要做的工作之一。例如对于图像数据有采集、旋转、镜像等，对于点云数据有绕z轴旋转等。作者提出，在多模态方法中如果对原本匹配的**数据**分别进行数据增强再送入模型进行训练，那么数据的对齐质量或许会影响数据增强带来的效果提升。为了验证数据对齐质量是否影响模型效果，作者做了第一个实验，结论是：送入的数据对齐质量越差，那么多模态模型的效果提升也越差。于是，作者为了保证在数据增强的同时保证对齐对齐质量，故提出的InverseAug。 ### InverseAug具体内容下面看下先前方法没有做InverseAug，训练是如何进行的，如图所示。 ![](https://cdn.uisland.cn/deepfusion/F2_.png) 为了简化说明问题，从图$(a)$到$(b)$，作者只对点云数据进行了增强，图像数据不做增强处理。当两种模态的数据都不做增强时，我们知道在点云中 $A$ 点附近的特征应该和在图像中的 $\hat{A}$ 点附近的特征进行融合，而当对点云数据做过增强后 $A$ 变为 $A'$，训练时 $A'$ 点附近的特征究竟和图像中哪一点附近的特征进行了融合就不得而知了。为了在融合阶段能够让 $A'$ 能够和 $\hat{A}$ 进行融合，作者提出，记录数据增强阶段的所有参数，在融合前进行反转增强操作，这样由 $A'$ 便能得到 $A$，而$A$本身是知道要同 $\hat{A}$ 进行融合的，因此，便实现了 $A'$ 能够和 $\hat{A}$ 进行融合。 ### 提出LearnableAlign的原因点云数据相对于图像是稀疏的，那么点云中的一个特征，将对应图像中某个区域的很多特征，将两者融合的基本方法有对图像区域的特征取平均然后融合。但是图像中的多个特征，对点云中特征所要表达的信息的贡献度是不同的，因此作者引入了交叉注意力机制，就是这里的LearnableAlign所表述的内容。 ### LearnableAlign具体内容如下图所示，结构并不复杂，从Lidar feature中获得q，从图像中获得k和v ![](https://cdn.uisland.cn/deepfusion/F1_.png) 这里有必要解释一下为什么作者说是自己的方法是 DeepFusion，强调Deep。作者总结到，当前激光雷达与图像的融合主要就是两类，要么将两类特征非常早的融合，作者称为Early Fusion，例如PointPainting，就是将图像特征附着到点云数据中，然后应用3D检测模型进行训练；要么进行Mid-level融合，两类数据分别提取特征，然后Combine两类特征进行训练。关于先前方法的不足，文中分析到两点。第一点，类似PointPainting的早期融合的方法，用图像特征修饰点云中的点，然后送入传统的3D检测模型存在不合理的地方，不合理的点在于传统的3D检测模型是针对点云数据设计的，而训练的过程中，图像特征也将和点云特征一并进行体素化等操作，体素化是针对点云数据设计的，并不适合处理图像特征。第二点，先前的融合方法，不管是Early Fusion还是Mid-Level Fusion都进行了独立特征提取过程，整个过程并不是端到端的学习。这可能会带来许多问题，例如Domain Gap，额外的计算性能开销，更重要的，可能选取到次优的特征。作者提出的是一种端到端的解决方案，对于第一个问题，作者采用交叉注意力机制进行特征融合，对于第二个问题，可以看出，从特征提取阶段开始，学习就可以是一个端对端的过程。作者认为该方法解决了 Mid-Level Fusion 的几点不足，并实验证明了所提出的方法能够更有效地融合两类特征，故称为 DeepFusion. ## 第三部分：实验结果 ![](https://cdn.uisland.cn/deepfusion/T2_.png) 上表是Waymo公布的榜单结果。蓝色底色表示的方法没有进行模型集成。可以看到，不管是在经过模型集成的方法中还是未经模型集成中，作者提出的改进方案在各评价指标上都达到了最佳的效果。 ![](https://cdn.uisland.cn/deepfusion/T3_.png) 上表展示了DeepFusion同其他3D目标检测模型在Waymo验证集上的检测效果。从实验结果上看，作者提出的DeepFusion方法能够更好的融合激光雷达与图像，在Waymo Open Dataset上达到了SOTR的表现。 ## 第四部分：其他实验与分析 ### 实验：数据对齐质量的影响 ![](https://cdn.uisland.cn/deepfusion/T1_.png) 第一列为对照组，没有进行数据增强，所以数据对齐质量最好，结果是多模态方法比单模态方法提高了2.6个点；后面各组为实验组。实验组与对照组有两点区别，一是实验组进行了数据增强；二是增强后的数据对齐质量下降，且最大旋转角度越大，数据对齐质量越差。从先前经验来看，数据增强会带来模型效果的提升，所以，如果实验组的提升效果下降，那么就可以说明是对齐质量下降带来了影响。通过以上实验，作者验证了在多模态方法中，数据对齐质量对模型效果的影响。 ### 实验：DeepFusion是一个Generic方法前面提到，DeepFusion创新点有两个，一个是前期数据增强的方法InverseAug，另一个是融合阶段的LearnableAlign策略，因此DeepFusion可以作为插件加入到任何现有的基于体素的3D目标检测模型中去。 ![](https://cdn.uisland.cn/deepfusion/T4_.png) Table 4.显示了各模型加入DeepFusion所获得的效果提升。 ### 观察：效果提升来源为了找出效果提升的来源，作者采用Waymo的建议，根据待检测物体包含点的数量，分为两类：Level1和Level2；根据待检测物体的距离，分为三类：[0, 30), [30, 50), [50,+inf)，所以，组合起来有6类难度与距离不同的待检测对象。 ![](https://cdn.uisland.cn/deepfusion/F4_.png) 作者将单模态方法在各个类别下检测效果标准化为100，如图上蓝色所示，相对应的红色表示作者提出的DeepFusion方法效果。可以直观看出，DeepFusion的优势来源于对远距离困难物体的检测。作者给出的解释是，对于远距离困难物体来说，Lidar点是稀疏的，而在作者提出的方法中，高分辨率的图像正好能够补充这方面的不足。这也从侧面说明了作者融合方法的有效性。 ### 观察：交叉注意力关注点 ![](https://cdn.uisland.cn/deepfusion/F5_.png) 作者将Attention Map可视化后发现，模型倾向于关注具有强大辨别力的区域，例如行人的头部，以及物体的四肢，例如行人的背部。基于这些观察结果，作者得出结论，高分辨率图像信息可以帮助识别和预测物体边界。 ### 实验：消融实验 ![](https://cdn.uisland.cn/deepfusion/T5_.png) 从实验结果上看，作者提出的两个模块对任务均有一定程度的提升，更进一步，InverseAug比LearnableAligh有更大的提升效果。 ### 实验：对比其他融合方法 ![](https://cdn.uisland.cn/deepfusion/T6_.png) 从作者的经验来看，InputFusion与LateFusion不相上下，另外LateFusion强调了激光雷达和图像之间的Gap。对比结果也显示，作者提出的DeepFusion方法通过端到端训练可能使得两种模态之间的Gap得到更好的解决。 ### 实验：鲁邦性测试作者对方法的鲁棒性进行了两点测试，一是Input Corruption，如下表所示 ![](https://cdn.uisland.cn/deepfusion/T7_.png) 结果显示，单模态加入Laser噪声，效果下降10点之多，而多模态对于Laser噪声以及图像噪声都有比较好的容忍度。二是OOD数据 ![](https://cdn.uisland.cn/deepfusion/T8_.png) 对于单模态与多模态方法，作者分别在三个城市的数据上进行训练，然后在另外一个城市进行模型效果评估，结果如下表所示，可以看到对于OOD数据，多模态方法表现更好。 ## 第五部分：不足 ## 第六部分：其他