让机器“解疑释惑”：视觉世界中的结构化理解|VALSE2018之八（1）

深度学习大讲堂 | 2020-12-20 18:29:01 阅读：523

编者按：据传宋徽宗赵佶曾以“深山藏古寺”为题命人作画，夺魁的画作，画崇山峻岭之中，一股清泉飞流直下，跳珠溅玉，泉边有位老态龙钟的和尚，正舀着泉水倒进桶里。

这幅画的妙处在于，从“打水的老和尚”这一已知语义信息提取出“古寺”这一隐含信息，从而使得该画切题应景。而在计算机视觉领域，这一典故正展示了结构化分析中的隐含信息传递，对于画面内容理解的重要性。

近年来，深度学习取得了斐然的成绩，然而自其提出之日起，“黑盒智能”、“可解释性差”等质疑之声即不绝于耳，“黑盒智能”，意味着无法对结果作出保证，并极易陷入“自信的错误”这一致命问题。因此，世界上顶级实验室都在思考“why"这一问题，并尝试增强算法的可解释性，以打开深度学习这一黑盒子。

今天，来自悉尼大学的欧阳万里教授，将从物体之间的相关性出发，利用结构化建模，尝试在图像理解领域，窥一窥深度学习这一黑盒子。

文末，大讲堂特别提供文中提到参考文献的下载链接。

本次报告中，我介绍一下我在香港中文大学以及在悉尼大学和很多老师、学生一起合作的工作。

首先我们来了解一下检测和人体姿态识别相关的工作。给定一张图像，确定感兴趣的物体在图片中的位置，比如说这位女士的牙刷，这就是物体检测工作。目标检测进一步往上分析，就是关系检测。得到关系之后，可以进一步做更多语义的理解，比如用句子来描述图片中某个区域它的语义，如说这位妈妈和可爱的小孩在刷牙。物体检测后可以逐步把语义信息往上走，也可以对感兴趣物体进行深入分析，比如说可以对人体关键点进行定位，也就是人体姿态识别。有了这些物体检测、姿态检测以后可以分析行人，分析人的动作。

关键点定位识别任务具有许多难点，例如说人可能穿不同颜色衣服，会被遮挡，人身体变动灵活，会由于形变产生剧烈视觉信息变化。

为了处理好视觉信息，我们引入结构化学习，学习输出结构化的信息在我们打开深度学习黑盒子的过程中是很重要的一环。我们期望利用对问题的理解，帮助我们在深度学习能达到的结果之上得到更多的改善。

对于结构化输出的建模，我们有一些工作。比如在人体姿态识别任务中，对人体关键点之间的空间结构关系可以进行建模。对于人与人之间的交互，可能会有很多交互因素，比如说有交互动作，具体到拥抱、手拉手。其它交互因素，比如说人与人之间的距离，倾斜度、朝向等这些因素，他们之间也会有位置关系，所以可以将它们进行结构化建模。基于单目摄像头得到深度信息预测任务，可以利用卷积网络帮我们在不同分辨率特征中得到不同对于深度信息的预测，它们之间也有很多相关性，可以对它们进行结构化建模。最新工作考虑不同的模态，在跨摄像头寻人信息中对比两个图片是不是同一个人，对于人分割多值信息可以有结构化信息帮助我们进行建模。

在进一步打开深度学习黑盒子的情况下，我们可以引入标签或者输出所不具备的因素，把对于因素中特性的建模和深度特征的学习继续联合学习。具体例子就是物体检测，我们会遇到遮挡以及人的形变产生的变化，这些因素都是隐含的，标签中只有一个矩形框，没有这些信息。如果能够设计需要非常少参数的方法能够把隐含因素推理到，其实就能够帮助到模型学到更好的特征，并实现更好的结果。

例如说有一幅图像，我们可以利用深度学习模型或者已有手工设计的特征对它进行处理。这个任务中，一个隐含的因素是形变，我们可以引入处理形变和学习形变的模型，一个著名模型是deformable part model。另一个隐含因素是遮挡，比如说在这幅图中这个人腿就被椅子挡住了。如果能够对人体的遮挡进行推理，能够把一些被遮挡的部分找出来，不要用被挡住的椅子学习人腿的视觉形状。如果能够得到这样的隐含因素可以进一步提高检测效果。最后是进行分类。这些模块之间的学习都是固定住前面一部分的参数，学习最后的参数，每个模块之间缺乏通信。我们可以设计联合深度学习模型，将这些模块联合起来，在每次参数学习中，都能够进行非常好的通信，从而使各模块通过互相沟通学习到更好的模型以提高准确率。

这是我们设计基本模型，首先利用卷积网络帮我们学习到特征，有了特征以后就可以利用形变层((deformation layer))学习身体各个部分的形变。

假设有一个检测器可以检测人的肩膀在图片中的位置，其中一个检测器的例子就是这样一个肩膀，如果把这个肩膀检测器在图片中进行滑动的匹配将会得到这样的响应图谱。在没有肩膀的地方会有我们不想要的高的响应，如果使用这些区域学习人的肩膀长什么样，特征学不好，肩膀的检测器也学不好。为了处理好这个问题，我们可以利用形变的特性。我们可以考虑到人的肩膀不会从对应的位置跑到人的右下角，所以我们设计形变的图谱，自动学习人的形变特性。将这种概率化的描述转化成图谱，进行叠加就会得到修正以后的图谱。如果利用修正以后的图谱进行检测，可以准确定位形变物体到底在哪里，相对于特征和检测学习就会得到更好的结果。

另一方面，人的身体各个部位会被遮挡，会涉及不同大小身体部位的检测器。比如说关于人的左腿和右腿的检测器，如果两个检测器都被遮挡，两条腿会一起被遮挡，所以不同检测器它们之间关系可以用deep belief net来学习。

我们进行了一些实验，在2013年时最大的行人检测数据库上，使用手工设计的特征再加上已有的分类器错误率为68%。如果处理好形变隐含的因素可以降到63%，如果将特征学习以及形变和遮挡进行联合学习可以将错误率降到39%。如果进一步使用更好深度学习的方式，最近的工作错误率可以降低到9%。

论文相关代码在如下地址：

http://www.ee.cuhk.edu.hk/~wlouyang/projects/ouyangWiccv13Joint/index.html.

上面所说的我们对于形变和遮挡这两个隐含因素的学习主要用在单个行人检测工作中，我们将它进行拓展。第一个拓展是把形变的学习拓展到普适的物体检测中，我们开发了一个新的形变学习模型，这个工作2017发表在PAMI，连续几个月都是TPAMI最受欢迎的文章之一。

另外一个扩展是将对于单个行人的可见性与不可见性的推理运用到两个行人之中，互相遮挡的情况下，他们之间可见性有相融和不相融的关系，从而提高互相遮挡情况下的效果。

上面介绍的是我们利用隐含因素具体研究形变以及遮挡两个隐含因素，对这两个隐含因素参数的学习和深度学习中特征学习进行联合学习，从而提高最终我们具体任务的效果。

为了进一步的打开深度学习的黑盒子，我们考虑特征之间的结构化建模。它的动机是来自于另外一个观察。全连接网络或者卷积网络它们有一个共同特性，在同一层中神经元是没有连接的，但人脑并不是这样，在人脑中同一层神经元之间是有连接的。

*博客内容为网友个人发布，仅代表博主个人观点，如有侵权请联系工作人员删除。