互联网图像中的像素级语义识别（1）

深度学习大讲堂 | 2020-11-19 15:47:26 阅读：216

发布文章

编者按：“天街小雨润如酥，草色遥看近却无。”

从韩愈的这两句诗可以看出，人对图像内容的语义理解，并不依赖于细粒度监督信息做辅助。

与之相比，在机器学习领域，现阶段的语义分割任务，则依赖于大量的精细标注数据。互联网，作为最为丰富的数据源，吸引着相关从业人员的目光，然而要想利用这些数据，则面临着巨大的标注压力。

因此，引发了两点思考：第一，能否结合关键词信息作辅助，从web中直接学习知识，而不需要精细的人工标注呢？第二，能否利用类别无关的线索，在标注少量类别的数据集上训练好后，将其泛化到其他所有类别物体呢？

本文中，来自南开大学的程明明教授，将从这两点展开介绍目前的研究进展。

文末提供文中算法代码及参考文献的下载链接。

传统像素级语义理解方法，通常需要大量精细标注的图像训练。上图所示的是ADE20K数据集中的一个例子，该数据集包含21万个精细标注的物体的图像，是由Antonio教授的母亲花了很长时间标注的。

Antonio教授曾在CVML2012上开玩笑的说：“我的母亲标注了这样一个优质的数据集，真希望我有更多的母亲”。这是一句玩笑话，但也说明了构建数据集的重要性，以及构建它所需时间和精力之大。

回顾我们的成长过程，从小到大，我们的父母从未给我们做过如此精细的标注，去帮助我们识别和认知周围的世界。通常的学习方式是，父母给我们看一朵花并告诉我们这是朵花，然后我们就能很轻易的知道哪些区域、哪些像素对应着这朵花。那么我们是怎样利用这些信息，学习到每个像素所代表的语义内容呢？同时，这样一种信息能否帮我们更好的去理解图像的内容，对图像进行精细的语义理解？

我们的研究内容就是怎样去利用类似机制移除对精细标注信息的依赖。在生活中，当我们想要了解一种我们不熟悉的物体时，比如一种水果，通常我们只需要在网上搜索一下，观察几张图片，就能对这种水果有充分的认识，并能轻松识别对应目标及目标区域。能不能让计算机拥有从web中直接学习知识的能力，而不需要精细的人工标注呢？

可以帮助像素级语义理解的相关的工作有很多，比如说显著性物体检测：给定一张图像，发现并找到图像中的显著性物体，这些信息是很关键的。举个例子，当我们使用关键词在网上检索图像的时候，通常检索的图像和关键词之间有很强的相关性，通过显著性目标检测，我们可以假设检测结果对应的显著性区域语义信息就是其关键词，当然这种假设是存在噪声或者说错误的。

除了显著性目标(saliency)检测以外，还有图像的边缘检测，图像的过分割（over segmentation）等信息。这些信息都是类别无关的，可以从很少的数据集中训练出一个很好的通用模型。如边缘检测，我们可以从只有500个数据的BSD数据集中训练出一个很好的边缘检测模型。边缘能够很好描述物体的边界，从而能够减少对精细标注的依赖。同样的，过分割以及显著性检测也有同样的效果。一个直接的想法就是能否利用这些类别无关的线索（cues），在标注少量类别的数据集上训练好后，将其泛化到其他所有类别物体呢？哪怕是我们没有见过的物体，在不知道该物体类别的情况下，我们也能找到该物体所对应的区域。

沿着这个想法，有了我们的第一个工作:显著性物体检测，该工作发表在2017 CVPR以及2018 TPAMI上。下面我们介绍下该工作。

该工作的核心思想是以多尺度Deeply Supervised的方式，把不同尺度的信息融合起来，从多个尺度去检测显著性物体的区域。由于CNN中底层的特征和高层特征分别更擅长做细节描述和全局定位，而不够全面，因而难以获得高质量的分割结果。我们通过将顶层信息往下传递的方式去丰富底层的信息，这样既能够很好的定位又能保持细节。

这里是一些示例结果。我们的重点不是想说明怎样去做显著性物体检测，而是想传达一个重要的信息，即通过显著性物体检测，我们能够将图像中的显著性物体分割得很好。这个发现能帮助机器直接从web学习像素级语义分割。

上图展示了我们的方法在不同场景下的检测结果，可以看到，即使在对比度很低、物体很复杂的情况下，我们的显著性物体检测方法仍能很好地找到物体的区域。

同时，在常见的数据集里面，我们算法的Fβ性能指标都超过了90%。为了验证算法的泛化能力，我们在不同数据集之间进行交叉验证，实验结果表明，我们的显著性目标检测方法，能够从少量类别标注(如1000类)的数据中学到类别无关的工具，而这种工具在不知道物体的类别的情况下，也能很好的将其从图像中分割出来。

该方法也存在一些不足，例如，在场景特别复杂（如摩托车）或者显著性物体特别含糊（如猫的右半边）的情况下，我们的方法也会失败。

前文提到，我们的方法在多个数据集上的Fβ性能均能超过90%，能够很好的定位出显著性物体。上图是我们这个工作的一个应用，它被应用于华为手机的智能拍照：在拍照的过程中自动找到前景目标，使得相机能够实现大光圈拍照。而传统大光圈拍照需要用到单反相机（额外物理负担）来得到前清后虚、虚实结合的艺术效果。

另外一个很重要的类别无关信息是边缘检测。边缘有助于定位物体的位置。如上图所示，在不知道动物具体类别的情况下，只需知道图像中有动物（关键词级别的label），我们就能找到动物所对应的区域。下面我们介绍发表在CVPR 2017上的工作（RCF）。

RCF的核心思想是利用丰富的多尺度的特征去检测自然图像中的边缘。在早期分类任务中，中间层往往被忽略掉了，后来人们通过1x1卷积层对中间层加以利用。但这些工作只使用了每个stage的最后一个卷积层，实际上每个卷积层对于最终结果都是有用的。RCF将所有卷积层通过1x1卷积层进行融合。这种融合有效的提升了边缘检测的效果。

举个例子，在图像中的稻草区域，传统的方法如canny算子等在这些区域都会有非常高的响应，但RCF能够很好的抑制掉这些响应。还有如沙发，茶几等人都很难观测到边缘的区域，RCF都能鲁棒的检测到边缘，其结果甚至比原图结构看的更清晰。这给我们实现直接从Web中学习提供了一个基础。

作为计算机视觉最早开始研究的问题之一，边缘检测经历了50多年的发展，但RCF是第一个能够做到实时检测，同时性能超过伯克利数据集上的人工标注的工作。当然这并不意味着RCF超过了人类，只要给人足够的时间仔细思考，人能标注的更好，但RCF无疑算是取得了重大突破。而且训练如此强大的边缘检测模型，仅仅使用了一个含有500张图像的数据集，这对于我们直接从Web学习是非常有启发的。

*博客内容为网友个人发布，仅代表博主个人观点，如有侵权请联系工作人员删除。