高新波：异质图像合成与识别（1）

深度学习大讲堂 | 2020-11-12 13:09:33 阅读：469

编者按：在机器视觉普及之前，传统模式识别系统都是基于高质量的输入图像的，要求待识别对象与图像采集设备之间很好的配合，只有这样才能获得较好的识别效果。随着图像采集设备的普及，获得目标图像的代价越来越小，由此而造成所采集到的图像质量参差不齐。在一些敏感的场合，还会出现拟识别对象与采集设备之间的不配合，造成无法获得对象的正面清晰图像，使得传统模式识别系统难以奏效。而通过引入人类智慧，利用画家经验，可以根据低质量的图像或图像序列，来生成素描画像，基于机器学习方法可以学习画像与图像之间的复杂映射关系，从而由画像合成出可用来进行模式识别的图像信息，进而取得良好的识别结果，我们可以称之为异质图像识别，或模式识别2.0。

本文中，来自西安电子科技大学的高新波教授将为大家介绍，如何通过数据驱动和模型驱动两类方法，实现异质图像的合成与识别。

文末，提供文中提到参考文献的下载链接。

我陪伴VALSE度过了七年之痒，今年就坚持到八年抗战了。今天可能是我最后一次在VALSE上做学术交流，所以我希望能系统总结一下我们团队这八年以来在异质图像合成和识别方面的工作。

首先，我们来看一下异质图像合成与识别的背景。对于模式识别任务来说，理想的识别系统经过比对以后可以很容易地识别出这个人的身份。上图是理想的人脸识别系统。

实际系统是当人站在摄像机前面时，摄像机可能是低分辨的，也可能人是不配合的，因而得到的图像质量是非常差的。在《今日说法》节目中发生案件时我们得到的图像总是不清楚，这样的话识别的效果就大打折扣了。

上图是一个真实案例，有人在河的对面发现了两个逃犯，于是拍了照片发给公安部门，由于分辨率太低公安部门的识别系统根本识别不出来，但是善于素描的人员可以通过想象、经验画出画像，再利用画像来排查嫌疑犯。

上图左侧是春秋战国时期利用画像追凶的例子，由于伍子胥的画像被挂在了城墙上，他过昭关的时候一夜急白了头。右侧是欧洲1881年报纸上关于铁路杀手追凶的报道，比我们整整晚了2000多年。

基于画像追凶有实际案例。上图中上方的吉布森女士是休斯敦警察局的职员，她有一次下班时遭到抢劫，因为她是画家就把画像画出来，结果第二天就破案了，从那之后她已经破了2000多个案件。画像追凶来自中国，为什么成功在美国呢？我就在网上搜索了一下，发现我们国家也有这样的人才，比如深圳警察局的李建华同志，利用他的画像追凶已经成功侦破了几个大案，所以画像追凶确实可行。

这样一来，当我们得到的图像是不清晰或者是非正面图像的时候，是不是可以通过引入人的智慧，利用画家得到清晰画像，用画像直接进行识别是否可行呢？上图是我们加入人为画像的识别系统。我们测试了一下，结果也不尽如人意。因为我们的画像主要是通过线条疏密来表现图像的变化的，而照片则是靠灰度深浅来反映，最终的结果是把纹理比较丰富的孙悟空识别出来了。

我们做了如上图所示的很多实验，结果都不太好。

原因在于图像和画像两者之间的表达方式不同。这样一来我们就考虑可能需要做一个从画像到照片的转换系统。这就是上图所示的异质图像变换所做的工作。

如上图所示，通过把画像转化为照片，我们发现转化之后的识别结果就正确了。所以我今天报告的主题就是异质图像变换，主要包括画像和照片之间的转换。其实不仅仅局限画像到照片，其他异质照片也可以通过机器学习来转化。

上图显示了我们做的工作，证明了经过转化以后识别率都非常高。

传统的模式识别系统中物理空间的人通过传感器就转变到信息空间去，现在又把人的智慧加进来，形成上图中物理空间、信息空间、认知空间三元融合的空间，这与今天人工智能的一个分支----混合增强智能是完全相关的。

它的哲学基础就是上图李国杰院士提出的新信息世界观：物理世界、信息世界和人类社会组成的三元世界。

去年北大女硕士生章莹颖在美国失踪，最后找到如上图的监控录像。从监控录像中基本上只能看出人的形状，中国的警察林宇辉根据经验画出了画像。我们这个系统把画像转成照片，在人脸识别系统中前10个人里面就把犯罪嫌疑人找出来了。所以，这个系统确实是有用的。

为此，我们也和相关公安部门进行合作，在很多案件里面都发挥了作用。

所以将来可能是这样的，通过不太清晰的监控或者非正面的图像监控，还有目击证人的描述可以形成画像，利用我们这个系统转成照片，转成照片以后利用人脸识别系统进行识别，识别以后就可以实施抓捕了。可能公安部门认为我们的逻辑太简单，但我们只是提供一份可供参考的线索。

接下来，重点来讲一下讲异质人脸图像合成和识别。关于异质图像的合成和识别我们做了将近十几年的工作，我今天系统总结一下。整个工作可以分成两大类，一种是基于online学习的data-driven的方法，通过输入照片以后，利用训练照片画像对来合成画像或者由画像合成照片。而offline学习的model-driven的方法则是通过机器学习学到model以后，不再需要训练样本，将输入通过映射函数得到生成的画像。

通过上面两张图的对比可以看出，model-driven的优点是训练过程虽然很慢但是合成速度很快，细节比较好；不足是合成图像纹理不够丰富，风格更像照片，不太像画像。data-driven由于需要在线学习导致速度比较慢，但纹理比较丰富，更像画像。这两者目前各有千秋，在使用中可以根据需要混合使用。

今天关于data-driven主要有两部分工作，一部分是基于稀疏表示的；另外一部分是基于概率图模型的。model-driven主要包括线性model和非线性model，非线性模型包括CNN、GAN、ResNet等主要基于深度学习的方法。

*博客内容为网友个人发布，仅代表博主个人观点，如有侵权请联系工作人员删除。