"); //-->
下一个是我们自己的工作。我们认为之前Pre-define的过程有问题,匹配过程很难适应大场景的变换,所以基于这个不足做了一些改进。
我们将网络结构转化成一个空间金字塔,在一层匹配不了的情况下,到上一层匹配。
第三个是Attention方法,它借助自然语言和图像语言做特征选择。
第一个是我们的工作,也算是比较先锋的工作,发表在ICCV2017。这个工作是简单但是非常有效的。在将一个人进行匹配时不是所有区域都参与到匹配中,我们希望加入attention map,来自动发现适合做re-identify的pattern,再做triplet loss,能够在性能上提高7到8个点。
这个模型不需要改变任何网络结构,只需要加入attention map,很适合工程应用。
这是我们的实验结果,发现人变大或变小,或者抠图时人抠得不好,仍然能发现ReID的pattern,这是一个很有意义的insight。
还有工作基于我们这个思想做了一些改进。比如这项工作HPNet很复杂,有多层attention,attention map有多个layer,还有遗忘skip的功能,需要把很多过程整合起来得到一个结果。
最后HPNet相比我们的模型有进一步的提高,但是在market数据集上比我们的效果差一点。方法越来越复杂,可能在某个数据集上表现越来越好,但是可能泛化能力越来越差。而我们的模型简单,泛化能力强。
下面这个attention regions learning的方法进一步深化,定义了两种attention,一种是hard attention,有主干道,一种是soft attention,加入一些分支,然后把soft和hard枝干融合。最后只放出market数据集的结果,相比HA-CNN提高很多,但没有放出CHUK03的结果,无法重复实验。
最后是基于Pose的方法,让ReID方法具有更强可解释性。
PDC发表在ICCV2017,它将Pose信息嵌入到结构网络中,生成一个modified结构图像,然后对这个结构图像进行识别,效果会有极大提高。
这项工作PSE引入视角关系,将多视角结构进行整合,最后得到的结果也还不错。
通过回顾以上ReID的关键进展,我认为接下来如何更强调空间结构的感知,语义信息的嵌入,以及用快速有效的匹配方式进行融合,例如利用类似人脑的启发性的匹配方式,才是ReID真正应该解决的问题。
图片
最后感谢我的两位学生。谢谢大家!
个人主页:http://mypage.zju.edu.cn/xilics/
参考文献链接:
https://pan.baidu.com/s/1csXOCetmUb-LDfAI6jssGw 密码: h8ft
*博客内容为网友个人发布,仅代表博主个人观点,如有侵权请联系工作人员删除。