【领域报告】行人再识别年度进展 |VALSE2018之十（2）

深度学习大讲堂 | 2020-12-19 09:10:37 阅读：477

下一个是我们自己的工作。我们认为之前Pre-define的过程有问题，匹配过程很难适应大场景的变换，所以基于这个不足做了一些改进。

我们将网络结构转化成一个空间金字塔，在一层匹配不了的情况下，到上一层匹配。

第三个是Attention方法，它借助自然语言和图像语言做特征选择。

第一个是我们的工作，也算是比较先锋的工作，发表在ICCV2017。这个工作是简单但是非常有效的。在将一个人进行匹配时不是所有区域都参与到匹配中，我们希望加入attention map，来自动发现适合做re-identify的pattern，再做triplet loss，能够在性能上提高7到8个点。

这个模型不需要改变任何网络结构，只需要加入attention map，很适合工程应用。

这是我们的实验结果，发现人变大或变小，或者抠图时人抠得不好，仍然能发现ReID的pattern，这是一个很有意义的insight。

还有工作基于我们这个思想做了一些改进。比如这项工作HPNet很复杂，有多层attention，attention map有多个layer，还有遗忘skip的功能，需要把很多过程整合起来得到一个结果。

最后HPNet相比我们的模型有进一步的提高，但是在market数据集上比我们的效果差一点。方法越来越复杂，可能在某个数据集上表现越来越好，但是可能泛化能力越来越差。而我们的模型简单，泛化能力强。

下面这个attention regions learning的方法进一步深化，定义了两种attention，一种是hard attention，有主干道，一种是soft attention，加入一些分支，然后把soft和hard枝干融合。最后只放出market数据集的结果，相比HA-CNN提高很多，但没有放出CHUK03的结果，无法重复实验。

最后是基于Pose的方法，让ReID方法具有更强可解释性。

PDC发表在ICCV2017，它将Pose信息嵌入到结构网络中，生成一个modified结构图像，然后对这个结构图像进行识别，效果会有极大提高。

这项工作PSE引入视角关系，将多视角结构进行整合，最后得到的结果也还不错。

通过回顾以上ReID的关键进展，我认为接下来如何更强调空间结构的感知，语义信息的嵌入，以及用快速有效的匹配方式进行融合，例如利用类似人脑的启发性的匹配方式，才是ReID真正应该解决的问题。

图片

最后感谢我的两位学生。谢谢大家！

个人主页：http://mypage.zju.edu.cn/xilics/

参考文献链接：

https://pan.baidu.com/s/1csXOCetmUb-LDfAI6jssGw 密码: h8ft

*博客内容为网友个人发布，仅代表博主个人观点，如有侵权请联系工作人员删除。