新闻  |   论坛  |   博客  |   在线研讨会
【领域报告】行人再识别年度进展 |VALSE2018之十(2)
深度学习大讲堂 | 2020-12-19 09:10:37    阅读:327   发布文章

下一个是我们自己的工作。我们认为之前Pre-define的过程有问题,匹配过程很难适应大场景的变换,所以基于这个不足做了一些改进。

14.jpg

我们将网络结构转化成一个空间金字塔,在一层匹配不了的情况下,到上一层匹配。

13.jpg

第三个是Attention方法,它借助自然语言和图像语言做特征选择。

12.jpg

第一个是我们的工作,也算是比较先锋的工作,发表在ICCV2017。这个工作是简单但是非常有效的。在将一个人进行匹配时不是所有区域都参与到匹配中,我们希望加入attention map,来自动发现适合做re-identify的pattern,再做triplet loss,能够在性能上提高7到8个点。

11.jpg

这个模型不需要改变任何网络结构,只需要加入attention map,很适合工程应用。

10.jpg

这是我们的实验结果,发现人变大或变小,或者抠图时人抠得不好,仍然能发现ReID的pattern,这是一个很有意义的insight。

9.jpg

还有工作基于我们这个思想做了一些改进。比如这项工作HPNet很复杂,有多层attention,attention map有多个layer,还有遗忘skip的功能,需要把很多过程整合起来得到一个结果。

8.jpg

最后HPNet相比我们的模型有进一步的提高,但是在market数据集上比我们的效果差一点。方法越来越复杂,可能在某个数据集上表现越来越好,但是可能泛化能力越来越差。而我们的模型简单,泛化能力强。

7.jpg

下面这个attention regions learning的方法进一步深化,定义了两种attention,一种是hard attention,有主干道,一种是soft attention,加入一些分支,然后把soft和hard枝干融合。最后只放出market数据集的结果,相比HA-CNN提高很多,但没有放出CHUK03的结果,无法重复实验。

6.jpg

最后是基于Pose的方法,让ReID方法具有更强可解释性。

5.jpg4.jpg

PDC发表在ICCV2017,它将Pose信息嵌入到结构网络中,生成一个modified结构图像,然后对这个结构图像进行识别,效果会有极大提高。

3.jpg

这项工作PSE引入视角关系,将多视角结构进行整合,最后得到的结果也还不错。

2.jpg1.jpg

通过回顾以上ReID的关键进展,我认为接下来如何更强调空间结构的感知,语义信息的嵌入,以及用快速有效的匹配方式进行融合,例如利用类似人脑的启发性的匹配方式,才是ReID真正应该解决的问题。

图片

最后感谢我的两位学生。谢谢大家!

个人主页:http://mypage.zju.edu.cn/xilics/

参考文献链接:

https://pan.baidu.com/s/1csXOCetmUb-LDfAI6jssGw    密码: h8ft

*博客内容为网友个人发布,仅代表博主个人观点,如有侵权请联系工作人员删除。

参与讨论
登录后参与讨论
推荐文章
最近访客