白翔：复杂开放场景中的文本理解（3）

深度学习大讲堂 | 2020-12-15 10:57:30 阅读：536

发布文章

相关应用

结合文本线索的细粒度图片分类

这里主要介绍场景文本检测识别的三方面应用：

1）结合文本线索的细粒度图片分类；

2）基于数字的行人重识别；

3）从文本识别到行人重识别。

通常，只用图片直观的视觉信息是不足以进行细粒度图像分类的，如上图，看上去（a）和（b）是类似的，而实际上，（b）和（c）描述的是同一场景，且与（a）大不相同。我们仔细观察，（b）（c）中分别包含了语义相近的词“cafe”和“coffee”，这其实可以在图片仅有微小视觉差异的情况下帮助我们进行细粒度的图片分类。

自然场景图片中的文本包含了丰富的语义信息，它与目标或场景有着非常密切的关系。因此，我们将文本表达和深度视觉特征结合起来，训练一个全局的深度卷积神经网络。

整个端到端的算法流程如上图所示。首先使用一个已有的文本识别框架来提取出文本，然后通过word embedding提取这些文本的特征，同时，GoogLeNet对输入图片提取1024维视觉特征向量，为了消除文本中的噪声，我们又添加了一个注意力模型对提取出的文本分配权重，最后将视觉特征和文本特征基于一定的权重组合起来，利用多模态融合特征进行最终的分类。

如上图所示，图片中的一些文本不是与图片表达的内容密切关联的，它们会对后期分类造成干扰，因此我们使用了一个注意力模型来筛选对分类有帮助的文本。

为了验证算法的有效性，我们在两个数据集上进行了测试，一个是办公场所建筑数据集Con-Text，它包含28种场景，共24,255张图片。另一个是饮料瓶数据集Drink Bottle，它选自ImageNet数据集，含有20种饮料瓶共18,488张图片。这两个数据集图片都包含了文本，且不同种类间只有很小的视觉差异。

可以看出，添加文本线索后，在Con-Text和Drink Bottle上的识别性能都有大幅度的提高。

如图可以看出，网络中添加的注意力模型可以过滤掉错误的文本，并选择出与类别更相关的文本。

我们也将学习到的融合特征用于图像检索，如图，只用视觉信息可能会因为其差别过小引起误分类，而加入文本信息后，酒瓶图片检索的mAP提升了12.8%。

基于数字的行人重识别

在马拉松比赛中，由于人员庞大、时间持续性长、场景复杂、服装相似等特性，使用行人重识别或者人脸识别的方法来跟踪参赛者是非常困难的，考虑到每一位选手有一个独特的编号，我们试图从场景文本检测的角度入手，根据编号进行行人的定位与跟踪。

如图，我们提出的方法分为如下几个步骤：首先使用TextBoxes对输入图片进行文本检测，即定位出文本区域，然后通过CRNN进行文本识别，再将带搜索文本与识别出的文本库进行匹配，寻找到该数字文本对应的选手。

我们在自己收集的一个马拉松数据集上验证了这个基于号码牌的行人重识别方法，Marathon数据集包含8706张训练图片和1000张测试图片，经测试行人重识别正确率为85%，从某种程度上讲它可以帮助人们进行搜索，还能有效减少搜索时间。

从文本识别到行人重识别

我们发现了一个很有趣的类比思想，将水平文本行看作一个从左到右的序列可以取得很好的识别效果，那么受此启发，我们可以将行人看作一个从上到下分块的序列进行重识别。

我们又进一步探索了LSTM在行人重识别中的作用，发现LSTM可以学到比CNN更加好的特征，如图是基于LSTM的模型，添加LSTM后在Market1501上的识别率显著提升。

我们用上述网络进行行人检索，由上图可以直观地看出，添加LSTM后检索结果明显优于以往。这是因为LSTM使用相邻部分上下文信息丰富了每个人的部分特征，使得模型更具有判别性。

未来发展趋势

未来我们将更加着眼于以下几个方面：不规则文本的检测，比如针对弯曲的或者多视角下的文本行；端到端的多语言文本识别；半监督或弱监督的文本检测识别；基于生成对抗网络的文本图像合成；针对文本识别或自然语言处理的框架；场景文本和图像/视频的结合，以应用到更多的实际场景中去。

文中白老师提到的文章下载链接为：

https://pan.baidu.com/s/19zAhdrpRH1M5JpAwjpqnsw

主编：袁基睿，编辑：杨茹茵。

--end--

*博客内容为网友个人发布，仅代表博主个人观点，如有侵权请联系工作人员删除。