何晖光：多模态情绪识别及跨被试迁移学习

深度学习大讲堂 | 2020-11-02 21:07:13 阅读：1076

编者按：情感计算的概念由MIT媒体实验室Picard教授于1997年提出，它旨在通过赋予计算机识别、理解、表达和适应人类情感的能力来建立和谐人机环境。情感计算的基本问题包括通过表情、动作、脑电等生理信号进行情绪识别。相比于传统情绪识别方法，如何利用更可靠的脑电信号实现鲁棒的识别并优化情绪状态已成为一大难点。今天，来自中科院自动化所的何晖光研究员为我们带来题为“多模态情绪识别及跨被试迁移学习”的讲座。

报告包括以下几个方面的内容。

情感是大脑的高级活动，它是一种复杂的心理和生理状态，高级活动包括记忆、学习、决策和情绪等。情绪是情感的一个外部表现，是我们对事件内在或外在的反应。一个成功的人通常要同时具备高智商和高情商。情商反映一个人控制调节自己情感的能力，以及处理自己与他人之间情感关系的能力。情感很重要，它会影响我们做决策。情感计算要赋予计算机像人一样的观察理解和生成情感特征的能力，最终使得计算机像人一样进行自然亲近和生动的交互。情感计算中基本问题包括情绪识别。

以’emotion regulation’和’emotion recognition’作为关键词搜索文章，我们发现相关研究研究逐步增加，最高有每年1700篇左右。

Charles Darwin为情感领域做了两大贡献，一个是提出动物情感和人类情感是一致的，另一个是最基础的情感，包括愤怒、恐惧、悲伤等，在不同物种和文化中是共享的。第二点不仅在情感上适用，在语言上也是适用的，比如在不同的人种和文化中，“爸爸”、“妈妈”发音都是比较类似的。William在著作中认为情绪是人们对于自己身体所发生变化的一种感觉，先是有身体的变化才有情绪的感知，任何情绪的产生都有一定伴随身体的变化，包括面部表情、肌肉紧张、内脏活动等，可以通过外部感知推测情绪发生了什么样的变化。

2016年在《科学美国人》上有关于人类未来的20个大问题，其中一个是“我们能用可穿戴技术来探测自己的情绪吗”，说明我们还是希望能够了解自己的情绪。现在经常有人戴手环，使用各种APP，来记录每天走了多少步，吃了多少卡路里的食物，希望借助各种外部探测手段来了解自己。从这个意义上来说人们需要了解自己的情绪，进而来调控情绪。

下面介绍一下情感科学在学术界和工业界的动态。微软全球执行副总裁沈向阳认为，人工智能的研究要强调机器人与人之间的感性化交互，强调情感计算，实现情感智能。李飞飞教授认为要加强对情感情绪的了解。MIT的Rosalind教授认为情感在一系列智能活动中都起到核心作用，如感知、决策、逻辑推理、社交、行动选择、言语措辞等。AI研究如果忽视情感，就难以取得进展。

谭铁牛院士也曾说过“机器人有智商没情商”。在人机交互领域，Pepper、MIT以及日本一些公司做出的机器人能够像人一样自然亲切地进行交互。

在医学领域，情绪识别还为精神疾病诊断治疗提供依据。比如自闭症的诊断，利用复杂的量表检测比较困难。如果有一些比较好的情绪识别的工具，比如戴脑电，在病人活动的时候进行实时监测，可以对诊断提供帮助。同样还可以应用到自闭症的诊断和治疗中。

2014年的“马航370”事故，迄今原因仍然不明。其中有一个疑点是，机长在飞机失联前不到一个月时，在电脑游戏中操纵虚拟航班飞入南印度洋的深处，大家因此怀疑他是不是一直有自杀倾向。国际民航组织(ICAO)要求成员国的飞行员达到一定的心理健康标准。

2015年3月份德国之翼航空公司在法国阿尔卑斯山脉坠毁。后来得知副驾驶员在飞行过程中多次怂恿机长上厕所，机长离开后他反锁驾驶舱，启动下降按纽，导致坠毁。调查中得知副驾驶确实有心理疾病，上一个例子是推测，而后一个已经被证实。所以飞机员的状态对飞行安全很重要。情绪识别准确的话，可以避免此类灾难的发生。

情绪识别中一个新的领域叫做Affective Brain-Computer Interaction，也就是情感的脑机结合。脑机接口在大脑和外界设备之间建立直接的通道。但是，这个脑机接口不仅仅依赖于直接对大脑信号的测量，还包括其他心理、生理的信号，包括机电、眼电、心电等等。

上图是欧洲关于脑机接口发展的路线图，是Horizon2020的计划，涉及脑机接口的研究、提高、增强、恢复和替代。

白皮书里给出了一些建议。首先是关于大脑状态的监测。然后，一个能够监测人脑精神状态的客观度量对于决策很有帮助。类似的，在比较难做决策的时候，可以暂时放松一下，在更好的状态下做决策。最后，一个很重要的问题是如何识别情绪，并且保证鲁棒性，还有如何优化情绪状态。

传统识别情绪的方法包括面部表情、语音和肢体动作。这些数据比较容易获取，但是可靠度不是很高，受文化背景影响较大，也不太适用于残疾人。

现在出现了基于脑电识别情绪的方法，相较于传统情绪识别方法，有更高的可靠性。基于脑电的方法要求被试者戴一个电极帽，然后采集大脑的信号。所以它的数据包括空间和时间，相当于四维的时空数据，每一个电极相当于一个时间序列。

基于EEG情绪识别的一般流程如上图所示。首先，设计实验，找被试者，对他施加一些刺激。然后，对他进行数据采集。接下来是数据预处理和特征提取及分类。

EEG情绪识别里面有哪些关键问题呢？情绪识别有哪些特征比较好？情绪识别最关键的频段和电极位置在哪里？EEG如何与其他模态信号进行多模态情绪识别？并且不同人的EEG信号差别很大，怎样把这个人的模型用到另外一个人模型上也值得思考。

今天我向大家介绍一下我们组近期的两个工作。一个是关于风格迁移映射的多元迁移学习，第二是跨被试多模态情绪学习。

首先介绍一下数据集。这个数据集SEED是上海交通大学吕宝粮教授提供的，有15个被试，看15个视频片断，每个约有4分钟。受试者看完之后要对自己的情绪进行评估，然后进行休息。情绪分成三类，包括积极的、中性的、和负面的情绪。电影都是《唐山大地震》《泰囧》这种刺激性比较强的。

这些数据集做了预处理，包括降采样和特征提取，这些特征也可公开下载，谢谢吕老师做的很好的铺垫工作。

传统方法一般是把EEG数据提取特征然后拼接起来，再建立特征向量到情绪标签的映射。这样导致电极之间的空间关系丢失。

我们前期做了一项工作，保留电极之间拓扑结构，将电极位置转换为图像，利用CNN进行测试，得到比较好的效果。深度学习用到基于脑电的情绪识别是可行的，而且效果还不错。

但是更进一步，对一个人采集数据，进行训练后，构建了一个模型。但是如果来了一个新用户又要重新建立模型。原来的模型不够鲁棒，所以我们要研究如何将一个人的模型迁移到另一个人。传统机器学习针对一个任务或领域训练模型，对另外一个领域或任务又要重新训练模型。迁移学习要把这个领域的知识迁移到另外一个领域。

我们做的是基于风格迁移映射的多源迁移学习。传统机器学习是在不同领域或任务上分别训练模型，迁移学习不同的领域和任务共享知识。我们把知识输出端称为源（source），输入端称为目标（target）。

现在要考虑它的应用场景。比如说我们针对过往被试训练了模型，现在有了一个只有少量标注的新被试，我们如何基于过往被试的模型实现新被试高精度的分类？我们提出一个多源迁移学习框架。选择合适的源，在每个合适的源上，消减目标和源的差异，使源上的分类器直接用于推断目标中样本的情绪标签。在多分类器集成框架下，我们实现了对目标域的高精度分类。

这个过程包括这样上图三个步骤。首先，我们有很多个源，来了新被试后，要从以前被试者中选择合适的然后迁移到新的被试上，也就是进行源的选择。第二步是特征映射，把以前的源和现在的目标之间建立一个映射关系，这里通过一个变化矩阵学习M，新被试可以通过M映射回来。最后，将以前的分类器集成得到这个标签。核心问题是如何学习M。

我们受刘成林老师发表在PAMI上的文章启发，原有工作是字符识别中针对不同字体风格的迁移，其映射方式是仿射变换。上图是我们定义的目标函数，o相当于源，d相当于映射终点，后面两个是正则项。这个目标函数是二次规划的问题，可以有一个解析解。

现在问题是如何针对新样本定义映射终点。我们这里不是直接做映射，采用定义原型的方式。比如说有三类情绪，传统方法通过三类分类器可以把分类面得到。离分类面越远的样本越容易被区分，越近越难以被区分。离分类面很近的样本如果也迁移过去的话可能会导致负迁移，所以分类面上的样本可以去掉。我们对以前情绪样本进行聚类，聚类中心是原形，目的是向新的聚类中心做映射。有两种原形定义的方式，一个是基于k均值聚类的方法，一个是基于高斯模型的方法。

做迁移的时候，有些目标样本上是有样本标签的，置信度就比较高，但是还有一部分目标没有标签，这时要如何迁移呢？我们需要定义置信度，以前的做法是把最近的距离和第二近的距离做一个差，定义一个函数。我们定义加权距离，有两种方式，一种是监督式，仅仅只用有带标签的源里的数据，没有用到没有标签的数据。

而半监督式不仅利用到带标签的数据，还利用没有标签的数据。我们通过分类器对它进行预测，每个预测有一个概率值，得到置信度之后进行迁移学习。

这是迁移学习的结果，比较之前利用的一般的模型，这个模型是把很多被试的数据放在一起进行训练，比如说被试前70%进行训练，后面30%进行测试，得到一个分类器，它相对于单个样本训练模型更加鲁棒。最后结果是三分类情况下平均正确率提升22.8%。

然后我们进行可视化，以前的方法比较难以区分情绪，通过迁移学习后能够比较好地区分开。准确率还与源样本的数目有关系，右下的图体现了选择不同源的个数对分类正确率的影响，我们发现选择7个源就可达到较好的效果，如果选择源的个数太多，会增加计算复杂度。另一方面，如果标签越多性能越好，但我们从上图可以看出，标签数目比较少的时候也能够得到比较好的效果。

我们把学到的标签映射回脑地形图，进行可视化。我们在脑电上观察，源和目标在处理前很不相似，但迁移之后比较相似。在我们提出的方法中，仅需采集新被试的少量标注样本，就能使现有模型直接用在新被试，具备重要的实际应用价值。本方法要求新被试的少量标注样本，在此基础上，也可以利用新被试的无标注样本，可在监督学习及半监督学习下工作。在迁移中使用多个源，可有效提升模型的泛化能力。这个工作已经被IEEE Trans. On Cybernetics接收。

我们的第二个工作是跨被试多模态的情绪识别。

情绪识别任务有两大特点，一个是多模态，模态包括面部表情、语音等各种各样的生理模态。另一个是跨被试，如何从以前的模型迁移到新的模型。

我们用多视图变分自编码来融合多种模态。我来分享一下多视图变分自编码，我们现在有两个模态，一个模态是脑电，一个模态是眼动，脑电和眼动都反映情绪。

因此就把它当做多视图理解，通过多视图编码找到两种视图之间的隐含表征。以前的传统自编码把隐含表征的先验和后验都当作高斯分布。这里有两个模态，做了一个混合高斯，可以通过脑电自己生成脑电，脑电可以生成眼动，在这种框架下二者可以互相生成。多视图变分自编码是一个多视图表示学习，利用了贝叶斯推断。脑电和眼动有一些权重，权重体现出对情绪识别的重要性。

现在我们来看一下跨被试多模态数据建模场景。源领域有部分标记数据，这是半监督的，目标领域都是没有标记的。源领域和目标领域都有多种模态，目标是做一个目标领域和源领域通用的分类器。

上图红色框里是源领域的变分自编码，蓝色框里是目标领域的变分自编码，他们在隐含层是共享的。我们想学习的这些隐含的表示，使二者隐含表征的距离更小，相当于加了约束。另外一方面，源领域内做分类学习，领域间要对抗，使得两个领域隐含表征分布接近，同时使得隐含表征在源领域内有很好的性能。所以目标函数包括图中三个部分。

上图是实验数据，不仅有EEG还有眼动数据，但是眼动数据量少一些，只有9个被试。另外还有人脸表情的数据，有30个被试，这都是多模态数据集。

和以前的迁移方法进行比较，性能得到提升。蓝色和红色代表不同领域，如果以前没有领域对抗的话，两个领域差异性比较大，如果用我们这个领域对抗进行约束的话，差异性小很多。这个工作发表在ACM MM2018上。

最后做一下总结和展望。我们设计了用于高精度EEG情绪识别的深度学习方法框架，并针不同实际场景，分别提出了监督式、半监督式和无监督迁移学习法，使得情绪识别模型能够跨被试使用，具备重要的应用价值。接下来还有很多方面可以继续探讨，比如远距离的迁移学习，源被试之间如果差异特别大，直接迁移很难，需要从不同被试中选择迁移路径。还有在zero-shot learning，one-shot learning和online learning上的应用都值得继续探讨。

参考文献链接:

https://pan.baidu.com/s/1Ul6T1klBaJt1ZC46Lbd3Ag

密码:

xqs3

接下来是提问环节。

提问者1：EEG不像表情信号可以直观看出是哪种情感，EEG信号在采集的时候，数据库也是通过视频标签来做的，但不同人对视频感觉是不一样的，可能高兴的视频一个人因为笑点比较低没有产生很大情绪的反应，这样会不会造成数据库本身不是很可靠的问题？在脑电采集的时候，标定可靠性方面你有什么更好的建议？

何晖光：你这个问题问得非常好，因为不同的人对相同刺激反应不一样。我们对情绪打标签不是通过视频去打的，是在做了实验之后的一个自评估环节，被试者要通过自己的判断打一个分数。

提问者2：这个数据库的标签是很平均的标签吗？

何晖光：给的这些视频冲击性都特别强，刺激性特别强，都是表较能带来情绪波动的视频。

提问者3：直接将脑电数据应用到多模态情绪识别可靠吗？

何晖光：我们不是直接将脑电数据拿过来用，也利用各种特征进行了评测，比如是哪个波段，是什么熵。另外一个方面，脑电差异性太大，所以我们想到用迁移学习来做。

提问者4：特征是用的什么呢？

何晖光：这个特征用的是功率谱。比如说脑电之前有一定的预处理，了解到功率和微分熵比较好，便加以利用。现在也有直接用未处理数据的，效果有的好，有的不好，还在继续探讨过程中。

提问者5：您在第一个工作中，数据怎么划分？

何晖光：源数据是已经采到的数据，目标数据是来了一个新的被试，需要从这源被试相似样本来做迁移，如果用不相似的样本会带来负迁移。

提问者6：差异性是只有不同的人表现出来的吗？

何晖光：这里是通过不同的人体现的。

提问者7：想问源样本一下选了多少个？

何晖光：大概选7个还不错，如果选太多后面计算量太大。

--end--

*博客内容为网友个人发布，仅代表博主个人观点，如有侵权请联系工作人员删除。