aoi学院

Aisaka's Blog, School of Aoi, Aisaka University

学习报告:基于对抗图表示自适应的跨域面部表情识别

中山大学Yuan Xie等人在研究跨领域人脸表情识别研究上提出了一种新的对抗图表示自适应(AGRA)框架,结合图表示传播与对抗学习相结合,用于跨领域整体-局部特征的协同自适应。相关成果发表于2020年10月的ACM International Conference on Multimedia (ACM MM)会议上,论文题目为《Adversarial Graph Representation Adaptation for Cross-Domain Facial Expression Recognition》[1],本文将会对论文中的内容进行介绍以及自己的总结。

图1 论文发表截图

研究背景与意义

面部表情作为人们情感状态最直接的外在表现,常常被用于情感分析的研究。自动识别人们的面部表情有助于机器理解人类的行为,从而实现人机交互的应用。在过去的10年里,研究者们致力于收集各种不同的人脸表情识别(FER)数据集,人脸表情数据集也从实验室环境下采集的数据集(如:CK+、JAFFE等)发展到真实环境下采集的数据集(如:SFEW、ExpW等)。与此同时,研究者们也提出各种各样的深度学习模型用于促进FER的性能。

由于人类对面部表情的理解,受个人的生活经历、所处文化不同,以及数据集制作过程、标注过程的采集条件影响,不同的面部表情识别数据集之间不可避免地会存在数据的偏差,进而导致特定数据集训练出来的FER算法存在着明显的领域偏移。因此,在某个数据集获得最佳性能的方法,在跨数据集时性能会显著下降。针对跨数据集的问题,目前主流的解决方法是使用迁移学习中的域自适应方法,域自适应方法把输入分为源域和目标域,其中已有的知识叫做源域,要学习的新知识叫目标域,通常目标域不带标签信息。

在2015年前,研究者们基于统计的方法提出跨数据集表情识别的方法,其中被引用最多的DAN框架[2]将深度网络中与学习任务相关的隐藏层映射到再生核希尔伯特空间中,通过多核优化的方法最小化源域与目标域之间的距离。2015年以后,研究者将对抗学习的方法融入跨数据集表情识别的方法中。DANN框架[3]是其中代表之一,其将源域与目标域数据在特征提取层进行混淆,学习出域判别器无法分辨的具有领域不变性的特征,从而使在源域上训练的模型同样适用于目标域。

该文的作者,提出一种新的对抗图表示自适应(AGRA)方法,将对抗学习与图表示传播结合,同时输入人脸表情的整体与局部特征。为了实现这一点,作者首先建立两个图一个图关联每个领域内的整体和局部区域,另一个图来关联不同领域内的这些区域。然后,通过学习每个域的表情类的统计分布输入图像中提取的整体-局部特征去初始化相应的图节点。最后,通过两个堆叠图卷积网络在不同的域间进行整体-局部特征的协同自适应。通过上述方式,AGRA框架可以自适应地学习细粒度的域不变特征,从而实现跨域FER。


论文方法实现

AGRA网络是基于对抗学习的思想实现的,网络整体可分为三部分,其中F为特征提取器、G为分类器、D为域鉴别器。特征提取器的目标是学习可迁移的域不变特征,域判别器则努力区分来自源域和目标域的样本。两者之间不断地对抗学习,使网络提取的模型同时适用于源域和目标域。

已有大量研究将对抗机制应用于领域自适应任务,但大部分使用的是整体特征。作者认为:局部特征更具迁移性和可区分性。例如,嘴角拉肌动作是区分快乐表情的动作,不同数据集的快乐样本都具有相似地特性。因此,在跨域FER任务中,这些局部特征更为重要,整体与局部特征地协同适应能对FER任务进行细粒度地迁移。为了实现这一点,作者提出将图传播网络与对抗学习机制相结合,以学习更细粒度地领域不变特征。其网络结构如图2所示。

图2 AGRA网络结构

图的构建

之前的研究表明,特定标记点周围的局部区域在表情识别中起着至关重要的作用,因此,作者提取了整体人脸,并进一步裁剪了以左眼(le)、右眼(re)、鼻子(no)、左嘴角(lm)、右嘴角(rm)为中心的五个局部区域,并由一个整体和五个局部构建两个图——域内图和域间图。域内图时指每个域内节点之间的连接,包含两种类型的连接,全局到局部的连接和局部到局部的连接。域间图表示来自不同域的节点之间的连接,它包含三种类型的连接,全局到全局的连接、全局到局部的连接和局部到局部的连接。


图表示自适应

图卷积网络(GCN)迭代地将节点信息传播到邻域节点,可以有效地更新图结构数据的节点特征。作者通过使用两个堆叠的GCN来分别通过两个图传播消息,第一个GCN在域内图进行消息传播以探索与每个域的整体-局部特征交互,第二个GCN在域间图间进行消息传播实现整体-局部特征协同适应。

输入处理。作者对源域的输入样本,提取相应的局部区域图像,并用整体图像和五个局部图像初始化源域的相应图节点。根据目标域所有聚类的特征分布计算该样本的距离,得到距离最小的聚类c,并特通过征分布对目标域的每个图节点进行初始化。

特征提取。初始化特征矩阵图后,作者对输入特征矩阵图进行图卷积运算,通过叠加的图卷积层前向传播和更新节点特征,充分挖掘域内图中的节点消息后得到域内图特征矩阵。连接域间图的节点进行域间图的初始化,同样经过图形卷积运算生成最终的特征矩阵H。

特征自适应。将源域节点的特征连接起来作为最终特征,将最终特征输入到分类器中预测表情标签和域判别器中判断其来源于哪个域。同样,给定目标域的一个样本进行同样的处理得到最终的特征,但是由于目标域没有使用表情标签,所以仅仅被送入域判别器进行域估计即可。


实验效果

如表1所示,与目前领先的方法相比,作者的方法在所有数据集上都获得了非常有竞争力的性能。由表一第二行所示,目前最先进的方法是图像特征提取的骨干网络都不相同,大都也使用不同的数据集作为源域。为了统一地比较,作者使用ResNet-50替换那些方法地主干网络,用RAF-DB替换源数据集,并分别以CK+、JAFFE、SFEW2.0、FER2013、ExpW为目标数据集进行性能对比。

表1 AGRA与最先进的技术进行比较

当使用相同的骨干网和源数据集时,作者提出的AGRA在所有数据集上的性能始终优于所有现有方法。为了综合比较,作者对所有目标数据集的精度取平均,得到平均精度,AGRA的平均准确率达到66.13%,相对其它方法提高了4.02%。

为了证明其方法地有效性,作者还进行一系列的消融实验。

表2 整体局部特征消融实验

AGRA方法的核心贡献是整体-局部特征协同适应模块,为了测试整体局部特征确实有效,作者对该部分进行消融实验,保持其它部分不变,改为只是使用整体特征来适应(HF),以及删除了两个GCN,并简单地连接整体局部特征以适应(即我们的HLF)与原方法进行比较。实验效果如表2所示,可以发现连接局部特征并进行整体-局部特征协同适应的平均准确率比其余两个方法高了大概6.1%,由此也能说明局部特征确实有效。


总结与思考

AGRA方法可以自适应学习细粒度的域不变特征,从而促进跨域表情识别。其创新点主要如下:

(1) 整合局部特征,实现整体-局部特征自适应。作者通过域内图关联每个域内的整体局部区域,域间图关联不同域内的区域,从而实现了全局到全局的连接、全局到局部的连接和局部到局部的连接,以此自适应学习细粒度的域不变特征。

(2) 将图表示传播与对抗学习相结合,实现跨数据集自适应。将图卷积的方法融入到对抗学习的特征提取模块,以提取整体和局部的领域不变的特征。

最后,作者通过与其它最为领先的方法进行比较,以及对其创新模块的消融实验说明其方法的有效性。但是我也产生了以下的疑问:

(1) 替换主干网络和源数据集是否影响原算法效果?在方法对比过程中,作者为了更加公平的对比,作者把对比方法的主干网替换为ResNet-50替换,源数据集替换为RAF-DB进行统一的比较。这样可能产生一个问题,替换之后据集的实验效果均低于其它原方法在该数据集的效果,如原方法在以CK+数据集为目标域的准确率达到86.49%,高于作者提出的AGRA方法的85.27%,但是替换后的ECAN方法在CK+数据集的准确率为79.77%,下降了6.72%。

(2) 如何初始化连接域内图和域间图的两个相邻矩阵?作者在论文中提到通过手工定义的方法初始化连接域内图和域间图的两个相邻矩阵,虽然通过用两个随机初始化的矩阵和两个全一的矩阵替换相邻矩阵来验证这一点的有效性。但是并未说明如何手工定义,为何要如此手工定义等问题。


参考链接

https://www.scholat.com/teamwork/showPostMessage.html?id=9498
[1] Y. Xie, T. Chen, T. Pu, H. Wu, L. Lin, Adversarial graph representation adaptation for cross-domain facial Expression recognition, Proceedings of the 28th ACM international conference on Multimedia, 2020, pp. 1255-1264.
[2] M. Long, Y. Cao, J. Wang, M. Jordan, Learning transferable features with deep adaptation networks, International conference on machine learning, PMLR, 2015, pp. 97-105.
[3] Y. Ganin, E. Ustinova, H. Ajakan, P. Germain, H. Larochelle, F. Laviolette, M. Marchand, V.J.T.j.o.m.l.r. Lempitsky, Domain-adversarial training of neural networks, 17 (2016) 2096-2030.

论文下载地址:https://dl.acm.org/doi/10.1145/3394171.3413822