2022年11月10日,在“情感脑机接口”的线上研讨会上,清华大学张丹教授在研讨会上作“基于对比学习的跨个体脑电情绪识别方法”的主题报告。
报告开始,张丹教授对脑电情绪识别的背景做了铺垫,从深度学习在棋类游戏取得的成果引入到脑机接口领域未来在情绪识别上的突破。通过对近年来人们对情绪识别这一领域的关注,点明了脑电情绪识别的重要性。
在2016年提出的面向未来的20大问题中,“Will we use wearable technologies to detect our emotion?”是其中的一大重点问题。张丹教授从可穿戴设备来检测情绪的可行性角度出发,再次说明了情绪识别的重要性。
从脑电情绪识别的准确度来看,EEG识别的正确率普遍高于其它单模态检测,张丹教授从这一角度说明了为什么人们关注使用EEG进行情绪识别。
从脑机接口的发展来看,近年来关于情绪的脑机接口愈受人们关心,成为一个在脑机接口领域细分下来的新兴的、人们越来越重视的发展范式和发展方向。这个方向中,更关注的是情绪的被动识别,而不是传统脑机接口主动的控制。
在这样的大背景下,传统的做法是将脑电数据打上对应的情绪标签,通过机器学习学到一个分类模型,这样的思路跟其它的分类模型是一致的。但其不像传统的语音识别、图像识别那么有确定性,情绪的标签是很微妙的,有很多个体化的因素在里面。标签体系的构建和诱发素材/诱发方法的建设是脑电情绪分类面临的挑战。
目前情绪诱导的常用方法是用视频来触发,在研究阶段暂时能满足,但真正走向应用时光用视频是不够的。真实的情况是人在任何自然场景环境下情绪都能发生,不一定需要视频或图片进行诱发,这也是在数据构建阶段遇到的挑战。
从标签体系来说,关于情绪理论还没有一个统一的标准,不同数据集对于情绪的标注方式并不完全一致,DEAP数据集采用的是唤起度和效价的二维连续标注,SEED数据集采用的是离散的情绪标注方式,其标注的方法皆有其合理性,目前还没有一种盖棺定论的方法,脑电情绪识别领域还正在发展中。
目前跨个体的情绪识别准确度不高,想提高准确率需要被试的历史数据进行学习,这也限制了目前情绪识别的应用。不过张丹教授对此保持乐观态度,相较于语音识别近年来的发展,相信未来脑机情绪领域也能在跨个体的情绪识别有所突破。
可以看出不同个体间的特征降维到二维后差异还是很大的,但个体间的差异很好区分,这点从个体内和跨个体的分类正确率区别中也看得出来。
跨个体间的差异也并不是全无是处,或许能通过这些差异在正常人与病人间找出差异之处,从而更好地辅助其它领域。
如果想做跨个体的情绪识别,张丹教授分享了两种方法:域适应(Domain Adaptation, DA)、域泛化(Domain Generalization, DG)。域适应方法是根据新数据在历史数据中的相似性,使用历史数据中与之相似性更高的来建立分类模型应用到新的个体。
域泛化方法能够更好地习得每个人的个体化信息,通过模型的泛化对特征进行更好的建模。
另一种角度来看,不单单从脑电强度出发,人们在对同一事件的脑电相应的一致性也能反应情绪的不同。人与人之间脑电强弱不一定相同,但对同一事件的大脑相应区域是类似的,说明这种人的神经活动一致性能够用来描述情绪的状态。这是张丹教授本次报告想要分享的重点。
人与人之间脑电的相关性有多种计算方式。Hasson等仅计算了多人脑电之间的平均信息,张丹教授分享了其它的一些计算方式,例如计算相位响应和幅度响应、寻找关键成分来反应一致性表达。
是否能用深度学习方法进行优化?如何更加关注个体间的一致性对情绪的贡献?张丹教授提出了基于对比学习的跨个体脑电情绪识别方法,该模型不再是学习样本到标签的特征,而是每次都是成对的正负样本进行呈现,标签仅作为判断正负样本的参考。这种方式更加接近于人类的学习方法,人去学习时并不是学习具体的标签,而是通过对比的方式总结出一类物体该有的特征。
Contrastive Learning for Inter-Subject Alignment(CLISA)是张丹教授提出的基于对比学习的跨个体脑电情绪识别方法。该方法的样本的定义较为保守,观看相同的视频时,即感知觉一致时产生的脑电即为正样本,观看不同情绪触发视频为负样本。在模型的构建上引入了时域卷积和空域卷积这些模块,使之更具有生理的可解释性和适配数据的特点。
在预测模型中,将原始数据压缩编码后提取微分熵(Didderential Entropy, DE)特征,进行进一步特征提取与分类,最后再输出结果。
在自采数据集中,选择的情绪从积极、中性、消极出发,共有3大类9小类,相较于SEED数据集相比,数据量更加庞大与完善,能够更好地在对比学习上使用。
在效果验证上,更好的测试应该是使用诱发相同情绪的不同视频片段,而不是在训练中使用过的视频继续测试,这样能够更泛化地测试出模型的性能。在测试结果中,可以看出对比学习随着被试样本的增多,验证准确率有明显的提升。
张丹教授最后总结到,通过时域卷积和空域卷积,能够更加可视化地看出大脑是以何种机制支持我们的情绪识别,能够更加符合生理预期形态的描述。在积极、中性、消极的情绪中的最大贡献成分里,空间分布是比较类似的,都集中在前额的不对称表达,不一样的是在时域频域表达上,大脑震荡的节律是在完全不同的频带上。张丹教授表示到,目前并不敢盖棺定论这其中的联系,但可以为以后的研究提供支撑。
张丹,清华大学心理学系副教授、博士生导师,清华大学脑与智能实验室兼职研究员。研究致力于运用脑电、近红外等脑成像技术开展情绪、言语等社会交互关键认知功能的神经机制研究,同时运用脑机接口、穿戴式神经生理测量技术,开展面向情感计算、人机交互、心理健康等领域的智能心理测量方法与应用研究。
原文链接
https://www.scholat.com/teamwork/showPostMessage.html?id=12631