本篇学习报告《MtCLSS: Multi-Task Contrastive Learning for Semi-Supervised Pediatric Sleep Staging》来自期刊IEEE JOURNAL OF BIOMEDICAL AND HEALTH INFORMATICS,发表于2023年6月。
文章提出了一种用于半监督儿科睡眠阶段识别的多任务对比学习策略,简称为MtCLSS。具体来说就是,将信号进行自适应变换(旋转/降噪/加噪音/重新排序)以提升网络的表征学习能力。除此,还引入了损失函数的拓展,将对比学习用于半监督学习——既学习了少量有监督学习的数据,又提取了经过变化的信号。最终在实际儿科数据集上准确率达0.8,F1评分为0.78,kappa分数为0.74。同时还在公认的数据集上验证了实验的有效性。
方法的提出基于儿童睡眠障碍发病率持续增加的背景,而有监督睡眠分期方法往往存在数据异质性(复杂的类内方差)。例如,儿童的脑电图和成人的脑电图相比,α节律更慢。目前,很少自动睡眠分期关注于儿童睡眠,大多数睡眠阶段识别方法大量依赖于大量的标注睡眠数据,而儿科的睡眠数据稀缺。
实验范式和数据集
实验主要采用了重庆第九人民医院的儿童睡眠数据集。有63个被试,年龄跨度从6岁到10.5岁,平均年龄是7.8岁。选取5%的数据作为标注数据,65%的数据作为未标记数据,剩下30%作为测试集用于评估模型。
同时还采用了SleepEDF-20作为有监督方法和各种先进的半监督方法以验证方法的有效性。
实验方法
输入部分包括原始的EEG信号和经过转化的相应EEG信号,分别输入主干网络,并且将两者的特征输出进行对比学习。
- 半监督学习设置。数据集D分为有标注数据集Dl和无标注数据Du 。Dl={(xp, yp), (xp+1, yp+1),…, (xP, yP)},即Dl中每个数据都有相应标签。Du={xq, xq+1,…, xQ}。Dl的数量P远小于Du数量Q,两者数量构成训练集总量。loss值为有监督loss和无监督loss的加权总和。
- 信号转化识别。由于EEG信号不同于图像的结构,数据增强的时候需要考虑时间序列信号。研究过程中采用了旋转(Rotation)、滤波(Filtering)、降噪(Noising)和重新排序(Reordering)以及通道翻转和信号剪切等数据增强方法。实验对有标签数据和无标签数据执行旋转、滤波、降噪、重排操作得到变化后的信号,XT和原始信号维度一样。然后应用多任务学习策略将信号转换识别任务附加到我们的睡眠分级框架中,促使网络更好地学习EEG表示。骨干网络通过以下损失函数进行训练,以识别四个转换任务:( 其中,T代表上述四个转换任务的集合。Trans(xi,T)表示对原始信号xi执行T,fθ是我们的主干网络,参数为θ。LCE表示标准交叉熵损失)
- 对比学习策略。原始信号X={x1,x2,x3,…,xN}通过上面介绍的变换任务进行变换,以生成N个信号对,这可以使骨干网络学习更多有用的EEG表示。对于每个xi,我们测量XT的特征相似性,以找到同源对,它们被视为正对,而其他的则被视为负对。与SimCLR类似,特征之间采用余弦相似性来寻找同源对,其定义为:
如图2所示,两种不同的策略方法分别应用于有标签数据和无标签数据。无标签数据只将原始数据和相对应的数据视为正对,通过xi和计算无监督交叉熵Lu。而有标签数据除了其对应变换数据视为正对,还将同类数据以及同类数据的变换视为正对,用于计算有监督交叉熵Ls。
- 骨干网络体系结构,如图1的branch所示。
实验与结果:
实验采用了儿童睡眠数据集和Sleep-EDF两个数据集,并分别使用了有监督、MtCLSS和若干现有较为先进的半监督方法做了对比实验,除此还横向对比了若干睡眠分期方法,通过实验验证了MtCLSS的有效性,采用了准确率、各类的精度、F1-score等指标作为标准。实验结果如下所示。
原文链接
https://www.scholat.com/teamwork/showPostMessage.html?id=13998