aoi学院

Aisaka's Blog, School of Aoi, Aisaka University

学习报告:BIOT:结合多源数据预训练模型的跨任务生理信号学习

本篇学习报告基于Arxiv 2023的《BIOT: Cross-data Biosignal Learning in the Wild》,作者是来自伊利诺伊大学厄巴纳-香槟分校和哈佛医学院的Chaoqi Yang, M. Brandon Westover, Jimeng Sun等研究人员。这篇论文所提出的BIOT模型可以使具有不匹配通道、可变长度和缺失值的跨数据学习通过词法分析将不同的生理电信号转化为统一的”biosignal sentences”。具体来说,我们将每个通道tokenize分成固定长度的包含局部信号特征的片段,并将其拉平,形成一致的”sentences”。加入通道嵌入和相对位置嵌入来保留时空特征。


背景

BIOT模型具有通用性,适用于跨不同数据集的各种生物信号学习设置,包括针对较大模型的联合预训练。以CHB - MIT癫痫检测任务为例,初始BIOT模型在平衡精度上比基线模型提高了3 %,而预训练的BIOT模型(从其他数据源进行优化)可以进一步带来高达4%的提升。(基线模型本文定位以下几个模型:SPaRCNet、ContraWR、CNN-Transformer、FFCL、ST-Transformer)

在本文中,作者的目标是设计一种灵活的训练策略,可以处理不同通道、长度和缺失程度的生物信号数据集。例如,是否可以从异常脑电检测(一个具有64个通道,时长为5秒的二分类任务,以256Hz记录)中迁移学习来改进另一个脑电任务,如发作类型分类(一个具有16个通道,时长为10秒,频率为200Hz的多分类任务)?


原理

如图1所示,BIOT编码器级联了两个模块:①生物信号标记模块biosignal tokenization,将任意生物信号(可变长度,不同通道和缺失值) tokenizes为一个”sentence”结构。这种设计可以潜在地使先前的语言建模技术为当前的生物信号模型赋能;②线性转换器模块linear transformer,它捕获”sentence”内部复杂的token交互,同时保持线性复杂度。

图1:生物信号转换器(Biot)

生物信号标记模块 biosignal tokenization

格式不匹配可能会妨碍在其他类似数据上的应用,如不同采样率(例如, 200Hz vs 256Hz)、不匹配通道(也就是说,不同的数据集有各自的通道)、可变记录时长(每个样品30s对10s) 、缺失片段(也就是说,部分记录由于设备错误而损坏)等。因此,现有的模型可能无法利用来自不同数据集的不匹配数据。BIOT通过以下步骤来解决上述挑战:

重采样。首先通过线性插值将所有数据重采样到相同的频率。根据临床对某一生物信号的认识,可以选择一致频率。例如,根据奈奎斯特-香农采样定理,EEG和ECG信号的最高感兴趣频率通常在100 Hz左右,因此200 Hz或250 Hz可以适用于典型的EEG或ECG应用。

归一化。为了缓解不同通道和数据集之间的单位差异和幅度不匹配,使用绝对幅度的95百分位数对每个通道进行归一化。

图2:生物信号表征(实例中无重叠)

Sample 1有4个通道( Fp1、Fp2、O1、O2),持续5秒。将每个通道tokenize化分成段,然后将这20个段参数化为三个嵌入。在右边,我们用不同的颜色来表示通道(蓝色- Fp1、棕色- Fp2、绿色- O1和黄色- O2)。Sample 2有不匹配的通道(无O2 ),可变长度的( Fp1和Fp2较短且翻转)和缺失值(在O1中)。使用我们的方法,我们仍然可以在一个可比较的”sentence”中tokenize Sample 2。

线性转化器Linear transformer

图3:线性转换模块

本文想利用Transformer模型( Vaswani et al , 2017)来学习”sentence”嵌入。然而,生理电信号通常有许多通道,这可能导致长”sentence”。例如,64通道的脑电信号的(无重叠p = 0)持续时间为20秒,可以有64 × 20 = 1280个tokens,如果有重叠区域还会更长。本文采用线性注意力机制进行生物信号学习应用。

本文的线性转换器模块中的主要组件是一个线性自注意力层和一个全连接网络。为了实现稳定的训练,在每个分量之前添加了层归一化(Ba et al., 2016)、残差连接( He et al , 2016)和dropout (Srivastava et al., 2014),大大加快了收敛速度,提高了最终的性能。


实验与结果

数据集

表1:数据集统计

①SHHS是一个来自40岁及以上患者的大型睡眠脑电语料库。②PREST是一个大型的未标记的专有静息态脑电数据集。③Cardiology是五个心电数据集(最初包含6个,但排除了下面介绍的PTB - XL)的集合。④CHB - MIT是从儿科患者中收集的用于癫痫发作检测的数据库。⑤IIIC Seizure数据集,检测了6种发作-发作间的-损伤-连续发作模式中的一种( OTH、ESZ、LPD、GPD、LRDA、GRDA);⑥TUH异常脑电数据集是已被标注为正常或异常的脑电数据集;⑦TUH EEG Events ( TUEV )是包含6种事件类型之一的EEG片段注释的EEG语料库:锋电位和尖波( SPSW )、广义周期性癫痫样放电( GPED )、周期性偏侧性癫痫样放电( PLED )、眼动( EYEM )、伪迹( ARTF )和背景( BCKG );⑧PTBXL是一个具有12导联记录的用于诊断预测的心电数据集,本文将其用于心律失常表型分析。⑨HAR是一个使用智能手机加速度计和陀螺仪数据的人体行为识别数据集。

任务

①任务1:standard supervised learning

CHB - MIT和TUAB都是用来预测二进制输出的,其中TUAB使用二进制交叉熵( BCE ),而CHB - MIT由于其不平衡度(在训练集中约有0.6 %的阳性率)而使用焦点损失( Lin et al . , 2017)。我们使用平衡准确率( Balanced Acc . ),Precision-Recall曲线下面积( Area Under Precision-Recall曲线,AUC-PR )和AUROC作为衡量标准。IIIC Seizure和TUEV都是存在交叉熵损失的多类分类任务。我们采用Balanced Acc .,Cohen ‘ s Kappa和Weighted F1作为多分类评价指标。

表2:多任务EEG分类结果

②任务2:learning with missing channels and segments

该部分模拟了TUEV数据集,以模拟有缺失通道和片段的监督学习的设置,并展示了BIOT的强大性能。我们考虑了三种缺失情形:

(I)Missing segments:以等概率随机掩盖a段(每段时间为0.5 s),a = 0,1,2,3,4,5。对每个通道分别应用分段掩蔽。

(Ⅱ)Missing channels: 随机掩盖b个通道,b = 0,1,2,3,4,概率相等。我们假设掩码不会改变底层标签(对于其他情况也有同样的假设)。

(Ⅲ)Missing both channels and segments:同时执行(Ⅰ)和(Ⅱ)的策略。

图4:缺失通道或片段(对TUEV和ⅢC型癫痫的发作)的有监督学习

③任务3:unsupervised pre-training

预训练( PREST ):该模型在500万个静息态脑电样本( PREST )上预训练,批大小为2048。

预训练( PRESET + SHHS ):该模型在5M PREST和5M SHHS脑电样本上联合预训练。尽管两个数据集具有不同的样本格式,但该模型可以对它们进行编码。此外,使用2048作为批大小,并在第100个epoch保存模型。

预训练( Cardiology-12 )是在心脏病学语料库中的五个数据集的原始数据上联合预训练。我们使用1024作为批量大小,并在第100个epoch保存模型。

预训练( Cardiology-6 )与预训练( Cardiology-12 )类似,而本次实验只使用前6个心电图导联。

④任务4:supervised pre-training on other tasks

该实验在训练集CHB - MIT、IIIC Seizure、TUAB上进行预训练,在TUEV (它有16个通道,持续时间为5s)上进行微调。所有数据集均采用200Hz采样率。对预训练数据集设计了3组配置:格式( i )使用前8个通道,时长为10s;格式( ii )使用了完整的16个通道,但只使用了前5s的记录;格式( iii )采用全16通道、全10s记录。在微调过程中,我们从这些预训练的模型中移除预测层,并添加一个新的预测层来拟合TUEV数据集。

图5:对来自不同监督预训练模型的 TUEV 进行微调

(i) 在 IIIC Seizure 和 TUAB 上预训练的模型通常有利于 TUEV 上的事件分类任务。原因可能是 TUAB 和 TUEV 都是从天普大学记录的,并且共享一些共同信息,而 IIIC 癫痫发作和 TUEV 都与癫痫发作检测有关,并且可能共享一些潜在的模式。

(ii) 更多的训练前数据将对下游任务有益。尽管预训练配置(16 个通道,5 秒)与 TUEV 数据格式更一致,但结果表明,(16 个通道,10 秒)的配置编码持续时间更长,并且始终如一地工作得更好。

(iii) 与TUEV 结果相比,我们还发现,通常监督预训练(例如,对 IIIC 癫痫发作或 TUAB)比无监督预训练(例如,对 SHHS 和 PREST)更有效。


结论

本文提出了一种新的生物信号转换器模型(BIOT),该模型可以学习具有可变长度、通道和缺失值的生物信号的嵌入。BIOT可以在不同的数据之间实现有效的知识转移,并允许在多个来源进行联合培训。本实验对两个大型脑电图语料库(每个 5M)进行了广泛的评估,用于无监督预训练,以及几个用于监督学习的脑电图、心电图、人体动作感觉数据集。结果表明, BIOT在标准监督学习中优于强基线,可以有效地处理具有缺失值的学习设置。预训练的 BIOT 模型在各种下游分类任务上也显示出显着改进。


原文链接

https://www.scholat.com/teamwork/showPostMessage.html?id=14758