CBS |华中科技大学团队提出基于领域泛化和残差网络的生理信号情绪识别

时间：2024-02-20 00:22:44 发布：tgy 来源：类生命系统第一对焦：华中科技大学

　　【ZiDongHua 之自动化学院派收录关键词：华中科技大学机器人生理信号情绪识别】

　　CBS |华中科技大学团队提出基于领域泛化和残差网络的生理信号情绪识别

　　随着社会智能技术使用频率快速增加，情绪识别已广泛应用于机器人、营销、教育、工业等各个领域。许多研究集中在基于面部表情、口头文本、音频和身体行为的情绪识别上，但这些方法可能无法准确反映人类的情绪。

　　相比之下，生理信号情绪识别（ERPS）更可靠，因为大多数人无法通过主观意愿来操纵生理指标。目前用于情绪识别的生理信号有很多，如脑电图（EEG）、心电图（ECG）、心率变异性（HRV）、血量脉搏（BVP）、皮肤温度（TEMP）、皮电活动（EDA）。这些信号是非平稳时间序列，所以提取独特模式具有挑战性。

　　ERPS可以分为单信号法和多信号法。多信号方法理论上具有更高的准确性，因为它添加了多个生理信号。然而，同时提取同一信号的时间相关性和不同信号之间的空间相关性是一个难题。研究者们采用了一些方法来解决这个问题。例如，Oh等人放弃了时间特征的提取，将每个时间步的生理数据作为输入。Kanjo等人使用滑动窗口将生理信号切割，并将其作为单个图像输入到卷积神经网络（CNN）中进行特征提取。

　　生理信号情绪识别（ERPS）是一种受到广泛关注的技术，可以应用于许多领域。然而，由于生理信号是高频非平稳时间序列，从中提取特征比较困难。此外，ERPS还存在两个挑战：如何捕捉生理信号的时间相关性和空间相关性以及如何减少时间协变量偏移（TCS）的负面影响。

　　为了解决这些问题，研究人员提出了一种新的方法，称为DGR-ERPS。研究人员先从原始数据中提取时域和频域特征，然后将它们转换为3D图像数据，并使用基于残差网络的特征编码器进行处理。另外，研究人员还引入了一种基于领域泛化的技术来缓解TCS的负面影响。通过在两个真实数据集上进行了广泛的实验，结果表明DGR-ERPS在TCS和非TCS场景下都取得了卓越的性能。相关研究近日以A Domain Generalization and Residual Network Based Emotion Recognition from Physiological Signals 为题发表在中国科技期刊卓越行动计划高起点新刊Cyborg and Bionic Systems上。

　　论文链接：

　　https://spj.science.org/doi/10.34133/cbsystems.0074

　　方法

　　如图1所示，文献中的DGR-ERPS主要由特征预提取、3D图像数据生成、领域分割、基于残差的特征编码器和领域对齐组成。

　　图1 DGR-ERPS的总体框架如下：研究人员从原始时间序列中提取时域和频域特征，并将它们转换为3D图像数据，作为特征编码器的输入。在训练阶段，研究人员使用Kmeans++算法将训练集分割成多个域，并将它们输入到编码器中。然后，根据最大熵原理对这些域进行对齐，同时执行情绪识别任务。

　　特征预提取

　　在这项工作中，研究人员对每个子序列预先提取了七个特征，包括两个时域特征和五个频域特征。时域特征是每个子序列中数值的平均值和标准差。为了提取频域特征，研究人员计算了子序列的功率谱密度（PSD），将其从时域转换到频域。基于PSD，研究人员提取了五个频域特征，包括谱熵、重力频率、频率均值、频率标准差和均方根频率。

　　图2 特征预提取示意图

　　3D 图像数据生成

　　在时间序列分析领域，长短期记忆（LSTM）和Transformer因其强大的语义关系提取能力而被广泛采用。然而，它们也存在一些缺陷。LSTM难以提取全局信息，无法直接捕获时间序列中的长距离依赖关系；Transformer过于关注全局信息而容易忽略时间顺序信息。因此，研究人员设计了一个基于残差的特征编码器（RBFE）来处理时间序列。为了满足RBFE的输入要求，研究人员通过格拉米亚角求和场（GASF）将多元时间序列转换为3D图像数据。

　　基于残差的特征编码器

　　受残差网络的启发，研究人员构建了一个基于残差的特征编码器（RBFE），如图3所示。RBFE是一个双流网络，它接受局部3D图像和全局3D图像作为输入。单流网络的结构如下：输入层包括3D卷积层（卷积核大小为3x3x3）、批量归一化层、ReLU激活函数和3D最大池化层。输入层之后是由多个残差块组成的残差网络，最后是一个线性层。将两个单流网络的输出连接起来，并将其输入到由线性层构成的分类器中，用于情绪分类。

　　图RBFE的网络结构

　　实验使用两种类型的残差块，一种包含下采样层，另一种不包含下采样层，如图4所示。在本工作中，研究人员使用了8个残差块，其中第3、5和7个残差块包含下采样层，其他残差块没有下采样层。

　　残差块的结构

　　领域分割和对齐

　　为了解决非平稳时间序列中时间协变量平移（TCS）引起的问题，研究人员采用了基于领域泛化的技术对训练数据集进行领域分割和对齐。将训练集中相同情绪的样本分割成多个域（簇），使用分段数据进行模型训练。在训练阶段，除了主要的情绪分类任务外，研究人员还添加了领域对齐的辅助任务，即逼近这些域的特征分布。

　　领域分割的目的是最大化不同域之间的差异，而域对齐的目的是使模型学习一组网络参数，将这些域拉在一起。通过领域分割和对齐，模型能够在数据分布最差的情况下表现出色，从而在未知分布的数据中也能获得良好的性能。图5展示了领域分割和对齐的整体流程。

　　领域分割和对齐的过程

　　实验

　　数据集

　　研究人员通过进行了大量实验来验证我们的模型在基于生理信号的时间序列数据集WESAD和DEAP上的性能。

　　WESAD数据集包含8个通道的6种生理信号，包括血容量脉搏（BVP，64Hz）、心电图（ECG，700Hz）、皮电活动（EDA，700Hz、4Hz）、肌电图（EMG，700Hz）、呼吸（RESP，700Hz）、温度（TEMP，700Hz、4Hz）。这些数据来自胸部传感器和手腕传感器。该数据集收集了15名健康成年人在4种情绪状态（中性、压力、娱乐、冥想）下的生理信号。

　　DEAP数据集包含32通道脑电信号和8通道外周生理信号。在本文中，研究人员仅使用了外周生理信号，包括两个通道眼电图（EOG）、两个通道肌电图以及一个通道EDA、RESP、体积描记器（PG）和TEMP，均以128Hz采样。该数据集中有两个常用的情绪标签，分别是效价和唤醒度，取值范围都是1到9分。

　　对比结果

　　表 1 和表 2 分别显示了本文方法和基线方法在 WESAD 和 DEAP 数据集上的性能比较。总体而言，所提出的 DGR-ERPS 在非 TCS（随机分割数据集）和 TCS（按时间顺序分割数据集）情况下都实现了出色的性能。值得注意的是，所提出方法的性能在 TCS 环境中急剧下降。WESAD 数据集上的 2 个性能指标分别下降至 94.7% 和 94.0%。DEAP数据集上的退化更为严重，准确率下降了近20%，这表明TCS对模型性能产生了非常严重的负面影响。

　　表1 WESAD 数据集上的性能比较

　　表2 DEAP 数据集上的性能比较

　　消融结果

　　研究人员进行了消融研究，旨在验证特征预处理、双流网络结构和领域对齐的有效性。针对四种设置进行了试验：无特征预提取（w/o FPE）、不带双流结构（w/o DSS）、没有领域对齐（w/o DoA）和没有以上所有模块（w/o All）。图6展示了在WESAD和DEAP数据集上进行的消融实验结果。从实验结果可以看出，去除任意一个模块都会导致模型性能下降。其中，当移除所有模块时，模型表现最差。

　　 WESAD和DEAP消融研究结果

　　时间协变量偏移的影响

　　图7展示了Non-TCS和TCS情况下训练集、验证集和测试集的准确率曲线，非TCS情况下WESAD和DEAP数据集上的这三条曲线高度重叠，表明该模型没有过拟合或过拟合程度很低，证明DGR-ERPS模型具有强大的情绪分类能力。在TCS情况下，WESAD和DEAP数据集都存在不同程度的过拟合现象，因为TCS导致训练集、验证集和测试集分布不一致。此外，在DEAP数据集上过拟合现象更严重，说明TCS问题在该数据集上更加严重。

　　TCS 和非 TCS 情况下的准确度差异

　　研究人员将数据集按时间顺序分为16部分，第一部分是训练集，后15部分是测试集，这些测试集按时间顺序标记步骤1∼15。对比完整模型和去除领域对齐（w/o DoA）模型的性能，结果显示在图8中。总的来说，两个数据集上识别精度随着时间步长增加而下降，但下降幅度逐渐变小，说明测试集和训练集之间的分布差异随着时间的推移逐渐增大。此外，图中蓝色曲线高于或接近红色曲线，这证明DoA模块可以在一定程度上缓解TCS的负面影响。

　　TCS情况下的识别结果

　　混淆矩阵分析

　　通过分析了WESAD和DEAP数据集上的混淆矩阵，揭示了不同情绪的分类结果。由图9可知在WESAD数据集上，最高误分类率是“娱乐”类别，有8.8%的“娱乐”样本被误分类为“冥想”。最低误判率是“压力”类别，准确率达到98.2%。图10表示在DEAP数据集上，高效价和高唤醒的识别精度低于低效价和低唤醒。总体而言，DEAP数据集的准确率低于WESAD数据集，可能是因为WESAD数据集的标签来源更客观、更准确。

　　 WESAD 的混淆矩阵

　　DEAP的混淆矩阵

　　结论

　　研究人员提出了一种名为DGR-ERPS的方法来解决生理信号情绪识别（ERPS）的困境。该方法利用领域泛化和残差网络，将长时间序列分割并提取时域和频域特征，以降低计算复杂度。通过将这些时间序列转换为局部和全局的3D图像数据，可以捕捉不同生理信号之间的相关性。

　　同时，研究人员借鉴了残差网络的思想构建了基于残差的特征编码器。与现有的ERPS方法相比，DGR-ERPS考虑了生理信号的非平稳性，即时间协变量漂移问题。在研究中引入了基于领域泛化的技术，通过Kmeans++和最大熵原理实现领域分割和对齐。经过大量实验验证，DGR-ERPS优于以前的方法，并证明了其有效性。研究中提出的方法是一个通用框架，可以轻松扩展到其他具有非生理信号的时间序列任务。

　　作者介绍：王小平，华中科技大学人工智能与自动化学院教授，博士生导师，IEEE Senior Member，湖北省系统工程学会常务理事。研究兴趣包括类脑计算、类脑智能、忆阻器及其应用、情感计算、智能感知等。授权国家发明专利8项，发表学术论文60多篇，其中30余篇发表在IEEE Transactions等国际著名期刊上。在多个国际学术会议上担任程序委员会主席或组织委员会主席。作为项目负责人承担了国家自然科学基金重点、面上、青年、国家重点研发计划子课题、教育部博士点基金、企业横向合作等多项科研项目。

　　Cyborg and Bionic Systems 《类生命系统》期刊是由北京理工大学(BIT)和美国科学促进会(AAAS)/ Science 共同打造的综合性高水平国际化英文科技期刊。本刊是美国科学促进会(AAAS)自1880年创建Science期刊以来首个面向类生命仿生系统交叉领域的伙伴期刊，主要涵盖机器人、生物医学工程及神经工程三大交叉领域。期刊文章于2021年1月正式上线，入选“中国科技期刊卓越行动计划高起点新刊”项目，已被ESCI、EI、Scopus、Pubmed、CNKI、DOAJ等数据库收录。

　　官网链接：https://spj.science.org/journal/cbsystems/

我要收藏

点个赞吧