相似情绪类别识别混乱导致识别效果下降的问题一直是多模态情绪识别任务的一大挑战。针对此问题, 提出一个基于聚类群组归一化的关系图神经网络模型方法。首先使用3个不同特征提取器提取出3种模态特征, 并融入说话者编码后进行拼接, 既丰富特征表示又保留原始信息; 其次使用Transformer提取上下文信息; 最后将特征节点输入关系图卷积神经网络后, 通过对节点进行聚类分组, 并独立地进行群组归一化, 使相似节点更加相似, 缓解相似情绪容易识别混乱的问题。通过实验验证, 提出的网络模型在IEMOCAP数据集四分类上的F1值可达到86.34%, 验证该方法的有效性, 并且目前该模型达到IEMOCAP数据集的最佳性能。