《山东大学学报(理学版)》 ›› 2024, Vol. 59 ›› Issue (3): 81-94.doi: 10.6040/j.issn.1671-9352.1.2022.3548

  1. 江西师范大学计算机信息工程学院, 江西 南昌 330022
  • 收稿日期:2023-05-04 出版日期:2024-03-20 发布日期:2024-03-06
  • 通讯作者: 万中英 E-mail:xqzeng@jxnu.edu.cn;libby@jxnu.edu.cn
  • 作者简介:曾雪强(1978—),男,教授,博士,研究方向为自然语言处理、情感分析、数据降维. E-mail:xqzeng@jxnu.edu.cn
  • 基金资助:

Emoji embedded representation based on emotion distribution

Xueqiang ZENG(),Yu SUN,Ye LIU,Zhongying WAN*(),Jiali ZUO,Mingwen WANG   

  1. School of Computer & Information Engineering, Jiangxi Normal University, Nanchang 330022, Jiangxi, China
  • Received:2023-05-04 Online:2024-03-20 Published:2024-03-06
  • Contact: Zhongying WAN E-mail:xqzeng@jxnu.edu.cn;libby@jxnu.edu.cn


提出了一种基于情感分布的emoji嵌入式表示方法(emoji embedded representation based on emotion distribution, EDEER)。EDEER方法采用基于BERT的情绪预测模型软标签, 从真实数据中学习emoji嵌入式表示, 通过情感分布直接建模emoji在各种情绪上的表达程度, 使嵌入式表示中包含emoji的多种情感信息。在包含emoji的中文微博数据集上的多组对比实验表明, 本文提出的方法可以有效地学习到与细粒度情绪直接关联的emoji嵌入式表示, 构建具有较高情绪表达质量的emoji表示空间。

关键词: emoji, 情绪分析, 嵌入式表示, 情感分布


This paper proposes an emoji embedded representation based on emotion distribution (EDEER) method. The EDEER method adopts the soft label of BERT-based emotion prediction model to learn emoji embedded representation from real data, and directly models the expression degree of emoji on various sentiments through emotion distribution, so that the embedded representation contains various emotional information of emoji. Multiple sets of comparative experiments on the Chinese Weibo dataset containing emoji shows that the method proposed in this paper can effectively learn emoji embedded representations that are directly related to fine-grained sentiments, and build an emoji representation space with high emotional expression quality.

Key words: emoji, sentiment analysis, embedded representation, emotion distribution


  • TP391



序号 示例 情绪
1 感谢一切,爱你们
2 满满的正月味道,让我不禁思念远在故乡的亲人
3 奋斗的人生才有意义,充实才叫人生
4 真不知道要怎么和敷衍对话的人继续聊下去


和在7种情绪上的情感分布 注: 纵坐标左侧数字表示emoji在各情绪上的表达程度, 数值越大表示emoji表达此情绪的程度越高。横坐标: 1.怒;2.恶;3.惧;4.乐;5.爱;6.悲;7.惊。"





数据集 emoji数量 含emoji的句子数 总句子数
NLP&CC2013 110 1 509 10 487
NLP&CC2014 28 637 5 918
WEC 191 8 961 39 660
总计 262 11 107 56 065



emoji 描述词 总句子数 7种情绪的句子标注数量 emoji 描述词 总句子数 7种情绪的句子标注数量
1 787 153 186 27 171 62 1 161 27 吃惊 109 14 22 3 9 2 17 42
哈哈 629 8 42 4 457 67 38 13 鄙视 106 37 38 1 5 4 17 4
抓狂 606 152 160 14 25 23 224 8 思考 105 8 30 2 20 15 19 11
539 6 8 5 273 168 74 5 亲亲 104 1 6 0 57 27 12 1
459 273 80 3 9 4 82 8 睡觉 103 8 34 3 21 7 28 2
嘻嘻 401 7 19 3 303 45 22 2 98 4 2 0 20 70 2 0
352 53 80 10 13 3 168 25 浮云 96 8 17 0 21 9 39 2
309 53 108 6 25 8 80 29 笑哈哈 92 4 5 0 62 11 8 2
拜拜 295 30 15 1 15 6 222 6 花心 87 2 6 0 42 30 2 5
悲伤 293 19 21 6 17 5 224 1 馋嘴 85 3 14 0 49 9 9 1
偷笑 276 8 28 2 172 33 26 7 威武 78 3 5 0 34 22 9 5
伤心 267 22 22 4 11 10 196 2 微风 71 1 8 1 35 12 12 2
263 74 84 5 15 3 77 5 围观 64 3 8 0 28 9 14 2
生病 258 30 53 11 8 6 147 3 62 14 28 0 2 1 16 1
呵呵 239 8 20 2 84 44 78 3 做鬼脸 61 2 8 1 32 10 7 1
可怜 208 18 24 8 23 11 121 3 熊猫 61 4 4 1 12 14 21 5
失望 206 12 27 8 6 11 139 3 蛋糕 57 0 0 0 28 24 4 1
害羞 187 7 20 10 82 37 28 3 猪头 57 9 10 0 15 12 10 1
蜡烛 185 20 12 1 20 16 114 2 崩溃 53 19 12 1 1 2 18 0
可爱 179 1 10 2 82 49 30 5 话筒 52 3 8 0 9 18 14 0
177 25 53 3 16 6 59 15 愤怒 51 35 6 0 1 1 7 1
月亮 176 7 11 3 62 47 44 2 疑问 51 8 10 0 6 4 20 3
鼓掌 174 2 13 0 95 53 9 2 鲜花 49 1 0 0 22 16 9 1
委屈 167 13 19 4 9 8 112 2 闭嘴 46 7 7 1 2 2 23 4
奥特曼 158 9 21 1 49 45 28 5 神马 44 10 9 0 8 5 11 1
黑线 145 29 52 1 10 3 38 12 42 1 20 0 3 8 8 2
兔子 141 6 11 0 85 16 20 3 38 16 10 0 0 1 11 0
130 2 20 0 60 29 14 5 下雨 37 3 6 1 4 4 18 1
泪流满面 126 13 10 5 10 5 81 2 悲催 36 0 7 1 1 1 26 0
怒骂 119 51 28 0 3 2 32 3 干杯 35 1 0 0 21 8 5 0
太阳 112 6 2 0 67 17 17 3 抱抱 32 1 1 0 25 5 0 0
110 2 2 3 65 30 5 3 30 5 7 2 0 4 12 0



情绪 情感极性 emoji数量
积极 27
积极 2
消极 5
消极 8
消极 21
消极 0
模糊 1









模型 准确率/% 平均准确率/%
CWV 0.00 1.67 11.11 0.00 9.52 0.00 9.38
DSG 80.00 8.89 37.04 50.00 42.86 100.00 43.75
fastText 60.00 6.67 3.70 0.00 0.00 100.00 7.81
BERT-EDEER 80.00 8.89 96.30 50.00 90.48 100.00 82.81


64个emoji和7种情绪之间的关联热图 注: 右侧数值表示每个emoji与各类情绪的关联强度, 颜色越深代表关联强度越高。"


7种情绪之间的关联热图 注: 右侧数值表示各类情绪与情绪间的关联强度, 颜色越深代表关联强度越高。"

