您的位置:山东大学 -> 科技期刊社 -> 《山东大学学报(理学版)》

《山东大学学报(理学版)》 ›› 2019, Vol. 54 ›› Issue (3): 46-55.doi: 10.6040/j.issn.1671-9352.1.2018.159

•   • 上一篇    下一篇

基于用户情感倾向感知的微博情感分析方法

吴洁(),朱小飞*(),张宜浩,龙建武,黄贤英,杨武   

  1. 重庆理工大学计算机科学与工程学院, 重庆 400054
  • 收稿日期:2018-10-17 出版日期:2019-03-01 发布日期:2019-03-19
  • 通讯作者: 朱小飞 E-mail:wwjj@2017.cqut.edu.cn;zxf@cqut.edu.cn
  • 作者简介:吴洁(1995—),女,硕士研究生,研究方向为机器学习和自然语言处理.E-mail:wwjj@2017.cqut.edu.cn
  • 基金资助:
    国家自然科学基金资助项目(61702063);国家自然科学基金资助项目(61502064);国家自然科学基金资助项目(61502065);国家社会科学基金资助项目(17XXW005);重庆市基础科学与前沿技术研究项目(cstc2017jcyjBX0059);重庆市基础科学与前沿技术研究项目(cstc2015jcyjBX0127);重庆市基础科学与前沿技术研究项目(cstc2017jcyjAX0144);重庆市基础科学与前沿技术研究项目(cstc2017jcyjAX0339);重庆市基础科学与前沿技术研究项目(cstc2017jcyjAX0144);重庆市教委人文社科重点研究项目(17SKG136)

User sentiment tendency aware based Micro-blog sentiment analysis method

Jie WU(),Xiao-fei ZHU*(),Yi-hao ZHANG,Jian-wu LONG,Xian-ying HUANG,Wu YANG   

  1. School of Computer Science and Engineering, Chongqing University of Technology, Chongqing 400054, China
  • Received:2018-10-17 Online:2019-03-01 Published:2019-03-19
  • Contact: Xiao-fei ZHU E-mail:wwjj@2017.cqut.edu.cn;zxf@cqut.edu.cn
  • Supported by:
    国家自然科学基金资助项目(61702063);国家自然科学基金资助项目(61502064);国家自然科学基金资助项目(61502065);国家社会科学基金资助项目(17XXW005);重庆市基础科学与前沿技术研究项目(cstc2017jcyjBX0059);重庆市基础科学与前沿技术研究项目(cstc2015jcyjBX0127);重庆市基础科学与前沿技术研究项目(cstc2017jcyjAX0144);重庆市基础科学与前沿技术研究项目(cstc2017jcyjAX0339);重庆市基础科学与前沿技术研究项目(cstc2017jcyjAX0144);重庆市教委人文社科重点研究项目(17SKG136)

摘要:

微博言论往往带有强烈的情感色彩,对微博言论的情感分析是获取用户观点态度的重要方法。许多学者都是将研究的重点集中在句子词性、情感符号以及情感语料库等方面,然而用户自身的情感倾向性并没有受到足够的重视,因此,提出了一种新的微博情感分类方法,其通过建模用户自身的情感标志得分来帮助识别语句的情感特征,具体地讲,将带有情感信息的微博语句词向量序列输入到长短期记忆网络(LSTM),并将LSTM输出的特征表示与用户情感得分进行结合作为全连接层的输入,并通过Softmax层实现了对微博文本的情感极性分类。实验表明,提出的方法UA-LSTM在情感分类任务上的表现超过的所有基准方法,并且比最优的基准方法MF-CNN在F1值上提升了3.4%,达到0.91。

关键词: 情感分析, 长短期记忆网络, 用户情感倾向

Abstract:

Micro-blog's speech often has strong sentimental color, and the sentiment analysis of Micro-blog's speech is an important way to get users' opinions and attitudes. Many researchers conduct research via focusing on the parts of speech (POS), emotion symbol and emotion corpus. This paper proposes a novel method for Micro-blog sentiment analysis, which aims to identify the sentiment features of a text by modeling user sentiment tendency. Specifically, we construct a sentiment information embedded word embedding sequence, and input it into a long short term memory (LSTM) model to get a sentiment embedded output representation. Then we merge both the user sentiment tendency score and the output representation of LSTM, and use it as the input of a fully connected layer which is followed by a softmax layer to get the final sentiment classification result. The experiment shows that the performance of our proposed method UA-LSTM is better than all the baseline methods on the sentimental classification task, and it achieves the F1-score up to 0.91, with an improvement of 3.4% over the best baseline method MF-CNN.

Key words: sentiment analysis, long short term memory, user sentiment tendency

中图分类号: 

  • TP391

图1

模型UA-LSTM网络结构图"

表1

部分表情符情感倾向表"

图2

拼接用户情感特征图"

图3

不同用户特征权重召回率对比结果"

表2

模型参数设置表"

参数名
词向量维度 200
用户特征权重μ 0.8
权重正则限制 2
dropout 0.9

图4

训练迭代次数对模型的影响"

表3

不同模型在3个指标(准确率P、召回率R、F1)上的测试结果"

模型 指标 积极 消极 总体
P 0.77 0.68 0.71
CDLS R 0.42 0.91 0.70
F1 0.54 0.78 0.70
P 0.67 0.73 0.70
LR R 0.57 0.80 0.71
F1 0.61 0.76 0.70
P 0.76 0.80 0.78
SVM R 0.69 0.85 0.78
F1 0.72 0.82 0.78
P 0.85 0.81 0.83
W2V+CNN R 0.74 0.90 0.83
F1 0.79 0.85 0.83
P 0.91 0.80 0.85
Att-CTL R 0.72 0.94 0.84
F1 0.80 0.86 0.84
P 0.91 0.86 0.88
MF-CNN R 0.79 0.95 0.88
F1 0.84 0.90 0.88
P 0.92 0.91 0.91
UA-LSTM R 0.88 0.94 0.91
F1 0.90 0.92 0.91
1 PANG B , LEE L . Opinion mining and sentiment analysis[J]. Foundations and Trends in Information Retrieval, 2008, 2 (1/2): 1- 135.
2 丁兆云, 贾焰, 周斌. 微博数据挖掘研究综述[J]. 计算机研究与发展, 2014, 51 (4): 691- 706.
DING Zhaoyun , JIA Yan , ZHOU Bin . Survey of data mining for microblogs[J]. Journal of Computer Research and Development, 2014, 51 (4): 691- 706.
3 TABOADA M , BROOTE J , TOFILOSTI M , et al. Lexicon-based methods for sentiment analysis[J]. Computational Linguistics, 2011, 37 (2): 267- 307.
doi: 10.1162/COLI_a_00049
4 WIEBE J , WILSON T , CARDIE C . Annotating expressions of opinions and emtions in language[J]. Language Resources and Evaluation, 2005, 39 (2): 165- 210.
5 BOIY E , MOENS M F . A machine learning approach to sentiment analysis in multilingual Web texts[J]. Information Retrieval, 2009, 12 (5): 526- 558.
doi: 10.1007/s10791-008-9070-z
6 陈铁明, 缪茹一, 王小号. 融合显性和隐性特征的中文微博情感分析[J]. 中文信息学报, 2016, 30 (4): 184- 192.
CHEN Tieming , MIAO Ruyi , WANG Xiaohao . Chinese micro-blog sentiment analysis using both explicit and implicit text features[J]. Journal of Chinese Information Processing, 2016, 30 (4): 184- 192.
7 万圣贤, 兰艳艳, 郭嘉丰, 等. 基于弱监督预训练深度模型的微博情感分析[J]. 中文信息学报, 2017, 31 (3): 191- 197.
WAN Shengxian , LAN Yanyan , GUO Jiafeng , et al. Pretrain deep models by distant supervision for weibo sentiment analysis[J]. Journal of Chinese Information Processing, 2017, 31 (3): 191- 197.
8 KIM Y . Convolutional neural networks for sentence classification[J]. Eprint Arxiv, 2014, 2014: 1746- 1751.
9 王文凯,王黎明,柴玉梅.基于卷积神经网络和Tree-LSTM的微博情感分析[J/OL].计算机应用研究, 2019, 36(5).(2018-03-09).http://www.arocmag.com/article/02-2019-05-007.html.
WANG Wenkan, WANG Liming, CHAI Yumei.Sentiment analysis of micro-blog based on CNN and Tree-LSTM[J/OL]. Application Research of Computers, 2019, 36(5).(2018-03-09). http://www.arocmag.com/article/02-2019-05-007.html.
10 蔡林森,彭超,陈思远,等.基于多样化特征卷积神经网络的情感分析[J/OL].计算机工程, [2018-03-14].https://doi.org/10.19678/j.issn.1000-3428.0050338.
CAI Linsen, PENG Chao, CHEN Siyuan, et al. Sentiment analysis based on multiple features vonvolutional neural networks[J/OL]. Computer Engineering, [2018-03-14]. https://doi.org/10.19678/j.issn.1000-3428.0050338.
11 赵妍妍, 秦兵, 刘挺. 文本情感分析[J]. 软件学报, 2010, 21 (8): 1834- 1848.
ZHAO Yanyan , QIN Bing , LIU Ting . Text sentiment analysis[J]. Journal of Software, 2010, 21 (8): 1834- 1848.
12 何炎祥, 孙松涛, 牛菲菲, 等. 用于微博情感分析的一种情感语义增强的深度学习模型[J]. 计算机学报, 2017, 40 (4): 773- 790.
HE Yanxiang , SUN Hongtao , NIU Feifei , et al. A deep learning model enhanced with emotion semantics for Microblog sentiment analysis[J]. Chinese Jouranal of Computers, 2017, 40 (4): 773- 790.
13 董振东.知网情感分析用词语集[CP/OL]. (2012-04-25).http://www.keenage.com.
DONG Zhendong.Word sets for HowNet sentiment analysis[CP/OL]. (2012-04-25).http://www.keenage.com.
14 赵妍妍, 秦兵, 石秋慧, 等. 大规模情感词典的构建及其在情感分类中的应用[J]. 中文信息学报, 2017, 31 (2): 187- 193.
ZHAO Yanyan , QIN Bing , SHI Qiuhui , et al. Large-scale sentiment lexicon collection and its application in sentiment classification[J]. Journal of Chinese Information Processing, 2017, 31 (2): 187- 193.
15 于海燕, 陆慧娟, 郑文斌. 情感分类中基于词性嵌入的特征权重计算方法[J]. 计算机工程与应用, 2017, 53 (22): 121- 125.
doi: 10.3778/j.issn.1002-8331.1605-0342
YU Haiyan , LU Huijuan , ZHENG Wenbin . Feature weighting method based on part of speech embedding for sentiment classification[J]. Computer Engineering and Applications, 2017, 53 (22): 121- 125.
doi: 10.3778/j.issn.1002-8331.1605-0342
16 王素格, 杨安娜, 李德玉. 基于汉语情感词表的句子情感倾向分类研究[J]. 计算机工程与应用, 2009, 45 (24): 153- 155.
doi: 10.3778/j.issn.1002-8331.2009.24.045
WANG Suge , YANG Anna , LI Deyu . Research on sentence sentiment classification based on Chinese sentiment word table[J]. Computer Engineering and Applications, 2009, 45 (24): 153- 155.
doi: 10.3778/j.issn.1002-8331.2009.24.045
17 张书卿, 周文, 欧阳纯萍, 等. 基于主体句和句法依赖的微博情感倾向性分析[J]. 南华大学学报(自然科学版), 2015, 29 (1): 109- 114.
doi: 10.3969/j.issn.1673-0062.2015.01.023
ZHANG Shuqing , ZHOU Wen , OUYANG Chunping , et al. Sentiment analysis of Micro Blog based on the main sentence and syntactic dependencies[J]. Journal of University of South China(Science and Technology), 2015, 29 (1): 109- 114.
doi: 10.3969/j.issn.1673-0062.2015.01.023
18 JIANG F , LIU Y , LUAN H , et al. Microblog sentiment analysis with emoticon space model[J]. Journal of Computer Science and Technology, 2015, 30 (5): 1120- 1129.
doi: 10.1007/s11390-015-1587-1
19 PANG B, LEE L, VAITHYANATHAN S. Thumbs up?: sentiment classification using machine learing techniques[C]//Proceedings of the ACL-02 Conference on Empirical Methods in Natural Ianguage Processing: Volume 10.[S.l]: Association for Computational Linguistics, 2002: 79-86.
20 张志琳, 宗成庆. 基于多样化特征的中文微博情感分类方法研究[J]. 中文信息学报, 2015, 29 (4): 134- 143.
doi: 10.3969/j.issn.1003-0077.2015.04.018
ZHANG Zhilin , ZONG Chengqing . Sentiment analysis of Chinese Micro Blog based on rich-features[J]. Journ al of Chinese Information Processing, 2015, 29 (4): 134- 143.
doi: 10.3969/j.issn.1003-0077.2015.04.018
21 陈钊, 徐睿峰, 桂林, 等. 结合卷积神经网络和词语情感序列特征的中文情感分析[J]. 中文信息学报, 2015, 29 (6): 172- 178.
doi: 10.3969/j.issn.1003-0077.2015.06.023
CHEN Zhao , XU Ruifeng , GUI Lin , et al. Combining convolutional neural networks and word sentiment sequence features for Chinese text sentiment analysis[J]. Journal of Chinese Information Processing, 2015, 29 (6): 172- 178.
doi: 10.3969/j.issn.1003-0077.2015.06.023
22 杨艳, 徐冰, 杨沐昀, 等. 一种基于联合深度学习模型的情感分类方法[J]. 山东大学学报(理学版), 2017, 52 (9): 19- 25.
YANG Yan , XU Bing , YANG Muyun , et al. An emotional classification method based on joint deep learning model[J]. Journal of Shandong University(Natural Science), 2017, 52 (9): 19- 25.
23 陈国兰. 基于情感词典与语义规则的微博情感分析[J]. 情报探索, 2016, (2): 1- 6.
doi: 10.3969/j.issn.1005-8095.2016.02.001
CHEN Guolan . Microblog sentiment analysis basing on emotion dictionary and semantic rule[J]. Information Research, 2016, (2): 1- 6.
doi: 10.3969/j.issn.1005-8095.2016.02.001
[1] 陈鑫,薛云,卢昕,李万理,赵洪雅,胡晓晖. 基于保序子矩阵和频繁序列模式挖掘的文本情感特征提取方法[J]. 山东大学学报(理学版), 2018, 53(3): 36-45.
[2] 余传明,冯博琳,田鑫,安璐. 基于深度表示学习的多语言文本情感分析[J]. 山东大学学报(理学版), 2018, 53(3): 13-23.
[3] 何炎祥, 刘健博, 孙松涛, 文卫东. 基于层叠条件随机场的微博商品评论情感分类[J]. 山东大学学报(理学版), 2015, 50(11): 67-73.
[4] 朱珠, 李寿山, 戴敏, 周国栋. 结合主动学习和自动标注的评价对象抽取方法[J]. 山东大学学报(理学版), 2015, 50(07): 38-44.
[5] 周文, 张书卿, 欧阳纯萍, 刘志明, 阳小华. 基于情感依存元组的新闻文本主题情感分析[J]. 山东大学学报(理学版), 2014, 49(12): 1-6.
[6] 夏梦南, 杜永萍, 左本欣. 基于依存分析与特征组合的微博情感分析[J]. 山东大学学报(理学版), 2014, 49(11): 22-30.
[7] 孙松涛, 何炎祥, 蔡瑞, 李飞, 贺飞艳. 面向微博情感评测任务的多方法对比研究[J]. 山东大学学报(理学版), 2014, 49(11): 43-50.
[8] 朱玺, 董喜双, 关毅, 刘志广. 基于半监督学习的微博情感倾向性分析[J]. 山东大学学报(理学版), 2014, 49(11): 37-42.
[9] 杨佳能, 阳爱民, 周咏梅. 基于语义分析的中文微博情感分类方法[J]. 山东大学学报(理学版), 2014, 49(11): 14-21.
[10] 张成功1,2,刘培玉1,2*,朱振方1,2,方明1,2. 一种基于极性词典的情感分析方法[J]. J4, 2012, 47(3): 47-50.
Viewed
Full text


Abstract

Cited

  Shared   
  Discussed   
[1] 赵同欣1,刘林德1*,张莉1,潘成臣2,贾兴军1. 紫藤传粉昆虫与花粉多型性研究[J]. 山东大学学报(理学版), 2014, 49(03): 1 -5 .
[2] 郭兰兰1,2,耿介1,石硕1,3,苑飞1,雷丽1,杜广生1*. 基于UDF方法的阀门变速关闭过程中的#br# 水击压强计算研究[J]. 山东大学学报(理学版), 2014, 49(03): 27 -30 .
[3] 李敏1,2,李歧强1. 不确定奇异时滞系统的观测器型滑模控制器[J]. 山东大学学报(理学版), 2014, 49(03): 37 -42 .
[4] 韩亚飞,伊文慧,王文波,王延平,王华田*. 基于高通量测序技术的连作杨树人工林土壤细菌多样性研究[J]. 山东大学学报(理学版), 2014, 49(05): 1 -6 .
[5] 马媛媛, 孟慧丽, 徐久成, 朱玛. 基于粒计算的正态粒集下的格贴近度[J]. 山东大学学报(理学版), 2014, 49(08): 107 -110 .
[6] 徐俊峰. 关于复代数微分方程亚纯解的增长级[J]. J4, 2010, 45(6): 91 -93 .
[7] 吴志军,沈丹丹. 基于信息综合集成共享的下一代网络化全球航班追踪体系结构及关键技术[J]. 山东大学学报(理学版), 2016, 51(11): 1 -6 .
[8] 曲晓英,赵 静 . 含时线性Klein-Gordon方程的解[J]. J4, 2007, 42(7): 22 -26 .
[9] 陈 勇, . 树的费用全染色的近似算法[J]. J4, 2006, 41(1): 111 -114 .
[10] 刘大琨 王淑栋. 若干广义Petersen图的关联色数[J]. J4, 2008, 43(12): 48 -51 .