您的位置:山东大学 -> 科技期刊社 -> 《山东大学学报(理学版)》

山东大学学报(理学版) ›› 2016, Vol. 51 ›› Issue (7): 81-89.doi: 10.6040/j.issn.1671-9352.1.2015.089

• • 上一篇    下一篇

中文微博观点句识别及评价对象抽取方法

胡默之1,2,姚天昉1*   

  1. 1.上海交通大学计算机科学与工程系, 上海 200240;2.携程计算机技术(上海)有限公司, 上海 200335
  • 收稿日期:2015-11-14 出版日期:2016-07-20 发布日期:2016-07-27
  • 通讯作者: 姚天昉(1957— ),男,博士,副教授,研究方向为意见挖掘、信息抽取、机器学习、自然语言处理等. E-mail:yao-tf@cs.sjtu.edu.cn E-mail:humozhi@gmail.com
  • 作者简介:胡默之(1980— ),男,硕士,研究方向为机器学习、自然语言处理. E-mail:humozhi@gmail.com

Recognition of Chinese Micro-blog sentiment polarity and extraction of opinion target

HU Mo-zhi1,2, YAO Tian-fang1*   

  1. 1.Department of Computer Science and Engineering, Shanghai Jiao Tong University, Shanghai 200240, China;
    2. CTRIP Computer Technology(SHANGHAI)CO., LTD., Shanghai 200335, China
  • Received:2015-11-14 Online:2016-07-20 Published:2016-07-27

摘要: 根据微博文本中句子的依存关系和情感词在依存关系中的位置来提取特征,将特征应用于最大熵模型来预测句子的情感倾向(褒义、贬义或中性)。并在此基础上,将词、词性和词在句法结构中的成分作为特征,训练条件随机场统计模型以此预测评价对象。实验结果表明,将句法依存关系作为特征应用到中文微博观点句识别中能够取得不错的效果,明显提高了中文微博观点句的识别率。

关键词: 情感倾向, 依赖分析, 中文微博, 评价对象

Abstract: According to the dependency and emotional words in sentences, we extract features and apply these features to the maximum entropy model to predict the polarity of a sentence(positive, negative or neutral). Using words, part of speech and composition of syntactic structure as a feature to train CRF model and extract opinion target. Experimental results shows that recognition rate of Chinese Micro-blogging sentiment polarity are increased obviously.

Key words: sentiment polarity, dependence analysis, Chinese Micro-blog, opinion target

中图分类号: 

  • TP391
[1] 李岩,徐蔚然,陈光.PRIS_COAE2013评测报告[C] // 第五届中文倾向性分析测评研讨会论文集(COAE2013).北京:中国中文信息学会信息检索专业委员会,2013:53-69.
[2] 朱艳辉,杜锐,鲁琳,等.中文文本情感分析与比较句的识别研究[C] // 第五届中文倾向性分析测评研讨会论文集(COAE2013).北京:中国中文信息学会信息检索专业委员会,2013:34-43.
[3] 刘志广,董喜双,关毅.中文微博情感倾向性研究[C] // 第五届中文倾向性分析测评研讨会论文集(COAE2013). 北京:中国中文信息学会信息检索专业委员会,2013:81-87.
[4] BERGER A, DELLA PIETRA S D, PIETRA V D. A maximum entropy approach to natural language processing[J]. Computational Linguistics, 1996, 22(1):39-71.
[5] 李航.统计学习方法[M].北京:清华大学出版社,2013:80-94.
[6] KHUDANPUR S, WU J. Maximum entropy techniques for exploiting syntactic, semantic and collocational dependencies in language modeling[J]. Computer Speech and Language, 2000, 14(4):355-372.
[7] MCCALLUM A, FREITAG D, PEREIRA F. Maximum entropy Markov models for information extraction and segmentation[C] // Proceedings of the 17th International Conference on Machine Learning. San Francisc: Morgan Kaufmann Publishers Inc, 2000: 591-598.
[8] LAFFERTY J D, MCCALLUM A, PEREIRA F C N. Conditional random fields: probabilistic models for segmenting and labeling sequence data[C] // Proceedings of the 18th International Conference on Machine Learning. San Francisc: Morgan Kaufmann Publishers Inc, 2001: 282-289.
[9] 李航.统计学习方法[M].北京,清华大学出版社,2013:191-210.
[10] Marie-Catherine de Marneffe, CHRISTOPHER D. Manning, Stanford typed dependencies manual [EB/OL].[2015-05-16]. http://nlp.stanford.edu/software/stanford-dependencies.shtml.
[11] DARROCH J N, RATCLIFF D. Generalized iterative scaling for log-linear models[J]. The Annals of Mathematical Statistics, 1972, 43:1470-1480.
[12] 谭松波,王素格,廖祥文,等.第五届中文倾向性分析测评总体报告[C] // 第五届中文倾向性分析测评研讨会论文集(COAE2013). 北京:中国中文信息学会信息检索专业委员会,2013:5-33.
[13] 徐叶强,朱艳辉,王文华,等.中文产品评论中评价对象的识别研究[J].计算机工程,2012,38(20):140-143. XU Yeqiang, ZHU Yanhui, WANG Wenhua, et al. Research on recognition of evaluation object in Chinese product review computer engineering[J]. Computer Engineering, 2012, 38(20):140-143.
[14] 戴敏,王荣洋,李寿山,等.基于句法特征的评价对象抽取方法研究[J].中文信息学报,2014,24(4):92-97. DAI Min, WANG Rongyang, LI Shoushan, et al. Opinion target extraction with syntactic features[J]. Journal of Chinese Information Processing, 2014, 24(4):92-97.
[15] 鲁琳,朱艳辉,杜锐,等.面向中文微博的评价对象抽取方法研究[J].科学技术与工程,2014,14(12):223-226. LU Lin, ZHU Yanhui, DU Rui, et al. Study on preparation of shaped activated carbon from coal and wood chips by phosphoric acid[J]. Science Technology and Engineering, 2014, 14(12):223-226.
[1] 陈兴俊,魏晶晶,廖祥文,简思远,陈国龙. 基于词对齐模型的中文评价对象与评价词抽取[J]. 山东大学学报(理学版), 2016, 51(1): 58-64.
[2] 昝红英, 吴泳钢, 贾玉祥, 牛桂玲. 基于多源知识的中文微博命名实体链接[J]. 山东大学学报(理学版), 2015, 50(07): 9-16.
[3] 朱珠, 李寿山, 戴敏, 周国栋. 结合主动学习和自动标注的评价对象抽取方法[J]. 山东大学学报(理学版), 2015, 50(07): 38-44.
[4] 唐波, 陈光, 王星雅, 王非, 陈小慧. 微博新词发现及情感倾向判断分析[J]. 山东大学学报(理学版), 2015, 50(01): 20-25.
[5] 杨佳能, 阳爱民, 周咏梅. 基于语义分析的中文微博情感分类方法[J]. 山东大学学报(理学版), 2014, 49(11): 14-21.
[6] 刘铭, 昝红英, 原慧斌. 基于SVM与RNN的文本情感关键句判定与抽取[J]. 山东大学学报(理学版), 2014, 49(11): 68-73.
[7] 孙松涛, 何炎祥, 蔡瑞, 李飞, 贺飞艳. 面向微博情感评测任务的多方法对比研究[J]. 山东大学学报(理学版), 2014, 49(11): 43-50.
[8] 田海龙, 朱艳辉, 梁韬, 马进, 刘璟. 基于三支决策的中文微博观点句识别研究[J]. 山东大学学报(理学版), 2014, 49(08): 58-65.
[9] 黄贤立,罗冬梅. 倾向性文本迁移学习中的特征重要性研究[J]. J4, 2010, 45(7): 13-17.
Viewed
Full text


Abstract

Cited

  Shared   
  Discussed   
No Suggested Reading articles found!