您的位置:山东大学 -> 科技期刊社 -> 《山东大学学报(理学版)》

山东大学学报(理学版) ›› 2015, Vol. 50 ›› Issue (01): 20-25.doi: 10.6040/j.issn.1671-9352.3.2014.024

• 论文 • 上一篇    下一篇

微博新词发现及情感倾向判断分析

唐波, 陈光, 王星雅, 王非, 陈小慧   

  1. 北京邮电大学信息与通信工程学院, 北京 100876
  • 收稿日期:2014-09-19 修回日期:2014-11-25 出版日期:2015-01-20 发布日期:2015-01-24
  • 作者简介:唐波(1990-),男,硕士研究生,研究方向为自然语言处理、机器学习.E-mail:tangbo2014@gmail.com
  • 基金资助:
    高等学校学科创新引智计划(111计划)项目(B08004);新一代宽带无线移动通信网国家科技重大专项(2011ZX03002-005-01);国家自然科学基金资助项目(61273217);博士点基金资助项目(20130005110004)

Analysis on new word detection and sentiment orientation in Micro-blog

TANG Bo, CHEN Guang, WANG Xing-ya, WANG Fei, CHEN Xiao-hui   

  1. School of Information and Communication Engineering, Beijing University of Posts and Telecommunications, Beijing 100876, China
  • Received:2014-09-19 Revised:2014-11-25 Online:2015-01-20 Published:2015-01-24

摘要: 由于社交媒体的普及和灵活性,微博中涌现出越来越多的新词来表达情感态度,新词的发现和情感倾向已成为微博研究的热点问题。主要介绍COAE2014评测任务3的方法与技术。首先提出了一个广义后缀树的词串抽取方法,利用左右灵活度等指标发现潜在新词。然后根据上下文信息对前一步发现的潜在新词采用多重词典,基于模板,统计情感词共现手段判断其情感倾向。最后利用搜索引擎从语义角度进一步优化情感倾向结果。实验结果表明此方法对新词发现和情感倾向判断问题是有效的。

关键词: 广义后缀树, 新词发现, 微博, 情感倾向分析

Abstract: Due to popularity and flexibility of social media, more increasingly created words were used to express people's feelings and attitudes. New word detection and sentiment orientation has become a hot issue in Micro-blog analysis. The methods and techniques used in Task 3 of COAE 2014 were introduced. Generalized suffix tree was employed in string extraction, which was determined as new words with metrics like left-right-flexibility of words etc. Then, with pattern-based and statistic-based methods combined with multiple lexicons, sentiment orientation of new words was decided. Search engine was also used to optimize result as a supplement from semantic perspective. Results have shown our methods effective in new word detection and sentiment orientation analysis.

Key words: Micro-blog, generalized suffix tree, sentiment orientation analysis, new word detection

中图分类号: 

  • TP391
[1] 黄轩, 李熔烽. 博客语料的新词发现方法[J]. 现代电子技术, 2013,36(2):144-149. HUANG Xuan, LI Rongfeng. Discovery method of new words in blog contents[J]. Modern Electronics Technique, 2013, 36(2):144-149.
[2] 郑家恒,李文花.基于构词法的网络新词自动识别初探[J].山西大学学报:自然科学版,2002,25(2):115-119. ZHENG Jiahuan, LI Wenhua. A study on automatic identification for internet new words according to word-building rule[J]. Journal of Shanxi University: Natural Science Edition, 2002, 25(2):115-119.
[3] LIU Tao, LIU Bingquan, XU Zhiming, et al. Automatic domain-specific term extraction and its application in text classification[J]. Acta Electronica Sinica, 2007, 35(2):328-332.
[4] 林自芳,蒋秀凤.基于词内部模式的新词识别[J].计算机与现代化,2010(11):56-58. LIN Zifang, JIANG Xiufeng. A new method for Chinese new word identification based on inner pattern of word[J]. Computer and Modernization, 2010(11):56-58.
[5] 苏其龙. 微博新词发现研究[D]. 哈尔滨:哈尔滨工业大学, 2013. SU Qilong. Research on new word detection from Microblog data[D]. Harbin:Harbin Institute of Technology, 2013.
[6] UKKONEN E. On-line construction of suffix trees[J]. Algorithmica, 1995, 14(3):249-260.
[7] 徐硕, 乔晓东, 朱礼军, 等. 广义后缀树及其在汉语科技词系统中的应用研究[J]. 数字图书馆论坛, 2013(004):37-41. XU Shuo, QIAO Xiaodong, ZHU Lijun, et al. Generalized suffix trees with its applications in Chinese scientific technical vocabulary system[J]. Digital Library Forum, 2013(004): 37-41.
[8] 赵妍妍, 秦兵, 刘挺. 文本情感分析[J]. 软件学报, 2010, 21(8):1834-1848. ZHAO Yanyan, QIN Bing, LIU Ting. Sentiment analysis[J]. Journal of Software, 2010, 21(8):1834-1848.
[9] RAO D, RAVICHANDRAN D. Semi-supervised polarity lexicon induction[C]// Proceedings of the 12th Conference of the European Chapter of the Association for Computational Linguistics. Stroudsburg: Association for Computational Linguistics, 2009: 675-682.
[10] 李钝, 乔保军, 曹元大, 等. 基于语义分析的词汇倾向识别研究[J]. 模式识别与人工智能, 2008, 21(4):482-487. LI Dun, QIAO Baojun, CAO Yuanda, et al. Word orientation recognition based on semantic analysis[J]. Pattern Recognition and Artificial Intelligence, 2008, 21(4):482-487.
[11] 田久乐, 赵蔚. 基于同义词词林的词语相似度计算方法[J]. 吉林大学学报: 信息科学版, 2010(006):602-608. TIAN Jiule, ZHAO Wei. Words similarity algorithm based on Tongyici Cilin in semantic web adaptive learning system[J]. Journal of Jilin University: Information Science Edition, 2010(006):602-608.
[12] TURNEY P D. Thumbs up or thumbs down?: semantic orientation applied to unsupervised classification of reviews[C]// Proceedings of the 40th Annual Meeting on Association for Computational Linguistics. Somerset: Association for Computational Linguistics, 2002: 417-424.
[13] 宋继华, 杨尔弘, 王强军. 中文信息处理教程[M]. 北京:高等教育出版社, 2011: 74-75. SONG Jihua, YANG Erhong, WANG Qiangjun. Chinese information processing tutorial[M]. Beijing: Higher Education Press, 2011: 74-75.
[14] 王立希, 王建东. 基于数据挖掘的新词发现[J].计算机应用研究, 2006,2(12):195-197. WANG Lixi, WANG Jiandong. Approach for lexicon updating based on data mining[J]. Application Research of Computers, 2006, 2(12):195-197.
[1] 张聪,裴家欢,黄锴宇,黄德根,殷章志. 基于语义图优化算法的中文微博观点摘要研究[J]. 山东大学学报(理学版), 2017, 52(7): 59-65.
[2] 张中军,张文娟,于来行,李润川. 基于网络距离和内容相似度的微博社交网络社区划分方法[J]. 山东大学学报(理学版), 2017, 52(7): 97-103.
[3] 胡默之,姚天昉. 中文微博观点句识别及评价对象抽取方法[J]. 山东大学学报(理学版), 2016, 51(7): 81-89.
[4] 孙赫,李淑琴,吕学强,刘克会. 微博城市投诉文本中的地理位置实体识别[J]. 山东大学学报(理学版), 2016, 51(3): 77-85.
[5] 朱梦珺,蒋洪迅,许伟. 基于金融微博情感与传播效果的股票价格预测[J]. 山东大学学报(理学版), 2016, 51(11): 13-25.
[6] 何炎祥, 刘健博, 孙松涛, 文卫东. 基于层叠条件随机场的微博商品评论情感分类[J]. 山东大学学报(理学版), 2015, 50(11): 67-73.
[7] 王立人, 余正涛, 王炎冰, 高盛祥, 李贤慧. 基于有指导LDA用户兴趣模型的微博主题挖掘[J]. 山东大学学报(理学版), 2015, 50(09): 36-41.
[8] 昝红英, 吴泳钢, 贾玉祥, 牛桂玲. 基于多源知识的中文微博命名实体链接[J]. 山东大学学报(理学版), 2015, 50(07): 9-16.
[9] 周超, 严馨, 余正涛, 洪旭东, 线岩团. 融合词频特性及邻接变化数的微博新词识别[J]. 山东大学学报(理学版), 2015, 50(03): 6-10.
[10] 刘培玉, 张艳辉, 朱振方, 荀静. 融合表情符号的微博文本倾向性分析[J]. 山东大学学报(理学版), 2014, 49(11): 8-13.
[11] 匡冲, 刘知远, 孙茂松. 微博转发者的个性化排序[J]. 山东大学学报(理学版), 2014, 49(11): 31-36.
[12] 杨佳能, 阳爱民, 周咏梅. 基于语义分析的中文微博情感分类方法[J]. 山东大学学报(理学版), 2014, 49(11): 14-21.
[13] 孙松涛, 何炎祥, 蔡瑞, 李飞, 贺飞艳. 面向微博情感评测任务的多方法对比研究[J]. 山东大学学报(理学版), 2014, 49(11): 43-50.
[14] 田海龙, 朱艳辉, 梁韬, 马进, 刘璟. 基于三支决策的中文微博观点句识别研究[J]. 山东大学学报(理学版), 2014, 49(08): 58-65.
[15] 于然1,2,刘春阳3*,靳小龙1,王元卓1,程学旗1. 基于多视角特征融合的中文垃圾微博过滤[J]. J4, 2013, 48(11): 53-58.
Viewed
Full text


Abstract

Cited

  Shared   
  Discussed   
No Suggested Reading articles found!