山东大学学报(理学版) ›› 2015, Vol. 50 ›› Issue (01): 20-25.doi: 10.6040/j.issn.1671-9352.3.2014.024
唐波, 陈光, 王星雅, 王非, 陈小慧
TANG Bo, CHEN Guang, WANG Xing-ya, WANG Fei, CHEN Xiao-hui
摘要: 由于社交媒体的普及和灵活性,微博中涌现出越来越多的新词来表达情感态度,新词的发现和情感倾向已成为微博研究的热点问题。主要介绍COAE2014评测任务3的方法与技术。首先提出了一个广义后缀树的词串抽取方法,利用左右灵活度等指标发现潜在新词。然后根据上下文信息对前一步发现的潜在新词采用多重词典,基于模板,统计情感词共现手段判断其情感倾向。最后利用搜索引擎从语义角度进一步优化情感倾向结果。实验结果表明此方法对新词发现和情感倾向判断问题是有效的。
中图分类号:
[1] 黄轩, 李熔烽. 博客语料的新词发现方法[J]. 现代电子技术, 2013,36(2):144-149. HUANG Xuan, LI Rongfeng. Discovery method of new words in blog contents[J]. Modern Electronics Technique, 2013, 36(2):144-149. [2] 郑家恒,李文花.基于构词法的网络新词自动识别初探[J].山西大学学报:自然科学版,2002,25(2):115-119. ZHENG Jiahuan, LI Wenhua. A study on automatic identification for internet new words according to word-building rule[J]. Journal of Shanxi University: Natural Science Edition, 2002, 25(2):115-119. [3] LIU Tao, LIU Bingquan, XU Zhiming, et al. Automatic domain-specific term extraction and its application in text classification[J]. Acta Electronica Sinica, 2007, 35(2):328-332. [4] 林自芳,蒋秀凤.基于词内部模式的新词识别[J].计算机与现代化,2010(11):56-58. LIN Zifang, JIANG Xiufeng. A new method for Chinese new word identification based on inner pattern of word[J]. Computer and Modernization, 2010(11):56-58. [5] 苏其龙. 微博新词发现研究[D]. 哈尔滨:哈尔滨工业大学, 2013. SU Qilong. Research on new word detection from Microblog data[D]. Harbin:Harbin Institute of Technology, 2013. [6] UKKONEN E. On-line construction of suffix trees[J]. Algorithmica, 1995, 14(3):249-260. [7] 徐硕, 乔晓东, 朱礼军, 等. 广义后缀树及其在汉语科技词系统中的应用研究[J]. 数字图书馆论坛, 2013(004):37-41. XU Shuo, QIAO Xiaodong, ZHU Lijun, et al. Generalized suffix trees with its applications in Chinese scientific technical vocabulary system[J]. Digital Library Forum, 2013(004): 37-41. [8] 赵妍妍, 秦兵, 刘挺. 文本情感分析[J]. 软件学报, 2010, 21(8):1834-1848. ZHAO Yanyan, QIN Bing, LIU Ting. Sentiment analysis[J]. Journal of Software, 2010, 21(8):1834-1848. [9] RAO D, RAVICHANDRAN D. Semi-supervised polarity lexicon induction[C]// Proceedings of the 12th Conference of the European Chapter of the Association for Computational Linguistics. Stroudsburg: Association for Computational Linguistics, 2009: 675-682. [10] 李钝, 乔保军, 曹元大, 等. 基于语义分析的词汇倾向识别研究[J]. 模式识别与人工智能, 2008, 21(4):482-487. LI Dun, QIAO Baojun, CAO Yuanda, et al. Word orientation recognition based on semantic analysis[J]. Pattern Recognition and Artificial Intelligence, 2008, 21(4):482-487. [11] 田久乐, 赵蔚. 基于同义词词林的词语相似度计算方法[J]. 吉林大学学报: 信息科学版, 2010(006):602-608. TIAN Jiule, ZHAO Wei. Words similarity algorithm based on Tongyici Cilin in semantic web adaptive learning system[J]. Journal of Jilin University: Information Science Edition, 2010(006):602-608. [12] TURNEY P D. Thumbs up or thumbs down?: semantic orientation applied to unsupervised classification of reviews[C]// Proceedings of the 40th Annual Meeting on Association for Computational Linguistics. Somerset: Association for Computational Linguistics, 2002: 417-424. [13] 宋继华, 杨尔弘, 王强军. 中文信息处理教程[M]. 北京:高等教育出版社, 2011: 74-75. SONG Jihua, YANG Erhong, WANG Qiangjun. Chinese information processing tutorial[M]. Beijing: Higher Education Press, 2011: 74-75. [14] 王立希, 王建东. 基于数据挖掘的新词发现[J].计算机应用研究, 2006,2(12):195-197. WANG Lixi, WANG Jiandong. Approach for lexicon updating based on data mining[J]. Application Research of Computers, 2006, 2(12):195-197. |
[1] | 张聪,裴家欢,黄锴宇,黄德根,殷章志. 基于语义图优化算法的中文微博观点摘要研究[J]. 山东大学学报(理学版), 2017, 52(7): 59-65. |
[2] | 张中军,张文娟,于来行,李润川. 基于网络距离和内容相似度的微博社交网络社区划分方法[J]. 山东大学学报(理学版), 2017, 52(7): 97-103. |
[3] | 胡默之,姚天昉. 中文微博观点句识别及评价对象抽取方法[J]. 山东大学学报(理学版), 2016, 51(7): 81-89. |
[4] | 孙赫,李淑琴,吕学强,刘克会. 微博城市投诉文本中的地理位置实体识别[J]. 山东大学学报(理学版), 2016, 51(3): 77-85. |
[5] | 朱梦珺,蒋洪迅,许伟. 基于金融微博情感与传播效果的股票价格预测[J]. 山东大学学报(理学版), 2016, 51(11): 13-25. |
[6] | 何炎祥, 刘健博, 孙松涛, 文卫东. 基于层叠条件随机场的微博商品评论情感分类[J]. 山东大学学报(理学版), 2015, 50(11): 67-73. |
[7] | 王立人, 余正涛, 王炎冰, 高盛祥, 李贤慧. 基于有指导LDA用户兴趣模型的微博主题挖掘[J]. 山东大学学报(理学版), 2015, 50(09): 36-41. |
[8] | 昝红英, 吴泳钢, 贾玉祥, 牛桂玲. 基于多源知识的中文微博命名实体链接[J]. 山东大学学报(理学版), 2015, 50(07): 9-16. |
[9] | 周超, 严馨, 余正涛, 洪旭东, 线岩团. 融合词频特性及邻接变化数的微博新词识别[J]. 山东大学学报(理学版), 2015, 50(03): 6-10. |
[10] | 刘培玉, 张艳辉, 朱振方, 荀静. 融合表情符号的微博文本倾向性分析[J]. 山东大学学报(理学版), 2014, 49(11): 8-13. |
[11] | 匡冲, 刘知远, 孙茂松. 微博转发者的个性化排序[J]. 山东大学学报(理学版), 2014, 49(11): 31-36. |
[12] | 杨佳能, 阳爱民, 周咏梅. 基于语义分析的中文微博情感分类方法[J]. 山东大学学报(理学版), 2014, 49(11): 14-21. |
[13] | 孙松涛, 何炎祥, 蔡瑞, 李飞, 贺飞艳. 面向微博情感评测任务的多方法对比研究[J]. 山东大学学报(理学版), 2014, 49(11): 43-50. |
[14] | 田海龙, 朱艳辉, 梁韬, 马进, 刘璟. 基于三支决策的中文微博观点句识别研究[J]. 山东大学学报(理学版), 2014, 49(08): 58-65. |
[15] | 于然1,2,刘春阳3*,靳小龙1,王元卓1,程学旗1. 基于多视角特征融合的中文垃圾微博过滤[J]. J4, 2013, 48(11): 53-58. |
|