您的位置:山东大学 -> 科技期刊社 -> 《山东大学学报(理学版)》

山东大学学报(理学版) ›› 2016, Vol. 51 ›› Issue (1): 52-57.doi: 10.6040/j.issn.1671-9352.1.2015.062

• • 上一篇    下一篇

面向中文短影评的分类技术研究

马丽菲,莫倩*,杜辉   

  1. 北京工商大学计算机与信息工程学院, 北京 100048
  • 收稿日期:2015-09-18 出版日期:2016-01-16 发布日期:2016-11-29
  • 通讯作者: 莫倩(1972— ),男, 博士研究生,副教授,CCF高级会员,研究方向为互联网信息挖掘、深度搜索引擎、知识管理. ;E-mail:moqian@btbu.edu.cn; E-mail:mali_fei@163.com
  • 作者简介:马丽菲(1991— ),女,硕士研究生,CCF会员,研究方向为数据挖掘、文本挖掘. E-mail:mali_fei@163.com
  • 基金资助:
    国家自然科学基金资助项目(61170112)

Research on classification for Chinese short film reviews

MA Li-fei, MO Qian*, DU Hui   

  1. School of Computer and Information Engineering, Beijing Technology and Business University, Beijing 100048, China
  • Received:2015-09-18 Online:2016-01-16 Published:2016-11-29

摘要: 针对电影影评语句短小、特征矩阵稀疏问题,提出一种利用本体扩展特征矩阵的方法。首先通过传统与新型文本分类方法的比较和分析,发现适合中文短影评的分类方法,并通过试验证明决策树的短文本分类效果优于SVM、Bayes和KNN等文本分类方法,然后进一步利用决策树分类本体扩展后的特征向量。试验表明,基于本体扩展的中文短影评的分类效果比传统的分类效果提高3%,查准率达到90.1%。

关键词: 分类, 本体, 中文短影评, 决策树

Abstract: Aiming at the problems of film reviews that the sentences are short and characteristics matrix is sparse, a method using ontology to expand the matrix was proposed. Through comparison and analysis of traditional and developmental text classification methods, a suitable way for Chinese short film reviews classification was found. The experiment results proved that the decision tree is better than the SVM, Bayes and KNN in this essay, and the decision tree classifier was further used to classify the feature vectors of the ontology expanding. The results of experiment showed that the effect of Chinese short film reviews classification based on the ontology expanding was 3% higher than the traditional methods, and the classification accuracy reached 90.1%.

Key words: Chinese short film reviews, classification, decision tree, ontology

中图分类号: 

  • TP391
[1] 姜英杰.基于本体的短文本分类研究[D].长春:东北师范大学,2010. JIANG Yingjie. Research on ontology-based short-text classification[D]. Changchun: Northeast Normal University, 2010.
[2] 王盛, 樊兴华.利用上下位关系的中文短文本分类[J]. 计算机应用, 2010, 30(3):603-606. WANG Sheng, FAN Xinghua. Chinese short text classification based on hyponymy relation[J]. Journal of Computer Applications, 2010, 30(3):603-606.
[3] 范云杰. 基于维基百科的中文短文本分类研究[D]. 西安:西安电子科技大学, 2013. FAN Yunjie. Research on Chinese short text classification based on wikipedia[D]. Xian: Xidian University, 2013.
[4] 林小俊,张猛, 暴筱,等. 基于概念网络的短文本分类方法[J]. 计算机工程, 2010, 36(21):4-6. LIN Xiaojun, ZHANG Meng, BAO Xiao, et al. Short-text classification method based on concept network[J]. Computer Engineering, 2010, 36(21):4-6.
[5] 冶忠林, 杨燕, 贾真,等. 基于语义扩展的短问题分类[J]. 计算机应用, 2015, 35(3):792-796. YE Zhonglin, YANG Yan, JIA Zhen, et al. Short question classification based on semantic extensions[J]. Journal of Computer Applications, 2015, 35(3):792-796.
[6] PHAN X H, NGUYEN L M, HORIGUCHI S. Learning to classify short and sparse text & web with hidden topics from large-scale data collections[C] // Proceedings of the 17th International Conference on World Wide Web. Beijing: ACM, 2008: 91-100.
[7] 闫瑞, 曹先彬, 李凯. 面向短文本的动态组合分类算法[J]. 电子学报, 2009, 37(5):1019-1024. YAN Rui, CAO Xianbin, LI Kai. Dynamic assembly classification algorithm for short text[J]. Acta Electronica Sinica, 2009, 37(5):1019-1024.
[8] 杨天平, 朱征宇. 使用概念描述的中文短文本分类算法[J]. 计算机应用, 2012, 32(12):3335-3338. YANG Tianping, ZHU Zhengyu. Algorithm for Chinese short-text classification using concept description[J]. Journal of Computer Applications, 2012, 32(12):3335-3338.
[9] 吴薇. 大规模短文本的分类过滤方法研究[D]. 北京:北京邮电大学, 2007. WU Wei. Research on filter action and classification methods of large-scale short text[D]. Beijing: Beijing University of Posts and Telecommunications, 2007.
[10] 宁亚辉, 樊兴华, 吴渝. 基于领域词语本体的短文本分类[J]. 计算机科学, 2009, 36(3):142-145. NING Yahui, FAN Xinghua, WU Yu. Short text classification based on domain word ontology[J]. Computer Science, 2009, 36(3):142-145.
[11] 黄永文.中文产品评论挖掘关键技术研究[D]. 重庆:重庆大学, 2009. HUANG Yongwen. Research on key mining techniques of product reviews in Chinese[D]. Chongqing: Chongqing University, 2009.
[12] 黄永光, 刘挺, 车万翔,等. 面向变异短文本的快速聚类算法[J]. 中文信息学报, 2007, 21(2):63-68. HUANG Yongguang, LIU Ting, CHE Wanxiang, et al. A fast clustering algorithm for abnormal and short texts[J]. Journal of Chinese Information Processing, 2007, 21(2):63-68.
[13] 刘婧姣. 基于语义的短文本分类算法研究[D]. 郑州:郑州轻工业学院, 2013. LIU Jingjiao. The study of short text classification algorithm based on semantic[D]. Zhengzhou: Zhengzhou University of Light Industry, 2013.
[14] 崔争艳. 中文短文本分类的相关技术研究[D].开封:河南大学, 2011. CUI Zhengyan. Research of Chinese short-text classification[D]. Kaifeng: Henan University, 2011.
[15] 赵辉, 刘怀亮. 一种基于维基百科的中文短文本分类算法[J]. 图书情报工作, 2013, 57(11):120-124.
[16] 胡勇军, 江嘉欣, 常会友. 基于LDA高频词扩展的中文短文本分类[J]. 现代图书情报技术, 2013, 234(6):42-48.
[17] 吕超镇, 姬东鸿, 吴飞飞. 基于LDA特征扩展的短文本分类[J]. 计算机工程与应用, 2015, 51(4):123-127. LYU Chaozhen, JI Donghong, WU Feifei. Short text classification based on expanding feature of LDA[J]. Computer Engineering and Applications, 2015, 51(4):123-127.
[18] BAUMGARTEN M, GULDENRING D, POLAND M, et al. Embedding self-awareness into objects of daily life-the smart kettle[C] // Proceedings of 2010 Sixth International Conference on Intelligent Environments. Malaysia: IEEE Computer Society, 2010: 34-39.
[19] 薛亮. 基于SVM的中文文本分类系统的设计与实现[D]. 重庆:重庆大学, 2012. XUE Liang. Design and Implementation of Chinese text categorization system based on support vector machine[D]. Chongqing: Chongqing University, 2012.
[20] 叶志刚. SVM在文本分类中的应用[D]. 哈尔滨:哈尔滨工程大学, 2006. YE Zhigang. Application on text classifying With SVM[D]. Harbin: Harbin Engineering University, 2006.
[21] 施聪莺, 徐朝军, 杨晓江. TFIDF算法研究综述[J]. 计算机应用, 2009, 29(6):167-170. SHI Congying, XU Chaojun, YANG Xiaojiang. Study of TFIDF algorithm[J]. Journal of Computer Applications, 2009, 29(6):167-170.
[22] CASTELLS P, FERNANDEZ M, VALLET D. An sdaptation of the vector-space model for ontology-based information retrieval[J]. IEEE Transactions on Knowledge & Data Engineering, 2007, 19(2):261-272.
[23] QUINLAN J R. C4.5: programs for machine learning[M]. San Francisco: Morgan Kaufmann Publishers Inc, 1993.
[1] 严倩,王礼敏,李寿山,周国栋. 结合新闻和评论文本的读者情绪分类方法[J]. 山东大学学报(理学版), 2018, 53(9): 35-39.
[2] 原伟,唐亮,易绵竹. 基于本体的俄文新闻话题检测设计与实现[J]. 山东大学学报(理学版), 2018, 53(9): 49-54.
[3] 左芝翠,张贤勇,莫智文,冯林. 基于决策分类的分块差别矩阵及其求核算法[J]. 山东大学学报(理学版), 2018, 53(8): 25-33.
[4] 李会会,刘希强,辛祥鹏. 变系数Benjamin-Bona-Mahony-Burgers方程的微分不变量和精确解[J]. 山东大学学报(理学版), 2018, 53(10): 51-60.
[5] 杨艳,徐冰,杨沐昀,赵晶晶. 一种基于联合深度学习模型的情感分类方法[J]. 山东大学学报(理学版), 2017, 52(9): 19-25.
[6] 杜漫,徐学可,杜慧,伍大勇,刘悦,程学旗. 面向情绪分类的情绪词向量学习[J]. 山东大学学报(理学版), 2017, 52(7): 52-58.
[7] 乔虎生,白永发. S-系对幺半群的刻画[J]. 山东大学学报(理学版), 2017, 52(2): 1-4.
[8] 罗永贵. 半群W(n,r)的极大(正则)子半群[J]. 山东大学学报(理学版), 2017, 52(10): 7-11.
[9] 管毅舟,徐博,林原,林鸿飞. 基于社会化标注和网页分类的个性化检索方法[J]. 山东大学学报(理学版), 2016, 51(7): 35-42.
[10] 万中英,王明文,左家莉,万剑怡. 结合全局和局部信息的特征选择算法[J]. 山东大学学报(理学版), 2016, 51(5): 87-93.
[11] 徐也,徐蔚然. 基于语义特征扩展的知识库增量引文推荐算法[J]. 山东大学学报(理学版), 2016, 51(11): 26-32.
[12] 陈松良. 具有非交换Sylow子群的p2q3阶群的构造[J]. 山东大学学报(理学版), 2015, 50(12): 93-97.
[13] 乔虎生, 文海存. 关于序主弱平坦S-系的一个推广[J]. 山东大学学报(理学版), 2015, 50(12): 109-113.
[14] 刘剑, 许洪波, 易绵竹, 程学旗. 面向知识级应用的多维语义本体构建[J]. 山东大学学报(理学版), 2015, 50(09): 13-20.
[15] 马成龙, 姜亚松, 李艳玲, 张艳, 颜永红. 基于词矢量相似度的短文本分类[J]. 山东大学学报(理学版), 2014, 49(12): 18-22.
Viewed
Full text


Abstract

Cited

  Shared   
  Discussed   
No Suggested Reading articles found!