山东大学学报(理学版) ›› 2016, Vol. 51 ›› Issue (1): 52-57.doi: 10.6040/j.issn.1671-9352.1.2015.062
马丽菲,莫倩*,杜辉
MA Li-fei, MO Qian*, DU Hui
摘要: 针对电影影评语句短小、特征矩阵稀疏问题,提出一种利用本体扩展特征矩阵的方法。首先通过传统与新型文本分类方法的比较和分析,发现适合中文短影评的分类方法,并通过试验证明决策树的短文本分类效果优于SVM、Bayes和KNN等文本分类方法,然后进一步利用决策树分类本体扩展后的特征向量。试验表明,基于本体扩展的中文短影评的分类效果比传统的分类效果提高3%,查准率达到90.1%。
中图分类号:
[1] 姜英杰.基于本体的短文本分类研究[D].长春:东北师范大学,2010. JIANG Yingjie. Research on ontology-based short-text classification[D]. Changchun: Northeast Normal University, 2010. [2] 王盛, 樊兴华.利用上下位关系的中文短文本分类[J]. 计算机应用, 2010, 30(3):603-606. WANG Sheng, FAN Xinghua. Chinese short text classification based on hyponymy relation[J]. Journal of Computer Applications, 2010, 30(3):603-606. [3] 范云杰. 基于维基百科的中文短文本分类研究[D]. 西安:西安电子科技大学, 2013. FAN Yunjie. Research on Chinese short text classification based on wikipedia[D]. Xian: Xidian University, 2013. [4] 林小俊,张猛, 暴筱,等. 基于概念网络的短文本分类方法[J]. 计算机工程, 2010, 36(21):4-6. LIN Xiaojun, ZHANG Meng, BAO Xiao, et al. Short-text classification method based on concept network[J]. Computer Engineering, 2010, 36(21):4-6. [5] 冶忠林, 杨燕, 贾真,等. 基于语义扩展的短问题分类[J]. 计算机应用, 2015, 35(3):792-796. YE Zhonglin, YANG Yan, JIA Zhen, et al. Short question classification based on semantic extensions[J]. Journal of Computer Applications, 2015, 35(3):792-796. [6] PHAN X H, NGUYEN L M, HORIGUCHI S. Learning to classify short and sparse text & web with hidden topics from large-scale data collections[C] // Proceedings of the 17th International Conference on World Wide Web. Beijing: ACM, 2008: 91-100. [7] 闫瑞, 曹先彬, 李凯. 面向短文本的动态组合分类算法[J]. 电子学报, 2009, 37(5):1019-1024. YAN Rui, CAO Xianbin, LI Kai. Dynamic assembly classification algorithm for short text[J]. Acta Electronica Sinica, 2009, 37(5):1019-1024. [8] 杨天平, 朱征宇. 使用概念描述的中文短文本分类算法[J]. 计算机应用, 2012, 32(12):3335-3338. YANG Tianping, ZHU Zhengyu. Algorithm for Chinese short-text classification using concept description[J]. Journal of Computer Applications, 2012, 32(12):3335-3338. [9] 吴薇. 大规模短文本的分类过滤方法研究[D]. 北京:北京邮电大学, 2007. WU Wei. Research on filter action and classification methods of large-scale short text[D]. Beijing: Beijing University of Posts and Telecommunications, 2007. [10] 宁亚辉, 樊兴华, 吴渝. 基于领域词语本体的短文本分类[J]. 计算机科学, 2009, 36(3):142-145. NING Yahui, FAN Xinghua, WU Yu. Short text classification based on domain word ontology[J]. Computer Science, 2009, 36(3):142-145. [11] 黄永文.中文产品评论挖掘关键技术研究[D]. 重庆:重庆大学, 2009. HUANG Yongwen. Research on key mining techniques of product reviews in Chinese[D]. Chongqing: Chongqing University, 2009. [12] 黄永光, 刘挺, 车万翔,等. 面向变异短文本的快速聚类算法[J]. 中文信息学报, 2007, 21(2):63-68. HUANG Yongguang, LIU Ting, CHE Wanxiang, et al. A fast clustering algorithm for abnormal and short texts[J]. Journal of Chinese Information Processing, 2007, 21(2):63-68. [13] 刘婧姣. 基于语义的短文本分类算法研究[D]. 郑州:郑州轻工业学院, 2013. LIU Jingjiao. The study of short text classification algorithm based on semantic[D]. Zhengzhou: Zhengzhou University of Light Industry, 2013. [14] 崔争艳. 中文短文本分类的相关技术研究[D].开封:河南大学, 2011. CUI Zhengyan. Research of Chinese short-text classification[D]. Kaifeng: Henan University, 2011. [15] 赵辉, 刘怀亮. 一种基于维基百科的中文短文本分类算法[J]. 图书情报工作, 2013, 57(11):120-124. [16] 胡勇军, 江嘉欣, 常会友. 基于LDA高频词扩展的中文短文本分类[J]. 现代图书情报技术, 2013, 234(6):42-48. [17] 吕超镇, 姬东鸿, 吴飞飞. 基于LDA特征扩展的短文本分类[J]. 计算机工程与应用, 2015, 51(4):123-127. LYU Chaozhen, JI Donghong, WU Feifei. Short text classification based on expanding feature of LDA[J]. Computer Engineering and Applications, 2015, 51(4):123-127. [18] BAUMGARTEN M, GULDENRING D, POLAND M, et al. Embedding self-awareness into objects of daily life-the smart kettle[C] // Proceedings of 2010 Sixth International Conference on Intelligent Environments. Malaysia: IEEE Computer Society, 2010: 34-39. [19] 薛亮. 基于SVM的中文文本分类系统的设计与实现[D]. 重庆:重庆大学, 2012. XUE Liang. Design and Implementation of Chinese text categorization system based on support vector machine[D]. Chongqing: Chongqing University, 2012. [20] 叶志刚. SVM在文本分类中的应用[D]. 哈尔滨:哈尔滨工程大学, 2006. YE Zhigang. Application on text classifying With SVM[D]. Harbin: Harbin Engineering University, 2006. [21] 施聪莺, 徐朝军, 杨晓江. TFIDF算法研究综述[J]. 计算机应用, 2009, 29(6):167-170. SHI Congying, XU Chaojun, YANG Xiaojiang. Study of TFIDF algorithm[J]. Journal of Computer Applications, 2009, 29(6):167-170. [22] CASTELLS P, FERNANDEZ M, VALLET D. An sdaptation of the vector-space model for ontology-based information retrieval[J]. IEEE Transactions on Knowledge & Data Engineering, 2007, 19(2):261-272. [23] QUINLAN J R. C4.5: programs for machine learning[M]. San Francisco: Morgan Kaufmann Publishers Inc, 1993. |
[1] | 严倩,王礼敏,李寿山,周国栋. 结合新闻和评论文本的读者情绪分类方法[J]. 山东大学学报(理学版), 2018, 53(9): 35-39. |
[2] | 原伟,唐亮,易绵竹. 基于本体的俄文新闻话题检测设计与实现[J]. 山东大学学报(理学版), 2018, 53(9): 49-54. |
[3] | 左芝翠,张贤勇,莫智文,冯林. 基于决策分类的分块差别矩阵及其求核算法[J]. 山东大学学报(理学版), 2018, 53(8): 25-33. |
[4] | 李会会,刘希强,辛祥鹏. 变系数Benjamin-Bona-Mahony-Burgers方程的微分不变量和精确解[J]. 山东大学学报(理学版), 2018, 53(10): 51-60. |
[5] | 杨艳,徐冰,杨沐昀,赵晶晶. 一种基于联合深度学习模型的情感分类方法[J]. 山东大学学报(理学版), 2017, 52(9): 19-25. |
[6] | 杜漫,徐学可,杜慧,伍大勇,刘悦,程学旗. 面向情绪分类的情绪词向量学习[J]. 山东大学学报(理学版), 2017, 52(7): 52-58. |
[7] | 乔虎生,白永发. 逆S-系对幺半群的刻画[J]. 山东大学学报(理学版), 2017, 52(2): 1-4. |
[8] | 罗永贵. 半群W(n,r)的极大(正则)子半群[J]. 山东大学学报(理学版), 2017, 52(10): 7-11. |
[9] | 管毅舟,徐博,林原,林鸿飞. 基于社会化标注和网页分类的个性化检索方法[J]. 山东大学学报(理学版), 2016, 51(7): 35-42. |
[10] | 万中英,王明文,左家莉,万剑怡. 结合全局和局部信息的特征选择算法[J]. 山东大学学报(理学版), 2016, 51(5): 87-93. |
[11] | 徐也,徐蔚然. 基于语义特征扩展的知识库增量引文推荐算法[J]. 山东大学学报(理学版), 2016, 51(11): 26-32. |
[12] | 陈松良. 具有非交换Sylow子群的p2q3阶群的构造[J]. 山东大学学报(理学版), 2015, 50(12): 93-97. |
[13] | 乔虎生, 文海存. 关于序主弱平坦S-系的一个推广[J]. 山东大学学报(理学版), 2015, 50(12): 109-113. |
[14] | 刘剑, 许洪波, 易绵竹, 程学旗. 面向知识级应用的多维语义本体构建[J]. 山东大学学报(理学版), 2015, 50(09): 13-20. |
[15] | 马成龙, 姜亚松, 李艳玲, 张艳, 颜永红. 基于词矢量相似度的短文本分类[J]. 山东大学学报(理学版), 2014, 49(12): 18-22. |
|