袁晓航,杜小勇
YUAN Xiao-hang, DU Xiao-yong
摘要: 基于规则学习的文本分类算法RIPPER具有易理解、易优化、高效率等特点,但是当规则所涉及的特征项很多的时候,上述优点不复存在。基于层次的规则学习算法hRIPPER采用了层次架构对RIPPER进行了改进,但其对特征项的过滤仍然有限。针对RIPPER,hRIPPER在规则学习过程中出现的问题,对规则学习的分类算法进行改进,提出了一种改进的基于规则学习的文本分类算法iRIPPER,在规则学习的同时进一步过滤噪音特征项。实验证明,该方法不但有效地提取了特征项,生成较少的规则,提高了算法的准确率和召回率,而且缩短了生成规则的时间,从而改进了规则学习分类算法的性能。
中图分类号:
[1] | 杨震,司书勇,李超阳. 基于用户隐式兴趣模型的信息推荐[J]. 山东大学学报(理学版), 2017, 52(1): 15-22. |
[2] | 万中英,王明文,左家莉,万剑怡. 结合全局和局部信息的特征选择算法[J]. 山东大学学报(理学版), 2016, 51(5): 87-93. |
[3] | 吴欢,詹静,赵勇,陶政,杨静. 一种高效虚拟化多级网络安全互联机制[J]. 山东大学学报(理学版), 2016, 51(3): 98-103. |
[4] | 马成龙, 姜亚松, 李艳玲, 张艳, 颜永红. 基于词矢量相似度的短文本分类[J]. 山东大学学报(理学版), 2014, 49(12): 18-22. |
[5] | 郑妍, 庞琳, 毕慧, 刘玮, 程工. 基于情感主题模型的特征选择方法[J]. 山东大学学报(理学版), 2014, 49(11): 74-81. |
[6] | 于然1,2,刘春阳3*,靳小龙1,王元卓1,程学旗1. 基于多视角特征融合的中文垃圾微博过滤[J]. J4, 2013, 48(11): 53-58. |
[7] | 刘伍颖,易绵竹,张兴. 一种时空高效的多类别文本分类算法[J]. J4, 2013, 48(11): 99-104. |
[8] | 戚丽丽,孙静宇*,陈俊杰. 基于均模型的IBCF算法研究[J]. J4, 2013, 48(11): 105-110. |
[9] | 张环理1,2,李豫颖3*,史开泉1. 内P(ρ,σ)-集合的随机特性-应用[J]. J4, 2013, 48(10): 23-28. |
[10] | 刘健1,尹春霞2*,原福永3. 基于非结构化P2P网络用户模型的协同过滤推荐机制[J]. J4, 2011, 46(5): 28-33. |
[11] | 蒋盛益1,庞观松2,张建军3. 基于聚类的垃圾邮件识别技术研究[J]. J4, 2011, 46(5): 71-76. |
[12] | 黄贤立,罗冬梅. 倾向性文本迁移学习中的特征重要性研究[J]. J4, 2010, 45(7): 13-17. |
[13] | 张飞1,陈萍1,张丽2. P-集合的P-分离与应用[J]. J4, 2010, 45(3): 71-75. |
[14] | 史开泉 . P-集合[J]. J4, 2008, 43(11): 77-84 . |
[15] | 黄 涛,谢 嵘 . 垃圾邮件过滤研究与实现[J]. J4, 2007, 42(9): 80-83 . |
|