您的位置:山东大学 -> 科技期刊社 -> 《山东大学学报(理学版)》

J4

• 论文 • 上一篇    下一篇

基于粒子群优化的快速KNN分类算法

张国英,沙 芸,江慧娜   

  1. 北京石油化工学院信息工程学院, 北京102617
  • 收稿日期:2006-04-01 修回日期:1900-01-01 出版日期:2006-10-24 发布日期:2006-10-24
  • 通讯作者: 张国英

An improved KNN classification algorithm based on particle swarm optimization

ZHANG Guo-ying,SHA Yun,JIANG Hui-na   

  1. Department of Information Technology, Beijing Institute of Petrochemical Technology, Beijing 102617, China
  • Received:2006-04-01 Revised:1900-01-01 Online:2006-10-24 Published:2006-10-24
  • Contact: ZHANG Guo-ying

摘要: 提出了一种有效的快速k近邻分类文本分类算法,即PSOKNN算法,该算法利用粒子群优化方法的随机搜索能力在训练文档集中进行有指导的全局随机搜索. 在搜索k近邻的过程中,粒子群跳跃式移动,掠过大量不可能成为k近邻的文档向量,从而可以快速找到测试样本的k个近邻. 以Reuters21578文档集分类为例验证算法的有效性,结果表明,保持k近邻法分类精度,新算法比KNN算法降低分类时间70%.

关键词: KNN分类器, 粒子群优化算法, 文本相似度 , 文本分类

Abstract: An efficient algorithm PSOKNN is proposed to reduce the computational complexity of KNN text classification algorithm, it is based on particle swarm optimization which has random and irected global search ability to search randomly and directed within training document set. During the procedure for searching k nearest neighbors of tested sample, the particle swarm moves jumpily, and those document vectors that are impossible to be the k closest vectors are kicked out quickly. By classifying Reuters21578,the veracity of KNNPSO is the same as that of KNN, and PSOKNN reduces approximate 70% classification than KNN.

Key words: text similarity , text classification, particle swarm optimization algorithm, KNN classifier

[1] 马兰,李伟岸,尹天懿. 基于变邻域搜索改进的冲突解脱粒子群算法[J]. 山东大学学报(理学版), 2017, 52(1): 23-28.
[2] 万中英,王明文,左家莉,万剑怡. 结合全局和局部信息的特征选择算法[J]. 山东大学学报(理学版), 2016, 51(5): 87-93.
[3] 马成龙, 姜亚松, 李艳玲, 张艳, 颜永红. 基于词矢量相似度的短文本分类[J]. 山东大学学报(理学版), 2014, 49(12): 18-22.
[4] 郑妍, 庞琳, 毕慧, 刘玮, 程工. 基于情感主题模型的特征选择方法[J]. 山东大学学报(理学版), 2014, 49(11): 74-81.
[5] 王少鹏, 彭岩, 王洁. 基于LDA的文本聚类在网络舆情分析中的应用研究[J]. 山东大学学报(理学版), 2014, 49(09): 129-134.
[6] 刘伍颖,易绵竹,张兴. 一种时空高效的多类别文本分类算法[J]. J4, 2013, 48(11): 99-104.
[7] 万智萍1,吕志民1,2*. 一种自适应物种寻优的无线Mesh网络QoS路由算法[J]. J4, 2013, 48(09): 10-16.
[8] 蒋盛益1,庞观松2,张建军3. 基于聚类的垃圾邮件识别技术研究[J]. J4, 2011, 46(5): 71-76.
[9] 黄贤立,罗冬梅. 倾向性文本迁移学习中的特征重要性研究[J]. J4, 2010, 45(7): 13-17.
[10] 李彬1,2,李贻斌1,荣学文1. ELM-RBF神经网络的智能优化策略[J]. J4, 2010, 45(5): 48-51.
[11] 吴瑞海 董吉文 段琪庆. 变尺度混沌粒子群与小波的地基沉降预测应用[J]. J4, 2009, 44(11): 75-78.
[12] 袁晓航,杜小勇 . iRIPPER——一种改进的基于规则学习的文本分类算法[J]. J4, 2007, 42(11): 66-68 .
[13] 张华伟,王明文,甘丽新 . 基于随机森林的文本分类模型研究[J]. J4, 2006, 41(3): 139-143 .
[14] 万海平,何华灿,周延泉 . 局部核方法及其应用[J]. J4, 2006, 41(3): 18-20 .
[15] 余俊英,王明文,盛 俊 . 文本分类中的类别信息特征选择方法[J]. J4, 2006, 41(3): 144-148 .
Viewed
Full text


Abstract

Cited

  Shared   
  Discussed   
No Suggested Reading articles found!