山东大学学报(理学版) ›› 2014, Vol. 49 ›› Issue (09): 150-153.doi: 10.6040/j.issn.1671-9352.2.2014.235
吴熙曦1,2, 李炳龙1,2, 张天琪3
WU Xi-xi1,2, LI Bing-long1,2, ZHANG Tian-qi3
摘要: 针对微信数据多,无法从中快速找到与案件相关数据的问题,提出了一种基于KNN(k-nearest neighbor)算法的Android智能手机微信取证方法。引入词语相似度计算会话间的距离,将微信会话表示成特征词的向量,用KNN算法对会话进行分类,迅速找到与犯罪有关的聊天内容,并通过实验验证了该方法的可行性与准确性。
中图分类号:
[1] JIANG Zongli, YI Deng. Improving KNN based text classifications[C]//Proceedings of the 2nd International Conference on Future Computer and Communication (ICFCC 2010). Piscataway: IEEE, 2010:317-337. [2] 钱晓东,王正欧. 基于改进 KNN 的文本分类方法[J].情报科学,2005, 23(4):550-554. QIAN Xiaodong, WANG Zhengou. Text classification method based on improved KNN[J]. Information Science, 2005, 23(4): 550-554. [3] SOUCY P, MINEAU G W. A simple KNN algorithm for text categorization[C]//Proceedings of IEEE International Conference on Data Mining(CDM 2001). Washington: IEEE Computer Society, 2001: 647-648. [4] 杨莉莉.基于数据挖掘的数字取证模型设计[J].南京师范大学学报,2006, 29(6):18-21. YANG Lili. Design of digital forensics model based on data mining[J]. Journal of Nanjing Normal University, 2006, 29(6):18-21. [5] 鲁婷,王浩,姚宏亮.一种基于中心文档的KNN中文文本分类算法[J].计算机工程与应用,2011, 47(2):127-130. LU Ting, WANG Hao, YAO Hongliang. A KNN Chinese text classification algorithm based on center document[J]. Computer Engineering and Applications, 2011, 47(2):127-130. [6] 田久乐,赵蔚.基于同义词词林的词语相似度计算方法[J].吉林大学学报:信息科学版,2010, 28(6):602-608. TIAN Jiule, ZHAO Wei. Words similarity algorithm based on tongyici cilin in semantic web adaptive learning system[J]. Journal of Jilin University:Information Science Edition, 2010, 28(6):602-608. |
[1] | 康海燕,马跃雷. 差分隐私保护在数据挖掘中应用综述[J]. 山东大学学报(理学版), 2017, 52(3): 16-23. |
[2] | 柳欣,徐秋亮,张波. 满足可控关联性的合作群签名方案[J]. 山东大学学报(理学版), 2016, 51(9): 18-35. |
[3] | 张凌, 任雪芳. 基数余-亏定理与数据外-内挖掘-分离[J]. 山东大学学报(理学版), 2015, 50(08): 90-94. |
[4] | 张文东1,尹金焕1,贾晓飞2,黄超1,苑衍梅1. 基于向量的频繁项集挖掘算法研究[J]. J4, 2011, 46(3): 31-34. |
[5] | 朱国红 石冰 邢晓娜. 基于特征点选择的聚类算法研究[J]. J4, 2009, 44(9): 40-42. |
[6] | 王宗利,刘希玉 . 一种基于流形的蚁群聚类算法[J]. J4, 2008, 43(11): 40-43 . |
[7] | 闫宗奎,石 冰 . 基于网格模型的孤立点检测算法[J]. J4, 2008, 43(11): 58-60 . |
[8] | 娄兰芳,潘庆先 . 基于集合运算的频繁集挖掘优化算法[J]. J4, 2008, 43(11): 54-57 . |
[9] | 纪 元,陈未如,张 雪 . 并发关系模式合成数据源生成方法[J]. J4, 2007, 42(9): 84-87 . |
[10] | 何爱香,张 勇 . 基于遗传算法和决策树的肿瘤分类规则挖掘[J]. J4, 2007, 42(9): 91-95 . |
[11] | 谷 峰,刘晨曦,吴扬扬 . 基于序列数据挖掘的中文网页特征选择方法[J]. J4, 2006, 41(3): 95-99 . |
|