您的位置:山东大学 -> 科技期刊社 -> 《山东大学学报(理学版)》

J4 ›› 2013, Vol. 48 ›› Issue (7): 72-78.

• 前沿进展 • 上一篇    下一篇

基于社会计算和机器学习的垃圾邮件识别方法的研究

董源1,徐雅斌1,2*,李卓1,2,李艳平1   

  1. 1.北京信息科技大学计算机学院, 北京 100101;
    2.北京信息科技大学网络文化与数字传播北京市重点实验室, 北京 100101
  • 收稿日期:2013-06-17 发布日期:2013-12-03
  • 通讯作者: 徐雅斌(1962- ),男,教授,研究方向为云计算与物联网. Email:xyb@bistu.edu.cn
  • 作者简介:董源(1989- ), 男,硕士研究生,研究方向为云计算与物联网. Email: 181883177@qq.com
  • 基金资助:

    国家自然科学基金资助项目(60973107);网络文化与数字传播北京市重点实验室资助项目(ICDD201106);国家社会科学基金重大项目(12&ZD234);网络文化与数字传播北京市重点实验室开放课题(ICDD201207)

Research on spam identification based on social computing and machine learning

DONG Yuan1, XU Ya-bin1,2*, LI Zhuo1,2, LI Yan-ping1   

  1. 1. School of Computer, Beijing Information Science &Technology University, Beijing 100101, China;
    2. Beijing Key Laboratory of Internet Culture and Digital Dissemination Research,
    Beijing Information Science &Technology University, Beijing 100101, China
  • Received:2013-06-17 Published:2013-12-03

摘要:

在对目前各种垃圾邮件识别方法进行研究分析的基础上,结合社会计算的理论和机器学习的方法,提出了一种新的垃圾邮件识别方法。通过利用邮件头部中能反映联系人社会关系的特征来构造一张联系人来往关系图对垃圾邮件进行初次识别,对于无法确定存在社会关系的联系人的邮件再利用机器学习的方法进行识别。实验结果表明,采用该方法进行垃圾邮件识别较之单纯采用贝叶斯方法,识别准确率有了较大的提高,同时,识别时间得到降低。

关键词: 社会计算;垃圾邮件识别;社会关系;机器学习

Abstract:

Based on the investigation and analysis of the current various spam recognition methods, a new spam identification method is proposed inspiring by social computing theory and methods of machine learning. Firstly, initial recognition of spams is taken using a relationship map of the interactions among contacts, which is constructed with the help of the characteristics in the mail heads reflecting the social relation of contacts. After that, for the mails of the contacts which are not able to be identified having social relation, recognition methods based on machine learning are taken. Through the experiments, it is demonstrated that the proposed method can identify spams more accurately while taking a shorter time, comparing with the ones based on Na-ve Bayes.

Key words: social computing; spam identification; social relations; machine learning

中图分类号: 

  • TP393
[1] 刘洋,秦丰林,葛连升. 云计算测量研究综述[J]. J4, 2013, 48(11): 27-35.
[2] 郭晓东,焦亮,仇一泓,葛连升. 基于Click和NS2的多路径域间路由
仿真器的设计与实现
[J]. J4, 2013, 48(11): 36-43.
[3] 刘乃文 刘方爱. 一种基于RP(k)的资源感知模型研究[J]. J4, 2009, 44(11): 57-62.
[4] 朱志强 许广银 许琳 连剑. 基于视频业务的病毒式移动通信交叉熵法研究[J]. J4, 2009, 44(9): 32-34.
[5] 周书旺 王英龙 郭强 魏诺. 基于微粒群算法的无线传感器网络节点定位方法[J]. J4, 2009, 44(9): 52-55.
[6] 刘颖慧 王英龙 郭强 李东岳. 带最小时间的PTF信道采样策略[J]. J4, 2009, 44(9): 56-59.
[7] 杜晓军,林柏钢,林志远,李应. 安全软件模糊测试中多种群遗传算法的研究[J]. J4, 2013, 48(7): 79-84.
Viewed
Full text


Abstract

Cited

  Shared   
  Discussed   
No Suggested Reading articles found!