中国教育和科研计算机网
EDU首页 |  中国教育 |   高校科技 |   教育信息化 |   CERNET
教育信息化

资讯 | 专题 会议 观点 专栏 访谈 企业 产品 CIO 技术 校园信息化 下一代互联网 IPv6视频课堂

中国教育网 > 教育信息化
您现在的位置: EDU首页 > 教育信息化 > 网络安全 > 病毒防护 > 电子邮件
对抗垃圾邮件
http://www.edu.cn   2012-05-16 中国教育网络 作者:刘卫红

字体选择:【大】 【中】 【小】

  过滤技术

  对抗垃圾邮件最主要的技术是过滤技术,主要用于MDA(Mail Deliver Agent)和MUA(Mail User Agent)。典型的垃圾邮件过滤技术有:黑白名单、规则过滤、概率统计分类等。

  1. 黑白名单过滤

  黑白名单是一个简单有效而最为常用的过滤方法,国内外已成立权威性的反垃圾邮件联盟,提供实时的黑白名单,如中国反垃圾邮件联盟的实时黑名单RBL,包括近期中国国内的主要垃圾邮件发送源、中国国内动态分配地址等。

  该方法的优点是对垃圾邮件处理能力的要求低,它能够节省大量的带宽、存储容量和处理时间。缺点是不够灵活,对垃圾邮件的判别准确度不高。

  2. 基于规则过滤

  通常也称之为启发式过滤技术,它是利用电子邮件半结构化的特点,先使用人工或者自动的方法总结出正常邮件或者垃圾邮件之间的共性,据此来生成一系列规则。设置一些过滤规则,这些规则通常有信头分析、群发过滤、关键词精确匹配以及邮件内容中的其他特征。当邮件到达或者发送邮件的行为产生时,通过查找已有的垃圾邮件的匹配模式来过滤垃圾邮件,这需要开发商不断地更新邮件规则。

  基于规则过滤方法的优点是规则可以共享,较易理解和修改、易推广。其缺点主要在于:由于静态的规则集,系统不能自动调整邮件过滤器去识别新的垃圾邮件特征,需要开发商构造新的识别规则;更新速度慢。另外,基于规则的过滤技术能够得到较高的精度,但是如果过滤器调整为可以达到100% 的精确度,就会产生很高的误检率,这是用户不能接受的。

  3. 统计过滤方法

  对邮件内容采用统计过滤方法具有过滤正确率高、速度快的特点,是垃圾邮件处理技术中最受欢迎的一种方法,具有广泛的应用前景。常见的统计过滤方法有:贝叶斯方法、SVM、KNN、神经网络等。

  (1)贝叶斯分类

  贝叶斯分类方法是最常见的基于统计的垃圾信息过滤方法。贝叶斯分类方法基于贝叶斯定理,其原理是大多数事件都是相互依赖的,一个事件将来发生的概率可以从该事件从前发生的概率进行推断。应用同样的原理可以对邮件进行分类:利用已知的邮件,建立垃圾邮件和正常邮件关键词的贝叶斯概率模型,然后利用该模型对新邮件进行判断,判断邮件是否为垃圾邮件。M.Sahami等人早在1998年就验证贝叶斯算法在垃圾邮件过滤中成功的应用效果。而朴素贝叶斯分类算法及其变体的发展及其应用,扩展了贝叶斯算法。

  采用贝叶斯过滤方法的优点是:对训练样本进行一次扫描,再进行统计分析,具有较优的效率;占用的存储空间少。由于这样的优点,因此贝叶斯算法在现有的邮件产品中得到广泛的应用。

  贝叶斯过滤方法也有其局限性,主要是对训练样本的依赖性大以及对中文邮件的处理效果不够显著。贝叶斯方法对于纯文本的垃圾邮件可以取得较高的过滤性能,但是对于包含多媒体以及非英文的邮件来说,贝叶斯方法具有其局限性。

  (2)自学习K近邻算法

  K近邻(K-Nearest Neighbor,KNN)是常用的基于内容的文本分类方法。分类时直接将待分类文本与训练集合中的每个文本进行比较,根据前K篇相似的文本得到新文本的类别(最简单的情况可以根据K篇文本所属的类别数的多少来确定最后类别)。KNN的原理非常直观,也很容易理解,在文本分类中KNN常常能够取得好的结果。

  它是基于要求的或懒散的学习方法,它所存放的样本,直到新样本需要分类时才建立分类,这使得训练集合随着多变的垃圾邮件而随时变化,有利于邮件精确识别。

页面功能 【打印】 【关闭】 【我有话说

MOOC风暴来袭

版权所有:中国教育和科研计算机网网络中心 CERNIC,CERNET,京ICP备15006448号-16,京网文[2017]10376-1180号

关于假冒中国教育网的声明 | 有任何问题与建议请联络:Webmaster@staff.cernet.com