中国教育和科研计算机网
EDU首页 |  中国教育 |   高校科技 |   教育信息化 |   CERNET
教育信息化

资讯 | 专题 会议 观点 专栏 访谈 企业 产品 CIO 技术 校园信息化 下一代互联网 IPv6视频课堂

中国教育网 > 教育信息化
您现在的位置: EDU首页 > 教育信息化 > 技  术 > 网络 > 技术应用
应用技巧:构建拦截垃圾邮件的“天网”
http://www.edu.cn   2006-06-05 作者:刘鹏

字体选择:【大】 【中】 【小】

  目前解决垃圾邮件的方法有:良好的用户习惯、立法、提高发垃圾邮件的成本、黑名单、身份确认、基于规则的过滤、基于贝叶斯推理的过滤等。但迄今为止还没有一种真正有效的方法,能够彻底阻击垃圾邮件。

  Internet的迅速普及,电子邮件逐渐成为人们进行信息交流的一种重要手段,已变成人们学习、工作和生活中不可或缺的一a部分。然而,垃圾邮件(Spam)的泛滥给互联网带来了严重问题。

  据统计,在2002年初,垃圾邮件占整个邮件发送量的16%,2003年初变成42%,2004年初变成60%。Radicati集团预测,到2007年,全球因为垃圾邮件造成的损失将多达1130亿美元。

  垃圾邮件中除了充斥着商业广告外,还包含着色情暴力非法的成分,已经成为互联网一大公害。

  *给垃圾邮件算“指纹”

  目前解决垃圾邮件的方法有:良好的用户习惯、立法、提高发垃圾邮件的成本、黑名单、身份确认、基于规则的过滤、基于贝叶斯推理的过滤等。但迄今为止还没有一种真正有效的方法,这也是绝大多数用户的电脑里虽然安装有防病毒软件,却没有安装反垃圾邮件软件的原因。

  就垃圾邮件的自动过滤技术而言,不能单纯用人工智能的方法来过滤垃圾邮件,因为人工智能目前还不是成熟技术。

  那么,垃圾邮件还有什么特征呢?垃圾邮件最大的特征是:只要是垃圾邮件,它都会将相同的内容发送给数十万上百万乃至上千万的接收者。

  针对垃圾邮件的这些特征,可以建立一个分布式统计和分布式学习的平台,以大规模用户的协同计算来过滤垃圾邮件:首先,为每一封邮件计算出一个惟一的“指纹”,通过比对“指纹”可以统计同一封邮件的副本数,当副本数达到一定数量时,就可以判定这封邮件是否为垃圾邮件。

  其次,由于互联网上多台计算机比一台计算机掌握的信息更多,因而可以采用分布式贝叶斯学习算法,在成百上千的客户端机器上实现协同学习过程,收集、分析并共享最新的信息。

  要建这样一个系统,网格技术是最好的选择,这是由于:1、垃圾邮件是发给整个互联网的,需要建立一个全局性的基础设施来收集垃圾邮件的信息;2、对每封邮件都需要进行指纹计算,因而需要有一个分布式的计算环境;3、系统的动态性很强,所有的服务器、客户端及电子邮件都在不断保持更新,作为用户,需要一个能够适应变化的灵活平台。

  如图所示为反垃圾邮件网格的系统结构示意图,在这个系统结构图中,显示了反垃圾邮件网格的系统结构,它包括反垃圾邮件客户端、过滤服务器和调度服务器。其中,在客户端进行邮件的数字签名计算、贝叶斯学习;过滤服务器对邮件数字签名及贝叶斯学习成果进行统计和传播;调度服务器根据客户端请求动态地分配过滤服务器。

  在这个过程中,如果用户使用了反垃圾邮件插件,每当收到一封新邮件时,就会自动生成一个数字签名,发给网格中的一台过滤服务器,该服务器根据全局虚拟数据库,判断该签名的重复出现次数,并返回给客户端。

  客户端根据这个次数,就可以知道该邮件的重复发送次数,发送次数越多,它是垃圾邮件的可能性越高。然后再结合分布式贝叶斯算法,就可以比较准确地识别出垃圾邮件。

  *利用网格技术过滤垃圾邮件

  利用网格技术的分布式统计功能实现大范围内垃圾邮件的过滤,尚未见到有关文献的报道。不过,它体现了真正的网格思想,每个加入系统的用户既是服务的对象,也是完成分布式统计功能的一个信息节点,随着系统规模的不断扩大,系统过滤垃圾邮件的准确性也会随之提高。

  用大规模统计方法来过滤垃圾邮件的做法比用人工智能的方法更成熟,实用性很强;分布式贝叶斯方法是传统贝叶斯方法与网格环境相结合的产物,它将单点学习过程分布化和协同化,缩短了学习的时间,共享了学习的经验。这两种手段的结合,是在现有主流反垃圾邮件方法基础上的升华提高,具有实际应用价值。

  就此看来,反垃圾邮件网格通过分布式统计和分布式贝叶斯学习,利用分布互联网里的千百万台主机协同工作,可构建一道拦截垃圾邮件的“天网”。该方法可以大大提高垃圾邮件的识别率,同时避免将合法邮件误判为垃圾邮件,有可能使通过技术手段有效解决垃圾邮件问题成为现实。

  *■ 网格的三要素

  网格必须同时满足三个条件:(1) 在非集中控制的环境中协同使用资源;(2)使用标准的、开放的和通用的协议和接口;(3) 提供非平凡的服务。一般分为:计算网格、数据(信息)网格和服务网格。计算网格就是将许多计算机联系起来,提供联合运算功能。数据网格大致是指分布的异构数据库的统一平台。信息是有秩序的数据,数据网格的集合,也叫做信息网格。而服务网格,可能是在信息网格的基础上,提供的知识网格或业务服务网格。(

页面功能 【打印】 【关闭】 【我有话说

MOOC风暴来袭

版权所有:中国教育和科研计算机网网络中心 CERNIC,CERNET,京ICP备15006448号-16,京网文[2017]10376-1180号

关于假冒中国教育网的声明 | 有任何问题与建议请联络:Webmaster@staff.cernet.com