最新 | 专题 | 理论研究 | 信息技术 | 网络建设 | 应用案例 | 解决方案 | 企业解读 | 教育产品 | 教育网络 | 分析报告
  当前位置: 首页 > 教育信息化 > 技术俱乐部 > 技术应用 >
应用技巧:构建拦截垃圾邮件的“天网”
http://www.edu.cn 2006-06-05中国计算机用户 作者:刘鹏

  目前解决垃圾邮件的方法有:良好的用户习惯、立法、提高发垃圾邮件的成本、黑名单、身份确认、基于规则的过滤、基于贝叶斯推理的过滤等。但迄今为止还没有一种真正有效的方法,能够彻底阻击垃圾邮件。

  Internet的迅速普及,电子邮件逐渐成为人们进行信息交流的一种重要手段,已变成人们学习、工作和生活中不可或缺的一a部分。然而,垃圾邮件(Spam)的泛滥给互联网带来了严重问题。

  据统计,在2002年初,垃圾邮件占整个邮件发送量的16%,2003年初变成42%,2004年初变成60%。Radicati集团预测,到2007年,全球因为垃圾邮件造成的损失将多达1130亿美元。

  垃圾邮件中除了充斥着商业广告外,还包含着色情暴力非法的成分,已经成为互联网一大公害。

  *给垃圾邮件算“指纹”

  目前解决垃圾邮件的方法有:良好的用户习惯、立法、提高发垃圾邮件的成本、黑名单、身份确认、基于规则的过滤、基于贝叶斯推理的过滤等。但迄今为止还没有一种真正有效的方法,这也是绝大多数用户的电脑里虽然安装有防病毒软件,却没有安装反垃圾邮件软件的原因。

  就垃圾邮件的自动过滤技术而言,不能单纯用人工智能的方法来过滤垃圾邮件,因为人工智能目前还不是成熟技术。

  那么,垃圾邮件还有什么特征呢?垃圾邮件最大的特征是:只要是垃圾邮件,它都会将相同的内容发送给数十万上百万乃至上千万的接收者。

  针对垃圾邮件的这些特征,可以建立一个分布式统计和分布式学习的平台,以大规模用户的协同计算来过滤垃圾邮件:首先,为每一封邮件计算出一个惟一的“指纹”,通过比对“指纹”可以统计同一封邮件的副本数,当副本数达到一定数量时,就可以判定这封邮件是否为垃圾邮件。

  其次,由于互联网上多台计算机比一台计算机掌握的信息更多,因而可以采用分布式贝叶斯学习算法,在成百上千的客户端机器上实现协同学习过程,收集、分析并共享最新的信息。

  要建这样一个系统,网格技术是最好的选择,这是由于:1、垃圾邮件是发给整个互联网的,需要建立一个全局性的基础设施来收集垃圾邮件的信息;2、对每封邮件都需要进行指纹计算,因而需要有一个分布式的计算环境;3、系统的动态性很强,所有的服务器、客户端及电子邮件都在不断保持更新,作为用户,需要一个能够适应变化的灵活平台。

  如图所示为反垃圾邮件网格的系统结构示意图,在这个系统结构图中,显示了反垃圾邮件网格的系统结构,它包括反垃圾邮件客户端、过滤服务器和调度服务器。其中,在客户端进行邮件的数字签名计算、贝叶斯学习;过滤服务器对邮件数字签名及贝叶斯学习成果进行统计和传播;调度服务器根据客户端请求动态地分配过滤服务器。

  在这个过程中,如果用户使用了反垃圾邮件插件,每当收到一封新邮件时,就会自动生成一个数字签名,发给网格中的一台过滤服务器,该服务器根据全局虚拟数据库,判断该签名的重复出现次数,并返回给客户端。

  客户端根据这个次数,就可以知道该邮件的重复发送次数,发送次数越多,它是垃圾邮件的可能性越高。然后再结合分布式贝叶斯算法,就可以比较准确地识别出垃圾邮件。

  *利用网格技术过滤垃圾邮件

  利用网格技术的分布式统计功能实现大范围内垃圾邮件的过滤,尚未见到有关文献的报道。不过,它体现了真正的网格思想,每个加入系统的用户既是服务的对象,也是完成分布式统计功能的一个信息节点,随着系统规模的不断扩大,系统过滤垃圾邮件的准确性也会随之提高。

  用大规模统计方法来过滤垃圾邮件的做法比用人工智能的方法更成熟,实用性很强;分布式贝叶斯方法是传统贝叶斯方法与网格环境相结合的产物,它将单点学习过程分布化和协同化,缩短了学习的时间,共享了学习的经验。这两种手段的结合,是在现有主流反垃圾邮件方法基础上的升华提高,具有实际应用价值。

  就此看来,反垃圾邮件网格通过分布式统计和分布式贝叶斯学习,利用分布互联网里的千百万台主机协同工作,可构建一道拦截垃圾邮件的“天网”。该方法可以大大提高垃圾邮件的识别率,同时避免将合法邮件误判为垃圾邮件,有可能使通过技术手段有效解决垃圾邮件问题成为现实。

  *■ 网格的三要素

  网格必须同时满足三个条件:(1) 在非集中控制的环境中协同使用资源;(2)使用标准的、开放的和通用的协议和接口;(3) 提供非平凡的服务。一般分为:计算网格、数据(信息)网格和服务网格。计算网格就是将许多计算机联系起来,提供联合运算功能。数据网格大致是指分布的异构数据库的统一平台。信息是有秩序的数据,数据网格的集合,也叫做信息网格。而服务网格,可能是在信息网格的基础上,提供的知识网格或业务服务网格。(

页面功能 【字体:   】 【打印】 【关闭我对此感兴趣
中国教育和科研计算机网版权与免责声明

①凡本网未注明稿件来源的所有文字、图片和音视频稿件,版权均属本网所有,任何媒体、网站或个人未经本网协议授权不得转载、链接、转贴或以其他方式复制发表。已经本网协议授权的 媒体、网站,在下载使用时必须注明"稿件来源:中国教育和科研计算机网",违者本网将依法 追究责任。

②本网注明稿件来源为其他媒体的文/图等稿件均为转载稿,本网转载出于非商业性的教育和科研之目的,并不意味着赞同其观点或证实其内容的真实性。如转载稿涉及版权等问题,请作者 在两周内速来电或来函联系。


要闻回顾
·三种关于IPv4和IPv6过渡技术对比  
·解读我国国家信息化发展战略的四大亮点  
·虚拟存储技术如何掌控难以管理的数据  
·浅谈2006年中国教育信息化采购标准  
·“下一代互联网中日IPv6项目”通过验收  
·五模型有效组合 终端设备实现可信安全接入  
·以信息化带动区域教育 实现跨跃式发展  
·IP地址资源2012年枯竭 部署IPv6迫在眉睫  
·探秘新一代的几种安全接入技术  
·网络多媒体教学方案的分析与选择  
 
—热门关键字—
 
ERP CRM 局域网 电子商务

 天网搜索 :
 
 站内搜索:
 


版权所有: 中国教育和科研计算机网 Copyright©1994- CERNIC CERNET  京ICP备020072
关于假冒中国教育网的声明 | 有任何问题与建议请联络: Webmaster@staff.cernet.com