反垃圾邮件
减少垃圾邮件问题的技术
已经存在的和在被提及的反垃圾邮件方法试图来减少垃圾邮件问题和处理安全需求。通过正确的识别垃圾邮件,邮件病毒或者邮件攻击程序等都会减少。这些解决方法采取多种安全途径来努力阻止垃圾邮件。 Dr. Neal Krawetz在Anti-Spam Solutions and Securityref 1文中将反垃圾邮件技术作了非常好的分类。当前的反垃圾邮件技术可以分为4大类:过滤器(Filter)、反向查询(Reverse lookup)、挑战(challenges)和密码术(cryptography),这些解决办法都可以减少垃圾邮件问题,但是都有它们的局限性。
技术解析
声明:安全焦点(xfocus security team)是非商业,全方位的网络安全组织,本文档为安全焦点发布的技术文件,供自由技术传播,拒绝商业使用。文档的所有权归属安全焦点,任何使用文档中所介绍技术者对其后果自行负责,安全焦点以及本文档作者不对其承担任何责任。
背景介绍
电子邮件是较常用的网络应用之一,已经成为网络交流沟通的重要途径。但是,垃圾邮件(spam)烦恼着大多数人,调查显示,93%的被调查者都对他们接收到的大量垃圾邮件非常不满。一些简单的垃圾邮件事件也造成了很有影响的安全问题。日益增加的垃圾邮件会造成1年94亿美元的损失(来自chinabyte上一则新闻的数据),在一些文章表明,垃圾邮件可能会花费一个公司内每个用户600到1000美元。
垃圾邮件随着互联网的不断发展而大量增长,不再像以前一样,只是小小的一个骚扰,垃圾邮件可以说是铺天盖地了。最初,垃圾邮件主要是一些不请自来的商业宣传电子邮件,而更多的有关色情、政治的垃圾邮件不断增加,甚至达到了总垃圾邮件量的40%左右,并且仍然有持续增长的趋势。另一方面,垃圾邮件成了计算机病毒新的、快速的传播途径。
而且世界上50%的邮件都是垃圾邮件,只有少数组织承担责任。很多反垃圾邮件的措施都被提出出来,但是只有非常少的被实施了。不幸的是,这些解决办法也都还不能完全阻止垃圾邮件,而且还对正常的邮件来往产生影响。
垃圾邮件
某种程度上,对垃圾邮件的定义可以是:那些人们没有意愿去接收到的电子邮件都是垃圾邮件。比如:
*商业广告。很多公司为了宣传新的产品、新的活动等通过电子邮件系统的方式进行宣传。
*政治言论。会收到不少来自其他国家或者反动组织发送的这类电子邮件,这就跟垃圾的商业广告一样,销售和贩卖他们的所谓言论。
*蠕虫病毒邮件。越来越多的病毒通过电子邮件来迅速传播,这也的确是一条迅速而且有效的传播途径。
*恶意邮件。恐吓、欺骗性邮件。比如phishing,这是一种假冒网页的电子邮件,完全是一种诡计,来蒙骗用户的个人信息、账号甚至信用卡。
普通个人的电子邮箱怎么成为了垃圾邮件的目标呢,造成这样的结果有很多原因,比如在网站、论坛等地方注册了邮件地址,病毒等在朋友的邮箱中找到了你的电子邮箱,对邮件提供商进行的用户枚举,等等。通常情况下,越少暴露电子邮件地址越少接收到垃圾邮件,使用时间越短越少接收到垃圾邮件。一些无奈的用户就选择了放弃自己的邮箱而更换新的电子邮箱(反垃圾邮件网关)。
安全问题
垃圾邮件给互联网以及广大的使用者带来了很大的影响,这种影响不仅仅是人们需要花费时间来处理垃圾邮件、占用系统资源等,同时也带来了很多的安全问题。
垃圾邮件占用了大量网络资源,这是显而易见的。一些邮件服务器因为安全性差,被作为垃圾邮件转发站为被警告、封IP等事件时有发生,大量消耗的网络资源使得正常的业务运作变得缓慢。随着国际上反垃圾邮件的发展,组织间黑名单共享,使得无辜服务器被更大范围屏蔽,这无疑会给正常用户的使用造成严重问题。
垃圾邮件和黑客攻击、病毒等结合也越来越密切,比如,SoBig蠕虫就安装开放的,可以用来支持邮件转发的代理。随着垃圾邮件的演变,用恶意代码或者监视软件等来支持垃圾邮件已经明显地增加了。2003年12月31,巴西的一个黑客组织发送包含恶意javascript脚本的垃圾邮件给数百万用户,那些通过Hotmail来浏览这些垃圾邮件的人们在不知不觉中已经泄露了他们的账号。另外一个例子就是,近来IE的URL显示问题,在主机主机地址,在被发布之后几个星期内就可以在垃圾邮件中找到。
越来越具有欺骗性的病毒邮件,让很多企业深受其害,即便采取了很好的网络保护策略,依然很难避免,越来越多的安全事件都是因为邮件产生的,可能是病毒、木马或者其他恶意程序。Phishing的假冒诡计对于普通使用者来说,的确很难作出正确的判断,但是造成的损失却是很直接的。
邮件技术
本文将在下面的内容讨论这些技术以及一些主要技术的实现。以JDMail邮件系统为例来具体讲解一下,该产品的实际项目应用反垃圾邮件的效率为稳定的98%以上,无误判,并且可以有效防止垃圾邮件盗号。
工作原理
JDMail邮件系统同时支持发信认证(smtp-auth)、黑名单和系统级垃圾邮件过滤功能,为用户邮箱提供三重保护。用户可以随时从国内外反垃圾 邮件组织获得黑名单列表文件,导入邮件系统,从而使邮件管理员从被动变为主动。JDMail邮件服务器黑名单功能支持模糊匹配,可以屏蔽一个域,也可以只屏蔽域内的一个用户。此外,提供多种方式的垃圾邮件过滤功能,防止账户被劫持来发垃圾邮件,防邮件攻击等,全方位保障邮件服务器的安全。
设置方法
反垃圾实现方式
第一层:网络控制层
经验分析,发送垃圾邮件的服务器一般都会同时大批量向某些域的多个账号发送垃圾邮件,对于这些发送垃圾邮件方式,可通过设定一定网络访问频率控制进行有效 的阻隔。JDMail邮件系统提供两种设置方式对付这种攻击,并可自动把发送垃圾邮件的IP归为垃圾IP(SpamIP)列表。
通过smtp 服务层把明显的发送垃圾邮件smtp 连接拒绝,大大减轻后台投递系统和反垃圾引擎的负担。
通过统计分析,我们发现很多发送垃圾邮件的smtp 连接具有以下特点。
1.同一IP同时的smtp连接数非常大。
2.同一IP一段时间内,smtp连接频率非常高。
一般出现这两种情况,都表示源发件人非常有可能发送垃圾邮件。
通过设置以下这两个参数可控制这类型的smtp连接,从而截断发送垃圾邮件的源头:
系统设置->SMTP服务->一分钟内同一IP允许访问次数。
同时设置:
系统设置->SMTP服务->启用智能反垃圾IP功能参数,把符合以上两个条件的IP地址自动加入系统的智能反垃圾IP列表中(SmartSpamIP),当以后系统碰到这些IP连接时,直接拒绝。
可通过:
系统监控->智能反垃圾IP列表。
查看系统智能反垃圾IP 列表。
注意:
当互联网是经过反垃圾网关再接入邮件系统的情况,由于邮件系统的所有smtp连接都来自反垃圾网关,所以基于Smtp服务反垃圾不再起作用,这里需要把以上两个参数设为-1,以免系统smtp服务故障。
第二层:来源分析
根据垃圾邮件发送者IP的地理位置,与 APNIC 的IP信息库核对结果,看来源是否真实,如果真实则通过,否则可能为可疑邮件。因为IP 来源无法伪装,所以这个反垃圾策略比较有效。
第三层:黑名单
通过黑名单, JDMail邮件系统可设置屏蔽任何一个IP,一个网段;也可屏蔽任何一个发信人,一个域。
实时黑名单(RBL)主要利用互联网公开的RBL资源判断是否垃圾邮件。RBL 一般都通过DNS 查询的方式提供对某个IP或域名是否是垃圾邮件发送源进行判断。另外,由于国外大多数RBL都对来自中国的I 有“歧视”,所以我们并不能完全依靠RBL 来判断一封邮件是否是垃圾邮件,只能根据RBL查询结果判断该邮件是否有垃圾邮件的可能性。可设置以下参数定制RBL:
RBL 服务器,指定RBL 查询域名后缀。
DNS 查询类型,根据具体的RBL 要求指定DNS 查询记录类型。
匹配表达式,指定RBL 查询结果的匹配模式,表达式格式采用perl 正则表达式,如果为空,则表示如果可查到RBL结果,就表示符合条件。
第四层:灰名单
灰名单技术源于: greylist
灰名单技术基本假设是:病毒和垃圾邮件,通常都是一次性的,如果遇到错误,不会重试。
一些发垃圾邮件的软件,这些软件基本上都不会对邮件服务器返回的错误做出任何重试,而只是简单的在日志里记录发送失败而已。而病毒引发的邮件风暴则更加不会识别邮件服务器返回的错误,因为这些病毒仅仅是简单的发送邮件,发送时根本不理会服务器的状态。
Greylist的设计大体上是基于一种重试的原则,即第一次看到某个IP想给某个收件人发信,那么 它将简单的返回一个临时错误(4xx),并拒绝此请求,正常的邮件服务器都会在一段时间内(如半小时)重发一次邮件。Greylist发现还是刚才同样的 ip地址和收件人,认为此ip是来自合法服务器的,予以放行。如果是非正常的邮件,那么或者将永远也不再进行重试,或者会疯狂重试,但由于间隔太近,而遭 拒绝。因此,Greylist只要设置一个合适的放行间隔,就可以在很大程度上对这类垃圾邮件有着良好的免疫能力。Greylist的一大特点就是不会丢 信,正规的邮件服务器认为4xx错误只是临时性、软性的错误,会隔一段时间重试,因此邮件还是可以投递成功。但Greylist的一大缺点是即时延迟 (delay),延迟从几分钟到几个小时不等。对于一些对邮件及时性很强的客户,Greylist可能不是一个很好的选择。
第五层:趋势分析
趋势分析原理为,所有垃圾邮件都有目标指向,趋势分析法就是通过分析邮件里的电话、邮件或网站链接内容,通过匹配判断他的指向从而判断邮 件是否是垃圾邮件。
第六层:邮件来源判断
主要通过分析邮件的来源,如:发件人IP ,发件人,发件域,等内容,来判断垃圾邮件的可能行。
第七层:SpamFilter内容过滤
通过邮件内容关键字分析,可为符合内容分析结果的邮件打上相应的垃圾邮件评分。这类规则的判断条件类似系统的过滤规则。可参考过滤规则设定来设定过滤评分内容,同时我们也会通过收集客户反馈的垃圾邮件特点整理成规则内容,定期通知客户更新。
第八层:主题分析引擎
主题分析原理是基于:同一类垃圾邮件的内容大多都相似,通过相似度进行分析,以确定是否为垃圾邮件。通过对同一类型垃圾邮件的统计分析,可以归纳这类垃圾邮件的主要关键字,通过关键字匹配度,确认是否是垃圾邮件。
第九层:SpamCheck引擎
SpamCheck技术是基于云计算的反垃圾技术,JDMail邮件系统通过收集终端用户反馈的垃圾邮件,统一分析,实时归纳为中心垃圾规则库。同时当客户服务器初步检测到邮件可能为垃圾邮件时,即计算邮件的特征摘要,与中心规则库比较,以确定是否为垃圾邮件。
过滤
过滤(Filter)是一种相对来说最简单却很直接的处理垃圾邮件技术。这种技术主要用于接收系统(MUA,如OUTLOOK EXPRESS或者MTA,如sendmail)来辨别和处理垃圾邮件。从应用情况来看,这种技术也是使用最广泛的,比如很多邮件服务器上的反垃圾邮件插件、反垃圾邮件网关、客户端上的反垃圾邮件功能等,都是采用的过滤技术。
关键词过滤
关键词过滤技术通常创建一些简单或复杂的与垃圾邮件关联的单词表来识别和处理垃圾邮件。比如某些关键词大量在垃圾邮件中出现,如一些病毒的邮件标题,比如:test。这种方式比较类似反病毒软件利用的病毒特征一样。可以说这是一种简单的内容过滤方式来处理垃圾邮件,它的基础是必须创建一个庞大的过滤关键词列表。
这种技术缺陷很明显,过滤的能力同关键词有明显联系,关键词列表也会造成错报可能比较大,当然系统采用这种技术来处理邮件的时候消耗的系统资源会比较多。并且,一般躲避关键词的技术比如拆词,组词就很容易绕过过滤。
黑白名单
黑名单(Black List)和白名单(White List)。分别是已知的垃圾邮件发送者或可信任的发送者IP地址或者邮件地址。有很多组织都在做*bl(block list),将那些经常发送垃圾邮件的IP地址(甚至IP地址范围)收集在一起,做成block list,比如spamhaus的SBL(Spamhaus Block List),一个BL,可以在很大范围内共享。许多ISP正在采用一些组织的BL来阻止接收垃圾邮件。白名单则与黑名单相反,对于那些信任的邮件地址或者IP就完全接受了。
很多邮件接收端都采用了黑白名单的方式来处理垃圾邮件,包括MUA和MTA,当然在MTA中使用得更广泛,这样可以有效地减少服务器的负担。
BL技术也有明显的缺陷,因为不能在block list中包含所有的(即便是大量)的IP地址,而且垃圾邮件发送者很容易通过不同的IP地址来制造垃圾。
HASH技术
HASH技术是邮件系统通过创建HASH来描述邮件内容,比如将邮件的内容、发件人等作为参数,最后计算得出这个邮件的HASH来描述这个邮件。如果HASH相同,那么说明邮件内容、发件人等相同。这在一些ISP上在采用,如果出现重复的HASH值,那么就可以怀疑是大批量发送邮件了。
基于规则的过滤
这种过滤根据某些特征(比如单词、词组、位置、大小、附件等)来形成规则,通过这些规则来描述垃圾邮件,就好比IDS中描述一条入侵事件一样。要使得过滤器有效,就意味着管理人员要维护一个庞大的规则库。
智能和概率系统
广泛使用的就是贝叶斯(Bayesian)算法,可以学习单词的频率和模式,这样可以同垃圾邮件和正常邮件关联起来进行判断。这是一种相对于关键字来说,更复杂和更智能化的内容过滤技术。我将在下面详细描述这种在客户端和服务器中使用最广泛的技术。
2.1.5.1 Bayesian 贝叶斯算法
在过滤器中,表现最好的应该是基于评分(score)的过滤器,因为我们很容易就可以明白对付狡猾的垃圾邮件,那些黑白名单、关键词库或者HASH等过滤器是多么的简单。评分系统过滤器是一种最基本的算法过滤器,也是贝叶斯算法的基本雏形。它的原理就是检查垃圾邮件中的词或字符等,将每个特征元素(最简单的元素就是单词,复杂点的元素就是短语)都给出一个分数(正分数),另一方面就是检查正常邮件的特征元素,用来降低得分的(负分数)。最后邮件整体就得到一个垃圾邮件总分,通过这个分数来判断是否spam。
这种评分过滤器尽量实现了自动识别垃圾邮件的功能,但是依然存在一些不适应的问题:
*特征元素列表通过垃圾邮件或者正常邮件获得。因此,要提高识别垃圾邮件的效果,就要从数百邮件中来学习,这降低了过滤器效率,因为对于不同人来说,正常邮件的特征元素是不一样的。
*获得特征元素分析的邮件数量多少是一个关键。如果垃圾邮件发送者也适应了这些特征,就可能让垃圾邮件更象正常邮件。这样的话,过滤特征就要更改了。
*每个词计算的分数应该基于一种很好的评价,但是还是有随意性。比如,特征就可能不会适应垃圾邮件的单词变化,也不会适应某个用户的需要。
贝叶斯理论在计算机行业中应用相当广泛,这是一种对事物的不确定性描述,比如google计算中就采用了贝叶斯理论。贝叶斯算法的过滤器就是计算邮件内容中成为垃圾邮件的概率,它要首先从许多垃圾邮件和正常邮件中进行学习,因此,效果将比普通的内容过滤器更优秀,错报就会更少。贝叶斯过滤器也是一种基于评分的过滤器。但不仅仅是一种简单的计算分数,而更从根本上来识别。它采用自动建立特征表的方式,原理上,首先分析大量的垃圾邮件和大量的正常邮件,算法分析邮件中多种特征出现概率。
贝叶斯算法计算特征的来源通常是:
·邮件正文中的单词
·邮件头(发送者、传递路径等)
·其他表现,比如HTML编码(如颜色等)
·词组、短语
·meta信息,比如特殊短语出现位置等
比如,正常邮件中经常出现单词AAA,但是基本不在垃圾邮件中出现,那么,AAA标示垃圾邮件的概率就接近0,反之则然。
贝叶斯算法的步骤为:
1. 收集大量的垃圾邮件和非垃圾邮件,建立垃圾邮件集和非垃圾邮件集。
2. 提取特征来源中的独立字符串,例如 AAA等作为TOKEN串并统计提取出的TOKEN串出现的次数即字频。按照上述的方法分别处理垃圾邮件集和非垃圾邮件集中的所有邮件。
3. 每一个邮件集对应一个哈希表,hashtable_good对应非垃圾邮件集而hashtable_bad对应垃圾邮件集。表中存储TOKEN串到字频的映射关系。
4. 计算每个哈希表中TOKEN串出现的概率P=(某TOKEN串的字频)/(对应哈希表的长度)
5. 综合考虑hashtable_good和hashtable_bad,推断出当新来的邮件中出现某个TOKEN串时,该新邮件为垃圾邮件的概率。数学表达式为:
A 事件 ---- 邮件为垃圾邮件;
t1,t2 …….tn 代表 TOKEN 串
则 P(A|ti)表示在邮件中出现 TOKEN 串 ti 时,该邮件为垃圾邮件的概率。设
P1(ti)=ti 在 hashtable_good 中的值
P2(ti)=ti 在 hashtable_ bad 中的值
则 P(A|ti)=P2(ti)/[P1(ti)+P2(ti)] ;
6. 建立新的哈希表hashtable_probability存储TOKEN串ti到P(A|ti)的映射
7.根据建立的哈希表hashtable_probability可以估计一封新到的邮件为垃圾邮件的可能性。
当新到一封邮件时,按照步骤2,生成TOKEN串。查询hashtable_probability得到该TOKEN 串的键值。假设由该邮件共得到N个TOKEN 串,t1,t2…….tn,hashtable_probability中对应的值为 P1 ,P2 ,……PN ,P(A|t1 ,t2, t3……tn) 表示在邮件中同时出现多个TOKEN串t1,t2……tn时,该邮件为垃圾邮件的概率。
由复合概率公式可得:
P(A|t1 ,t2, t3……tn)=(P1*P2*……PN)/[P1*P2*……PN+(1-P1)*(1-P2)*……(1-PN)]
当 P(A|t1 ,t2, t3……tn) 超过预定阈值时,就可以判断邮件为垃圾邮件。
当新邮件到达的时候,就通过贝叶斯过滤器分析,通过使用各个特征来计算邮件是spam的概率。通过不断的分析,过滤器也不断地获得自更新。比如,通过各种特征判断一个包含单词AAA的邮件是spam,那么单词AAA成为垃圾邮件特征的概率就增加了。
这样,贝叶斯过滤器就有了自适应能力,既能自动进行,也可以用户手工操作,也就更能适应单个用户的使用。而垃圾邮件发送者要获得这样的适应能力就很难了,因此,更难逃避过滤器的过滤,但他们当然还是能够将邮件伪装成很普遍的正常邮件的样子。除非垃圾邮件发送者能去对某个人的过滤器进行判断,比如,采用发送回执的办法来了解哪些邮件被用户打开了等,这样他们就可以适应过滤器了。
虽然贝叶斯过滤器还存在有评分过滤器的缺陷,但是它更优化了。实践也证明,贝叶斯过滤器在客户端和服务器中效果是非常明显的,优秀的贝叶斯过滤器能够识别超过99.9%的垃圾邮件。大多数应用的反垃圾邮件产品都采用了这样的技术。比如Foxmail中的贝叶斯过滤。
局限性和缺点
现行的很多采用过滤器技术的反垃圾邮件产品通常都采用了多种过滤器技术,以便使产品更为有效。过滤器通过他们的误报和漏报来分等级。漏报就是指垃圾邮件绕过了过滤器的过滤。而误报则是将正常的邮件判断为垃圾邮件。过滤器系统应该是不存在漏报和误报的,但这是理想情况。
一些基于过滤器原理的反垃圾邮件系统通常有下面的三种局限性:
·可能被绕过。垃圾邮件发送者和他们用的发送工具也不是静态的,他们也会很快适应过滤器。比如,针对关键字
·误报问题。最头痛的问题就是将正常邮件判断为垃圾邮件。比如,一封包含单词sample的正常邮件可能因此被判断为垃圾邮件。某些正常服务器不幸包含在不负责任的组织发布的block list对某个网段进行屏蔽中,而不是因为发送了垃圾邮件(xfocus的服务器就是这样的一个例子)。但是,如果要减少误报问题,就可能造成严重的漏报问题了。
·过滤器复查。由于误报问题的存在,通常被标记为垃圾邮件的消息一般不会被立刻删除,而是被放置到垃圾邮件箱里面,以便日后检查。不幸的是,这也意味着用户仍然必须花费时间去察看垃圾邮件,即便仅仅只针对邮件标题。
尽管过滤器技术存在局限,但是,这暂时是最为广泛使用的反垃圾邮件技术
这些解决方案都具有一定的可用性,但是也存在一些缺点:
**非主机或空的域名
反向查询方法要求邮件来自已知的并且信任的邮件服务器,而且对应合理IP地址(反向MX纪录)。但是,多数的域名实际上并不同完全静态的IP地址对应。通常情况下,个人和小公司也希望拥有自己的域名,但是,这并不能提供足够的IP地址来满足要求。DNS注册主机,比如GoDaddy,向那些没有主机或只有空域名的人提供免费邮件转发服务。尽管这种邮件转发服务只能管理接收的邮件,而不能提供邮件发送服务。
反向查询解决方案对这些没有主机或者只有空域名的用户造成一些问题:
·没有反向MX记录。这些用户可以配置邮件客户端就可以用自己注册的域名能发送邮件。但是,要反向查询发送者域名的IP地址就根本找不到。特别是对于那些移动的、拨号的和其他会频繁改变自己IP地址的用户。
·不能发送邮件。要解决上面的问题,一个办法就是通过ISP的服务器来转发邮件,这样就可以提供一个反向MX纪录,但是,只要发送者的域名和ISP的域名不一样的时候,ISP是不会允许转发邮件的。
这两种情况下,这些用户都会被反向查询系统拦截掉。
**合法域名
能验证身份,并不一定就是合法的身份,比如:垃圾邮件发送者可以通过注册廉价的域名来发送垃圾邮件,从技术的角度来看,一切都是符合规范的;还有,很多垃圾邮件发送者可以通过别人的邮件服务器漏洞进入合法邮件系统来转发其垃圾邮件,这些问题对于验证查询来说还无法解决。
验证查询
SMTP在设计的时候并没有考虑到安全问题。在1973年,计算机安全还没有什么意义,那个时候能够有一个可执行的邮件协议已经很了不起了。比如,RFC524描述将SMTP作为独立协议的一些情况:
尽管SMTP的命令组已经发展了很长时间,但是人们还是以RFC524为基础来执行SMTP的,而且还都假定问题(比如安全问题)都会在以后被解决。因此直到2004年,源自RFC524中的错误还是依然存在,这个时候SMTP已经变得非常广泛而很难简单被代替。垃圾邮件就是一个滥用SMTP协议的例子,多数垃圾邮件工具都可以伪造邮件头,伪造发送者,或者隐藏源头。
垃圾邮件一般都是使用的伪造的发送者地址,极少数的垃圾邮件才会用真实地址。垃圾邮件发送者伪造邮件有下面的几个原因:
*因为是违法的。在多个国家内,发送垃圾邮件都是违法行为,通过伪造发送地址,发送者就可能避免被起诉。
*因为不受欢迎。垃圾邮件发送者都明白垃圾邮件是不受欢迎的。通过伪造发送者地址,就可能减少这种反应。
*受到ISP的限制。多数ISP都有防止垃圾邮件的服务条款,通过伪造发送者地址,他们可以减少被ISP禁止网络访问的可能性。
因此,如果我们能够采用类似黑白名单一样,能够更智能地识别哪些是伪造的邮件,哪些是合法的邮件,那么就能从很大程度上解决垃圾邮件问题,验证查询技术正是基于这样的出发点而产生的。以下还会解析一些主要的反垃圾邮件技术,比如Yahoo!、微软、IBM等所倡导和主持的反垃圾邮件技术,把它们划分在反向验证查询技术中并不是很恰当,但是,从某种角度来说,这些技术都是更复杂的验证查询。
反向查询技术
从垃圾邮件的伪造角度来说,能够解决邮件的伪造问题,就可以避免大量垃圾邮件的产生。为了限制伪造发送者地址,一些系统要求验证发送者邮件地址,这些系统包括:
这些技术都比较相近。DNS是全球互联网服务来处理IP地址和域名之间的转化。在1986年,DNS扩展,并有了邮件交换纪录(MX),当发送邮件的时候,邮件服务器通过查询MX纪录来对应接收者的域名。
DKIM技术
DKIM(DomainKeys Identified Mail)技术基于雅虎的DomainKeys验证技术和思科的Internet Identified Mail。
雅虎的DomainKeys利用公共密钥密码术验证电子邮件发件人。发送系统生成一个签名并把签名插入电子邮件标题,而接收系统利用DNS发布的一个公共密钥验证这个签名。 思科的验证技术也利用密码术,但它把签名和电子邮件消息本身关联。发送服务器为电子邮件消息签名并把签名和用于生成签名的公共密钥插入一个新标题。而接收系统验证这个用于为电子邮件消息签名的公共密钥是授权给这个发件地址使用的。
DKIM将把这两个验证系统整合起来。它将以和DomainKeys相同的方式用DNS发布的公共密钥验证签名,它也将利用思科的标题签名技术确保一致性。
DKIM给邮件提供一种机制来同时验证每个域邮件发送者和消息的完整性。一旦域能被验证,就用来同邮件中的发送者地址作比较检测伪造。如果是伪造,那么可能是spam或者是欺骗邮件,就可以被丢弃。如果不是伪造的,并且域是已知的,可为其建立起良好的声誉,并绑定到反垃圾邮件策略系统中,也可以在服务提供商之间共享,甚至直接提供给用户。
对于知名公司来说,通常需要发送各种业务邮件给客户、银行等,这样,邮件的确认就显得很重要。可以保护避免受到phishing攻击。
DKIM技术标准提交给IETF,可以参考draft文档
DomainKeys的实现过程
发送服务器经过两步:
1、建立。域所有者需要产生一对公/私钥用于标记所有发出的邮件(允许多对密钥),公钥在DNS中公开,私钥在使用DomainKey的邮件服务器上。
2、签名。当每个用户发送邮件的时候,邮件系统自动使用存储的私钥来产生签名。签名作为邮件头的一部分,然后邮件被传递到接收服务器上。
接收服务器通过三步来验证签名邮件:
1、准备。接收服务器从邮件头提取出签名和发送域(From:)然后从DNS获得相应的公钥。
2、验证。接收服务器用从DNS获得的公钥来验证用私钥产生的签名。这保证邮件真实发送并且没有被修改过。
3、传递。接收服务器使用本地策略来作出最后结果,如果域被验证了,而且其他的反垃圾邮件测试也没有决定,那么邮件就被传递到用户的收件箱中,否则,邮件可以被抛弃、隔离等。
SenderID技术
2004年,Gates曾信誓旦旦地预言微软能够在未来消灭垃圾邮件,他所期望的就是Sender ID技术,但是,他则收回了他的预言。这也就是标准之争,微软希望IETF能够采用Sender ID技术作为标准,并且得到了大量支持,比如Cisco, Comcast, IBM, Cisco,Port25,Sendmail,Symantec,VeriSign等,也包括后来又倒戈的AOL的支持,但是在开源社区,微软一直没有得到足够的支持,IETF最终否决了微软的提议。
SenderID技术主要包括两个方面:发送邮件方的支持和接收邮件方的支持。其中发送邮件方的支持主要有三个部分:发信人需要修改邮件服务器的DNS,增加特定的SPF记录
接收邮件方的支持有:收信人的邮件服务器必须采用SenderID检查技术,对收到的邮件检查PRA或MAILFROM,查询发件者DNS的SPF纪录,并以此验证发件者身份。
因此,采用Sender ID技术,其整个过程为:
第一步,发件人撰写邮件并发送;
第二步,邮件转移到接收邮件服务器;
第三步,接收邮件服务器通过SenderID技术对发件人所声称的身份进行检查(该检查通过DNS的特定查询进行);
第四步,如果发现发信人所声称的身份和其发信地址相匹配,那么接收该邮件,否则对该邮件采取特定操作,比如直接拒收该邮件,或者作为垃圾邮件。
Sender ID技术实际上并不是根除垃圾邮件的法宝,它只是一个解决垃圾邮件发送源的技术,从本质上来说,并不能鉴定一个邮件是否是垃圾邮件。比如,垃圾邮件发送者可以通过注册廉价的域名来发送垃圾邮件,从技术的角度来看,一切都是符合规范的;还有,垃圾邮件发送者还可以通过别人的邮件服务器的漏洞转发其垃圾邮件,这同样是SenderID技术所不能解决的。
FairUCE技术
FairUCE(Fair use of Unsolicited Commercial Email)由IBM开发,该技术使用网络领域的内置身份管理工具,通过分析电子邮件域名过滤并封锁垃圾邮件。
FairUCE把收到的邮件同其源头的IP地址相链接--在电子邮件地址、电子邮件域和发送邮件的计算机之间建立起一种联系,以确定电子邮件的合法性。比如采用SPF或者其他方法。如果,能够找到关系,那么检查接受方的黑白名单,以及域名名声,以此决定对该邮件的操作,比如接收、拒绝等。
FairUCE还有一个功能,就是通过溯源找到垃圾邮件的发送源头,并且将那些传递过来的垃圾邮件再转回给发送源头,以此来打击垃圾邮件发送者。这种做法利弊都有。好处就是能够影响垃圾邮件发送源头的性能,坏处就是可能打击倒正常的服务器(比如被利用的)的正常工作,同时该功能又复制了大量垃圾流量。
指纹技术
邮件指纹”技术作为一种反垃圾邮件的新技术越来越受到人们的关注,这种新的技术给每封发送的电子邮件信息增加扩张了的报头信息。这种报头中会包含一种独特的签名信息,签名信息由相应的加密算法生成,这种算法基于电子邮件用户身份的特有识别信息以及邮件的时间识别信息等。外部电子邮件器通常返回原始信息的传输指令,称为“报头信息”,其中包括新指纹的扩展信息和原始信息的一部分。这就允许服务器检测签名信息以确定电子邮件是合法的用户信息还是垃圾邮件制造者的伪造返回消息。其目的是利用邮件指纹组织垃圾邮件风暴。当然这种新技术不可能解决所有问题,但可以保证采用这种技术的邮件服务器免受垃圾邮件的淹没。
挑战
垃圾邮件发送者使用一些自动邮件发送软件每天可以产生数百万的邮件。挑战的技术通过延缓邮件处理过程,将可以阻碍大量邮件发送者。那些只发送少量邮件的正常用户不会受到明显的影响。但是,挑战的技术只在很少人使用的情况下获得了成功。如果在更普及的情况下,可能人们更关心的是是否会影响到邮件传递而不是会阻碍垃圾邮件。
这里介绍两种主要的挑战形式:挑战-响应,和 计算性挑战(challenge-response and proposed computational challenges)
挑战-响应
挑战-响应(Challenge-Response:CR)系统保留着许可发送者的列表。一个新的邮件发送者发送的邮件将被临时保留下来而不立即被传递。然后向这个邮件发送者返回一封包含挑战的邮件(挑战可以是连接URL或者是要求回复)。当完成挑战后,新的发送者则被加入到许可发送者列表中。对于那些使用假邮件地址的垃圾邮件来说,它们不可能接收到挑战,而如果使用真实邮件地址的话,又不可能回复所有的挑战。但是,CR系统还是有许多局限性:
CR死锁。假如Alice告诉Bill要给朋友Charlie发送邮件。Bill发送一个邮件给Charlie,Charlie的CR系统临时中断邮件并发送给Bill一个挑战。但是Bill的CR系统又会中断Charlie这里发送出来的挑战邮件,并发送自己的挑战。因此,结果就是,用户都没有接收到挑战,而且用户也无法回复邮件。而且用户也无法知道,在挑战过程中发生了问题。因此,如果双方都使用CR系统的话,他们就可能根本无法进行沟通。
自动系统问题。邮件列表
解释挑战。许多CR系统都执行解释性挑战。这些复杂的CR系统包含了字符识别和参数匹配,但是即便如此,还是能够进行自动化操作。比如,Yahoo的CR系统在创建新邮件账号的时候,对于那些有简单智能字符分析的系统是存在漏洞的。Hushmail的邮件CR系统要求从蓝背景图片中找出指定的图形(分析背景,找出图形,提交坐标,这是可能的)
这些在市场宣传神化中强调了两点:1、人们必须得提供挑战,2、这些问题都非常复杂而不太可能自动化操作。但是实际上,多数的垃圾邮件发送者完全不理睬了这些CR系统,因为他们主要是担心没有大量的接收者,而不是担心挑战太复杂。许多垃圾邮件发送者也使用有效的邮件地址。当CR系统会干扰垃圾邮件的时候,那些发送者也会找出自动化搞定这些挑战的办法的。
计算性挑战
·不平等影响。计算性挑战是以CPU、内存和网络为基础的,比如,在1Ghz计算机上挑战可能花费10秒,但是在500Mhz上就需要花费20秒了。
·邮件列表。许多邮件列表都有数千,甚至数百万的接受者。比如BugTraq,就可能会被看作垃圾邮件了。CC系统来处理邮件列表是不现实的。如果垃圾邮件发送有办法通过合法的邮件列表来绕过挑战,那么他们也就有办法绕过其他的挑战了。
当前,计算性挑战还没有广泛应用,因为这种技术还不能解决spam问题,反而可能干扰正常用户。
密码术
提出了一些采用密码技术来验证邮件发送者的方案。从本质上来说,这些系统采用证书方式来提供证明。没有适当的证书,伪造的邮件就很容易被识别出来,下面就是一些研究中的密码解决办法:
邮件传输协议并不是必须的。
在采用证书的时候,比如X.509或TLS,某些证书管理机构必须得可用,但是,如果证书存储在DNS,那么私钥必须得在验证的时候可用。(换句话说,如果垃圾邮件发送者可以访问这些私钥,那么他们就可以产生有效的公钥)。另一方面,也要用到主要的证书管理机构(CA),但是,邮件是一种分布式系统,没有人希望所有的邮件都由单独的CA来控制。一些解决办法因此允许多个CA系统,比如,X.509就会确定可用的CA服务器。这种扩展性也导致垃圾邮件发送者也可以运行着私有的CA服务器。
如果没有证书管理机构,就需要其他的途径在发送者和接收者之间来分发密钥。比如,PGP,就可以预先共享公钥。在未连接网络或者比较封闭的群组中,这种办法是可行的,但是在大量个体使用的时候,就不是太适合,特别是对于需要建立新的联系的情况下。从本质上来说,预先共享密钥有些类似白名单的过滤器:只有彼此知道的人才能发送邮件。
不幸的是,这些加密解决方案还不能阻止垃圾邮件,比如,假设其中的一种加密方案广泛被接受了。这些办法都不能确认邮件地址是真实的,而只是可以确认发送者有邮件的正确密钥。缺点就是:
·滥用自动化工具。如果在广大范围内被应用,就需要有一种办法为所有用户产生证书或者密钥(包括邮件服务器端,邮件客户端,依赖与相应的解决办法)系统很可能通过一种自动化的方法来提供密钥。可是,可以相信垃圾邮件发送者也会滥用任何自动化系统,并且用来发送经认证的垃圾邮件。
·可用性问题。这也有一些可用性的争论。比如,如果CA服务器不可用怎么办?邮件被挂起?退票?还是依然可用?垃圾邮件发送者对一半以上的提供黑名单网站进行了拒绝服务攻击,并导致这些网站都无法访问。显然,这些垃圾邮件发送者想阻止别人更新黑名单。对于单一的CA服务器,很显然也无法避免这样的命运。
Data爆发护盾
传统的病毒扫描程序是基于病毒特征码的。要创建这样的特征码,厂商必须至少要有一个被病毒实验室分析过的某些恶意软件的样本的副本,直到有新的病毒特征码可用,但是这个过程至少需要花上几个小时,或几天的时间。在这种情况下,家用计算机和企业网络都得不到防护。
越来越多的恶意攻击都是利用了这个时间差。反垃圾爆发户盾是德国杀毒软件G Data的一个特殊防护病毒邮件技术。G Data通过提供每小时的病毒库更新,已经减少了恶意攻击的反应时间,但这种病毒特征码的防护水平仍有待提高。所以,传统的防护是需要通过即刻免受最新威胁的方法来补充的,即可以提供这种补充。
对一个新的恶意软件样本的分析,以及一种对抗手段(特征码)的产生,尽管防病毒安全厂商全力以赴,仍需要一段可观的时间,这就是所谓的“反应速度”。爆发护盾技术的融合,则使传统的引擎扫描技术的缺陷,得到了极大的弥补。
在病毒爆发期间的前几秒钟填补双扫描引擎的不足。反垃圾邮件爆发护盾(OUTBREAKSHIELD)技术的主要成就是能够提早发现通过大量电子邮件和垃圾邮件分发的恶意软件。平均而言,在检测到病毒爆发90秒后,所有其他的电子邮件都被阻止。反垃圾邮件爆发护盾(OUTBREAKSHIELD)对未知病毒实现了95%的检测率。这远远高于通过其他主动防御方法达到的检测率。G Data反垃圾邮件爆发护盾(OUTBREAKSHIELD)的错误率只有0.00004%。
预警与处置系统
该系统由中国互联网协会反垃圾信息中心和中国反垃圾邮件联盟共同开发。主要针对反垃圾邮件工作中的问题,如:获取垃圾邮件态势信息滞缓、治理垃圾邮件处理联动机制不及时、缺乏可靠的电子邮件IP信誉评价体系等,确定垃圾邮件预警与处置机制,并进行系统研发。
在垃圾邮件预警与处置系统的研制过程中,广泛征集国内优秀的大型邮箱服务提供商提出的建议;同时,中国互联网协会反垃圾信息中心也积极与广大自建服务器企业,进行沟通,了解需求,根据企业在工作中所遇到的问题,立足于邮箱服务提供商和自建服务器企业的角度,从实际出发,多次论证,不断优化,最终建成垃圾邮件预警与处置系统。
该系统可以帮助广大邮箱服务提供商,实时监测其用户发送垃圾邮件行为,提供处理依据,而不影响同IP其他用户发送行为;提高其电子邮件服务质量。同时,可以帮助自建服务器的大中小企业用户,监测IP信誉实时动态,改善IP信誉,提高邮件通畅率等。
中国互联网协会反垃圾信息中心主任曾明发表示:反垃圾信息中心一直以来遵循“疏堵结合、破立并举”的理念,围绕支撑行政监管、推动立法研究、实施行业自律、开展普教宣传、技术手段建设、加强国际合作六个方面开展反垃圾信息工作,旨在帮助广大网民节约时间、减少骚扰;为政府提供准确的信息决策依据、有力的监管支撑;帮助企业用户优化疏堵策略、缩减运营成本。而垃圾邮件预警与处置系统正是以解决现行反垃圾邮件中出现的问题为基础,为业界提供更好的服务。
总结
上面介绍了一些反垃圾邮件的技术,其实,很多反垃圾邮件方案所采用的都不会只是一种技术,而是多种多类技术的综合体。
垃圾邮件的危害已经深入人心,反垃圾邮件也取得越来越多的成绩,比如,Scott Richter向微软赔款700万。不少国家也在为反垃圾邮件进行立法,以便能够得到法律上的支持。
但从技术上来说,这跟反攻击一样,是一个正反双方的博弈过程,一种新的反垃圾邮件技术必然会出现一种对应得垃圾邮件技术,况且,任何一种技术,还没有办法去解决所有问题,技术的发展也将延续下去。
参考资料
最新修订时间:2024-08-27 09:10
目录
概述
技术解析
背景介绍
参考资料