反垃圾邮件行为识别技术分析
第四届中国网络媒体论坛于2004年11月8日-10日在江西省南昌市举行。本次论坛由国务院新闻办公室指导,中华全国新闻工作者协会、人民网、新华网、中国网、中国日报网、国际在线网、央视国际网络、中青网、中国经济网、中国广播网、千龙网、东方网、北方网、南方网等单位和网站主办,中国互联网新闻中心 ( 中国网 www.china.com.cn ) 承办,中共江西省委宣传部、江西省新闻办公室、中国移动通信集团公司协办。以下为敏讯科技执行董事兼总经理郑海明在技术建设分论坛上的演讲全文:
2002 年至今我们一直在研究垃圾邮件的问题,在这里我简单介绍一下这方面的问题。敏讯最早研究垃圾邮件时是和清华合作,为数字化校园做解决方案时就注意到了校园垃圾邮件增长迅猛的问题,2002年我们注意到平均每六个月垃圾邮件的数量便能翻一番,现在速度已经上升到每五个月翻一番的速度。
垃圾邮件的增长速度对全世界来讲都是非常之快的。垃圾邮件对全球造成的损失也是很大的。以下是互联网协会相关的一些统计数据,垃圾邮件已经占到正常邮件的60%,垃圾邮件增长的趋势,在50% 左右。另外,垃圾邮件也夹杂了大量的病毒,目前有一些新的病毒攻击个人机器后产生垃圾邮件,垃圾邮件的病毒,基本上是互联网每一个网民每天都直接感受到的危害。企业也好,网民也好,真正重大的黑客事件其实并不是很多,80%以上的来自互联网安全的威胁是垃圾邮件和蠕虫病毒,这两种危害是最严重的,它会导致企业网络瘫痪。
一些病毒出现后,技术非常先进,对微软DDOS进行攻击。现在我讲一下邮件的安全网关。它集成了放在邮件前端的,邮件病毒过滤和邮件敏感信息过滤多重一体的EQ manager的解决方案。我们提出了四层防护的模型,在座的可能会问到,这个解决方案同 NEI 的有什么区别?目前国际的做法是先把垃圾邮件收进来,然后再过滤。我们分了四个层面,把百分之七八十恶意的攻击直接屏蔽掉,90%左右的垃圾邮件,通过行为识别的数学模式来识别,然后就是做病毒扫描和内容过滤。这里面有一个很重要的概念,敏感信息的过滤不等于反垃圾邮件。如果关键规则就是垃圾邮件的话,垃圾邮件早就解决了,不会像现在这么严重。
对反垃圾邮件技术来讲,从关键字内容过滤、内容平分归类、黑名单、行为分别分析,我认为发展方向是行为分别。在这里我讲一下关键字过滤存在的问题,比如对一封信做关键字检索,意味着你必须把整封信的附件收下来,收下来的话,意味着你的流量已经产生了,存储资源已经占用了,事后挑出来这是一封垃圾邮件,并没有解决矛盾,只是治标不治本。关键字过滤也会增加误判率。真正 “法轮功”的邮件不会在邮件上写“法轮功”这几个字,一定会写其他的字。反病毒厂商都是沿用防病毒的理念,每天互联网最新的病毒可能是两百多个。两百多个病毒,破解后它的标志码很容易查出来,但是垃圾邮件的内容不一样,可能每天出现的关键字是成千上万的,意味着你用检查病毒的方式检查垃圾邮件,你的容量就越来越大。这种思维要转变,不能采用这种方法反垃圾邮件。
我们采用的行为模式,实际上总结了垃圾邮件固有的特征。比如你来发,前期是通讯活动的状态,检测垃圾邮件,利用了统计学的原理,把它固有的特征点扩大到采样,从而构成数学模型,比较典型的做法就是不断攻击。我随便打一个比喻,如果说到 “法轮功”大量攻击的话,会出现一个现象,一模一样的信 ,同时来自500个IP ,这明显是恶意攻击的特征,一封信不可能从500个IP发过来,一样的标题,什么都一样 。我强调一下这只是单指标的模型,如果新浪网这样做的话就会比较粗暴, 某一个IP一分钟 发了一万封信,一定是发垃圾邮件吗?不一定的,这就是单指标模型还是多指标模型的不同。这样就构造了行为识别的模型,正常的邮件,基本能穿透邮件网关模型,如果不能穿透邮件网关模型,那就有两种类型,一种是百分之百确定为是垃圾邮件,另外一种,它有某些指标不符合,但有些指标符合很多了,比如一分钟发一万封邮件,可能不是垃圾邮件,但高度疑似,有这样的概念,全世界的垃圾邮件还是一个统计学的概念。
另外我讲一下空中拦截的技术,比方说一封“法轮功”的信,我们监测过,差不多每一封在160K到180K 左右,如果把这些信都收下来的话,流量就产生了。我们的网关只是接收4K到8K就要缓冲,只要达到8K的数据,就认为是 “法轮功”邮件或垃圾邮件。我们的用户会说装了你的网关用不用防病毒呢?因为很多垃圾邮件跟正常邮件不一样,很多流量屏蔽在网关之外。
我讲一下SMTP IPS的技术,SMTP要逐渐取代IPS的技术。IPS对于突发的攻击,比如500IP 攻击邮件,如果利用天王星的防病毒去阻断,你的邮件就会瘫痪掉。你怎么做呢?要自动攻击,自动识别出来,中间不需要人为干预,是一个完全自动化的过程。我讲的这一个功能,对我们很多朋友非常的有用。我们经常发现,比如浙江大学,正常的流量是一万封信,如果攻击的话,当天涨到65万封信。如果大家不把这个当一回事的话,遭到攻击的那一天是会到来的。
我再讲一讲几个核心的、原创的技术,一个是行为识别、一个是空中拦截,一个是IPS的技术。另外在病毒引擎上介绍一下,这个引擎就是多线程的引擎,可以嵌入在E-mail上面,美国雅虎的E-mail怎么杀毒的呢?是一个完全分布式的部署方案。这是一个网关的实际效果图,大家看到从信号学的角度讲,上面的信号在遭受攻击的情况下,是波涛汹涌的,但最底下的流量不超过六千封信,把底下放大流量就是这样一个效果,每天不超过六千封信的流量,从信号角度来讲是非常好的。
出处 : 中国网
|
|
|
规格定制 |
·每个帐号默认为1G,具体大小可自由调整;
·可发送不限量大小的G级附件;
·空间DIY自由定制,灵活购买
·免费的网络监控功能
|
|