编辑点评:
史诗般的闪电战,前无古人。寄望有来者,但不要因为同样的原因。
此次“第二战场”上多方、多兵种协调作战,已经在中国的系统集成、运营维护与安全服务史上书写了不可磨灭的一笔。
永远铭记!
○ 撰写 赵晓涛
○ 采访 赵晓涛 闫冰 方正 鲁媛媛 祁金华 文山
【CNW.com.cn 专稿】自从“5·12”大地震发生以来,互联网就成为了抗震救灾的“第二战场”:一方面,互联网将灾区的情况实时传播;另一方面,无数爱心人士、团体、企业通过中国红十字基金会(以下简称红基会)等网站开展在线捐赠,为中华民族的救灾事业筹集善款。
据悉,地震发生后的两周时间,海内外的爱心捐款已经突破了300亿元人民币,其中通过红基会进行的捐赠就超过了50亿元人民币。要知道,这已经超过了新中国建立红基会以来募捐额度的总额。
然而,庞大的在线捐赠令红基会网站不堪重负,甚至网站一度无法访问,在线捐赠陷于瘫痪。但令人感动的是,这一次我们的IT精英们以自己特有的方式献出了爱心:F5、Intel、Quest、TippingPoint、微软、北软世纪、光环新网、浪潮、曙光、唐山电信、万根网络等企业携起手来,不仅帮助红基会恢复了网站功能,挺过了难关,而且还从安全、服务等方面提供了大力支持,上演了一幕可歌可泣的“爱心接力”。
严谨中的挑战
其实说起来,记者和红基会还有一段不解之缘。早在1998年洪灾的时候,记者当时就曾在江苏红基会做过志愿者。
在对待捐款的问题上,红基会有着非常严格的制度与流程。每一笔爱心人士的捐款,红基会都会开出相应的收据,同时在网站上公布银行到账的情况。在每一项红基会参与的救助活动中,都会进行真实的信息披露,告诉捐赠人善款的用途。另外,在善款的接收过程中,都会有来自德勤等会计师事务所的志愿者负责审计,确保专款专用,提高红基会的财务透明度。
严谨的制度确保了红基会的良好口碑,但也造成了一个问题,就是红基会本身的经费一直比较紧张,而这也造成了其IT基础设施的投入非常有限。
对此,中国红十字基金会网络信息中心主任程刚在接受本报独家专访时表示,在“5·12”地震之前,红基会仅有一台所谓的“数据中心服务器”。这台标准的PC服务器不仅要承担红基会网站的发布工作,而且要处理爱心人士的在线捐赠业务。在平时流量不大的时候,这台服务器也能够勉强维持网站的正常运转。
然而地震以后,社会各界对于红基会网站的访问量特别巨大。据悉,仅从5月13日到15日的三天时间,通过红基会网站在线捐赠的量就已经超过三万笔,这一数字已经超过了红基会前三年的在线捐赠总和。
对此程刚坦言,在震后第三天的时候,红基会的网站已经难以访问了。即便这样,仍有大量的爱心人士访问网站(有些是通过搜索引擎链接访问的)。从技术上分析,那台PC服务器的处理能力已经到了极限,在这种情况下,网站就像经历了一场DDoS爱心风暴,基本陷于瘫痪状态。
遗憾的是,红基会本身的技术力量非常薄弱,工程师一共6个人,其中负责设备运维的只有2个人。在这种情况下,红基会对此也是一筹莫展。
爱心传递起航
中国红基会网站及网上捐赠系统原来都存在一台服务器上,网上捐款量剧增,服务器根本无法承担这样大的压力。在发现红基会网站出现问题后,社会上的企业纷纷给予帮助。
5月13日~5月15日,北京光环新网互联网数据中心、中国电信唐山骨干数据中心相继找到程刚,主动提出提供设备和带宽资源,通过将网站和捐赠业务分开的方法,首先解决了网站访问问题。新设备上线后,访问压力缓和了一天,然而面对更加汹涌的爱心捐赠,设备的处理能力仍然跟不上。对此程刚解释说:“地震发生前,红基会网站的ALEX一周排名是三十多万位,地震之后,竟然上升到了六千位,这已经不是普通的基金会级别了。”
5月16日上午,上海万根网络CDN联盟免费帮助红基会做了CDN的优化。但是由于红基会的资源和设备基础不行,优化以后也没办法从根本上解决问题。
5月16日14:00,F5公司资深工程师杨明非在机场接到公司美国同事的电话,说没法在红基会网站进行捐款。这时杨明非马上跟F5中国区总经理张毅强讨论此事。张毅强觉得应该去尽力帮助红基会,于是立即给红基会的热线捐款电话留了言,但一直没有回复,于是又打电话联系F5的集成商北软世纪的周维平总经理和美国Quest公司。
16日20:00~21:00,Quest Software的负责人抵达红基会现场,展开网站数据库前期分析。微软中国技术中心技术架构师李工通过远程桌面提供支持。杨明非和周维平随后赶到,同程刚一起进行问题分析,发现当时红基会网站数据库服务器的CPU都占满了。根据故障诊断,制定了一个比较全面的解决方案:首先要解决服务器的问题,并且进行数据库调优;其次,由于这次网站的瘫痪还与红基会的应用(ASP页面等)有关,还需要联系微软等公司协助解决;再就是硬件支援方面与Intel进行联系。
16日22:00,北软世纪开始联系其他厂商的设备。TippingPoint中国区业务总监贾泉海在接到周维平的电话后,连夜与美国总部进行了联系。令贾总颇为感动的是,美国老板二话没说就批准了IPS设备的捐赠,而且美国的财务总监也大力支持,其中没有任何的复杂手续。
16日23:00,经过多方联系,北软世纪基本圈定了需要的相关设备,曙光公司、浪潮公司提供数据库服务器和Web服务器,TippingPoint提供网络安全设备,Intel也表示提供大力支持。各个厂家同时约定,第二天上午10点一起把设备送到北京光环新网互联网数据中心。而光环新网的老板也当即表示,红十字会的网站出口带宽需要多大,光环就免费提供多大,绝无限制。
5月17日凌晨2:00,众多专家制定出红基会网站抗流量压力综合解决方案,并且完善了方案的可执行度。专家们决定,将红基会数据中心应用服务器和数据库服务器进行剥离,并通过美国F5公司的设备进行负载分担。同时,由微软和Quest的技术人员进行数据库优化。从落实方案到配置设备仅在短短的4小时内就完成了。
17日10:00,微软、F5、Quest、浪潮、曙光、TippingPoint、北软世纪等多家厂商的20位技术工程师齐聚北京光环新网互联网数据中心。据悉,F5提供了一套大型负载均衡设备;浪潮和曙光一共提供了六台四路16G内存的高性能服务器;TippingPoint提供了新型千兆支持ZPHA的IPS设备;微软提供了Windows Server 2003 Enterprise、SQL Server 2005 Enterprise软件系统;Quest负责数据库优化。随后工程师们着手进行硬件的安装、调试、网站平台的迁移等工作。
17日14:00,红基会网站完成系统升级,不仅网上捐款系统恢复正常,而且网站性能得到优化,响应时间大大缩短,半秒钟之内就可以得到反馈。用程刚的话说:“快的不相信自己的眼睛了”。这次抢修行动历时18个小时,其中从确定方案到确定设备大概只用了一个小时就完成了。
IT人的真性情
在红基会数据中心的爱心接力过程中,上演了一幕幕感人至深的情节。
对此程刚介绍说,在地震发生前,他对于上述这些爱心企业几乎都没有接触,也不认识这么多的总经理和工程师。但是地震让大家走到了一起。
“我也是几十岁的人了,生离死别也见过,但是从这次网站的瘫痪开始,我就一直被众多好心人关心着、支持着。从最初接到北软周维平的电话,后来到各方专家为我们献计献策,再到20几位原厂商的工程技术人员不眠不休的无私协助,这种齐心协力、无私奉献的精神,令我非常感动。可以说,我们的IT人员在用自己特有的方式支持抗震救灾,这种无私的大爱是最令人感动的。”程刚如是说。
除此以外,在这次红基会数据中心的抢修过程中,IT厂商在设备选择与集成实施上也毫无保留,全部动用了最新的技术,力求完美。
据杨明非介绍,由于这次项目涉及到各家厂商的设备比较多,因此首先需要做一个负载均衡。同时考虑到红基会网站的流量大小未知,因此选择了一款高性能的负载均衡设备BIG-IP LTM 3400,可承载1Gbps的吞吐流量;其次,由于红基会网站做过CDN支持,考虑到这方面可能存在的需求,又在LTM 3400上加了一个GTM广域网流量管理模块,支持灵活的CDN部署;最后,考虑到从海外访问红基会网站的问题,还加上了一台WebAccelerator 400设备。
而为了保证红基会数据中心的安全运营,TippingPoint提供了目前最新型的TP 210E IPS设备。这种设备不仅提供1G的接口,而且支持最新的ZPHA技术。这样,即便网络中心在没有电源的情况下,IPS一样可以工作。
从业务连续性安全考虑,这样的设备可以对支持ZPHA的交换机、路由器等设备提供保护,从而最大程度地保证红基会数据中心访问的安全。
微软提供了SQL Server 2005 Enterprise作为数据库平台和Windows Server 2003 Enterprise作为操作系统平台,并对红基会原有的网站程序及数据库设计进行了深入分析,通过网站程序代码优化和数据库索引调整这两方面,对红基会网站进行了性能优化,大大缩短了网站在大并发访问量情况下的响应时间,优化后对捐款网页的请求在0.5秒钟之内就可以得到响应。
作为集成商,北软世纪在这次的抢修行动中发挥了两个不可或缺的作用:其一是纽带作用,北软世纪是F5和TippingPoint的金牌代理商,以前也是微软的合作伙伴,方便了在第一时间调动厂商资源;其二是整体集成的作用,北软世纪拥有多年的系统集成、网络运维、网络安全、应用优化等IT信息技术服务的经验和实力,因此在这次抢修行动中,发挥了统筹的作用,同时还包括整体构架和解决方案的制定等方面。
以前的系统集成项目通常由用户发起,厂商是被动的,而这次是我们联合厂商主动发起的。大家都希望在这样的关键时刻尽自己的一份力量,因此协调起来比较轻松且非常高效。此外,集成商在应急情况下体现出来的支撑能力和服务能力也显得非常重要。
细心的读者可能会发现,这次红基会抢修项目速度之快,前所未有。据介绍,这次参与项目的很多人都是第一次见面,但大家在这种紧急情况下的协调和通力配合值得称道。项目过程中没有任何人找任何理由推脱责任,凡是被叫到的厂商都是立即响应,二话不说。其中,反应速度最快的是服务器厂商,当他们得知红基会网站瘫痪需要服务器,马上表态,可以立刻就把设备送过来了。
对此杨明非表示:“如果类似的一个项目放在平时,绝对不可能做得这么快,在某些项目中,流程长的话大概要半年时间才能实现。多家厂商的20多个工程技术人员能够迅速集合在一起,又是用这么快的速度做出来,是有一种自发主动的因素在里面的。”
有专家表示,在整个红基会数据中心项目中,“该用到的都用了”。不难看出,这次抢修并非简单的恢复,而是完全按照一个标准的大型数据中心的架构去实现的。具体到设计上,通过IPS实现了网络安全;通过LTM实现了本地负载均衡;通过GTM实现了广域网流量分配,后台还有服务器(并且数据库服务器与Web服务器分开)等设备。今后红基会如果遇到比这次更大的流量压力,通过扩充服务器就完全可以支撑下来。
此外,项目组人员透露,正准备在红基会数据中心添加一个SSL VPN的远程管理设备上去,如果采用原来的远程管理方式,容易把端口暴露在外面,而采用SSL VPN的,就会话更加方便和安全了。
气愤的安全事件
对程刚来说,得到众多爱心企业的无私援助是一件令人高兴的事情。然而,从IPS上线以来,种种安全问题的暴露却令程刚高兴不起来。
其实早在地震以前,红基会就曾发生过黑客攻击事件,包括黑客入侵网站,甚至是将红基会的服务器植入僵尸程序。但是总的来看,那时候的攻击事件还是比较少的。
但在“5·12”地震以后,大量的爱心捐款不仅牵动了全国人民的心,也“牵动”了少数没有良知的黑客。此前在广州昆山已经发生过有黑客入侵当地红十字会网站并修改捐款账号的事件。而在红基会此次上线IPS之后,也侦测到对于红基会网站的入侵与各种花样的攻击。这一度令在场的二十几位工程师气愤不已。
据贾泉海介绍,从5月17日下午开始,就已经出现了几个波次的攻击源,从IPS锁定的IP地址分析来看,攻击IP主要来自中国周边的国家和地区。而目前主要的攻击形式包括三种:SQL注入攻击、跨站脚本攻击、应用程序漏洞入侵。
据TippingPoint负责红基会远程诊断的安全专家李臻介绍,目前针对红基会的SQL注入攻击与跨站脚本攻击的非法牟利目的明显,黑客并非简单的去修改捐款账号,而是希望从中截获捐赠者的银行账号和密码,技术复杂度较以往有所增加。
传统上分析,进行这两类攻击都会去利用SQL数据库本身的弱点,采用“1=1”或者“T=T”的嗅探方式揣摩数据库的类型,然后配合相关攻击软件窃取数据库管理员密码,以便在网站上实施挂马。
对此贾泉海表示说,此次红基会出现的攻击事件,并非传统上针对商业网站的DDoS或者其他类混合攻击。换句话说,频繁的SQL注入与跨占脚本攻击,反映了目前一些黑客混混们的恶劣行径与趁火打劫的心态。
目前的挑战在于,对于基金会类网站,传统的IPS厂商此前并没有进行过专门的流量研究与分析,因此在过滤器的选择上需要摸索前进。不过好消息是,由于此次众厂商合理武装红基会的数据中心基础设施,极大地提升了数据中心的处理能力,而且微软公司也亲自上阵,从操作系统和SQL数据库根源进行安全保护,加上这次采用的IPS本身具备千兆支持能力,即便过滤器打开复杂一些,也不会出现性能瓶颈。
事实上,从5月17日至今,红基会已经根据IPS提供的LOG记录确定了一系列的入侵攻击源。据程刚介绍,红基会已经对入侵行为实施了记录取证,不排除在今后的某个阶段进行法律上的诉讼。
另外一方面,针对红基会现有应用漏洞的攻击也已经被安全专家所发现。据介绍,红基会此前曾经采用过一款开源的新闻信息发布系统。但很不幸,该系统存在严重的安全漏洞,并一度避过了IPS的检测。据悉,目前红基会已经停止了相关应用的使用,而IPS也进一步调整了过滤器的防御策略,力求全方位保护红基会的应用安全。