2010年“五一”假期前夕,天狮集团有限公司(以下简称“天狮集团”)下达了放假停电的通知。随后,天狮集团全球信息中心着手放假前的准备工作,关闭系统,断电,一切有序进行。
但是,在2009年5月4日早上,长假归来的人们发现,知识管理系统无法正常使用。原来,在关闭相应服务器的时候出现了盲点——楼层交换机没有人管理。接电之后,服务器开始闪断闭合。如果闪一下没有合好,服务器就会再闪一下,每一个闪断对服务器的损害都特别大。
好在,经过短暂的“抢险”,知识管理系统顺利恢复正常工作状态。但是,这也给信息中心提了个醒:必须规范详尽的断电和起点操作流程,否则很容易导致系统瘫痪!
在天狮集团全球信息中心总监姜正林看来,这算是集团数据中心搬迁之前的一个序曲。在未来搬迁过程中可能出现的问题提前出现,提醒信息中心要把搬迁预案做得很详细很清晰!
数据中心遭遇瓶颈
天狮集团成立于1995年,1997年开始进军国际市场,2003年在美国纳斯达克上市,开始在全球范围内展开业务。目前,天狮集团的业务范围已经覆盖了全球190多个国家,在110多个国家和地区建立了分公司,拥有5万多个特许经营店。
2003年,天狮集团在天津总部兴建数据中心。机房的面积、供电、UPS、容量等都是根据当时的信息系统量和业务量,按照满足未来10年业务发展需求的标准来规划和建设的。
目前,该数据中心承载了生产、研发、物流、销售、人力资源管理、内部的协同办公、合同管理、电子商务、教育平台等多个系统,涵盖了所有的业务。
但是,刚刚五六年,业务发展速度大大超出了预期,业务量呈井喷式增长,现有数据中心远远难以满足新的业务发展,无法满足面积、供电等多方面的需求。
一般情况下,数据中心的用电负荷不会超过50%,但是现在天狮集团已经达到70%了。一旦出现峰值,服务器的安全隐患就会非常大。
目前天狮集团在全球有3个数据中心,欧洲的很多应用被放在伦敦数据中心,东南亚的很多服务被放在了新加坡数据中心,天津的数据中心更多的承担集团总部、中国区、海外其他地区的业务应用。天狮集团已经签订了全球MPLS协议,3个数据中心相当于一个数据中心,全球范围内都相当于局域网的概念。
但是,3个数据中心之间如何最大化实现系统的可用性,数据中心之间的数据安全问题,等等,都是不可忽视的问题。姜正林坦言,天狮集团高层一直很重视信息化建设,集团在信息化方面投入一直很大,但不可否认的是,曾经一段时间天狮集团的IT系统之间的相对独立性较大,相互之间缺乏有效的管控。
2006年,天狮集团打造天狮国际健康产业园,3个数据中心的定位与以前也发生了明显的变化。现在,天狮集团要打造一个全球化的数据中心。随着整个集团的整体搬迁计划,数据中心的搬迁也被提上了日程。
“天狮集团数据中心的搬迁,有以上两方面的原因,但是我觉得,更多的还是业务的发展,数据中心要为业务发展提供支撑。”姜正林说道。
把脉数据中心
在天狮集团目前的数据中心,虽然从技术上来说,系统的安全性、可用性和持续服务能力等都不存在问题,但是,因为空间的问题,数据中心内部很容易就看到一堆一堆的电缆。甚至曾经有一段时间,一大堆电缆堆在一起,缺乏有效的标识,一旦拔掉就很难分辨出哪个线缆对应哪台设备。
在这种情况下,必须对现有机房进行梳理。2009年中,天狮集团全球信息中心开始着手考虑此事;2009年第三季度,梳理工作进入了实质性的阶段。
“数据中心的搬迁,不是简单的设备打包,搬过去,再打开。”姜正林说,在搬迁之前,必须充分了解现有的系统,并且了解需要做成什么样子,要明白对设备的要求,虽然有合作伙伴,但是还是要做到至少80%自己心中有数。
数据中心搬迁是一项风险性很高的重大IT环境变更项目,所涉及的软件和硬件以及环境非常复杂,搬迁项目必须以“数据安全”和“尽可能减少对业务系统的影响”为目标。因此,在搬迁方案的选择上,也就必须使其具有“时间安排紧凑、风险控制要求高、应急处理能力强”等特点。
一般来讲,信息系统的搬迁有简单搬迁、冗余与租借、系统更新等三种方案,需要根据应用系统的停机时间要求来选择。经过充分考虑,天狮集团决定,由于现有的数据中心将整体搬迁到新的数据中心,主要以简单搬迁完全停机并搬迁的方案为主,同时考虑辅以冗余与租借的方式,准备部分备机搭建冗余系统,使搬迁活动对关键应用的影响尽可能小,搬迁成本和搬迁影响达到一个平衡。
现有的很多系统,当时都是考虑先用起来在说,但是真正用了之后就发现系统的可用性要求非常高。如果这边服务器出现了问题,马上要求另外一台机器能起来工作。一旦有个风吹草动的情况,系统的可控制性就变得非常差。
因此,必须做好建模和评估工作。机房里包括哪些系统,哪个系统应该放在哪个位置,系统的布置,方案的论证,要对整个方案进行充分的论证和评估。
更为关键的是,要设计详细的搬迁准备流程。备份,备机检查,健康检查,确定搬迁路径,断电,拆除电缆,物流,重装,等等,这些细节性的工作都必须一一安排妥当。
排除顽疾
在数据中心搬迁过程中,IT将系统停机,并需要仔细拆卸,以保护重要数据和尽量减少对核心业务应用的影响;正确的对IT设备进行重新安装和启动,以便迅速恢复工作。任何偶发的,人为的,内部的,外部的,任何原因都有可能导致各种各样的风险,这些风险将会直接导致各种错误的出现。
况且,数据中心搬迁涉及到的技术范围非常广,涉及到的相关部门和人员也非常多,因此,整个项目的各个阶段都需要经过信息中心、业务部门、管理部门等多方计划,才能最大限度降低搬迁变更中的意外,减短停机时间。
姜正林坦言,此次数据中心的搬迁,业务的持续性是个难点,而时间则成为最大的挑战。原计划2010年5月搬迁的计划也因为整个天狮国际健康产业园的项目变更而有所推后。
目前机房中的有一些老旧设备,在搬迁过程中出现问题的可能性非常大,所以搬迁之前的各种应急方案,包括备份完了之后应该怎样进行机器之间的切换,都是挑战,都需要有足够的时间来做。
此外,为了防止搬迁途中的意外,信息中心已经找到了一条近乎完美的搬迁路径——整个路径上没有一个红绿灯。因为多一个红绿灯、减速带,车辆就要多一次减速、刹车的过程,这些都有可能造成机器的损害。
现在,在基础梳理之外,天狮集团信息中心已经开始对现有数据中心进行升级改造,一方面希望能够尽量支持现有集团业务,另一方面,也希望能够减少搬迁过程中的风险和损失。
天狮集团信息中心有70多人,但只有10人是直接管理机房的。虽然按照计划,在搬迁的时候会让原来业务系统的负责人全部参与,但是这对搬迁过程中的进度安排也提出了挑战。因此,信息中心也需要更多的时间去完善此项工作。
按照天狮集团国际健康产业园的整体工程进度和集团的总体安排,在接下来的几个月之内,天狮集团将完成数据中心的搬迁工作,届时也将启动新的数据中心。在具体搬迁方式的选择上,姜正林也在做最终的思考。
如果安排在2010年10月搬迁,那就有可能采用一次性整体搬迁的方式。但这样对机房的整体规划,对人力资源的投入,要求都非常高。而且,利用国庆7天的假期,一旦出现任何问题,都有时间去排除。但这样,系统必须全部停掉,国内的所有业务基本上就处于停滞状态。
如果最终决定在2010年8月搬迁,那就有可能采用分步搬迁方式,在保证一部分搬迁没问题之后再开始另外一部分的搬迁,从安全性和效率上来讲是最高的,但是可能会浪费一些时间。
但无论如何,搬迁时间的最终确定,将会从“对业务影响最少最低”的角度去考虑。“一个机房的建设,不是简单的机器的叠加,而是需要更多的考虑业务,从业务的角度去沟通,保障信息系统的安全性和可用性。”姜正林说。
新的数据中心将占地300余平方米,坐落在天狮集团国际健康产业园。如果说现有数据中心在很多时候是被动的响应业务,那么,新的数据中心将主动监控应用。未来,业务人员必须参与系统的运营,而整个数据中心会从安全上、从整个后台系统的规划上、从对应用的监控上等多方面全面实现对业务反应的实时性。
按照姜正林的介绍,新的数据中心是可管理、可托管的,将实现全球一体化。这对天狮集团发展全球市场、创建天狮全球化卓越品牌,为天狮集团全球化提供更优质的服务等方面,打下坚实的基础。