支付宝才因为光纤事件一度导致应用无法使用,第二天,5月28日携程又遭遇攻击,连续两天,大型互联网公司出现不同的系统事故,“互联网+”浪潮下的安全问题再次受到行业内外拷问。
根据携程官方的最新回应:经技术排查,确认此次事件是由于员工错误操作,删除了生产服务器上的执行代码导致,携程也再次保证,数据和数据库并未受到此次事件的影响,用户订单数据也完整无损,请用户放心并继续使用携程网站及App,并表示其在系统上做了改进,规范并杜绝技术人员错误删除生产服务器上代码的操作。
携程在微博上的回应内容
到底是个怎么样的内部失误呢?
为什么恢复的如此缓慢?之前也有业内人士指出,除了携程涉及较多业务和应用外,在平时的运维过程中,对于常见的故障都会有应急预案。但像携程这次所有系统包括数据库都需要重新部署的极端情况,显然不可能在应急预案的范畴中。在仓促上阵应急的情况下,技术方案的评估和选择问题,不同技术岗位之间的管理协调的问题,不同应用系统之间的耦合和依赖关系,还有很多平时欠下的技术债都集中爆发了,更不用说很多不常用的子系统,可能上线之后就没人动过,一时半会都找不到能处理的人。更要命的是,网站的核心系统,可能会写死依赖了这个平时根本没人关注的应用,想绕开边缘应用只恢复核心业务都做到。更别说在这样的高压之下,各种噪音和干扰很多,运维工程师的反应也没有平时灵敏。
简单的说,就算所有代码和数据库的备份都存在,想要快速恢复业务,甚至比从0开始重新搭建一个携程更困难。
多备份联合创始人胡茂华向发表文章表示:“我记得当初在1号店负责运维时,因为1号店被沃尔玛收购,作为上市企业的关联交易公司,当时沃尔玛派KPMG来做详细的审计,核心岗位和管理层都被做了访谈,并出具了详细的操作流程,我亲自参与这个过程,审计是做了,但我们作为执行人心中是非常没有底气的。在我呆过的几个大的互联网公司如腾讯、盛大和1号店,都有做数据管理流程和备份恢复服务,但是因为这些安全业务比较边缘,在整个公司关注程度很低,并没有落到实处。”
他还说到,有理由相信,所有的公司都有做数据管理和备份,不论是小微企业老板自己手动用U盘或者硬盘拷贝、还是大的互联网公司有专门的运维人员专项负责、传统的中大型企业用专业的软硬件工具,关键是99%的公司都没有做数据管理流程、备份和恢复的演练,恢复的数据到底可不可用,如何快速的恢复等操作演练。
为什么恢复时间那么长?
对于为何12小时后才恢复正常,携程解释称:类似携程这样的大型网站承载着繁多业务,其后台是一个由SOA(面向服务)架构组成的庞大服务器集群,看似简单的一个页面背后由上千个应用子系统以及上千个WebService组成,而每个应用子系统和每个WebService之间都存在着相互调用的依赖关系。
发生事件后,携程的技术人员除了需要恢复生产服务器上的执行代码以外,还需要做的是恢复并确保每个应用子系统以及每个Web Service的功能正常,同时确保应用子系统与Web Service间的调用关系得以正常执行。
这种验证性的操作需要携程的工程师及运维人员通力合作,尽快恢复生产代码并通过反复地、持续性地调试以确保应用子系统与Web Service功能的正常运行。
携程再次保证,数据和数据库并未受到此次事件的影响,用户订单数据也完整无损,请用户放心并继续使用携程网站及App。
携程官方网站及APP已于28日23:29全面恢复正常。对用户造成的不便,携程再次深表歉意。”这也是继2014年春节期间携程被爆网站存在漏洞之后,连续两年遭遇IT系统上的漏洞问题。此次事故除了导致携程的股价应声大跌外,按照携程一季度财报公布的数据,携程宕机的损失为平均每小时106.48万美元。对此这次事故的损失,大家算算吧!
虽然携程连续回应称此次事故是由于员工操作失误导致,也得到了很多人的认同。但在事件发生时,携程却说由于不明攻击所致,这样的前后说法相差甚远。
消失的微博,这是28日12:50携程的回应,如今却已删除
这让起先不明真相的笔者不得不惊呼,我们不仅要问,携程你到底有没有谱!