先来看看Salesforce是个什么公司,云计算企业中的大佬,中国区的网页是这样介绍的:
您的所有销售、服务和营销数据尽在指尖,但是有将近5小时的数据蒸发了,不好意思哈!
Salesforce从1999年到现在,目前Salesforce的数据中心在美国东西海岸,日本,新加坡,都柏林。Salesforce 连续多年在IDC GATNER的评比上成为最具创新企业的第一名。据Celnet雨花石(Salesforce中国区合作伙伴)创始人裘思博(Fledman)介绍,“多租户架构是Salesforce的基础。Cloud database用的是Oracle的数据库以及相关技术。在往上分为3个部分,force.com 平台、heroku、wave。”
整个云数据库用的是Oracle,这个Oracle云数据库是怎么丢的数据呢?
我们来看看国外媒体对salesforce的报道。Eweek.com 5月11日的文章说:
A Salesforce.com database is back up butnot at full capacity. The more than day-long issue left customers frustratedand 5 hours of data permanently lost.
面对众多客户的大量抱怨,CEO Benioff在twitter上道歉:
I am sorry for our service disruption onNA14; please email me ceo@salesforce.com so we can call you.
Salesforce丢失近5个小时客户数据之后并没有更明确的赔偿或补偿,只是留了一个邮箱而已。
据说这次Salesforce发生客户数据丢失主要因数据中心停电造成,在一个大型数据中心的一次大停电之后,Salesforce客户有近5个小时的数据再也找不回来了:
"We have determined that data writtento the NA14 instance between 9:53 UTC and 14:53 UTC on May 10, 2016 could notbe restored."
对于2015年全财年收入53.7亿美元、日事务过13亿的Salesforce来说,数据丢失的影响无疑是巨大的,客户的数据啊。
据了解,造成数据丢失的原因是,宕机后工作人员希望将数据库恢复到5小时以前的状态,但不幸的是,这一操作导致了故障的发生,进而导致了数据丢失。但是,Salesforce.com的用户们没有签署SLA,这也就意味着这样的故障发生,salesforce将不会给予赔偿。当然,这个不是要讨论的重点。
对于使用Oracle数据库的云服务提供商来说,居然没有容灾,而是考虑用备份来恢复,而且还失败,把数据都丢了,这是令我最为惊讶的地方。咱不用谈Oracle公司提供的先进的Exadata、Oracle cloud machine、Zero data loss machine…..(如果你想了解这些先进的东西,可以文章后面留下邮箱),就是传统的解决方案也很多。
方案一:用Oracle GoldenGate(或者同类产品)
我们在全国许多银行、交通、电信运营商已经成功实施、稳定运行5年以上了,最大的库每日单库日志增量1T左右。做好的秘诀是做好变更管控,每个月做切换演练。我知道很多企业做了之后,维护不好,然后数据不一致,最终成为摆设的。
方案二:用Oracle Active Data Guard(11g以后的版本适用)
适用ADG的好处是,不太需要关心源端的变更,而且是物理级别的复制,而且可以适用延迟恢复。事实上,如果条件允许,我们建议最好的容灾方案是ADG+OGG。
这些技术,对于现在的DBA或者说服务公司来说,都是小儿科了。重点的重点是流程,要投入资源保证灾备的可用、可靠:
Salesforce的遭遇显然不是个案,只因为她是云服务商中亭亭玉立(17岁)的一位,知名度大,所以为众人所知。君不见,微信群里经常会出现某某公司又在做非常规恢复了的消息。
如果你的数据库还没有做容灾或者没有做好,马上关注公众号:dbaplus,免费学习、咨询切磋~
作者介绍 杨志洪
【DBAplus社群】联合发起人,新炬网络首席布道师;
数据管理专家,拥有十余年电信、银行、保险等大型行业核心系统Oracle数据库运维支持经验,掌握ITIL运维体系,擅长端到端性能优化、复杂问题处理。现主要从事数据架构、高可用及容灾咨询服务;
Oracle ACE、OCM、《Oracle核心技术》译者。
本文来自云栖社区合作伙伴"DBAplus",原文发布时间:2016-05-14