诶??生意这么好的吗?
她不是没有想过生意火爆,但是没想到能这么火爆。
就为了多送两个茶叶蛋,居然有这么多人早上五点起来预约午餐??
小雪一边困惑一边点击了「刷新」,页面依旧提示无法连接。
小雪赶紧打电话给运维。
运维此时已经在满头冒汗地处理了,他们查了一遍bug,没bug,又查了一遍数据。
在网页无法连接之前,也就一千多个人预约了早餐,还不如下大雨的饭点的访问量高。
“吃了么……”运维工程师的汗还没擦干净,就轮到数据中心的运维工程师头上冒汗了。
数据中心早就收到云间市的机房包间通道温控报警。
工程师急忙介入查询。
五分钟后,多个包间升温警报,眼看着事情越闹越大,一时半会儿按不下去,工程师们在召唤更多同伴的同时,也不得不把事情向上汇报。
正常情况下,由一线值守的运维处理就行,一线值守的运维搞不定的话,会有更高级的技术人员来处理。
短时间能搞定的事情,第一时间都不会想到通知行政管理上的人员,技术上的事情叫他们毫无意义。除了会站在旁边吱哇乱叫,增加紧张气氛之外,也没什么卵用。
然而,五点二十七分,睡得正香的安夏接到了王娇娇的电话:“安总,抱歉打扰,数据中心的机房出问题了。”
王娇娇已经尽量用了冷静平静的语气向安夏汇报。
不过她再冷静也没用,一件事情到了安夏这里,就说明这事已经非常严重了。
不管是用报丧的语气还是用报喜的语气说,都不会改变性质。
安夏被这个消息顿时吓醒了,一线运维工程师向她汇报那个数据中心涉及的单位。
除了紫金自家的,还有几个政府机关的网页,以及几个电业局的智能电表的数据也在这里面。
“容灾逃逸启动了吗?”安夏问道。
运维总负责人??回答:“还没有。”
“你在等什么?!”安夏忍不住提高了声音。
□□马上回答:“是,马上切换机房!”
挂了电话以后,安夏一直在刷新网页,五分钟后,运维汇报:所有受到影响的网页已经全部恢复。
安夏看了一眼时间,刚刚到凌晨六点,从系统首次发现故障到现在共经历了一个小时,她这才稍稍松了一口气。
幸好这个受到影响的数据中心承接的都是普通业务。
要是像后世那样动不动就是个分钟级、秒级的业务,服务器从断气到机房转移完毕,中间不知道要赔几万几十万。
也幸好现在时间还早,大多数人还在梦乡之中。
要是紫金支付的客户发现他们的账户余额为零,或是半天刷不出来,怕不是当场就要提刀杀来了。
只要客户那里不炸,机房的事可以慢慢算。
通过这件事,安夏也发现一个问题,明明有备灾机房,□□却没想到马上开启容灾逃逸?他对自己这么自信?
真有这个本事的话,她应该收到的是故障说明,还有处理报告,而不是事情还没解决就到她这里。
安夏对数据中心的救灾演习非常不满,出现问题之后,运维根本就是在凭本能做事,心思都在解决故障上面,完全没想到最重要的是不要影响到客户。
一旦失去了客户的信任,以后数据中心的业务还做不做了。
安夏叫来负责系统安全的总监龙运,刚想问问他们有没有一套规范的应急手册,以及有没有演习过。
龙运来的时候,神色还是十分紧张,就好像刚刚被人从火场上揪下来一样。
看他的表情,不像怕被追责的慌张,更像是还在忙着干什么事,忽然被人打断后的模样。
安夏问道:“机房的问题解决了吗?”
龙运的回答差点把安夏给气死:“没有。”
早上五点钟发生的事情,现在已经十点,整整五个小时,还没有解决,机房是被烧了还是炸了?
“机房到底是怎么回事?”
“被水淋了。”
“哪来的水?”安夏一时没反应过来。
“机房温控检测到服务器温度过高,然后……就触发了消防自动喷淋。”龙运在说这话的时候,音量都不由得低了几度。
等安夏确认自己没听错之后,她瞬间出离愤怒。
数据中心!机房!全都是怕水的硬件!被水淋一淋就要断气。
消防装置用自来水喷淋系统?!
安夏做了几个深呼吸,才没有对手边的鼠标和手机进行身体伤害。
“你先去处理机房的问题吧。”安夏摆摆手。
事情还没解决,把龙运扣在办公室里骂死,被淋死的服务器们也不会死而复生。
下午四点,龙运还没过来请罪,显然是事情还没解决。
设计数据中心机房的建筑设计院已经过来了,他们说是来说明问题的,其实是来甩锅。
机房升温的原因:冷机系统故障。
故障原因:缺水。
由于水路循环受到影响,导致整个机房里所有的主冷机服务异常,连带着备用的冷机也一起完蛋。
然后,补水了,结果由于冷却系统的群控逻辑,无法单机独立启动,必须手动修改配置。
等工程师改完了,才重新启动。
查原因用了三小时三十四分钟。
补水用了两小时五十七分钟。
人工修改冷机的群控逻辑用了三小时三十二分钟。
所以,早上五点发生的问题,直到刚刚才解决。
中途还因为傻逼的自来水消防喷淋装置,彻底毁了一个房间里的服务器。
这家建筑设计院就是之前安夏成功推销了软件的那家接了援非业务的,院长朱洪涛给钱挺痛快。所以安夏在做数据中心的时候,也想到了他们。
这次带队过来的人是总工杜力,在来之前他们内部已经撕过一轮了。
冷机故障,正常情况下第一个要找的是暖通。
暖通工程师说:“关我什么事?是我让冷机没水的吗?是弱电的错!没水了群控都查不出来。”
弱电工程师说:“关我什么事!我的程序没错!是给排水的错……”
给排水工程师说:“啊对!是,我,我有罪!但是负责机房监管的人就一点责任都没有吗?”
于是,杜力亲自带着给排水工程师过来谢罪。
如果有可能的话,最好能把锅甩回给紫金科技,建筑行业一出生产责任事故,不是赔钱就是坐牢。
他们也不想的。
机房断气的责任事故有两件事要往下追:
第一,冷机的水到底是怎么没的。
第二,谁出的主意,在机房里用自来水喷淋做为消防手段的。
第一件事的责任方无论如何都有给排水工程师的锅,甩是甩不掉了,他最多拉着机房监管人员共沉沦。
杜力向安夏再三道歉,表示会马上亲自到现场查明事故原因。
下午五点,龙运来了。
他接到消息的时间是早上五点十分,早饭午饭都没吃,连轴转到现在,解决了机房的问题之后,又急匆匆地赶来向安夏汇报。
什么时候机房出现了什么事,什么时候机房全面恢复。
目前造成了什么损失。
损失只报了那一房间的硬件,安夏盯着他:“你是不是漏掉了什么?”
“什么?”龙运没反应过来,冷机不进水的故障不是由建筑设计院认领吗?
“对客户的影响。”安夏冷着脸说:“停机多长时间,多少个客户不能正常使用功能,这些客户都是什么行业的,显性的故障是多少,隐性的故障是多少?你没想过?”
龙运完全没往那里想:“应该……没有吧,那个时间还早,我们又很快把数据转移到异地备份服务器了……”
“吃了么在出现故障之前已经有一千多单预约。如果不是出现故障,应该还会有几单,也许就有想预约午餐的客户打开网页之后,发现无法登陆,然后放弃的,这算不算损失。”
龙运不敢吭声了,紫金内部的各个团队是独立运营,吃了么的老大又是安夏之前助理,不是可以随便打发的小虾米,他们的投诉当然也是投诉。
安夏又问:“数据中心有应急手册吗?有防灾演习吗?”
“有应急手册。”龙运赶紧说,并说就在公司内网上就有电子版,安夏一目十行的扫完,眉头紧锁。
“这边不是有关于数据中心出现问题之后,应该第一时间启动容灾逃逸吗?为什么出现问题之后半小时都没有启动?他们不知道就算了 ,你也不知道?你还想不想干了?!”
面对暴怒的安夏,龙运沉默,安夏并没打算因此放过他。
总经理办公室里的空气像粘稠的胶水,在如此的重压下,龙运感到自己无法呼吸,他想逃走,但是一步也走不动。
安夏的眼神像锋利的刀,他实在不知道应该怎么办。
现在,他十分后悔,早知道,不听那个人的建议就好了。
如果不是因为轻信了别人,选择了更便宜。但需要经过中间件跳转的管控系统,怎么会在发现故障的时候吵转不过去。
如果不是一个资深运维生死时速修改bug,安夏命令他做容灾逃逸的时候,他也转不过去……
当时转成功的时候,他还松了一口气,以为安夏不会再追问这件事了,没想到,她还记着这事。
这要怎么向她解释,说自己一分钱没收,只是因为朋友关系,才听了别人的建议?