阿里云又宕机了,这一次发生在午夜。


3月2日23时55分左右,阿里云开始出现大规模故障,位于华北地区的多家互联网公司的IT运维人员发现多个APP和网站开始陷入卡顿。随后一批程序员赶往公司加班。58高级架构师沈剑在针对此次宕机的回忆文章中称,这场事故持续了三个小时左右,事后观察了两个小时。


3月3日早间,阿里云发布公告,开始全面排查。截至目前披露的结果是,华北2地域可用区C部分的ECS服务器(云服务器)等实例出现IO HANG(IO不响应),经紧急排查处理后已全部恢复。阿里云方面向记者证实了这一结果,并表示其他区域未发现此类情况。


针对故障,阿里云表示,将根据SLA协议(服务合同),尽快处理赔偿事宜。但阿里云并未公开详细的赔偿细节。而根据阿里云开发者论坛上的网友说法,赔偿通常是按照故障时间的100倍进行的,而方案则根据包年包月预付费模式和按量付费模式有所不同,但总额不超过支付的单台云服务器费用总额。


这是一场发生在周末的宕机时间,因微博的传播而备受关注。第三方机构Forrester分析师戴鲲告诉记者,华北2地域是阿里云最早开通服务的华北地域之一,而ECS服务器又是阿里云最为核心的IaaS(基础设施即服务)之一,影响程度应当是相对较大的。


2018年6月,阿里云曾出现技术故障。尽管官方最终给出的故障时间仅为30分钟,而恢复时间需要1小时。但阿里云最终仍将其定义为S1级别事故,即核心业务重要功能不可用,影响了部分用户,造成了一定损失。


2019年1月,第三方机构IDC报告数据显示,2018年上半年中国公有云厂商中,阿里云以43%的市场占有率排名第一,相当于第二名至第九名的总和;腾讯排名第二,市场占有率为11.2%。


99.99%的安全性有多可靠?


事实上,宕机事件频繁发生。仅2018年一年,全球主流云计算厂商曾发生数十起宕机事故。对于宕机的原因,亚马逊AWS称因数据中心硬件问题,微软Azure数据中心则因高温和打雷,腾讯云因运营和硬盘故障,谷歌则因自动化失效。


但与此同时,多家云服务商仍在承诺99.99%的安全可靠性。对此,有技术专家表示,这一数字是经过验证的,而且通过部署反馈,故障率的确在0.01%以下。并且,一旦出现故障,云服务商也都有相应的容灾方案,可以及时解决问题。


沈剑在上述文章中表示,更换其他方案,也会遇到其他的问题,而自建机房,更是没有信心比阿里云更好。目前大多数公司仍在业务阶段,考虑投入产出比,所以多机房模式并不适合所有公司。


如何避免宕机事故造成重大损失?有业内人士称,需要将重要业务分别放在不同的“篮子”里,也就是选择多个供应商,进行“多云”部署。负责运营微软云服务落地的世纪互联蓝云首席执行官柯文达表示,真正的企业级市场中,用户一定是希望“多云”部署。


不过,也有行业人士认为,“多云”部署,会带来管理、开发、人员培训的复杂性,也可以选择多区域部署的方式。


市场对云计算的需求仍在增长


云计算取代旧有IT部署的趋势已不可逆。Gartner数据显示,云计算占全球总IT支出的规模正在不断增加。从2010年的1.99%,上升到2018年的8%,而未来几年向云转移将会直接或间接影响超过1万亿美元的IT支出。


这一切变化发生在过去十年中。十多年前,无论是跨国巨头,还是创业公司,部署IT架构的思路都是相同的,即购买服务器,部署一套系统,支撑公司业务和战略。此时,IT只是一项运营成本。


但现在这些企业,尤其是初创公司通过租用云服务的方式,就能获取IT能力。



在中国市场,阿里云就提供这种服务。与此同时,腾讯、百度、电信运营商等纷纷进入这一市场。2015年中国云计算市场爆发后,多家公司曾以年增长率超过三位数的速度增长。不仅如此,从2015年下半年开始,云计算服务商已经将客户瞄向大型企业和政府机关。


从整体来看,云计算取代旧有IT部署模式已成为产业共识,尤其是按需付费的公有云更是对IT成本最有效的节省。Gartner研究报告预计,2017年到2020年公有云行业增速将维持在15%以上,2020年将达到3834亿美元的规模,而云代替的总规模也将达到2160亿美元。


一位行业分析师告诉记者,对于如电信、金融等一些关键领域的巨头公司,这类宕机事件仍将是影响其快速转向云计算队伍的阻碍,他们可能拿出一些非核心业务在云计算上尝试,但很难马上全部转向云计算。


新京报记者 梁辰 编辑 赵泽 刘晓阳 校对 范锦春