新京报快讯(记者白金蕾)8月7日晚间,腾讯云通过其官方微信号,对此前因操作系统云盘故障,导致北京清博数控科技有限公司(下称:清博数控)所属“前沿数控”平台元数据损坏一事进行了复盘。复盘中,腾讯云称,该故障是由于因磁盘静默错误导致的单副本数据错误,以及数据迁移过程中的两次不规范的操作引起的。

  新京报记者就此求证腾讯云官方,对方称,赔偿及最终解决方案还在协商中,故障发生过程及原因以公众号声明为准。清博数控截至发稿暂未回应。

  8月5日,清博数控所属“前沿数控”平台发布微博称,由于其存放在腾讯云的数据全部丢失且无法恢复,其基于自身评估要求腾讯云赔偿1100余万人民币。

  8月6日,腾讯云通过其官方微信号,对上述事件的进展进行了说明,并提出了“赔偿+补偿”的解决方案,方案中腾讯云愿意承担136469元,与“前沿数控”要求的金额相差较大。腾讯云强调,该136469元金额是“前沿数控”在腾讯云平台中用云金额的37倍。

  双方的争议,除了数据赔偿的金额外,还有“前沿数控”提出的导流要求。腾讯云称,在双方的沟通中,“前沿数控”还提出希望以“获得腾讯投资”、“腾讯官方引流”等方式得到补偿。并称在当前情况下,腾讯云很难满足这样的要求。但前沿数控否认腾讯云的说法,并称是腾讯云主动提出的上述条件。

  8月7日晚间,腾讯云发布了一份关于“前沿数控”数据完整性受损的技术复盘,对“前沿数控”业务所受影响表示诚挚歉意的同时,详细解释了此次故障发生的根源,以及将采取的措施。

  复盘中称,故障发生当天的11时57分,腾讯云的运维人员收到仓库Ⅰ空间使用率过高告警,准备发起搬迁扩容;14时05分,运维人员从仓库Ⅰ选择了一批云盘搬迁至仓库Ⅱ,运维人员手动关闭了迁移过程中的数据校验;在20时27分,搬迁完成后,运维人员将客户的云盘访问切至仓库Ⅱ,为了释放空间,对仓库Ⅰ中的源数据发起了回收操作;20时30分,监控发现仓库Ⅱ部分云盘出现IO异常。

  腾讯云认为,上述操作中的违规操作主要以下两点:其一,正常的数据搬迁流程默认开启数据校验,开启之后可以有效发现并规避源端数据异常,保障搬迁数据正确性,但运维人员为了加速完成搬迁任务,违规关闭了数据校验。其二,正常数据搬迁完成之后,源仓库数据应保留24小时,用于搬迁异常情况下的数据恢复,但运维人员为了尽快降低仓库使用率,违规对源仓库进行了数据回收。

  最终腾讯云定性称,本次事故起源自因磁盘静默错误导致的单副本数据错误,再由于数据迁移过程中的不规范操作,导致异常数据扩散至三副本,进而导致客户数据完整性受损。

  为此腾讯云提出两项改进措施和一项建议。改进措施是,进一步提升常规运维自动化和流程化,降低人工干预,同时把全流程的数据安全校验作为系统的常开功能,不允许被关闭;针对物理硬盘静默数据错误,在当前用户访问路径数据校验自愈的基础上,将优化现有巡检机制,通过优先巡检主副本数据块、跳过近期用户访问过的正确数据块等方法,加速发现该类错误,进行数据修复。腾讯云还建议客户开启免费的快照功能,对重要数据进行定期备份,进一步提升数据的安全性。

  事实上,在企业集体上云的过程中,腾讯云并非第一个出现故障云服务商。

  6月27日晚,因为一个未知代码bug,导致阿里云服务器用户的官方网站和控制台无法访问,除了登录环节异常外,阿里云的多个产品在该时段均无法使用。在2015年6月,阿里云香港节点崩溃,13小时后才被修复。除此之外,亚马逊AWS、谷歌的云服务产品也都曾经出现过不同程度的故障。