ITPub博客

腾讯云称99.9999999%的数据可靠性,那十亿分之一栽在哪里?

原创 公有云实践 作者:刘美利 时间:2018-08-07 18:17:31 3 删除 编辑

近日,腾讯云故障致数据丢失事件一出,一时间就上了各大热搜榜,由于腾讯云物理硬盘固件版本bug问题导致文件系统元数据损坏,直接使前沿数控技术这家正值发展阶段的创业公司两年来积累的数据全部丢失,几乎致使企业一朝回到创业初期。

基于此次事件,网上的评论可谓是五花八门,有人说腾讯云赔款过于形式,赔款太少,至少也应该百万以上!还有网友主打同情牌,认为腾讯云是背锅者,一个数据至上的创业公司竟没有做好数据备份的准备,出了事就全盘推外。

当然,对于这一揽子的评论,我们质疑的矛头主要指向了以下几个问题:腾讯云称99.9999999%的数据可靠性,搭载了云硬盘三副本存储策略,但为何还是出现如此灾难性事件?另外,一个数据至上的创业公司竟然因为外部云服务器的问题致使企业内部数据全部丢失,责任究竟在谁?市场上各种云服务器承诺安全可靠、多副本备份以及容灾策略,就真的可以百分百依靠吗?互联网时代,我们应该如何保证数据安全?

数据丢失责任判定,问题究竟出在哪一方?

在回答这一个问题之前,笔者整理了今年部分云服务厂商故障案例。

6月28日,阿里云控制台访问出现故障,导致官网时好时坏,后台登录不上,其中图片服务器也挂掉。受其影响的不仅仅是阿里巴巴自家的淘宝天猫,阿里云作为全球领先的云计算服务平台,故障直接导致国内半个互联网瘫痪。

7月17日,亚马逊核心产品——AWS云服务出现中断,客户使用帐户登录时遇到间歇性错误,无法访问AWS管理控制台。管理控制台是客户控制他们从Web使用AWS资源的方式的入口,该功能出现故障,客户将无法实现AWS资源的调配。

7月18日,谷歌云平台全局负载均衡服务发生中断故障,直接影响Snapchat、Spotify和Discord等一批社交app无法使用。谷歌方面称,故障的根本原因在于谷歌的全局负载均衡系统基于谷歌前端服务(GFE)的双层架构启用了新的功能,这些功能在测试阶段并未发现问题,但隐藏的bug却在事件开始时的生产环境被触发了。

7月24日上午,腾讯云服务出现异常宕机事故,导致部分用户无法访问微信接口,业务崩溃。官方称,当时监控到广州区域部分用户资源访问失败,初步确定运营商光缆中断。约两个小时后,腾讯云在微博发布通知,表示“广州区域部分用户资源访问失败、控制台登录异常问题已解决。”并解释说,“故障已确定是运营商光缆中断所致”。

仅仅从今年的部分云服务故障案例就可以看出云服务厂商也不是完美的,很多问题都是不可避免的。那么把事件反映到问题上,作为一家创业公司,公司内部的数据必然非常重要,但是在没有任何备份等安全维护措施下就将数据全部托管在云服务器上未免不妥,只要云服务厂商出现任何一点故障问题,创业公司就极可能出现致命性损失。

从腾讯的公告我们可以看出,腾讯云检测到异常后,第一时间向用户告知故障状态,并立即组织文件系统专家并联合厂商技术专家尝试修复数据,但最终仍有部分数据完整性校验失败。如此小概率事件发生在前沿数控身上,很多网友认为将全部的责任推给腾讯云是不大合适的,制造企业因为供应商的“失误”,出现问题的屡见不鲜,但是很多事情都是环环相扣。面对这件事,腾讯云可能占主要责任,但前沿数控也有责任,公司数据安全运维人员应该意识到数据的重要性,但该公司却没有任何的数据备份准备。

所谓的CVM搭载云硬盘提供三副本存储策略此时为何没有任何作用?

有技术人士表明,有3份数据冗余,在冗余机制正常工作的情况下是不可能丢失数据的,那么就很可能是冗余备份程序出现bug,这种事情很常见。另外现在硬盘的使用寿命很长,质量相对而言也是没有问题的,但盘阵同时坏多块盘的情况也会发生,所以即使是完全周密的保障也不能百分百安全。

很多云服务厂商都会向外宣传自己的承诺,就像腾讯云称99.9999999%的数据可靠性,但是我们也不能完全依赖这样的承诺就将自己的全部家产寄托于上,各大厂商之所以不敢承诺100%的数据可靠性,为的就是留条后路,至于后路有多长,那也要看bug有多大。所以,对于我们受众方来说,无论是否上云,重要数据做好灾备都是最重要的。

真正干货:维护数据安全4大要点 :

经过这件事,我们也了解到上云也不是绝对安全的,那么企业应该如何警惕:

1、  云服务器是最佳选择,但还是要有相应的运维计划。

云服务器对创业公司来说依旧是最佳选择,不要因噎废食,自建服务器成本更高,管理更难,风险控制更复杂,发生数据丢失,服务中断的可能性更大,想达到现在各种商业云服务器的安全保护等级,付出的带价要远远大于直接租用云服务器。但选择云服务器,一定要做好相应的运维计划,特别是数据安全保护方面。

2、  做好数据的安全保护,保护的力度视数据的重要程度而定。

做数据保护的时候,要按照数据的重要程度进行保存,重要数据进行必要的多备份保存,这样即使出现问题也不会损失惨重。

3、  有一定的数据安全保护意识,有系统性的规划措施。

从此次腾讯云事件可以总结出,安全性周密的云服务也会出现问题,即使不是因为硬盘问题,随便一个工作人员的操作失误都可能是一场蝴蝶效应。所以,无论公司规模大小,公司都要有数据安全保护意识,从自我保护的角度来看,企业需要有系统性的规划来保护数据,而不是单一的靠某一个点。

4、上云不能保证绝对安全,企业要建立完整的备份机制,把握数据主动权。

多云数据也会出现丢失或者泄露,绝对的云安全是不存在的,并且国内所有云服务商都没有明确的赔偿机制,一旦数据丢失,损失的还是受众公司。另外上云之后,遭受的黑客攻击会明显增多,所以无论如何,企业应该做好本地备份,将数据主权掌握在自己手里。

来自 “ ITPUB博客 ” ,链接:http://blog.itpub.net/31542119/viewspace-2199350/,如需转载,请注明出处,否则将追究法律责任。

请登录后发表评论 登录
全部评论

注册时间:2018-06-13

  • 博文量
    69
  • 访问量
    89079