笨笨猪猪 的讨论

发布于: 雪球回复:10喜欢:7
微软 facebook 也都年年崩。大家高估了技术的可靠性罢了,总有隐藏的问题在某些条件下触发。

热门回复

2023-11-16 15:35

还有更多,你是真不知道?
2017年3月15 微软公司对外披露,旗下部署在全球各地的数据中心的公共云服务 Microsoft Azure存储层出现了大面积故障,此外由于本次故障问题,也影响到微软其他服务出现了存储问题。持续时间超过8个小时。
2018年9月4日,微软 Azure 美国中南区数据中心附近发生雷击在内的恶劣天气,影响冷却系统的电压,导致多个 Azure 服务出现连接问题,客户难以访问存储在该区数据中心的资源。微软表示"这些服务中的绝大部分在9月5日的11:00都已经恢复了",但是也承认到了9月7日的8:40才完全解决这些问题。持续28个小时,完全解决超过60个小时。

你懂个锤子懂,一般来说一份数据会存在三个数据中心,这三个数据中心地理位置是分开的,甚至不在同一块大陆上。就算其中两个地方打仗了都不影响服务的稳定性。你列举的都是单个数据中心出问题,阿里这次是全球宕机,换一家公司出这种事cto都可以卷铺盖了。

你告诉我微软什么时候全球宕机过3个小时。

2023-11-16 16:38

还多个数据中心,去查查微软那次OneDrive事件,也算是全球范围事件了,持续了8个小时。怎么没启用后快速恢复呢。
去问问运维吧,虽然有多个数据中心,但会轻易切换吗。
你以为的数据中心实时同步,随时切换,根本做不到的,更多只是为了用来参照,当故障恢复后,再纠正数据。

你懂啥叫全球宕机吗?微软部署在azure上的所有的服务在全世界范围内都用不了了。真出过这种事故?

2023-11-16 15:24

你要不会用搜索引擎,我替你查。
1.2020年3月3日,微软位于美国东部的数据中心发生了服务中断,持续六小时,导致美国北部的客户无法使用Azure云服务。
2.2023年,位于澳大利亚悉尼的微软 Azure 服务突发中断,导致用户在超过 24 小时内无法访问 Azure、Microsoft 365 和 Power Platform 服务。
3.2023年1月,Microsoft 365 全球宕机5小时,路由器的锅。
4.2022年,7月20日下午6点47分,微软报告其Teams协作应用无法访问。据路透社报道,美国发生了4800多起此类事件,日本发生了18200多起。直到凌晨5:02(超过10个小时之后),大部分服务已经恢复。
5.2021年2月26号,微软的 Xbox Live 服务宕机超过五个小时,用户无法登录系统。
随便找了几个,还有好多,还需要例子吗?

2023-11-16 18:47

重要的东西,不要把命运交给别人手里,自己备份一下。大系统极其复杂,没人能保证永远可靠。

2023-11-16 18:44

多个中心实时同步本来就不可能,如果实时同步,意味着问题实时传染,无法隔离。

2023-11-16 17:05

多个数据中心,只是解决了AP两侧的问题,但解决不了C侧问题。
因此对于读写频繁的内容,是无法做到快速同步的,比如协作 ,交易类,所以无法切换。有兴趣的可以去查同城异区,异地,全球机房的网络延迟就知道了。
为什么Google的search挂的概率低,是因为google的spanner架构主要就针对搜索引擎数据读多写少来做的,因此一致性问题相对少。而doc,gmail等,就没法正常使用数据中心切换了。

2023-11-16 16:32

如果你这样扯,就没有所谓的全球宕机了。比如阿里崩的时候,部分CDN还是可以用的,那按你的说法,这部分内容对部分用户是可以访问的,比如图片,那么就不算全球宕机了。毕竟还有一点业务功能勉强正常啊。
微软自己都在公告里承认是全球性事件,你还扯全部服务。