讨论详情 - 雪球

作者：笨笨猪猪

发布于:2023-11-16 09:22

雪球

回复：10

喜欢：7

微软 facebook 也都年年崩。大家高估了技术的可靠性罢了，总有隐藏的问题在某些条件下触发。

热门回复

笨笨猪猪

2023-11-16 15:35

查看讨论

还有更多，你是真不知道？
2017年3月15 微软公司对外披露，旗下部署在全球各地的数据中心的公共云服务 Microsoft Azure存储层出现了大面积故障，此外由于本次故障问题，也影响到微软其他服务出现了存储问题。持续时间超过8个小时。
2018年9月4日，微软 Azure 美国中南区数据中心附近发生雷击在内的恶劣天气，影响冷却系统的电压，导致多个 Azure 服务出现连接问题，客户难以访问存储在该区数据中心的资源。微软表示"这些服务中的绝大部分在9月5日的11:00都已经恢复了"，但是也承认到了9月7日的8:40才完全解决这些问题。持续28个小时，完全解决超过60个小时。

多看少动勤思考_

2023-11-16 16:16

查看讨论

你懂个锤子懂，一般来说一份数据会存在三个数据中心，这三个数据中心地理位置是分开的，甚至不在同一块大陆上。就算其中两个地方打仗了都不影响服务的稳定性。你列举的都是单个数据中心出问题，阿里这次是全球宕机，换一家公司出这种事cto都可以卷铺盖了。

2023-11-16 14:03

你告诉我微软什么时候全球宕机过3个小时。

2023-11-16 16:38

还多个数据中心，去查查微软那次OneDrive事件，也算是全球范围事件了，持续了8个小时。怎么没启用后快速恢复呢。
去问问运维吧，虽然有多个数据中心，但会轻易切换吗。
你以为的数据中心实时同步，随时切换，根本做不到的，更多只是为了用来参照，当故障恢复后，再纠正数据。

多看少动勤思考_

2023-11-16 16:17

查看讨论

你懂啥叫全球宕机吗？微软部署在azure上的所有的服务在全世界范围内都用不了了。真出过这种事故？

笨笨猪猪

2023-11-16 15:24

查看讨论

你要不会用搜索引擎，我替你查。
1.2020年3月3日，微软位于美国东部的数据中心发生了服务中断，持续六小时，导致美国北部的客户无法使用Azure云服务。
2.2023年，位于澳大利亚悉尼的微软 Azure 服务突发中断，导致用户在超过 24 小时内无法访问 Azure、Microsoft 365 和 Power Platform 服务。
3.2023年1月，Microsoft 365 全球宕机5小时，路由器的锅。
4.2022年，7月20日下午6点47分，微软报告其Teams协作应用无法访问。据路透社报道，美国发生了4800多起此类事件，日本发生了18200多起。直到凌晨5:02（超过10个小时之后），大部分服务已经恢复。
5.2021年2月26号，微软的 Xbox Live 服务宕机超过五个小时，用户无法登录系统。
随便找了几个，还有好多，还需要例子吗？

三郎开泰

2023-11-16 18:47

查看讨论

重要的东西，不要把命运交给别人手里，自己备份一下。大系统极其复杂，没人能保证永远可靠。

三郎开泰

2023-11-16 18:44

查看讨论

多个中心实时同步本来就不可能，如果实时同步，意味着问题实时传染，无法隔离。

笨笨猪猪

2023-11-16 17:05

查看讨论

多个数据中心，只是解决了AP两侧的问题，但解决不了C侧问题。
因此对于读写频繁的内容，是无法做到快速同步的，比如协作，交易类，所以无法切换。有兴趣的可以去查同城异区，异地，全球机房的网络延迟就知道了。
为什么Google的search挂的概率低，是因为google的spanner架构主要就针对搜索引擎数据读多写少来做的，因此一致性问题相对少。而doc，gmail等，就没法正常使用数据中心切换了。

笨笨猪猪

2023-11-16 16:32

查看讨论

如果你这样扯，就没有所谓的全球宕机了。比如阿里崩的时候，部分CDN还是可以用的，那按你的说法，这部分内容对部分用户是可以访问的，比如图片，那么就不算全球宕机了。毕竟还有一点业务功能勉强正常啊。
微软自己都在公告里承认是全球性事件，你还扯全部服务。

笨笨猪猪 的讨论

作者：笨笨猪猪

热门回复

笨笨猪猪的讨论