软件开发架构师

现场剪光缆!ATEC上支付宝模拟自断一半服务器,26秒一切恢复正常-InfoQ

架构 81 2019-09-02 23:02

小蚂蚁说:

9 月 20 日,杭州云栖大会 ATEC 主论坛现场上演了一场特别的技术秀。蚂蚁金服副 CTO 胡喜现场模拟挖断支付宝近一半服务器的光缆。结果只过了 26 秒,模拟环境中的支付宝就完全恢复了正常。

现场剪光缆!ATEC上支付宝模拟自断一半服务器,26秒一切恢复正常-InfoQ-1

史上最大胆技术演习

这是由支付宝工程师策划的一次特别技术演练,他们基于支付宝的真实机房,在两个城市各单独搭建了两个模拟机房,以测试当两个机房同时下线后的系统稳定性。

现场剪光缆!ATEC上支付宝模拟自断一半服务器,26秒一切恢复正常-InfoQ-2

现场大屏有个二维码,观众扫码就能登陆一个虚拟账号体验。两个机房断网后的约 20 秒内,账户页面显示系统异常,20 秒后,观众全部都能顺利转账了。

蚂蚁金服副 CTO 胡喜解释,这次是演习。而在真实环境下,如果支付宝部署在两个城市的两个机房同时出问题,跑在这两个机房上的支付宝账户恢复正常的速度是分钟级。

现场剪光缆!ATEC上支付宝模拟自断一半服务器,26秒一切恢复正常-InfoQ-3

据了解,这一机房架构叫“三地五中心”,即在三座城市部署五个机房,一旦其中一个或两个机房发生故障,支付宝的底层技术系统会将故障城市的流量全部切换到运行正常的机房,并且能做到数据保持一致且零丢失。

目前互联网和金融科技行业普遍采用的是“两地三中心”部署架构,即在一个城市设两个机房,在另一个城市设一个冷备机房。

胡喜强调,这个架构,绝不仅仅是多设立了两个机房那么简单,它非常考验一家公司分布式架构、数据库、中间件及相关金融核心技术的能力。而这正是支付宝创立前十年修炼技术内功的结果。“支付宝的技术目标之一就是保证金融级别的系统稳定和安全能力。”

曾有行业人士做过概率计算,两个城市多个机房同时故障的概率极低,基本不会发生。而即便发生了,现场的演习也展示出支付宝强大的容灾能力。胡喜在现场和大家开起了玩笑:“这次演练,告诉了大家一个好消息,一个坏消息。好消息是,支付宝很安全,很稳定,至少要陪大家再过 102 年,坏消息是,不管剪多少光缆,花呗还是要还的。”

本文转载自公众号蚂蚁金服科技(ID:Ant-Techfin)。

原文链接:

https://mp.weixin.qq.com/s/ahPmwdL02b3IyJrJ0OOiSg

文章评论