2024-11-12 13:42
聊聊事故檢討
今晚在寫 E+ 的主題文時,看一些資料看到 AWS S3 在 2017 年有個重大事故,導致損失超過 1.5 億美元,而該重大事故的原因是來自打錯字 (typo)。
多數人看到這,可能第一時間想 AWS 這麼大一間公司,怎麼會犯「打錯字」這種低級錯誤? 過程中沒有檢查機制嗎? 出問題怎麼會直接影響全球,沒有先金絲雀部署嗎?
但我看到這個事件的歷史資料時,第一個想到的是我在前公司造成的一個事故,雖然不是因為打錯字,但因為處理某個配置的資料格式有誤,導致數十個模組在生產環境直接被影響到。
那時我被拉進一個線上會議,裡面有各地辦公室加起來快五十個工程師,因為他們負責的東西都被影響到。
好在前公司在部署回滾的整體配套很完整,整個事沒多久就被回滾解決,但是突然被拉進那麼多人的會議,然後發現自己竟然是搞出事故的人,那種頭腦一片白、全身起雞皮疙瘩的感覺,至今想忘都忘不掉。
(留言續)