p/ol48ld

@davecode

Tue, Oct 5, 2021 10:39 PM

30

15

Ref
Facebook 基礎建設 VP 出來解釋了，不算很詳細的 postmortem 但對於整體狀況有了大致的說明。

1. FB 本來就會執行例行的資料中心軟硬體維護，有時候要裝新的纜線或更新路由器的韌體之類，通常在執行時會暫時中斷局部的骨幹網路。

2. 昨天的事件是在執行類似的維護程序時，下了一個沒有被檢查工具給抓到 (工具有 bug) 的有問題的指令，這指令原本的目的是要檢測全球骨幹網路的可用性，但卻意外造成全球骨幹網路中斷使資料中心還有伺服器與網際網路間的連線中斷。

DaveC

@davecode

Tue, Oct 5, 2021 10:39 PM

3. 此外還造成了第二個問題。在正常情況下，如果發現資料中心連線異常，那 DNS 伺服器會關閉 BGP 廣播來控制問題擴大。但昨天的事件讓整個骨幹網路都中斷了，因此原先的中斷機制反而讓 BGP 全面停止廣播而導致從網際網路看起來就像整個 FB 都消失了。

4. 以上問題在短時間內連鎖反應發生，當工程師試圖排除問題時，也被內網無法連線以及各種內部工具因為本身也需要連線而阻礙。

DaveC

@davecode

Tue, Oct 5, 2021 10:39 PM

5. 於是 FB 只好派出工程師前往主機跟資料中心現場處理問題，文中有提到 “these facilities are designed with high levels of physical and system security in mind” 不知道是不是就是謠傳需要破門的狀況。總之工程師進去後，資料中心的設計本來就讓現場調整設定比較困難，這邊又花了許多時間，最後才好不容易把骨幹網路重新恢復。

DaveC

@davecode

Tue, Oct 5, 2021 10:40 PM

6. 網路恢復後又是下一輪挑戰，因為全球的流量會瞬間湧入，部分資料中心會在短時間有高達數十兆瓦的電力承載，對於機房的硬體和電力系統會造成額外的傷害與風險。所幸 FB 表示平常有做類似的災難復原演練，所以各區域以及不同服務的系統就依照演練逐步恢復。不過，FB 也說他們從未演練過這麼大規模的全球骨幹網路異常，因此未來也會檢討並優化演練。

我自己認為這沒有陰謀論啦，代價是市值蒸發 $6B 以及減損品牌形象的結果我認為不大可能是為了要掩蓋什麼。再者，FB 有六萬員工，要耍這種手段根本紙包不住火，你看連才任職一年多的員工都能幹走一堆內部文件當吹哨人了。