p/ol2ins

永遠的真田幸村

@ivanusto

Tue, Oct 5, 2021 2:22 AM

Tue, Oct 5, 2021 6:22 AM

61

17

Re: [爆卦] 臉書連辦公室的門都壞了
簡單大概講一下為何臉書、IG它們這次當掉了6小時的服務，主要是它們自己的DNS伺服器群故障。這有多嚴重呢? 可以參考 CloudFlare 針對這次臉書斷線事件的分析他們講得最清楚

永遠的真田幸村

@ivanusto

Tue, Oct 5, 2021 2:22 AM

Tue, Oct 5, 2021 2:32 AM

像是我自己的網站，並沒有自己做DNS伺服器，是仰賴 CloudFlare 來提供DNS服務，這樣外界要連我們的網站時，會從個別用戶ISP的DNS問路 (如中華電信的DNS伺服器)，取得我們的DNS資料，這個詢答是CloudFlare 提供給中華電信DNS的，所以如果 CloudFlare 當掉，外界可能沒辦法讀到我們的網站。

而臉書的情況比較慘是因為它們的DNS伺服器群掛掉之後，因為量非常大、臉書自己還有一大堆網站前端伺服器、資料庫伺服器、身分驗證伺服器等等，其實也都仰賴臉書自己的DNS伺服器群來提供指路的功能。所以他們家的工程要要連回去臉書維修，可能都得被迫回去辦公室與機房來處理，有些遠端功能可能就沒辦法用了。

永遠的真田幸村

@ivanusto

Tue, Oct 5, 2021 2:22 AM

Tue, Oct 5, 2021 3:58 AM

那篇文章提到的連門都打不開，也是有可能的。我們一般會針對機房或辦公室做遠端開門的控制與紀錄，這個也會仰賴網路相關的基礎建設，如果有綁域名，同樣會受到DNS伺服器群掛掉的影響。

至於這次為何不能有維修中的頁面? 因為臉書DNS伺服器群是他們自己維護的，守門人指路人如果掛掉，你問人也不會給你一張手舉牌子說我們正在維修中。而我們一般的網站，如果仰賴 CloudFlare，我們自己的網站當掉的時候， CloudFlare DNS伺服器會知道，然後給所有來問路的人，手舉牌子說我們正在維修中是可以的，但萬一CloudFlare DNS也掛掉，那同樣無解，要等CloudFlare DNS服務恢復才行。

永遠的真田幸村

@ivanusto

Tue, Oct 5, 2021 2:22 AM

大概是這樣，臉書加上IG的服務因為巨量，所以要復原與維護的工程都非常大，箇中的辛苦是很麻煩的，維修回復正常的時間也比一般羽量級的網站要更久。它不只是國家級的服務，而是全球級的服務。

滴滴麵

@ddmanlin

Tue, Oct 5, 2021 2:35 AM

「臉書加上IG的服務因為巨量，所以要復原與維護的工程都非常大，箇中的辛苦是很麻煩的，維修回復正常的時間也比一般羽量級的網站要更久」 <--這是開脫的說法，因為以FB的規模，多重備援跟異常還原SOP一定是以秒級為單位來算還原時間。這次6小時，只可能是1)沒盤到有這個異常可能 2)還原的SOP跑不了。第二個的機會比較大，且跟WFH可能有關

永遠的真田幸村

@ivanusto

Tue, Oct 5, 2021 3:13 AM

Tue, Oct 5, 2021 3:14 AM

CloudFlare 針對這次臉書斷線事件的分析

Thinker

@Thinker

說

Tue, Oct 5, 2021 3:36 AM

有人提到內部的通訊平台也都無法使用，所以我可以假設, 連要找誰修可能都找不到聯絡方式。所有的資訊可能都記錄在內部的平台上。

永遠的真田幸村

@ivanusto

Tue, Oct 5, 2021 3:39 AM

那個一定有綁他們的DNS

永遠的真田幸村

@ivanusto

Tue, Oct 5, 2021 3:39 AM

而且身份驗證伺服器也有綁DNS，所以DNS掛了一定就全部不能用

Thinker

@Thinker

說

Tue, Oct 5, 2021 3:40 AM

我記得前公司在設門禁系統時, 我就提出過網路斷掉會發生什麼事。一定需要有 local 的 storage , 把更新資料 push 到每個裝置, 這樣才安全。

永遠的真田幸村

@ivanusto

Tue, Oct 5, 2021 3:57 AM

臉書後來應該是用了臨時的方案或調整後，設法維修服務，再讓DNS伺服器群陸續重新上線

Thinker

@Thinker

說

Tue, Oct 5, 2021 4:01 AM

如果是我, 我會架一台新的 name server, 把內部重要 service 全都加上去, 讓其它人可以開始工作。

永遠的真田幸村

@ivanusto

Tue, Oct 5, 2021 4:02 AM

Thinker : 臉書可能那六小時內的前一個小時就在弄這個吧讓大家能夠工作去修復

永遠的真田幸村

@ivanusto

Tue, Oct 5, 2021 4:02 AM

Tue, Oct 5, 2021 4:38 AM

這很像是戰時的指揮中心掛了大家協同作業很困難
要重新恢復通行才有辦法修復

Chikei

@ChikeiLee

Tue, Oct 5, 2021 4:08 AM

local storage會有cache attack的問題，這就trade off然後fb這次不幸中槍

墨閉關不能出門中

@bibo1409200

Tue, Oct 5, 2021 5:07 AM

好奇想借詢問
看起來是主域名出不來所以沒有入口，那DNS 有沒有紀錄會有差別嗎？（看下面一堆人談紀錄的就很好奇
不好意思比較不懂DNS

永遠的真田幸村

@ivanusto

Tue, Oct 5, 2021 5:15 AM

DNS紀錄就是讓外界可以詢答到主機位置用的
每個子域名都會對到ip 位置

社蓄要加艹頭@願

@geniuspurinn

Tue, Oct 5, 2021 5:53 AM

cloudflare已經說明了這是bgp問題，除非你在別的asn架dns否則沒用，然而可以承受fb這種規模的as應該不多

Thinker

@Thinker

說

Tue, Oct 5, 2021 6:06 AM

墨閉關不能出門中 : 不確定其它的 subnet 是否能正常運作, 但至少知道 host name server 的 subnet 是連不上的, 所以在查詢 "

Facebook - Log In or Sign Up

" 時, 因為連不上該 name server , 所以就無法查到其對應的 ip address。

Thinker

@Thinker

說

Tue, Oct 5, 2021 6:10 AM

早上我查的時侯, 其實發覺 DNS server 分布在兩段 ip address 裡, 一段在美國, 另一段在以色列, 全都連不上。有問題的範圍大概不止於 DNS。

꧁雪球꧂

@a30841

Tue, Oct 5, 2021 6:11 AM

底下有留言講的好：BGP平常根本沒人多注意重要，現在操作不慎掛了才知道大條

永遠的真田幸村

@ivanusto

Tue, Oct 5, 2021 6:21 AM

BGP QQ

永遠的真田幸村

@ivanusto

Tue, Oct 5, 2021 6:25 AM

臉書、IG、WhatsApp全球服務中斷7小時，Cloudflare：可能是BGP惹的禍

永遠的真田幸村

@ivanusto

Tue, Oct 5, 2021 6:47 AM

loudflare認為，造成Facebook、Instagram與WhatsApp同時消失最有可能的因素是BGP。

BGP的全名為邊界閘道協定（Border Gateway Protocol），是全球網路自治系統（Autonomous System）之間用來交換路徑資訊的機制，這些讓網路得以運作的大型路由器不斷更新所有可能的路徑列表，以將每一個網路封包傳送到最終目的，少了BGP，路由器便不知自己該做什麼，全球網路亦無法運作。

永遠的真田幸村

@ivanusto

Tue, Oct 5, 2021 6:47 AM

每個AS會有自己的號碼（ASN），也會有統一的內部路由政策，AS可以產生前綴（控制一組IP位址），也能傳輸前綴（如何存取特定的IP群），每一個ASN都必須透過BGP向全球網路宣告自己的前綴路由，否則其它人就無法發現或連結。

但今天凌晨Cloudflare卻注意到Facebook不再發布其DNS前綴的路由，這至少代表Facebook的DNS伺服器停擺了，也讓1.1.1.1 DNS解析器無法再回應針對Facebook或Instagram的IP位址查詢。而且不只是1.1.1.1，Google的8.8.8.8或其它的公共DNS也都找不到Facebook、Instagram與WhatsApp。

Chikei

@ChikeiLee

Tue, Oct 5, 2021 6:54 AM

Update about the October 4th outage

廢到笑

wchild

@wchild

Tue, Oct 5, 2021 6:58 AM

不管真的假的，這理由很扯，
能搞到內部跟外部重要服務同時斷線，
這公司網管不是普通的失能，
架構漏洞也不是一般的瑕疵可以形容。