永遠的真田幸村
@ivanusto
Tue, Oct 5, 2021 2:22 AM
Tue, Oct 5, 2021 6:22 AM
61
17
Re: [爆卦] 臉書連辦公室的門都壞了
簡單大概講一下為何臉書、IG它們這次當掉了6小時的服務,主要是它們自己的DNS伺服器群故障。這有多嚴重呢? 可以參考
CloudFlare 針對這次臉書斷線事件的分析
他們講得最清楚
永遠的真田幸村
@ivanusto
Tue, Oct 5, 2021 2:22 AM
Tue, Oct 5, 2021 2:32 AM
像是我自己的網站,並沒有自己做DNS伺服器,是仰賴 CloudFlare 來提供DNS服務,這樣外界要連我們的網站時,會從個別用戶ISP的DNS問路 (如中華電信的DNS伺服器),取得我們的DNS資料,這個詢答是CloudFlare 提供給中華電信DNS的,所以如果 CloudFlare 當掉,外界可能沒辦法讀到我們的網站。
而臉書的情況比較慘是因為它們的DNS伺服器群掛掉之後,因為量非常大、臉書自己還有一大堆網站前端伺服器、資料庫伺服器、身分驗證伺服器等等,其實也都仰賴臉書自己的DNS伺服器群來提供指路的功能。所以他們家的工程要要連回去臉書維修,可能都得被迫回去辦公室與機房來處理,有些遠端功能可能就沒辦法用了。
永遠的真田幸村
@ivanusto
Tue, Oct 5, 2021 2:22 AM
Tue, Oct 5, 2021 3:58 AM
那篇文章提到的連門都打不開,也是有可能的。我們一般會針對機房或辦公室做遠端開門的控制與紀錄,這個也會仰賴網路相關的基礎建設,如果有綁域名,同樣會受到DNS伺服器群掛掉的影響。
至於這次為何不能有維修中的頁面? 因為臉書DNS伺服器群是他們自己維護的,守門人指路人如果掛掉,你問人也不會給你一張手舉牌子說我們正在維修中。而我們一般的網站,如果仰賴 CloudFlare,我們自己的網站當掉的時候, CloudFlare DNS伺服器會知道,然後給所有來問路的人,手舉牌子說我們正在維修中是可以的,但萬一CloudFlare DNS也掛掉,那同樣無解,要等CloudFlare DNS服務恢復才行。
永遠的真田幸村
@ivanusto
Tue, Oct 5, 2021 2:22 AM
大概是這樣,臉書加上IG的服務因為巨量,所以要復原與維護的工程都非常大,箇中的辛苦是很麻煩的,維修回復正常的時間也比一般羽量級的網站要更久。它不只是國家級的服務,而是全球級的服務。
滴滴麵
@ddmanlin
Tue, Oct 5, 2021 2:35 AM
「臉書加上IG的服務因為巨量,所以要復原與維護的工程都非常大,箇中的辛苦是很麻煩的,維修回復正常的時間也比一般羽量級的網站要更久」 <--這是開脫的說法,因為以FB的規模,多重備援跟異常還原SOP一定是以秒級為單位來算還原時間。這次6小時,只可能是1)沒盤到有這個異常可能 2)還原的SOP跑不了。第二個的機會比較大,且跟WFH可能有關
永遠的真田幸村
@ivanusto
Tue, Oct 5, 2021 3:13 AM
Tue, Oct 5, 2021 3:14 AM
CloudFlare 針對這次臉書斷線事件的分析
Thinker
@Thinker
說
Tue, Oct 5, 2021 3:36 AM
有人提到內部的通訊平台也都無法使用,所以我可以假設, 連要找誰修可能都找不到聯絡方式。所有的資訊可能都記錄在內部的平台上。
永遠的真田幸村
@ivanusto
Tue, Oct 5, 2021 3:39 AM
那個一定有綁他們的DNS
永遠的真田幸村
@ivanusto
Tue, Oct 5, 2021 3:39 AM
而且身份驗證伺服器也有綁DNS,所以DNS掛了一定就全部不能用
Thinker
@Thinker
說
Tue, Oct 5, 2021 3:40 AM
我記得前公司在設門禁系統時, 我就提出過網路斷掉會發生什麼事。一定需要有 local 的 storage , 把更新資料 push 到每個裝置, 這樣才安全。
永遠的真田幸村
@ivanusto
Tue, Oct 5, 2021 3:57 AM
臉書後來應該是用了臨時的方案或調整後,設法維修服務,再讓DNS伺服器群陸續重新上線
Thinker
@Thinker
說
Tue, Oct 5, 2021 4:01 AM
如果是我, 我會架一台新的 name server, 把內部重要 service 全都加上去, 讓其它人可以開始工作。
永遠的真田幸村
@ivanusto
Tue, Oct 5, 2021 4:02 AM
Thinker
: 臉書可能那六小時內的前一個小時就在弄這個吧 讓大家能夠工作去修復
永遠的真田幸村
@ivanusto
Tue, Oct 5, 2021 4:02 AM
Tue, Oct 5, 2021 4:38 AM
這很像是戰時的指揮中心掛了 大家協同作業很困難
要重新恢復通行才有辦法修復
Chikei
@ChikeiLee
Tue, Oct 5, 2021 4:08 AM
local storage會有cache attack的問題,這就trade off然後fb這次不幸中槍
墨閉關不能出門中
@bibo1409200
Tue, Oct 5, 2021 5:07 AM
好奇想借詢問
看起來是主域名出不來所以沒有入口,那DNS 有沒有紀錄會有差別嗎?(看下面一堆人談紀錄的就很好奇
不好意思比較不懂DNS
永遠的真田幸村
@ivanusto
Tue, Oct 5, 2021 5:15 AM
DNS紀錄就是讓外界可以詢答到主機位置用的
每個子域名都會對到ip 位置
社蓄要加艹頭@願
@geniuspurinn
Tue, Oct 5, 2021 5:53 AM
Tue, Oct 5, 2021 5:53 AM
cloudflare已經說明了這是bgp問題,除非你在別的asn架dns否則沒用,然而可以承受fb這種規模的as應該不多
Thinker
@Thinker
說
Tue, Oct 5, 2021 6:06 AM
墨閉關不能出門中
: 不確定其它的 subnet 是否能正常運作, 但至少知道 host name server 的 subnet 是連不上的, 所以在查詢 "
Facebook - Log In or Sign Up
" 時, 因為連不上該 name server , 所以就無法查到其對應的 ip address。
Thinker
@Thinker
說
Tue, Oct 5, 2021 6:10 AM
早上我查的時侯, 其實發覺 DNS server 分布在兩段 ip address 裡, 一段在美國, 另一段在以色列, 全都連不上。有問題的範圍大概不止於 DNS。
꧁雪球꧂
@a30841
Tue, Oct 5, 2021 6:11 AM
底下有留言講的好:BGP平常根本沒人多注意重要,現在操作不慎掛了才知道大條
永遠的真田幸村
@ivanusto
Tue, Oct 5, 2021 6:21 AM
BGP QQ
永遠的真田幸村
@ivanusto
Tue, Oct 5, 2021 6:25 AM
臉書、IG、WhatsApp全球服務中斷7小時,Cloudflare:可能是BGP惹的禍
永遠的真田幸村
@ivanusto
Tue, Oct 5, 2021 6:47 AM
loudflare認為,造成Facebook、Instagram與WhatsApp同時消失最有可能的因素是BGP。
BGP的全名為邊界閘道協定(Border Gateway Protocol),是全球網路自治系統(Autonomous System)之間用來交換路徑資訊的機制,這些讓網路得以運作的大型路由器不斷更新所有可能的路徑列表,以將每一個網路封包傳送到最終目的,少了BGP,路由器便不知自己該做什麼,全球網路亦無法運作。
永遠的真田幸村
@ivanusto
Tue, Oct 5, 2021 6:47 AM
每個AS會有自己的號碼(ASN),也會有統一的內部路由政策,AS可以產生前綴(控制一組IP位址),也能傳輸前綴(如何存取特定的IP群),每一個ASN都必須透過BGP向全球網路宣告自己的前綴路由,否則其它人就無法發現或連結。
但今天凌晨Cloudflare卻注意到Facebook不再發布其DNS前綴的路由,這至少代表Facebook的DNS伺服器停擺了,也讓1.1.1.1 DNS解析器無法再回應針對Facebook或Instagram的IP位址查詢。而且不只是1.1.1.1,Google的8.8.8.8或其它的公共DNS也都找不到Facebook、Instagram與WhatsApp。
Chikei
@ChikeiLee
Tue, Oct 5, 2021 6:54 AM
Update about the October 4th outage
廢到笑
wchild
@wchild
Tue, Oct 5, 2021 6:58 AM
不管真的假的,這理由很扯,
能搞到內部跟外部重要服務同時斷線,
這公司網管不是普通的失能,
架構漏洞也不是一般的瑕疵可以形容。
載入新的回覆
簡單大概講一下為何臉書、IG它們這次當掉了6小時的服務,主要是它們自己的DNS伺服器群故障。這有多嚴重呢? 可以參考 CloudFlare 針對這次臉書斷線事件的分析 他們講得最清楚
而臉書的情況比較慘是因為它們的DNS伺服器群掛掉之後,因為量非常大、臉書自己還有一大堆網站前端伺服器、資料庫伺服器、身分驗證伺服器等等,其實也都仰賴臉書自己的DNS伺服器群來提供指路的功能。所以他們家的工程要要連回去臉書維修,可能都得被迫回去辦公室與機房來處理,有些遠端功能可能就沒辦法用了。
至於這次為何不能有維修中的頁面? 因為臉書DNS伺服器群是他們自己維護的,守門人指路人如果掛掉,你問人也不會給你一張手舉牌子說我們正在維修中。而我們一般的網站,如果仰賴 CloudFlare,我們自己的網站當掉的時候, CloudFlare DNS伺服器會知道,然後給所有來問路的人,手舉牌子說我們正在維修中是可以的,但萬一CloudFlare DNS也掛掉,那同樣無解,要等CloudFlare DNS服務恢復才行。
要重新恢復通行才有辦法修復
看起來是主域名出不來所以沒有入口,那DNS 有沒有紀錄會有差別嗎?(看下面一堆人談紀錄的就很好奇
不好意思比較不懂DNS
每個子域名都會對到ip 位置
BGP的全名為邊界閘道協定(Border Gateway Protocol),是全球網路自治系統(Autonomous System)之間用來交換路徑資訊的機制,這些讓網路得以運作的大型路由器不斷更新所有可能的路徑列表,以將每一個網路封包傳送到最終目的,少了BGP,路由器便不知自己該做什麼,全球網路亦無法運作。
但今天凌晨Cloudflare卻注意到Facebook不再發布其DNS前綴的路由,這至少代表Facebook的DNS伺服器停擺了,也讓1.1.1.1 DNS解析器無法再回應針對Facebook或Instagram的IP位址查詢。而且不只是1.1.1.1,Google的8.8.8.8或其它的公共DNS也都找不到Facebook、Instagram與WhatsApp。
能搞到內部跟外部重要服務同時斷線,
這公司網管不是普通的失能,
架構漏洞也不是一般的瑕疵可以形容。