一份令人警醒的網(wǎng)絡重大故障報告
2018年12月6日,對于日本運營商軟銀,簡直是噩夢般的一天。
下午13點39分,軟銀東日本和西日本兩大中心機房的18臺4G核心網(wǎng)網(wǎng)元突發(fā)故障,造成全網(wǎng)大量用戶無法正常通信。
軟銀被這突如其來的大故障驚呆了,從CTO到工程師,上上下下忙成一團,整整花了近兩個小時才定位出故障原因,直到下午18點04分才恢復故障。
本次故障歷時4小時25分,共計造成約3060萬軟銀用戶無法正常通信,是日本通信史上一次罕見的重大通信事故。
事故發(fā)生后,軟銀高層向用戶公開道歉,并承諾以后將加強設備備份管理,嚴防事故再次發(fā)生。
由于故障發(fā)生在白天,影響范圍廣,對軟銀造成了極大的負面影響,股票大跌,5天內超過1萬戶用戶解約。
估計連日本總務省也驚呆了,直到20天后,也就是今天,才官方公布確認“收到軟銀提交的嚴重事故報告”。
以下內容來自軟銀的故障報告。
概要
發(fā)生時間:
2018年12月6日 13:39至18:04(4小時25分鐘)
影響內容:
4G LTE移動電話無法進行語音通話和數(shù)據(jù)通信。
部分LTE 固話和家庭Wi-Fi無法正常使用
由于4G網(wǎng)絡故障,導致3G網(wǎng)絡擁塞
影響范圍:
全國(約3060萬線用戶)
故障原因:
4G核心網(wǎng)設備(MME)軟件缺陷導致。
故障原因分析
故障具體原因為核心網(wǎng)網(wǎng)元MME(移動管理實體),即4G分組交換設備的數(shù)字證書(TSL證書)過期導致。
TLS(Transport Layer Security,傳輸層安全)是為網(wǎng)絡通信提供安全及數(shù)據(jù)完整性的一種安全協(xié)議。
軟銀解釋到,他們在東日本和西日本兩大中心機房合計部署了18臺分組交換設備,這些設備都是按照遠期需求配置,有足夠的負荷冗余量,目前僅使用了30%~40%的負荷。
同時,18臺設備相互備份,且均為池化部署,這意味著即使任何一臺甚至多臺設備發(fā)生故障都不會影響服務正常提供。
但是,數(shù)字證書過期這種事就不一樣了。
TSL數(shù)字證書過期,意味著系統(tǒng)無法識別那些連接分組交換設備的其他設備是否合法,此時,系統(tǒng)檢測到異常,根據(jù)軟銀現(xiàn)網(wǎng)設置,會采用重啟的方式來試圖恢復。
不過,數(shù)字證書過期這種事,即使重啟N次,也是無法恢復的,因此,就發(fā)生了不斷重啟的死循環(huán),從而導致了這次重大故障。
此外,由于4G網(wǎng)絡服務中斷,導致大量用戶轉移到3G網(wǎng)絡,這也造成3G網(wǎng)絡嚴重擁塞。

請輸入評論內容...
請輸入評論/評論長度6~500個字
圖片新聞