侵權投訴
訂閱
糾錯
加入自媒體

一份令人警醒的網(wǎng)絡重大故障報告

2018年12月6日,對于日本運營商軟銀,簡直是噩夢般的一天。

下午13點39分,軟銀東日本和西日本兩大中心機房的18臺4G核心網(wǎng)網(wǎng)元突發(fā)故障,造成全網(wǎng)大量用戶無法正常通信。

軟銀被這突如其來的大故障驚呆了,從CTO到工程師,上上下下忙成一團,整整花了近兩個小時才定位出故障原因,直到下午18點04分才恢復故障。

本次故障歷時4小時25分,共計造成約3060萬軟銀用戶無法正常通信,是日本通信史上一次罕見的重大通信事故。

事故發(fā)生后,軟銀高層向用戶公開道歉,并承諾以后將加強設備備份管理,嚴防事故再次發(fā)生。

由于故障發(fā)生在白天,影響范圍廣,對軟銀造成了極大的負面影響,股票大跌,5天內超過1萬戶用戶解約。

估計連日本總務省也驚呆了,直到20天后,也就是今天,才官方公布確認“收到軟銀提交的嚴重事故報告”。

以下內容來自軟銀的故障報告。

概要

發(fā)生時間:

2018年12月6日 13:39至18:04(4小時25分鐘)

影響內容:

4G LTE移動電話無法進行語音通話和數(shù)據(jù)通信。

部分LTE 固話和家庭Wi-Fi無法正常使用

由于4G網(wǎng)絡故障,導致3G網(wǎng)絡擁塞

影響范圍:

全國(約3060萬線用戶)

故障原因:

4G核心網(wǎng)設備(MME)軟件缺陷導致。

故障原因分析

故障具體原因為核心網(wǎng)網(wǎng)元MME(移動管理實體),即4G分組交換設備的數(shù)字證書(TSL證書)過期導致。

TLS(Transport Layer Security,傳輸層安全)是為網(wǎng)絡通信提供安全及數(shù)據(jù)完整性的一種安全協(xié)議。

軟銀解釋到,他們在東日本和西日本兩大中心機房合計部署了18臺分組交換設備,這些設備都是按照遠期需求配置,有足夠的負荷冗余量,目前僅使用了30%~40%的負荷。

同時,18臺設備相互備份,且均為池化部署,這意味著即使任何一臺甚至多臺設備發(fā)生故障都不會影響服務正常提供。

但是,數(shù)字證書過期這種事就不一樣了。

TSL數(shù)字證書過期,意味著系統(tǒng)無法識別那些連接分組交換設備的其他設備是否合法,此時,系統(tǒng)檢測到異常,根據(jù)軟銀現(xiàn)網(wǎng)設置,會采用重啟的方式來試圖恢復。

不過,數(shù)字證書過期這種事,即使重啟N次,也是無法恢復的,因此,就發(fā)生了不斷重啟的死循環(huán),從而導致了這次重大故障。

此外,由于4G網(wǎng)絡服務中斷,導致大量用戶轉移到3G網(wǎng)絡,這也造成3G網(wǎng)絡嚴重擁塞。

1  2  下一頁>  
聲明: 本文系OFweek根據(jù)授權轉載自其它媒體或授權刊載,目的在于信息傳遞,并不代表本站贊同其觀點和對其真實性負責,如有新聞稿件和圖片作品的內容、版權以及其它問題的,請聯(lián)系我們。

發(fā)表評論

0條評論,0人參與

請輸入評論內容...

請輸入評論/評論長度6~500個字

您提交的評論過于頻繁,請輸入驗證碼繼續(xù)

暫無評論

暫無評論

    文章糾錯
    x
    *文字標題:
    *糾錯內容:
    聯(lián)系郵箱:
    *驗 證 碼:

    粵公網(wǎng)安備 44030502002758號