VLAN ID千万不能乱配,否则,轻则造成网络故障,重则导致全网瘫痪。最近,日本运营商NTT就犯了这个错。
当地时间9月16日下午3:45,NTT网络突发重大故障,导致日本西部地区的大阪府、京都府、兵库县等区域内总计227万路光纤IP电话和传统座机无法拨打或接听电话。网络故障持续约51分钟,于下午4:36恢复。
事故发生后,NTT西日本召开新闻发布会,高层领导集体鞠躬道歉,并解释了事故原因。
NTT介绍,本次事故原因为:在新建“安全服务器”时,由于连接“安全服务器”的二层交换机配置错误,引发二层环路,产生了大量控制信号,导致“住宿路由器”过载,进而导致用户的呼叫连接请求无法通过该路由器转发至“呼叫控制服务器”。
图片来源NTT西,由软件翻译
NTT还解释道,“安全服务器”与“住宿路由器”之间的链路采用冗余备份设计,本来主用链路和备份链路应该设置为不同的通信组,但由于人为错误,主备链路被配置为同一通信组,从而导致了二层环路。
图片来源NTT西,由软件翻译
可以这么理解,由于主用链路和备用链路被错误地设置为相同的VLAN ID,在二层交换网络上产生了环路,广播报文在此环路中反复转发,引起广播风暴,导致路由器过载,进而导致用户的呼叫连接请求无法通过“住宿路由器”转发至“呼叫控制服务器”。
NTT所谓“安全服务器”、“住宿路由器”、“呼叫控制服务器”到底是什么设备?为何二层环路会引发这么大面积的网络故障?
查阅NTT的NGN网络架构,笔者理解,发布会上提到的“住宿路由器”可能是一个接入/边缘路由器,其负责下联光接入网,上联骨干核心网。
笔者理解,非NTT发布
“呼叫控制服务器”可以理解为SIP服务器,可能是IMS系统中的CSCF(呼叫会话控制功能)实体。而“安全服务器”可能是IMS中的一个网关。
当用户使用IP电话发起呼叫时,会通过SIP协议向SIP服务器请求呼叫建立,SIP服务器负责建立主叫和被叫之间的会话。但网络故障发生后,接入/边缘路由器过载,导致了用户无法连接SIP服务器。
同时,这个接入/边缘服务器负责下联一个大区网络的光接入网,从而导致了区域性的网络瘫痪。
为什么不小心配错了VLAN ID?NTT表示,是人为错误,再加上规划设计团队与施工团队沟通协调不畅、方案审核把关不严等原因造成。早在规划设计阶段,就发生了人为配置错误,但之后从设备进场到安装、上电整个过程中,工作团队都没有发现配置错误。
此次事故尽管只造成了区域性网络瘫痪,但却引起了日本电信行业的深刻反思。
NTT(日本电信电话公司)曾经是全球电信业标杆式的存在。上个世纪80年代末,其市值一度排名全球第一。后来,为促进市场竞争,NTT被拆分为NTT东和西、NTT Docomo、NTT dada、NTT Communications等几家公司。其中,NTT Docomo主营移动通信业务,NTT东和NTT西分别负责日本东部和西部的固定电话和宽带服务。本次故障正是发生于NTT西负责的区域。
针对此次故障原因,有日本业内人士表示,都2025年了,这种错误竟然发生在一家运营商身上,真是不可思议。有人提出疑问,为什么要在大白天升级网络?审核机制在哪里?生成树协议在哪里?甚至有人感叹,日本运营商近年来重大网络故障频发,这就是日本电信业“失落的三十年”的结果。
449