众所周知,由大量异构网络互联互通而成的“全球互联网”,依赖于互联网域名系统提供的“统一命名空间”和互联网路由系统提供的“统一寻址空间”。 互联网的用户终端(电脑、手机等)要想访问一个网页(网站服务器),首先需要通过域名系统的“查询功能”获取网站的IP地址,然后再在根据路由控制系统提供的“寻址功能”将消息(访问请求)发送给网站;路由控制系统类似于导航系统,根据收件地址,在实际的道路网中规划处一条最合理的寄送道路。
但在互联网发展的历史过程中,网络安全保障工作之所以备受社会各界瞩目,与发生过的域名系统故障和域名系统故障,也即“断网”所带来的难题不无关系。所谓“域名断网”,就是用户无法查询到通信对象的IP地址;而路由控制系统故障,就是“路由断网”,是用户无法根据通信对象的IP地址发起访问请求。可以说,伴随着学术界和工业界对网络安全保障的不断深入关注,域名系统和路由系统的安全保障工作,不仅解决方案频出,并且不断出现新的更高水平的起点。
在互联网域名系统国家工程研究中心主任、研究员毛伟看来,域名故障容易导致大面积断网的本质,是因为域名系统是集中层次化管理,单点失效会传导给所有依赖此服务的网络。路由故障容易导致大面积断网,是因为互联网是以“自治域”为单位互联互通,路由控制一旦失效,就是一个自治域网络级别的断网。同时,路由安全的保护机制RPKI(互联网码号资源公钥基础设施)使得路由控制系统也同域名一样,依赖层次化的IP地址认证体系,这是全球互联网的根本运行机制和资源分配体系决定的。
据其介绍称,今年1月23日,互联网域名“.net”在F根服务器(由互联网基础软件研发机构ISC运行)以及E根的解析出现了故障。由于“.net”和“.com”(通用顶级域名)以及“.cn”(中国的国家代码顶级域名)一样,是互联网使用范围最广的顶级域名之一,有一千三百四十多万注册量,其解析故障导致了大量使用“.net”域名的网站和服务器从互联网“断开网络连接”。在2月22日F根的运行机构-互联网基础软件研发机构ISC发布的报告中,由于Cloudflare在其网络基础软件进行升级时,出现了故障,不能正常对互联网返回F根服务器的寻址信息。在故障修复之前,由于Cloudflare没有及时停止对互联网广播F根的服务地址(F根的IP地址),大量用户流量仍然被路由到Cloudflare运行的故障F根节点访问,导致无法访问所有“.net”域名的互联网服务。完成故障修复后,Cloudflare重新对外广播F根的服务地址,向互联网用户提供正常的根区解析服务。
毛伟表示,事实上全球互联网的根服务器系统早就通过部署“镜像节点“并以BGP Anycast的机制保证根服务器的解析,不会因为部分节点失效而出现故障。但是,这一机制的前提是要驾驭好基于BGP的全球互联网路由控制系统。在发现了Cloudflare运行的F根节点出现问题后,如果第一时间通过路由控制(BGP)停止对全球互联网广播服务地址(让错误的F根节点“断网”),那么该节点提供的错误域名解析就不会影响到用户。用户会通过BGP Anycast机制找到提供正确域名解析的其他F根节点。
在毛伟看来,在互联网网络安全保障领域,“域名系统”和“路由系统”一直备受关注,在互联网的安全史上,大概没有哪个单一系统故障能像域名系统和路由系统,一旦出现故障就可以造成大面积的网络瘫痪或服务中断。但这次事件的原因交织了两个“断网”要素:突然出现的“域名断网”,需要通过“路由断网”来终止不利影响。
也有业内人士表示,随着互联网的日益普及,特别是万物互联、人工智能、5G等新技术的全面应用,网络空间与物理空间已经被彻底打通,网络空间的安全事件影响多维空间已经成为不争的事实,互联网安全保障工作多种因素共同作用的复杂现象,要区别故障发生的不同层次,继而不断升级安全解决方案。