TOP10视频网站对域名的测量(一)——张晓欧
TOP10视频网站对域名的测量(一)
1. 背景
域名系统(Domain Name System,DNS)是逐级授权的分布式数据库,提供 IP 地址和域名之间的翻译服务,是互联网最为重要的基础设施之一,其安全性和可用性直接影响着互联网的服务质量。
根据 CNNIC 发布的 2016 年《中国域名服务安全状况与事态分析报告》称,我国当前网络安全和域名安全应急管理体系均未包含根服务器及其镜像。与此同时,针对顶级域名系统的大规模分布式拒绝服务攻击威胁依然存在。而二级及以下权威域名服务器存在较大风险,且监管难度较大。首先部分二级及以下权威域名服务器采取的是自建方式,而另一部分则是交给托管商进行管理,整体能力参差不齐,对于 IPv6,DNSSEC 协议的支持程度普遍较低(IPv6支持率为 2.1%,DNSSEC支持率为 0.1%)。特别是规模较大的托管商,一旦自身发生问题,可能会导致百万量级的域名访问失效。
存在这些安全问题的一个主要原因是域名服务器众多、管理分散配置不当等造成服务器和域间大量冗余或不合理的依赖关系,进而产生失效级联效应,形成诸多安全隐患。因此,为了发现域名系统隐患,衡量系统的安全性,进而对域名系统进行有效管理,测量和分析服务器和域间关系有着重大意义。
2. 研究现状
由于域名系统对互联网的重要意义、以及其与生产生活的密切关系,对于域名的测量和研究早已深入和广泛的开展,目前,针对 DNS 领域的研究包括: DNS测量方面的和DNS 协议安全性及脆弱性方面的研究等等,其目的均为提高域名系统的安全性、可用性和服务质量。DNS 测量方面,主要针对 DNS 服务性能,域名服务器配置缺陷和漏洞进行测量,例如丢包率、响应时间、服务器软件版本等维度。DNS 安全方面,研究主要集中在 DNS 协议设计缺陷、服务器配置管理不当、针对 DNS 攻击的防御以及利用 DNS 实施网络攻击等方面。
在 2005 年,Venugopalan Ramasubramanian 等人【1】提出了域名间的依赖关系问题,域名的解析需要该域名的权威服务器参与,若该域名的权威服务器名字是另一个域名的子域名,则称前一个域名依赖于后一个域名。对约 59 万个域名进行分析,发现一个域名的解析平均涉及 46 台权威服务器,并提出了一种域名劫持的可能情况:这些服务器中的任意一台被攻克,都有可能劫持这个域名。
Casey Deccio 等人【2】提出了一个量化分析 DNS 中域名依赖关系的模型。研究发现,在某 些条件下,超过一半的查询受到并未被管理员配置的名字所影响,导致管理员并不知道依赖所带来的解析的脆弱性。虽然影响一个给定域名的域名集合比之前认为的小得多,但使用缓存的权威服务器地址和域名别名所导致的更多的域名间的依赖,都会使域名系统更加脆弱。
江健【3】研究了互联网域名系统授权机制的不一致和多重依赖问题,并指出了前者引发的漏洞,使得某域名被其上级域删除后,仍可以继续存在于域名系统中并被用户访问。作者还提出了一种基于有向图的分析方法,分析了 DNS 域之间的依赖关系和属性,评估了多重依赖对安全性和可靠性的影响。对超过一百万个域进行测量,分析了其中多重依赖的现状及对安全性和可靠性的影响。提出了一种消除不一致和多重依赖的授权机制设计,并用模型检测方法进行了验证。
杜跃进等人【4】针对可解析性量化评估问题,提出了基于命题逻辑的可解析性量化评估方法错误!未找到引用源。。将域名的可解析性问题转换为数理逻辑中的命题公式的可满足性问题,通过对命题公式进行析取范式的转换和对命题变项数最少的简单合取范式的分析,获取域名可解析的最小服务器组合。经统计计算发现 Alexa Top 1000 域名解析平均依赖数量为5.58 个;域名解析依赖的最小服务器组合在[1,4]区间内,平均值为 1.41 个;破坏域名解析的最小服务器组合在[1,6]区间内,平均值为 2.44 个。
Butkiewicz, Michael et al. 【5】针对网页的复杂度进行测量,分析了网站的加载时间、页面加载内容类型(MIME-types)、页面加载资源的类别(Analytics Advertising,Tracking Cookies Services/Widgets,CDN,Social Networking Programming API)以及网站本身类型(Business,Games,Kids&Teens,News,Shopping,Technology)对于各种加载时间的影响。从而了解单个网站的复杂程度以及这种复杂性如何影响客户体验。标记好的网站类别的数据,一部分来源于CrunchBase[1],该数据提供了非同域的网站所属的公司类别,另一部分网站类别数据则为手动标记。可参考该文章中的网站测量和分析的方法。该文章没有对网站进行依赖性分析,只是分析了网站内容对于网站加载时的关系。页面加载资源的类别的分类有数据集公开[2],虽然与我们想找出的三类关键应用服务(视频类应用、交易类应用、即时通信类应用)的类别有所差异,但是可以参考方法。
李永悦【6】从 DNS 递归解析器的角度,测量和分析域名解析中存在的依赖关系,分析依赖关系及其造成的权威服务器之间的联系对域名系统性能、安全性的影响。实现了解析数据获取系统,通过分析域名解析时可能涉及到的所有应答报文来得到域名解析关系,对解析数据进行初步统计,得到当前域名系统中被依赖较多的域名和服务器。然后对域名类型和依赖关系进行分类,将域间依赖关系进行可视化。同时基于解析路径图,计算域名解析的最少查询次数和最多查询次数,量化依赖关系对域名解析效率的影响。参考域名依赖中测量的方法,包括查询的次数。(感觉测量域名解析中的依赖关系跟我要做的关系不是很大)
张乐【7】研究特定网络环境下的域名依赖性情况,数据为是江苏省教育网JSERNET中域名活动。首先,针对被管网络JSERNET中域名活动信息,建立域名数据库进行存储。域名数据库的建立主要是为域名依赖性的监测提供数据源,域名数据库中存储的域名信息包括域名归属信息、域名与解析IP以及域名与DNS名字服务器之间的关联信息等。其次,基于已建立的域名数据库,进行僵尸网络的检测。利用域名的字面特征、域名使用位置信息和活动信息以及Whois信息检测出疑似僵尸网络的C&C域名。本文域名依赖性主要用于描述被管网路内部域名使用情况以及其本身的特征。本文选取域名的两个方面特征来阐述域名依赖性:一、域名的规模;二、域名活动情况的稳定性。其中,域名活动情况包含两方面内容:域名本身活跃情况、域名与特定IP关联关系。依据域名依赖性两方面特征设计合理的监测测度,分别从域名规模情况、活跃情况以及Flux行为特征三个角度对存储在域名数据库中的域名情况进行分析研究。参考域名的信誉等级评定——DGA检测和C&C域名注册信息。
3. 测量架构
测量的架构如图 1 网站测量架构所示。本次报告针对图中蓝色框线框起来的内容进行测量。
图 1 网站测量架构
4. TOP10视频网站的测量
本部分对TOP10的视频网站(如图 1 TOP10视频网站)进行测量。测量的主体为国内的TOP10网站,如表格 1 TOP10网站基本情况所示。测量的内容包括但不限于应用服务对于域名依赖的基本信息,对域名依赖的依赖性分类和境内外应用服务对于域名依赖性的差异性分析。
表格 1 TOP10网站基本情况
网站名称 | 测量页面数目 | 深度 |
bilibili.com | 270 | 2 |
cctv.com | 108 | 2 |
iqiyi | 944 | 2 |
movie.douban.com | 286 | 2 |
tv.sohu | 502 | 2 |
v.baidu.com | 411 | 2 |
v.ifeng.com | 171 | 2 |
v.qq.com | 17 | 2 |
www.tudou.com | 148 | 2 |
youku.com | 204 | 2 |
4.1. 域名依赖的基本信息
针对视频类应用关键服务中境内用户访问量最大的TOP10域名,测量域名的所属地域,同时测量为域名服务提供支撑的URL(即资源地址)归属地信息对国外资源的依赖情况。
4.2. 网站依赖的自有域名占比
针对视频类应用中TOP10的域名,测量域名提供服务时所依赖的非自有域名情况。不同网站在加载页面资源的时候所依赖的资源数目与来源存在较大差异,具体如下图所示。
图 3 TOP10视频网站自有域名占比分布区间统计图
4.3. 网站依赖的非自有域名数量
针对视频类应用中TOP10的域名,测量域名提供服务时所依赖的非自有域名的数目。不同网站在加载页面资源的时候所依赖的非自有域名数目与来源存在较大差异,但是一般依赖的非自有域名数目为3-6个。具体如下图所示。
图 14 TOP10视频网站依赖的非自有域名数目占比分布图
4.4. 网站依赖的国内外资源分析
针对视频类应用中TOP10的域名,测量域名提供服务时所依赖的国内域名的数目。不同网站在加载页面资源的时候所依赖的资源来源于国内的占比存在差异,大部分网站存在的依赖国外的资源的情况。具体如下图所示。
图 23 TOP10网站国内域名占比分布区间统计图
5. 参考文献
【3】 江健. 互联网域名系统授权机制中不一致和多重依赖问题研究[D]. 清华大学, 2013.
【4】 杜跃进, 张兆心, 王克,等. 基于命题逻辑的 DNS 可解析性量化评估模型 [J]. 高技术通讯, 2013, 23(2):116-122.
【6】 李永悦. 域名解析依赖关系测量与分析. 2018硕士学位论文.北京邮电大学
【7】 张乐. 域名依赖性的监测.2017硕士学位论文.东南大学
[1] http://www.crunchbase.com,是一个提供初创公司相关信息的网站。
[2] http://web.eecs.umich.edu/~harshavm/web_complexity/为该数据集网站