互联网基础行为测量与分析项目研讨会-[罗成志-黄彩云-李白杨]
会议题目:互联网基础行为测量与分析项目研讨会-十三五重点研发计划重点专项
时间:2019.11.23
内容简介:part1.程光老师的加密流量分析与测量
part 2.DNS 解析失效分析和内容承载基础设施刻画
part3.加密数据流量测量与行为分析
part4.开放式网络测量平台介绍
part5.数字转型下的安全体系变革
注:罗成志负责part1, 黄彩云负责part2,李白杨负责part3-5
## 1. 加密流量测量与分析-东南大学-程光[罗成志]
1. 加密流量的增长趋势
1.1 Gartner预测2019年超过80%以上的web流量是加密流量
1.2 2019年5月Google测量发现94%的web流量都被加密
1.3 思科2019年测量发现由firefox的80%的web页面采用了HTTPS协议
1.4 Barac预测到2020年,83%的流量将被加密
1.5 思科预测2021年在线视频流量将占到互联网总流量的82%,80%的视频流量将被加密传输
2. 加密的恶意流量
2.1 思科公司统计在2020年超过70%的恶意软件使用某种类型的加密来隐藏恶意软件传递、命令和控制活动或者数据过滤。
2.2 思科公司认为超过60%以上的网络管理部门由于无法有效的解密https,从而失去对关键加密威胁的检测。
2.3 赛门铁克公司到2019年10月发现70%以上的网络威胁采用SSL/TLS加密通信。
2.4 2017年Gartenr预测到2019年50%的恶意流量将使用https进行传输。
3. 加密流量的精细化分类
3.1 隐私保护推动流量加密需求
3.2 网络监管推动隧道等加密手段
3.3 设备性能推动你那个加密广泛应用
注:加密流量的精细化分类仍然存在问题,
1. 加密流特征变化
2. 分类模型变化
3. TLS应用识别效率低
4. 视频参数识别难
研究意义
加密流量的增多给网络的管理与安全带来巨大的挑战,流量分析和网络管理需要精细化的识别加密流量,加密流量分类对于服务质量的保证,网络规划建设和网络异常检测均有重要意义。
研究内容
1. 加密流特征的获取:集成多个度量的特征选择方法
2. 加密流量分类模型:采用增量集成学习策略更新分类模型
3. TLS加密应用识别:根据TLS/SSL握手过程的指纹特征
4. 加密视频参数的识别:根据流量行为和shipping块序列特征
4. 加密流量中可识别(非加密)内容分析
研究问题:
当前网络应用趋向于采用加密技术来保障自身及使用者的安全,与此同时也会给网络安全监管带来新的挑战。现有的研究工作都集中于对已知的加密协议(如SSL/TLS)流量的分析和识别,缺乏对未知加密流量的研究。
创新点:
本研究重点关注加密流量中可识别的、未加密的内容的提取和分析,提出加密流量识别的新视角。
研究内容:
1. 研究加密流量中可识别数据的分离方法,提出基于多随机性测度的低熵数据的精细化提取法
2. 研究加密流量中可识别数据的特征提取方法,实现对不同乐行加密流量的分类和识别
5.VPN流量的用户行为识别与分类
研究问题:
1. 研究现有主流的VPN工具,并分析现有主流的VPN相关协议和工作原理
2. 研究海量流量数据中快速检测出VPN流量,发现VPN的服务器和端口
3. 针对目前现有的VPN工具和协议类型,分析出相应的VPN服务器所采用的协议类型,并试图分析出VPN的客户端和服务器端的指纹特征
4. 基于VPN流量的相关长度和时间等时空特征,推理出流量的应用类型
不同用户量的VPN:
超过100万用户
SuperVPN Free、ShadowSocks
Thunder VPN、Turbo VPN
Lantern VPN、Securit Master
50-100万的用户
Betternet hostpost VPN
HI VPN Super Fast VPN Proxy
云帆 VPN
50万用户一下
极光VPN、蜂鸟VPN、比特VPN、V2rayN VPN
研究内容:
VPN流量下的用户行为识别与分类技术以现有的网络中最常用的OpenVPN为研究对象,通过如右图所示的8个研究点与若干个研究内容为落脚点,以现有的世界上最常用的综合性即时通讯工具‘微信’为研究案例,识别与分类VPN流量下的微信行为,以推广至所有VPN 流量下的用户行为。
6.QUIC协议加密应用识别关键技术
设计一种针对QUIC加密流量的分析方法,能够从QUIC加密应用的流量中准确识别出加密应用的内容。
从加密QUIC流中提取和组合应用数据单元(ADU)的方法,并通过对应用数据单元组合(ADUC)中特征进行提取和回归训练,已对其长度进行复原
将从QUIC 流中提取ADUC标记为加密应用内容的指纹,并设计一种算法对加密应用内容进行快速准确匹配与识别。
__个人感想__:
加密流量识别是一直在网络安全问题中比较热门的话题,程光老师分享了多角度识别识别加密流量的方式,比如印象最深刻的是加密流量中可识别(非加密)内容分析。对于加密流量的识别不仅仅集中于统计流特征或者挖掘原始数据包的特征,更应该关注的是本身协议或者流量行为的特征。
## 2. DNS 解析失效分析和内容承载基础设施刻画-计算所-李振宇[黄彩云]
__演讲人简介__:
李振宇,中科院计算所研究员,博士生导师。主要研究方向为互联网体系结构:数据驱动的互联网系统设计和优化。[介绍主页](http://sourcedb.ict.cas.cn/cn/jssrck/201111/t20111114_3395505.html)
__发表论文(此次报告相关)__:
1. Zhenyu Li, Donghui Yang, Zhenhua Li, Chunjing Han, Gaogang Xie:
[Mobile Content Hosting Infrastructure in China: A View from a Cellular ISP](https://link.springer.com/chapter/10.1007%2F978-3-319-76481-8_8). 100-113
__内容摘要__:
主要介绍在DNS解析失效以及内容承载基础设施的刻画所做的一些测量和分析工作,展示了一些测量结果。
__主要内容__:
DNS解析失效(已投稿):首先对他们分析的解析失效下了定义,他们不关注 NXDOMAIN 的情况(因为数据集没有此标签),也不关注解析得到的地址是否正确(要关注这个他说他们论文就发不出来了),关注的failure原因是DNS基础设施造成的,关注其在大规模数据下的程度、v4v6有何区别之类;然后介绍了他们的数据集,是从3大运营商得到的约310w用户地址匿名化之后的被动DNS日志,但是由于他们的数据没有 error code ,所以他们是通过启发式算法把 NXDOMAIN 的给去掉;然后介绍他们的想法,最早不是想做failure,而是想做v4和v6的支持程度分析,后面发现failure的成功率较低,考虑查询类型为A/AAAA/PTR/MX的成功率,如果不删除NXDOMAIN的情况,A成功率80%+,也就是说整体不管v4还是v6,failure的超过10%;然后在分析之前,先排除了请求量不是很大的(可能对分析造成影响)那些域名,分析了排名top10的失效域名情况,有可能因为软件版本过老、停用域名等原因,会一直请求;然后还分析失效与配置的resolver解析器(递归域名服务器)是否相关,分析了好几个公开递归域名服务器114DNS/360DNS/AlibabaDNS/DNSPod/GoogleDNS/OpenDNS/ISP/Others;分析失效原因与配置的TTL值是否相关、TLD顶级域名服务器的成功率、哪些网段在承担国家顶级域和国际域名的情况;还分析了这些失效域名是否是恶意的(在virustotal上查)等。
内容承载基础设施刻画([PAM 2018](https://link.springer.com/chapter/10.1007%2F978-3-319-76481-8_8)):这里是从DNS分析域名承载的内容情况,提出了CDP和CMI的两个指标,CDP是针对AS,统计在总共这么多的域名中,这个AS中承担了多少个域名,而CMI表示某个域名是否仅能被某个AS提供服务,即所谓垄断性指标;然后分析了top1w的域名看CDP上top的AS,发现60%-70%非常流行的都已经在ISP内部提供响应搞定了(不会跑出来);看所有域名,发现除了ISP内部解析以外,alibaba.cloud占比起来了,是因为它提供host服务,很多人直接把网站托管给它;然后还分析了内容提供商的情况,但因为他们没有拿到CNAME,所以还是通过启发式方法,分成域名SLD和IP/24的二部图,然后进行聚类来分析;然后还分析了网站中的第三方tracker情况,发现要么就没有tracker,要么就全用tracker。
题外话:最后说了点关于测量的题外话,说测量的圈子比较小;而且测量特别是分析和其他研究不一样,挑战、难点比较难说(开题被问),也不知道测量最后会发现什么;说了下测量的会议IMC以前比较关注数据集(分析or发现),最近想往方法转变而不是分析,而PAM比较小众喜欢好玩的东西,欧洲那边测量的人新办了一个TMA的会,完全关于网络流量测量(劣势:暂时不在任何列表中)。
__个人感想__:
整体感觉和我们的工作比较相关,都是做测量的这种基础性研究;后面老师说到题外话的时候,真心非常有共鸣了。DNS失效这边的分析统计其实我们也能做,而且由于我们可以拿到raw data,其实可能结果会更为准确一些(不需要用启发式算法过滤NXDOMAIN,直接上error code过滤就行),只是被动抓包的位置有可能是一个局限。后面内容承载基础设施刻画跟CDN相关,而且已经发表,感兴趣的可以下下来细读。
__推荐度__:●●●●○
## 互联网基础行为测量与分析项目研讨会纪要 20191123
### 3. 加密数据流量测量与行为分析-信工所 熊刚 [李白杨]
#### 内容摘要:
主要介绍了在加密流量测量与行为对抗方面的相关工作。
#### 主要内容:
##### 1. 背景
首先介绍了研究背景。加密的数据流量爆炸增长,新型协议不断涌现。主流加密服务不断增长,恶意服务大量加密化,利用加密逃避检测。从国家层面上,高度开放的互联网下如何检测恶意行为,进行攻防对抗是一个长期存在的问题。采用非破密检测的方法,对应的相关工作可归纳为四类:
* (1)检测已知:基于规则、机器学习、深度学习等方法检测加密网络行为。
* (2)行为对抗(已知):根据已知的检测结果,做通用协议特征的加密对抗、应用层面的定制对抗。
* (3)检测未知:潜在威胁发现(未知流量的识别问题)。在未知背景下,能判断出流量属于何种类别。
* (4)对抗未知:对未知威胁做对抗,如流量伪装、新型私有协议应用、攻击消除、防溯源等方面。
##### 2. 团队工作介绍
之后熊老师介绍了团队的研究方向及研究内容,提出从网络行为学的角度对网络空间测量和分析,由点到面,关联融合。并从上述四个方面分别介绍了相关工作。
###### (1)检测已知:标准加密协议、新型加密协议的检测以及对加密流量分类
* ① 记录分析数字证书,形成数字证书分析库和证书链(7亿条左右)
* ② 识别恶意软件和僵尸网络,支持数百种/千款 在线加密分类工作
* ③ 对应用场景细分,识别分类加密应用
###### (2)对抗已知:网络服务广泛云化(云+加密),面向云的攻防对抗
* ① 节点发现:基于 IDC 的恶意云节点发现
* ② 服务发现:基于证书的恶意云服务发现
* ③ 服务细分:云上加密web服务指纹构建
###### (3)检测未知: 识别潜在威胁
* ① 基于明文:不一致性测量(真实下载与请求的文件不一致,如文件 & 木马伪装),包括以下部分:
* i. 文件类型、大小不一致
* ii. HTTP 报文 content-type 不一致
* iii. HTTP 报文 host 不一致
* iv. 服务端口不一致
* ② 非明文匿名网络追踪溯源,做流量关联。例如对 Tor 出入口流量关联分析,极大缩小匿名性。
###### (4) 对抗未知:对抗未知威胁
* ① 区块链网络测量与行为分析
* ② 隐蔽通道对抗:代理转发、基础设施整合躲避审计(tapdance,telex)、匿名通信系统(tor)
* ③ DNS 加密:DNS over TLS/HTTPs
##### 3、未来工作
最后对未来工作方向做了展望。面对加密流量激增的情况,从非破密的角度,采用抽样测量方法做全量检测;检测技术上,研究更细粒度的用户行为识别方法。
### 4. 开放式网络测量平台介绍-CNCERT 李晗
#### 内容摘要
主要介绍了开放式测量平台的相关情况和支撑的相关业务,以及后续探讨可用于项目的资源的计划。
#### 主要内容
##### 1. 平台介绍
首先介绍开放式网络测量平台的情况,以 IP 属性标注为出发点,依赖特有的资源,做对应的网络测量和共性属性标注,服务于不同的业务。然后介绍了系统下的三个子平台,分别是开放式网络测量平台、IP知识发布平台和IP全知识查询展现平台。探测节点全球总数1200+个,可支持特定区域的追踪溯源。
##### 2. 现有业务和成果
列举了平台支撑的若干业务,具体包括:
* (1)IP/域名备案审查,处罚未备案 IP 运营商
* (2)网络态势感知和基础资源分析
* (3)DNS 检测。递归 DNS 根据工信部要求需要报备,报备情况与真实数据差异很大
* (4)IPv6 域名支持探测
* (5)特定区域的追踪溯源
##### 3. 计划
最后介绍了平台的下一步发展计划,细化测量,支撑不同业务,逐渐完善开放测量平台,与项目组共同探讨可利用的数据资源。
### 5. 数字转型下的安全体系变革-新华三 顾成杰
#### 主要内容
首先介绍了华三合肥研究院的情况及目前已承担的国家科研及产业化项目,主要包括安全边界网关、智慧防火墙、工业互联网、零信任数据安全、态势感知等。然后介绍了华三目前开展的安全新技术已预研方向,主要有 5G 安全、物联/工控安全、多媒体安全、区块链安全和零信任安全。以及由**被动防护向主动安全转变**的安全理念和**云网协同一体**构造的主动安全防护体系。之后,结合提出的主动安全的六大安全特征体系(分别是AI进化的主动安全体系、情报驱动的主动安全体系、智能运维的主动安全体系、云端赋能的主动安全体系、软件定义的主动安全体系、开放互联的主动安全体系),列举对应的工作方向和预研技术。强调给出整体的一套解决方案,而非单独的产品,并介绍了具体云网端一体化的安全防护实践。
#### 个人感想
最后的三个报告由于时间原因整体上相对介绍的粒度粗些。熊老师把他们所做的工作分为四方面,提纲挈领,深入浅出。PPT内容很丰富,发表的论文成果也很多。李老师着重介绍了平台支撑的相关业务,利用特有的数据优势,在不同业务发挥重要作用,通俗易懂,容易理解。华三的胶片整体内容偏安全理念,主要提出了一些安全体系及在研方向,涉及到的具体技术相对较少。