NTA技术介绍及其应用产品

标签:网络流量分析   技术   产品    2971人阅读 评论(0)

NTA技术介绍及其应用产品

简介

背景

20176月,NTANetwork Traffic Analysis)技术入选了Gartner201711大顶尖信息安全技术》,列于第五位。对于NTA技术,Gartner这样解读: NTA解决方案通过监控网络流量、连接和对象来识别恶意的行为迹象。对于那些试图通过基于网络的方式去识别绕过边界安全的高级攻击的企业而言,应该考虑使用NTA技术来帮助识别、管理和分类这些事件,并做出辅助决策。

在当下新的安全形势下,流量分析技术在威胁分析、恶意行为监测上的作用进一步被强化。现有的安全防护措施屡屡失效,人们迫切需要在常见的网络三剑客——IPSIntrusion Prevention System+IDSIntrusion Detection System+防火墙——的基础上做进一步的补充,而根据“只要有攻击就会有流量产生”这样的朴素道理,NTA技术被认为可以极大地提升防御能力。

含义

NTA是一种基于网络来监控网络通信、流量、连接和查找恶意对象的方法,可以识别、监控和分类不同的流量。NTA能够识别出网络流量中的异常行为和恶意企图。

NTA是一项面向威胁的技术,可以作为威胁检测的高级技术之一。NTA是在2014年跟EDREndpoint Detection and Response)一同提出的,其前身是NBANetwork Behavior Analysis)——一项早在2005年就被Gartner提出来的技术。根据Gartner的定义,NTA融合了传统的基于规则的检测技术,以及机器学习和其他高级分析技术,用以检测企业网络中的可疑行为,尤其是失陷后的痕迹。NTA通过DFIDeep Flow Inspection)和DPIDeep Packet Inspection)技术来分析网络流量,通常部署在关键的网络区域对流量进行分析,而不会试图对全网进行监测。

相关技术

NTA技术通过发现网络流量中的异常来实现其在网络安全系统中的作用。检测异常的过程可以理解为一个分类任务:将网络流量分为正常的和异常的,而且这时的异常流量对我们来说是更有意义的,通常代表一些非法的、恶意的攻击或行为。

异常分类

根据异常流量所表现出的不同行为,我们可以将其分为以下几种:

1.       点异常

如果一个流或一个包的各项指标与其他的流或包相差很多,那么它就构成一个点异常。

2.       上下文异常

该类异常是针对上下文的,一般出现在时间序列数据中,单独分析没有意义。

3.       集体异常

集体异常指的是单独分析某一个流,它的各项指标是完全正常的,但是将它与其他的流量汇聚到一起时,就可能会构成某种恶意行为,那这些流量就是一组集体异常流量。比较常见的比如DDos攻击。

针对不同类型的异常流量,需要采取不同的技术,才能够更加准确地检测到该类异常。

常用技术

随着目前深度学习的火热发展,很多机器学习算法经过改进后,在异常检测领域取得了突破进展。现在网络流量数据量极大,采用合适的机器学习算法,能够很大程度上提高网络流量分析的精确度,提升网络安全防护的能力。

广泛使用的机器学习算法可以分为有监督的和无监督的两大类,最明显的区别在于样本是否带有标签。

有监督

有监督的算法包括回归、分类等算法,比如线性回归、决策树、神经网络、KNNSVM等。

 

分类

当分类技术应用于异常检测领域时,最基本的就是要将正常流量与异常流量分到不同类别。SVM、贝叶斯、K-NN等作为使用广泛且性能优异的分类算法,均可以应用到流量分类任务中。One-Class SVM是一种非常适合用于异常检测的分类算法,它只能识别一个类别,并把数据分为属于这个类或者不属于这个类。使用正常流量训练,该模型就可以识别出与正常流量不同的异常流量数据。

但是流量数据作为一种文本数据,要准确描述不同的流量数据,可能需要非常多的特征指标,这就给分类器的训练和应用带来挑战。从目前已有的解决方案看,可以通过使用主成分分析(PCA)和深度信念网络等技术,对原始样本特征进行降维,这样既可以保留多个特征带来的精确度,又可以减少分类需要的时间和资源。目前这种先降维在分类的技术,已经可以识别出异常流量,并将其分成四类:R2LRemote to Local),DoSDenial of Service),U2RDenial of Service)和探测[1]

 

神经网络

虽然网络流量中可能潜在着很多的恶意行为,但是总的来说正常流量还是占了绝大部分,单从一个流或者一个包来看的话,明显的异常流量会与大部分流量有较大区别,形成一个离群点。所以除分类算法外,还可以使用RNN等神经网络的方法,通过衡量数据的离群性,来判断流量是否正常[2]

无监督

无监督算法包括各种聚类算法,比如k-meansGMM和基于密度的LOF等。聚类算法不需要标签,当出现未知类型的恶意流量时,与有监督的算法相比,具有更强的适应性,在流量分析时使用也更加广泛。

 

聚类

K-means是一种广泛使用的基于距离的聚类算法,它可以将数据划分为指定的k个集群,不属于这些集群的数据点就可能会被标记为异常。但是简单的K-means算法存在着不足:

1.       每轮迭代计算花销较大;

2.       需要指定K

3.       初始聚类中心选择不恰当的话容易收敛到局部最优解。

所以提出了改进的X-means算法[3],该算法针对K-means的缺点,做出了如下改进:

1.       使用kd-tree加速原K-means的每一轮迭代;

2.       用户指定K所属的范围,根据BIC score选到最优K

3.       每一轮迭代只进行2-means2-means对局部最优解不敏感)。

改进后的聚类算法更加适合于实际应用场景。

当数据量变大、数据维度变多时,传统的聚类算法很难满足应用的性能要求,所以出现了网格聚类和子空间聚类。

基于网格的聚类算法对数据集大小有很好的伸缩性。它首先将d维数据空间的每一维平均分割成等长的区间段,即把数据空间分割成一些网格单元。若一个网格单元中所含数据量大于给定的值,则将其定为高密度单元;否则将其视为低密度单元。如果一个低密度网格单元的相邻单元都是低密度的,则视这个低密度单元中的数据为孤立点或噪声点。网格聚类就是这些相邻的高密度单元相连的较大集合。

子空间聚类能够有效实现高维数据集聚类,它是在高维数据空间中对传统聚类算法的一种扩展,其思想是将搜索局部化在相关维中进行,减少了不相关的维度对结果造成的影响。

 

         异常度量值

除基本的聚类算法外,还可以定义一个量来表示每条数据的异常值或属于异常的可能性,再根据这个度量找出流量中的异常,通常这个度量值都是局部的。LOF(局部异常因子)在异常检测领域使用十分广泛,该方法基于密度可达,计算每个数据点与其他数据的第K最近距离,用来衡量数据点相对于周围邻域的隔离程度[4],以此判断该点是否为异常点,如果距离越大,则密度越低,就越有可能是异常点。类似的还有CMGOS(基于聚类的多变量高斯异常得分)方法,它将马氏距离作为计算异常得分的基础,先用k-means聚类,然后计算每个簇的协方差矩阵,最后得分=该点离最近聚类中心的马氏距离/具有某一置信区间的卡方分布。通常得分为1.0及以下的是正常数据[5]

当前研究热点

目前的NTA技术研究热点在于如何识别集体异常流量,比如DoS攻击,单独看每个流都是正常的,但是当它们聚集到一起时,就会对网络造成攻击。

识别集体异常的难点就在于,如何将一组在一段时间内产生的流量联系起来,来考虑这组流量的行为是否正常。之前的很多方法将异常视为单一点,认为他们是单独发生的。为此,我们需要让异常检测模型具有记住之前的数据或事件的信息,并用其来评估当前数据的能力。

LSTM RNN(长短期记忆循环神经网络)能解决长序列数据训练过程中的梯度消失和梯度爆炸问题,能够记忆一些序列信息,适合长序列数据[6],这个特点十分适合进行集体异常发现。在2016年的论文《Collective Anomaly Detection based on Long Short Term Memory Recurrent Neural Network》中,作者提出了一种基于神经网络和特征操作的实时集体异常检测模型。通常,LSTM RNN仅针对正常数据进行训练,并且能够预测几个时间步长之后的输入。但在论文提出的方法中,在对每个时间步长执行实时预测之前,使用正常数据训练模型。并提出一个新思想,可以利用之前特定时间步长的预测错误信息来进行集体异常检测,而不是原来那样单独地考虑每个时间步长。当最近一段时间的预测错误值高于阈值时,就表示一个集体异常[7]

在集体异常检测时,协同聚类也是目前常用的技术之一。从矩阵的角度看,协同聚类就是同时对矩阵的行和列进行聚类,能够学习到数据矩阵行和列之间的二元关系效果上优于普通聚类算法。在2014年的论文《Network Traffic Pattern Analysis using Improved Information Theoretic Co-clustering based Collective Anomaly Detection》中,作者首先提出了用于集体异常检测的流量属性的数学标准,然后采用信息论协同聚类的方法进行集体异常检测,并且针对该模型在处理混合属性数据方面的缺点,增加了处理分类属性的能力[8]。而在2018年的论文《Collective Anomaly Detection Techniques for Network Traffic Analysis》中,作者提出了一种结合聚类与Hurst参数的算法来识别集体异常流量[9]Hurst参数作为表示网络流量自相似性的指标,越大就代表流量的自相似程度越高,说明网络流量在一段时间内具有长相关性。当出现攻击时,Hurst参数就会发生明显的变化。

数据集

在过去的十几年中,异常检测引起很多人的注意,在大家的各项研究中,KDD CUP 99是用于评估的使用最广泛的数据集,已经成为一个标准。但是这个数据仍存在一些问题,所以在论文《A Detailed Analysis of the KDD CUP 99 Data Set》中,作者针对数据集中的两个问题,提出了一个新的数据集NSL-KDD,它由完整的KDD数据集中的选定记录组成[10],并改善了原有问题

但是就目前而言,KDD CUP 99NSL-KDD中的数据有些过时,无法代表现在的某些网络异常情况。在论文《UNSW-NB15: A Comprehensive Data set for Network Intrusion Detection systems》中,作者针对这个情况提出了新的数据集UNSW-NB15[11]

应用产品

近年来,国内外很多公司推出了基于NTA技术来识别、抵御各类网络攻击的产品,国内科来、启明星辰、绿盟科技等关注网络行为的公司都研发出自己的产品。

科来网络全流量安全分析系统(TSA[12]

科来(Colasoft)是中国唯一一家蝉联(2018-2019年)Gartner NPMD(网络性能监控和诊断)魔力象限远见者称号的公司。NPMD解决方案对数字化发展或转型战略日趋重要,成功的数字化业务战略规划比以往任何时候都更依赖于网络的性能,尤其是随着虚拟化、云服务和物联网等领域新技术的出现,NPMD解决方案能够为其提供可视性及诊断功能,以确保企业网络有能力支撑关键应用程序的正常运行。科来通过网络流量分析技术实现网络关键性能指标的可视化来简化网络运维难题,其产品为科来网络全流量安全分析系统(TSA)。

Gartner 2019NPMD魔力象限报告这样评价:“科来NPMD整体解决方案由UPM,科来网络回溯分析系统,科来网络分析系统三部分组成。UPM基于科来网络回溯分析系统的性能分析结果数据,提供以业务和应用服务为中心的性能可视化视图;科来网络回溯分析系统提供数据包级的实时捕获和回溯分析能力;科来网络分析系统提供便携式的数据包监听捕获,应用数据包解码分析以及一些更加深入的数据分析功能。”

科来认为,网络全流量分析可以检测传统安全监测方法不能识别的未知威胁,因为再高级的攻击,都会留下网络痕迹。网络攻击者的行为和我们正常的网络访问行为所产生的数据是不一样的。

image.png               

1 科来TSA系统

在实践中,TSA系统具备如下功能:

1.         全面感知网络威胁

通过网络分析技术识别网络异常行为,准确发现木马通讯、主动外联、隐蔽信道、异常DNS 解析、违规操作等网络威胁。

2.         及时止损与快速响应

通过与威胁情报、行为模型匹配,实现未知威胁快速发现并及时阻断攻击;通过关联分析对安全事件进行影响面评估,帮助用户发现安全洼地,及时调整安防策略,阻止事态继续恶化。

3.         数据取证与责任判定

对网络原始通讯数据进行全流量完整保存,通过秒级提取海量历史流量,还原网络安全事件发生时的全部网络通讯内容,实现数据包级的数据取证和责任判定。

如下为科来TSA系统的功能示意图:

image.png

2 科来TSA系统功能

相比传统网络安全检测系统和其他网络流量分析系统,TSA具有如下功能特点:

1.       完整记录原始流量数据

2.       线索追踪与取证

3.       回溯分析与数据挖掘

4.       攻击阻断防御

5.       可疑事件定性分析

6.       异常行为检测

7.       深度数据包分析

启明星辰TSOC-NBA网络行为分析系统[13]

启明星辰是2018Gartner评选的IDPS(入侵检测和预防系统)的魔力象限“远见者”公司。从2012年起,启明星辰就已经开始推出NTA技术产品。现在已经发展到第三代。

2012年,启明星辰推出第一代侧重异常流量检测的NTA产品,侧重于互联网出口的异常流量检测、网络流量分布分析,此产品具有面向企业网用户和运营商行业的多个型号。

2013年推出第二代NTA产品——TSOC-NBA网络行为分析,该产品侧重内网合规审计,利用黑白灰名单的方式,来应对近年来呈现井喷之势的内网威胁问题,避免攻击横向扩散。

面对各类新型攻击手段的兴起,市场对NTA产品提出了实时呈现、入侵取证等新的需求,在这样的背景下,启明星辰又推出了第三代产品,融合了外网检测与内网合规功能,同时兼具追溯取证功能。

image.png

3 启明星辰NTA产品的发展

投入使用后,启明星辰产品曾在某用户内网中,通过部署的NTASIEM产品,发现了挖矿病毒新变种MsraMiner,通过调查分析,追踪到了此变种挖矿病毒在用户内网主机的感染、传播全过程,可见其产品对于网络威胁存在一定效果。

绿盟科技NSFOCUS NTA系统[14]

绿盟科技和启明星辰一样,2018年入选了GartnerIDPS(入侵检测和预防系统)的魔力象限“远见者”公司。

绿盟科技的NTA系统——NSFOCUS Network Traffic Analyzer(简称 NSFOCUS NTA)是一款基于流技术的流量分析和DDoS攻击检测产品。适用于ISP骨干网、城域网、数据中心等大型网络环境,同时也能满足企业单位等中小客户的攻击检测需求。主要功能包括各类异常流量的检测及网络流量的统计分析等,如协议型DDos攻击、应用层DDoS攻击、分片攻击、网络滥用误用等骨干网上的大部分异常流量,帮助网络运维人员透视网络状况,及时锁定异常威胁,减轻运维压力,建立一个平稳、高效的网络环境。该产品既可作为独立的流量分析系统进行部署,也可与绿盟抗拒绝服务产品组合形成抗DDoS攻击的一体化解决方案。

绿盟科技针对电信运营商、大型数据中心对Anti-DDoS系统“可管理、可运营”的需求,推出了三位一体的完整解决方案,系统分为三个主要部分,网络流量分析系统(NSFOCUS NTA)、抗拒绝服务清洗系统(NSFOCUS ADS)和管理系统(NSFOCUS ADS M)。相比其他NTA系统,该方案更加完整。

image.png

4 绿盟科技对网络流量分析的完整系统架构

挑战

作为一项正在发展的技术,NTA目前仍面临着许多挑战,需要研究人员继续克服:

1.         数据集

虽然一直有人在数据集方面做出贡献,但是现有数据集都有一些不足,不能完全代表技术在实际应用中的真正效果。

2.         特征选择

特征选择在很多实际应用问题中都是对性能有重要影响的因素。针对不同的应用场景,需要选取不同的特征才能更好地发挥算法的效果,而这通常是困难的。

3.         可扩展性

互联网的基础设施一直在飞速发展,网络规模急剧增大,所以NTA技术的发展与应用需要考虑如何在准确性、性能和成本之间进行权衡的问题。

总结

当今网络环境越来越复杂,对于当前的网络来说,无论是检测攻击,还是及时发现网络瓶颈所在,NTA技术都是相当必要的。

对于相关的流量分类和各类特定攻击流量的检测发现技术仍在研究进展中,伴随着越来越被频繁使用的机器学习相关算法的改进与提升,NTA技术也一定会迎来很大程度的进展。各类应用产品也会随着用户需求的变化而改善。

参考资料

[1] Salama, M.A., Eid, H.F., Ramadan, R.A., Darwish, A., Hassanien, A.E.: Hybrid

intelligent intrusion detection scheme. In: Soft computing in industrial applications,

pp. 293–303. Springer (2011)

[2] Hawkins, S., He, H., Williams, G., Baxter, R.: Outlier detection using replicator

neural networks. In: International Conference on Data Warehousing and Knowledge

Discovery. pp. 170–180. Springer (2002)

[3] Pelleg D, Moore A W. X-means: Extending k-means with efficient estimation of the number of clusters[C]//Icml. 2000, 1: 727-734.

[4] Breunig M M, Kriegel H P, Ng R T, et al. LOF: identifying density-based local outliers[C]//ACM sigmod record. ACM, 2000, 29(2): 93-104.

[5] Goldstein M, Uchida S. A comparative evaluation of unsupervised anomaly detection algorithms for multivariate data[J]. PloS one, 2016, 11(4): e0152173.

[6] Hochreiter, S., Schmidhuber, J.: Long short-term memory. Neural computation

9(8), 1735–1780 (1997)

[7] Bontemps L, McDermott J, Le-Khac N A. Collective anomaly detection based on long short-term memory recurrent neural networks[C]//International Conference on Future Data and Security Engineering. Springer, Cham, 2016: 141-152.

[8] Ahmed M, Mahmood A N. Network traffic pattern analysis using improved information theoretic co-clustering based collective anomaly detection[C]//International conference on security and privacy in communication systems. Springer, Cham, 2014: 204-219.

[9] Ahmed M. Collective anomaly detection techniques for network traffic analysis[J]. Annals of Data Science, 2018: 1-16.

[10] Tavallaee M, Bagheri E, Lu W, et al. A detailed analysis of the KDD CUP 99 data set[C]//2009 IEEE Symposium on Computational Intelligence for Security and Defense Applications. IEEE, 2009: 1-6.

[11] Moustafa N, Slay J. UNSW-NB15: a comprehensive data set for network intrusion detection systems (UNSW-NB15 network data set)[C]//2015 military communications and information systems conference (MilCIS). IEEE, 2015: 1-6.

[12] 科来.[EB/OL]. http://www.colasoft.com.cn/products/tsa.php.-.

[13] 启明星辰.[EB/OL]. https://www.venustech.com.cn/article/type/1/761.html.-.

[14] 绿盟科技.[EB/OL]. http://www.nsfocus.com.cn/products/details_22_2.html.-.

 

 

 

 

 

 

 

 

 

 

 


查看评论

暂无评论

发表评论
  • 评论内容:
      
首页
团队介绍
发展历史
组织结构
MESA大事记
新闻中心
通知
组内动态
科研成果
专利
论文
项目
获奖
软著
人才培养
MESA毕业生
MESA在读生
MESA员工
招贤纳士
走进MESA
学长分享
招聘通知
招生宣传
知识库
文章
地址:北京市朝阳区华严北里甲22号楼五层 | 邮编:100029
邮箱:nelist@iie.ac.cn
京ICP备15019404号-1