2019 9.3-6中心听会总结
Day 1 (9.3)
1. AI在网络安全侦测与分析的应用
概述:该主题由仇新梁老师报告,主要借助AI技术发现未知的威胁,并提出相应的免疫技术。
主要内容:仇老师介绍了该公司研发的天蝎安全解决方案。该方案是基于攻击链模型,并引入了攻击链中的钻石模型。针对APT类型的攻击,通过本体建模的方式,引入知识图谱(网络嵌入式),发现攻击。
此外,本报告着重介绍了思科的ETA(加密流量分析)系统。
个人思考:个人感觉类似介绍产品功能特性,采用的技术架构。
2. 数据驱动的网络空间行为智能分析与异常检测
概述:该主题由西交周亚东老师报告,主要是介绍该团队研究网络行为数据的特性,应用大数据做的研究。
主要内容:日常生活的网上行为模式积累了大量的数据,但是大数据应用还面临着问题:
(1)行为数据的稀疏性:表现在时间维度和空间维度的稀疏性
(2)行为机理的复杂性:行为状态空间巨大,信息碎片化,行为语义模糊
(3)行为模式多边形:正常行为的动态迁移和异常的伪装。
对此,该团队在三个方面做了研究。
(1)网络舆情分析监测
将一个网络热点话题分为潜伏期,爆发期,稳定期,衰减期。通过对热点词监测的建模,表征话题的演变过程,尽早检测热点话题。此外,通过检测异常话题和异常账号,同正常话题的转发情况对比,发现社交网络中的水军。
(2)目标群组映射定位
目标群组是由相似目标用户组成的,为此首先需要定位目标用户。但是网络中的用户具有虚拟性,身份多重性,隐蔽性,信息碎片化等特性。为了对同一用户画像,需要将多源数据进行关联,主要通过采集社交网络的数据,根据不同网络的社交关系和结构特性,关联用户身份,定位用户。单一用户定位后,需要对同一类型的用户,定位具有相同或类似物理身份的群组。通过对比不同用户个人信息的相似度,社交关系拓扑结构判断。
依据用户定位和关联群组发现,根据网络中公开的时空数据,对不同数据间的关联分析以及进化模型,进行犯罪预测。
(3)网络虚拟资产保护
网络资产保护是与腾讯合作的一个研究,目的在于检测QQ应用中虚拟资产的恶意行为。该恶意行为主要有:恶意刷单行为,被盗Q币转移行为,恶意代充行为。
通过对定性恶意行为,对恶意行为抽象分析,建立图模型和行为序列模型。在图模型中,使用Fast unfolding算法,识别图中的社区结构,对图分类,划分为正常用户和异常用户两部分。行为序列模型中,基于PreFixSoan算法,通过挖掘频繁项发现用户的频繁行为序列模式,根据行为序列模式对用户分类。此外,将用户行为状态描述为Mark-kov过程,发现两者之间的状态转移矩阵明显差异,从而判断出异常的用户。
个人思考:该团队主要是借助AI,针对的社交网络的研究。报告中还提到了和很多互联网企业的合作,感觉做的很好。最后的图模型可以借鉴下,是否可以用于数据中心。
3. 电力系统的CPS综合安全威胁
概述:该主题由西交刘烃老师报告,主要讲述了电力系统的安全威胁与防御。
主要内容
网络安全经历了如下发展:
网络入侵,计算机病毒(1.0)——> 定向网络攻击 ——>应用非暴力行动与策略(信息攻击与物理手段相结合)。现今发生的攻击主要处于第三阶段,即物理攻击辅助下的信息攻击。攻击手段也由技术导向转为效果导向(威胁范围,攻击可靠性)。针对这类攻击,防御手段主要是:信息物理安全建模,异构数据融合,协同攻击检测。
此外,刘老师讲了CPS综合攻击的特点:时间隐蔽性与空间隐蔽性,提出了协调变参防御stuxnet攻击检测。
检测的主要思想如下:攻击的时候进行了两方面的操作,一方面构造指令,攻击破坏,另一方面截取以前正常的指令数据,回放给监测系统和维护人员,防止攻击被发现。针对此,防御手段是-增加系统的不确定性,即监控系统查看到的正常系统状态不是一层不变的,从而无法依据以前截取正常信息回放,欺骗监管。
个人思考:这个是电力系统安全相关的,更多的是工业控制系统,报告中提及了TCP/IP协议转工业控制的协议,但没具体说。后期可以查查资料,调研下。
4.机器学习系统的安全问题
概述:该主题由西交的沈超老师报告,主要研究了机器学习模型的各个阶段的安全问题,根据各阶段的特点,研究实际可行的攻击方式。
主要内容
机器学习的一般模型:输入(传感器)——> 数据预处理 ——> 深度学习(网络模型)——> 应用
针对该模型,可以利用每一段阶段对结果的影响进行攻击,主要有:
(1)传感器欺骗攻击,导致采集的数据失效。
(2)针对推荐系统的数据投毒
(3)数据预处理的攻击
该团队主要做黑盒攻击,主要有一下方面:
(1)分析训练的数据输出,进行数据投毒。
(2)样本对抗,针对学习模型框架(或第三方库)漏洞,甚至具体的问题进行攻击
(3)针对模型出现的隐私泄露,模型训练数据隐私的攻击
(4)模型参数预测的攻击
该团队通过研究学习模型框架和第三方库,发现了很多未发现的漏洞,并提交到CVE。
需要详细了解的可以参考:https://github.com/advboxes/AdvBox
个人思考:该方面的研究是基于机器学习模型的各阶段做的,个人觉得可以针对不同应用的训练语料的差异,加入模糊性数据,逐渐达到攻击的效果。
5.加密流量测量与分析
概述:该主题由东南大学程光老师报告,主要讲述了加密流量的识别与分别。
主要内容:流量加密后,特征发生了较大变化,并且加密协议常伴随着流量伪装技术。加密协议的加密处理方式和封装格式也存在较大差异。此外,目前研究主要是特定加密应用的识别,精细化识别加密应用还存在难度。
加密流量的识别从三个部分:未加密有效负载部分,流量特征,混合特征来识别流量,提出了不同的识别方法,如负载随机性,机器学习方法,主机行为,数据包大小,以及综合方法。主要介绍了加密流量应用服务识别,SSL/TLS加密流量分类等。
加密流量应用服务识别
由于概念漂移使得特征选择的结构很难保持稳定,不同特征选择方法缺乏统一评价指标,有些机器学习算法分类准确率不稳定。因此采用基于选择性集成的嵌入式特征选择方法。
主要方法:使用多个特征选择器选取的特征子集,根据优劣排序,根据策略选择特征,保留选择器。然后应用启发式搜索方法,提高特征子集的稳定性。
针对网络流变化,在网络流变化但更新加密流量的分类器,采用基于加权集成学习的自适应分类方法。该方法充分利用先前的训练分类器,引入当前样本的分类器集成,删除性能下降的分类器,保证集成分类器的泛化能力。
特征提取难,因此采用深度学习的加密流量分类方法。
除了加密流量应用分类,还有SSL/TLS加密流量分类等,具体可以参考PPT。
个人思考:整体是使用机器学习的方法对加密流量识别与分类,根据流量的特性选择特征,考虑网络流变化,更新训练模型。机器学习方法是一个利器,但是否可以考虑采用传统人工确定性的特征,结合其他的网络流量的特征,调整权重系统,训练模型,提高识别的准确度。
6.网络空间服务测绘
网络测绘由刘老师报告,主要是测网络中的资源,服务,应用。这个可以详细看刘老师的PPT,讲的很全面。
Day2 (9.5)
天融信相关报告
以数据为中心的数据安全管控技术
这里介绍听会中的两个算法:
单文件指纹:对一个文件进行扫描,设定窗口大小,步长,然后从左到右的方式迭代计算,存储,用以查找文件的不同。
文件夹指纹:多个单文件指纹的叠加。
文件指纹主要用于判断文件数据的完整性,加快检测的速度。
基于时间序列算法的异常检测
该主题的主要思想是根据历史数据预测未来的数据趋势。
主要思路如下:
首先根据时间顺序将序列分解,检查序列中是否存在突增或是突减的情况,根据Grubbs'Test判断是否和历史情况相似,如果不相似,则可能存在异常。
参考的论文:https://arxiv.org/pdf/1704.07706.pdf
Day (9.6)
1. 可解释深度学习预测方法
概述:该主题由北航王静远老师报告,主要内容为explainable ML,以及可解释的应用。
主要内容
ML中,可解释分为分为局部可解释和全局可解释。local explanation针对单个样本的; global explanation,这是整体特点,是输入对输出的影响。
以y=wx+b为例,通过w对x的影响表现,解释x对y的影响。对于深度学习中的可解释,如(x_1,x_2,.. x_n+Δx,...)——> y+Δy =>Δx/Δy,单一自变量的变化影响输出的结果。
可解释性还与数据的分布有关,当Δx的变化大,但Δy变化小,则解释性差。
最后介绍了依据可ML可解释性,应用于交通预测。通过判断输入对输出的影响,预测交通的拥堵情况。
个人思考:对于该老师讲述有关DL的可解释性有不同的看法,深度学习模型中,输入经过多层的转化,无法说明单个变量对整体的影响。虽然刘老师提出了一个公式判断解释性程度,但当模型层数越多,解释性不强。
2. 基于人工智能的网络公开数据智慧挖掘和推演
概述: 该系统通过抓取微博数据,关注热点内容,分析舆情,通过数据聚类,历史走向推演舆情的发展情况,然后基于大规模的知识抽取,使用NLP对数据理解,把握舆情的发展趋势。
3. 境外社交媒体挖掘和分析-基于知识库的开源情报系统
概述:主要介绍如何在互联网中寻找潜在目标人物。
主要思路:通过部署在当地的云服务,抓取境外公开社交网站的数据,如Facebook,Twitter等,然后进行多信源混合,通过亲密度发,关系拓扑,解决多人挂你的呈现和拓展。对手机号+邮箱关联+(动态)关联,实现账号归一。此外,还有还可以发现近似群体组织的未知目标。
个人思考:这些报告中舆情分析的超过三个,有针对境内网站和境外网站的。联想上次写的追踪溯源,作为中间人,没有应用厂商的丰富数据,但是可以借助一些开放的社交网站,以及社工库,开源情报等,应用大数据,逐渐缩小查找范围,确定源点。